Cerne da Questão: Desmistificando a Cópia na Formação de LLMs - DATAVERSITY

Cerne da Questão: Desmistificando a Cópia na Formação de LLMs – DATAVERSITY

Nó Fonte: 3093102

Refletindo sobre os últimos 15 meses, o progresso alcançado na IA generativa e nos grandes modelos de linguagem (LLMs) após a introdução e disponibilização do ChatGPT ao público dominou as manchetes. 

O alicerce para esse progresso foi a arquitetura do modelo Transformer delineada por uma equipe de pesquisadores do Google em um artigo intitulado “Atenção É Tudo Que Você Precisa.” Como o título sugere, uma característica fundamental de todos os modelos do Transformer é o mecanismo de atenção, definido no artigo da seguinte forma:

“Uma função de atenção pode ser descrita como o mapeamento de uma consulta e um conjunto de pares de valores-chave para uma saída, onde a consulta, as chaves, os valores e a saída são todos vetores. A saída é calculada como uma soma ponderada dos valores, onde o peso atribuído a cada valor é calculado por uma função de compatibilidade da consulta com a chave correspondente.”

Uma característica dos modelos generativos de IA é o consumo massivo de entradas de dados, que podem consistir em texto, imagens, arquivos de áudio, arquivos de vídeo ou qualquer combinação de entradas (um caso geralmente denominado “multimodal”). Do ponto de vista dos direitos de autor, uma questão importante (entre muitas questões importantes) a colocar é se os materiais de formação são mantidos no modelo de linguagem grande (LLM) produzido por vários fornecedores de LLM. Para ajudar a responder a essa pergunta, precisamos entender como os materiais textuais são processados. Com foco no texto, o que se segue é uma descrição breve e não técnica exatamente desse aspecto do treinamento LLM. 

Os humanos comunicam-se em linguagem natural, colocando palavras em sequências; as regras sobre a sequência e a forma específica de uma palavra são ditadas pelo idioma específico (por exemplo, inglês). Uma parte essencial da arquitetura de todos os sistemas de software que processam texto (e, portanto, de todos os sistemas de IA que o fazem) é como representar esse texto para que as funções do sistema possam ser executadas de forma mais eficiente. Portanto, uma etapa fundamental no processamento de uma entrada textual em modelos de linguagem é a divisão da entrada do usuário em “palavras” especiais que o sistema de IA possa compreender. Essas palavras especiais são chamadas de “tokens”. O componente responsável por isso é chamado de “tokenizer”. Existem muitos tipos de tokenizadores. Por exemplo, OpenAI e Azure OpenAI usam um método de tokenização de subpalavra chamado “Byte-Pair Encoding (BPE)” para seus modelos baseados em Generative Pretrained Transformer (GPT). BPE é um método que mescla os pares de caracteres ou bytes que ocorrem com mais frequência em um único token, até que um certo número de tokens ou um tamanho de vocabulário seja atingido. Quanto maior o tamanho do vocabulário, mais diversificados e expressivos serão os textos que o modelo pode gerar.

Depois que o sistema de IA mapeia o texto de entrada em tokens, ele codifica os tokens em números e converte as sequências que processou como vetores chamados de “incorporação de palavras”. Um vetor é um conjunto ordenado de números – você pode considerá-lo como uma linha ou coluna de uma tabela. Esses vetores são representações de tokens que preservam sua representação original em linguagem natural que foi fornecida como texto. É importante compreender o papel dos embeddings de palavras quando se trata de direitos autorais porque os embeddings formam representações (ou codificações) de frases inteiras, ou mesmo de parágrafos e, portanto, em combinações vetoriais, até mesmo de documentos inteiros em um espaço vetorial de alta dimensão. É através destas incorporações que o sistema de IA captura e armazena o significado e as relações das palavras da linguagem natural. 

Os embeddings são usados ​​em praticamente todas as tarefas executadas por um sistema generativo de IA (por exemplo, geração de texto, resumo de texto, classificação de texto, tradução de texto, geração de imagem, geração de código e assim por diante). Os embeddings de palavras geralmente são armazenados em bancos de dados vetoriais, mas uma descrição detalhada de todas as abordagens de armazenamento está além do escopo desta postagem, pois há uma grande variedade de fornecedores, processos e práticas em uso.

Conforme mencionado, quase todos os LLMs são baseados na arquitetura Transformer, que invoca o mecanismo de atenção. Este último permite que a tecnologia de IA visualize frases inteiras, e até parágrafos, como um todo, em vez de meras sequências de caracteres. Isto permite que o software capte os vários contextos nos quais uma palavra pode ocorrer e, como estes contextos são fornecidos pelos trabalhos utilizados na formação, incluindo trabalhos protegidos por direitos de autor, não são arbitrários. Desta forma, o uso original das palavras, a expressão da obra original, é preservado no sistema de IA. Pode ser reproduzido e analisado e pode constituir a base de novas expressões (que, dependendo das circunstâncias específicas, podem ser caracterizadas como “obras derivadas” na linguagem dos direitos de autor). 

Os LLMs mantêm as expressões dos trabalhos originais nos quais foram treinados. Eles formam representações internas do texto em espaços vetoriais construídos especificamente e, com a entrada apropriada como gatilho, podem reproduzir os trabalhos originais que foram utilizados em seu treinamento. Os sistemas de IA obtêm benefícios perpétuos do conteúdo, incluindo conteúdo protegido por direitos autorais, usado para treinar os LLMs nos quais se baseiam. Os LLMs reconhecem o contexto das palavras com base na expressão das palavras no trabalho original. E este contexto beneficia cumulativamente o sistema de IA em milhares, ou milhões, de obras protegidas por direitos de autor utilizadas em formação. Essas obras originais podem ser recriadas pelo sistema de IA porque são armazenadas em vetores – representações de tokens em espaço vetorial que preservam sua representação original em linguagem natural – da obra protegida por direitos autorais. Do ponto de vista dos direitos de autor, determinar se os materiais de formação são retidos nos LLMs está no cerne da questão, e é claro que a resposta a essa pergunta é sim.

Carimbo de hora:

Mais de DATAVERSIDADE