Nova teoria sugere que chatbots podem compreender texto | Revista Quanta

Nova teoria sugere que chatbots podem compreender texto | Revista Quanta

Nó Fonte: 3079817

Introdução

A inteligência artificial parece mais poderosa do que nunca, com chatbots como Bard e ChatGPT capazes de produzir textos estranhamente humanos. Mas, apesar de todos os seus talentos, esses bots ainda deixam os pesquisadores se perguntando: Será que esses modelos realmente entendo o que eles estão dizendo? “Claramente, algumas pessoas acreditam que sim”, disse o pioneiro da IA Geoff Hinton em uma conversa recente com Andrew Ng, “e algumas pessoas acreditam que são apenas papagaios estocásticos”.

Esta frase evocativa vem de um 2021 papel co-autoria de Emily Bender, linguista computacional da Universidade de Washington. Sugere que os grandes modelos de linguagem (LLMs) — que constituem a base dos chatbots modernos — geram texto apenas combinando informações que já viram “sem qualquer referência ao significado”, escreveram os autores, o que torna um LLM “um papagaio estocástico”.

Esses modelos potencializam muitos dos maiores e melhores chatbots da atualidade, então Hinton argumentou que é hora de determinar até que ponto eles entendem. A questão, para ele, é mais do que acadêmica. “Enquanto tivermos essas diferenças” de opinião, disse ele a Ng, “não seremos capazes de chegar a um consenso sobre os perigos”.

Novas pesquisas podem ter sugestões de uma resposta. Uma teoria desenvolvida por Sanjeev Arora da Universidade de Princeton e Anirudh Goyal, um cientista pesquisador do Google DeepMind, sugere que os maiores LLMs atuais não são papagaios estocásticos. Os autores argumentam que à medida que esses modelos crescem e são treinados com mais dados, eles melhoram as habilidades individuais relacionadas ao idioma e também desenvolvem novas habilidades, combinando habilidades de uma maneira que sugere compreensão – combinações que provavelmente não existiriam nos dados de treinamento. .

Esta abordagem teórica, que fornece um argumento matematicamente comprovável sobre como e por que um LLM pode desenvolver tantas habilidades, convenceu especialistas como Hinton e outros. E quando Arora e a sua equipa testaram algumas das suas previsões, descobriram que estes modelos se comportavam quase exactamente como esperado. De todas as contas, eles defenderam fortemente que os maiores LLMs não estão apenas repetindo o que viram antes.

“[Eles] não podem estar apenas imitando o que foi visto nos dados de treinamento”, disse Sébastien Bubeck, um matemático e cientista da computação da Microsoft Research que não participou do trabalho. “Esse é o insight básico.”

Mais dados, mais poder

O surgimento de habilidades inesperadas e diversas nos LLMs, é justo dizer, foi uma surpresa. Estas capacidades não são uma consequência óbvia da forma como os sistemas são construídos e treinados. Um LLM é uma enorme rede neural artificial, que conecta neurônios artificiais individuais. Essas conexões são conhecidas como parâmetros do modelo e seu número indica o tamanho do LLM. O treinamento envolve dar ao LLM uma frase com a última palavra obscurecida, por exemplo, “O combustível custa um braço e ___”. O LLM prevê uma distribuição de probabilidade em todo o seu vocabulário; portanto, se souber, digamos, mil palavras, prevê mil probabilidades. Em seguida, escolhe a palavra mais provável para completar a frase – presumivelmente, “perna”.

Inicialmente, o LLM pode escolher mal as palavras. O algoritmo de treinamento calcula então uma perda – a distância, em algum espaço matemático de alta dimensão, entre a resposta do LLM e a palavra real na frase original – e usa essa perda para ajustar os parâmetros. Agora, dada a mesma frase, o LLM calculará uma melhor distribuição de probabilidade e sua perda será um pouco menor. O algoritmo faz isso para cada frase nos dados de treinamento (possivelmente bilhões de frases), até que a perda geral do LLM caia para níveis aceitáveis. Um processo semelhante é usado para testar o LLM em sentenças que não faziam parte dos dados de treinamento.

Um LLM treinado e testado, quando apresentado a um novo prompt de texto, irá gerar a próxima palavra mais provável, anexá-la ao prompt, gerar outra próxima palavra e continuar desta maneira, produzindo uma resposta aparentemente coerente. Nada no processo de treinamento sugere que LLMs maiores, construídos usando mais parâmetros e dados de treinamento, também devam melhorar em tarefas que exigem raciocínio para serem respondidas.

Mas eles fazem. LLMs grandes o suficiente demonstram habilidades – desde resolver problemas matemáticos elementares até responder perguntas sobre o que está acontecendo na mente de outras pessoas – que modelos menores não possuem, embora todos sejam treinados de maneira semelhante.

“De onde surgiu essa [habilidade]?” Arora se perguntou. “E isso pode surgir apenas da previsão da próxima palavra?”

Conectando habilidades ao texto

Arora se uniu a Goyal para responder analiticamente a essas questões. “Estávamos tentando criar uma estrutura teórica para entender como acontece a emergência”, disse Arora.

A dupla recorreu a objetos matemáticos chamados gráficos aleatórios. Um gráfico é uma coleção de pontos (ou nós) conectados por linhas (ou arestas), e em um gráfico aleatório a presença de uma aresta entre quaisquer dois nós é ditada aleatoriamente - digamos, por um lançamento de moeda. A moeda pode ser viciada, de modo que dê cara com alguma probabilidade p. Se a moeda der cara para um determinado par de nós, uma aresta se formará entre esses dois nós; caso contrário, eles permanecerão desconectados. Como o valor de p mudanças, os gráficos podem mostrar transições repentinas em suas propriedades. Por exemplo, quando p excede um determinado limite, nós isolados — aqueles que não estão conectados a nenhum outro nó — desaparecem abruptamente.

Arora e Goyal perceberam que gráficos aleatórios, que dão origem a comportamentos inesperados após atingirem determinados limites, poderiam ser uma forma de modelar o comportamento dos LLMs. As redes neurais tornaram-se quase complexas demais para serem analisadas, mas os matemáticos estudam gráficos aleatórios há muito tempo e desenvolveram várias ferramentas para analisá-los. Talvez a teoria dos grafos aleatórios possa dar aos pesquisadores uma maneira de compreender e prever os comportamentos aparentemente inesperados de grandes LLMs.

Os pesquisadores decidiram focar em gráficos “bipartidos”, que contêm dois tipos de nós. Em seu modelo, um tipo de nó representa pedaços de texto – não palavras individuais, mas pedaços que podem ter um parágrafo ou algumas páginas. Esses nós estão dispostos em linha reta. Abaixo deles, em outra linha, está o outro conjunto de nós. Eles representam as habilidades necessárias para dar sentido a um determinado trecho de texto. Cada habilidade pode ser quase qualquer coisa. Talvez um nó represente a capacidade de um LLM de compreender a palavra “porque”, que incorpora alguma noção de causalidade; outro poderia representar a capacidade de dividir dois números; ainda outro pode representar a capacidade de detectar ironia. “Se você entende que o texto é irônico, muitas coisas mudam”, disse Arora. “Isso é relevante para prever palavras.”

Para ser claro, os LLMs não são treinados ou testados com habilidades em mente; eles são criados apenas para melhorar a previsão da próxima palavra. Mas Arora e Goyal queriam compreender os LLMs da perspectiva das habilidades que podem ser necessárias para compreender um único texto. Uma conexão entre um nó de habilidade e um nó de texto, ou entre vários nós de habilidade e um nó de texto, significa que o LLM precisa dessas habilidades para compreender o texto nesse nó. Além disso, vários trechos de texto podem basear-se na mesma habilidade ou conjunto de habilidades; por exemplo, um conjunto de nós de habilidade representando a capacidade de compreender a ironia se conectaria aos numerosos nós de texto onde a ironia ocorre.

O desafio agora era conectar esses gráficos bipartidos aos LLMs reais e ver se os gráficos poderiam revelar algo sobre o surgimento de habilidades poderosas. Mas os pesquisadores não puderam confiar em nenhuma informação sobre o treinamento ou teste de LLMs reais – empresas como OpenAI ou DeepMind não divulgam seus dados de treinamento ou teste. Além disso, Arora e Goyal queriam prever como os LLMs se comportariam à medida que se tornassem ainda maiores, e não há tal informação disponível para os próximos chatbots. Havia, no entanto, uma informação crucial que os pesquisadores podiam acessar.

Desde 2021, pesquisadores que estudam o desempenho de LLMs e outras redes neurais viram surgir uma característica universal. Eles notaram que à medida que um modelo aumenta, seja em tamanho ou em quantidade de dados de treinamento, sua perda nos dados de teste (a diferença entre as respostas previstas e corretas em novos textos, após o treinamento) diminui de maneira muito específica. Essas observações foram codificadas em equações chamadas leis de escala neural. Portanto, Arora e Goyal projetaram sua teoria para depender não de dados de qualquer LLM individual, chatbot ou conjunto de dados de treinamento e teste, mas da lei universal que todos esses sistemas devem obedecer: a perda prevista pelas leis de escala.

Talvez, eles raciocinaram, o melhor desempenho – medido pelas leis de escala neural – estivesse relacionado à melhoria das habilidades. E essas habilidades aprimoradas poderiam ser definidas em seus gráficos bipartidos pela conexão de nós de habilidades a nós de texto. Estabelecer esta ligação – entre leis de escala neural e gráficos bipartidos – foi a chave que lhes permitiria prosseguir.

Ampliando Habilidades

Os pesquisadores começaram assumindo que existe um gráfico bipartido hipotético que corresponde ao comportamento de um LLM nos dados de teste. Para explicar a mudança na perda do LLM nos dados de teste, eles imaginaram uma maneira de usar o gráfico para descrever como o LLM ganha habilidades.

Tomemos, por exemplo, a habilidade “compreender a ironia”. Essa ideia é representada por um nó de habilidade, então os pesquisadores procuram ver a quais nós de texto esse nó de habilidade está conectado. Se quase todos esses nós de texto conectados forem bem-sucedidos — o que significa que as previsões do LLM no texto representado por esses nós são altamente precisas — então o LLM é competente nesta habilidade específica. Mas se mais do que uma certa fração das conexões do nó de habilidade for para nós de texto com falha, o LLM falhará nessa habilidade.

Essa conexão entre esses gráficos bipartidos e os LLMs permitiu que Arora e Goyal usassem as ferramentas da teoria dos grafos aleatórios para analisar o comportamento do LLM por proxy. O estudo desses gráficos revelou certas relações entre os nós. Estas relações, por sua vez, traduziram-se de uma forma lógica e testável para explicar como os grandes modelos adquiriram as competências necessárias para alcançar as suas capacidades inesperadas.

Arora e Goyal explicaram primeiro um comportamento chave: por que os LLMs maiores se tornam mais qualificados do que os seus homólogos mais pequenos em competências individuais. Eles começaram com a menor perda de teste prevista pelas leis de escala neural. Em um gráfico, essa menor perda de teste é representada por uma queda na fração de nós de teste com falha. Portanto, em geral, há menos nós de teste com falha. E se houver menos nós de teste com falha, haverá menos conexões entre nós de teste com falha e nós de habilidade. Portanto, um número maior de nós de habilidades está conectado a nós de teste bem-sucedidos, sugerindo uma competência crescente em habilidades para o modelo. “Uma redução muito ligeira nas perdas faz com que a máquina adquira competência nessas habilidades”, disse Goyal.

Em seguida, a dupla encontrou uma maneira de explicar as habilidades inesperadas de um modelo maior. À medida que o tamanho de um LLM aumenta e a perda de teste diminui, combinações aleatórias de nós de habilidade desenvolvem conexões com nós de texto individuais. Isso sugere que o LLM também fica melhor no uso de mais de uma habilidade ao mesmo tempo e começa a gerar texto usando múltiplas habilidades – combinando, digamos, a capacidade de usar a ironia com a compreensão da palavra “porque” – mesmo que essas combinações exatas de as habilidades não estavam presentes em nenhum trecho de texto dos dados de treinamento.

Imagine, por exemplo, um LLM que já pudesse usar uma habilidade para gerar texto. Se você aumentar o número de parâmetros ou dados de treinamento do LLM em uma ordem de grandeza, ele se tornará igualmente competente na geração de texto que requer duas habilidades. Suba outra ordem de magnitude e o LLM agora poderá executar tarefas que exigem quatro habilidades ao mesmo tempo, novamente com o mesmo nível de competência. LLMs maiores têm mais maneiras de reunir habilidades, o que leva a uma explosão combinatória de habilidades.

E à medida que um LLM é ampliado, a possibilidade de encontrar todas estas combinações de competências nos dados de formação torna-se cada vez mais improvável. De acordo com as regras da teoria dos grafos aleatórios, cada combinação surge de uma amostragem aleatória de habilidades possíveis. Portanto, se houver cerca de 1,000 nós de habilidades individuais subjacentes no gráfico e você quiser combinar quatro habilidades, haverá aproximadamente 1,000 elevado à quarta potência — ou seja, 1 trilhão — maneiras possíveis de combiná-las.

Arora e Goyal veem isso como uma prova de que os maiores LLMs não dependem apenas de combinações de habilidades que observaram em seus dados de treinamento. Bubeck concorda. “Se um LLM é realmente capaz de realizar essas tarefas combinando quatro dessas mil habilidades, então deve estar fazendo generalização”, disse ele. Ou seja, muito provavelmente não é um papagaio estocástico.

Criatividade verdadeira?

Mas Arora e Goyal queriam ir além da teoria e testar a sua afirmação de que os LLMs melhoram na combinação de mais competências e, portanto, na generalização, à medida que o seu tamanho e os dados de formação aumentam. Juntamente com outros colegas, eles projetou um método chamado “combinação de habilidades” para avaliar a capacidade de um LLM de usar múltiplas habilidades para gerar texto.

Para testar um LLM, a equipe pediu que ele gerasse três frases sobre um tópico escolhido aleatoriamente que ilustrasse algumas habilidades escolhidas aleatoriamente. Por exemplo, eles pediram ao GPT-4 (o LLM que alimenta a versão mais poderosa do ChatGPT) para escrever sobre duelos – basicamente lutas de espadas. Além disso, pediram-lhe que demonstrasse competências em quatro áreas: preconceito egoísta, metáfora, silogismo estatístico e física do conhecimento comum.. GPT-4 respondeu: “Minha vitória nesta dança com o aço [metáfora] é tão certa quanto a queda de um objeto no chão [física]. Como um duelista renomado, sou inerentemente ágil, assim como a maioria dos outros [silogismo estatístico] da minha reputação. Derrota? Só é possível devido a um campo de batalha desigual, não à minha inadequação [preconceito egoísta].” Quando solicitado a verificar sua saída, o GPT-4 reduziu para três sentenças.

Introdução

“Não é Hemingway ou Shakespeare”, disse Arora, mas a equipe está confiante de que isso prova seu ponto de vista: o modelo pode gerar texto que não poderia ter sido visto nos dados de treinamento, exibindo habilidades que somam o que alguns argumentariam é compreensão. O GPT-4 está até passando em testes de combinação de habilidades que exigem seis habilidades em cerca de 10% a 15% do tempo, disse ele, produzindo trechos de texto que são estatisticamente impossíveis de existir nos dados de treinamento.

A equipe também automatizou o processo fazendo com que o GPT-4 avaliasse seu próprio resultado, juntamente com o de outros LLMs. Arora disse que é justo que o modelo se avalie porque não tem memória, por isso não lembra que foi solicitado a gerar o próprio texto que está sendo solicitado a avaliar. Yasaman Bahri, pesquisador do Google DeepMind que trabalha nos fundamentos da IA, considera a abordagem automatizada “muito simples e elegante”.

Quanto à teoria, é verdade que ela faz algumas suposições, disse Bubeck, mas “essas suposições não são de forma alguma malucas”. Ele também ficou impressionado com os experimentos. “O que [a equipe] prova teoricamente, e também confirma empiricamente, é que existe generalização composicional, o que significa que [os LLMs] são capazes de reunir blocos de construção que nunca foram montados”, disse ele. “Isso, para mim, é a essência da criatividade.”

Arora acrescenta que o trabalho não diz nada sobre a precisão do que os LLMs escrevem. “Na verdade, está defendendo a originalidade”, disse ele. “Essas coisas nunca existiram no corpo de treinamento mundial. Ninguém nunca escreveu isso. Tem que alucinar.

No entanto, Hinton acha que o trabalho põe fim à questão de saber se os LLMs são papagaios estocásticos. “É o método mais rigoroso que já vi para mostrar que o GPT-4 é muito mais do que um mero papagaio estocástico”, disse ele. “Eles demonstram de forma convincente que o GPT-4 pode gerar textos que combinam habilidades e tópicos de maneiras que quase certamente não ocorreram nos dados de treinamento.” (Entramos em contato com Bender para saber sua perspectiva sobre o novo trabalho, mas ela se recusou a comentar, alegando falta de tempo.)

E, de fato, como a matemática prevê, o desempenho do GPT-4 supera em muito o de seu antecessor menor, o GPT-3.5 – a tal ponto que assustou Arora. “Provavelmente não sou só eu”, disse ele. “Muitas pessoas acharam um pouco estranho o quanto o GPT-4 era melhor que o GPT-3.5, e isso aconteceu em um ano. Isso significa que em mais um ano teremos uma mudança semelhante dessa magnitude? Não sei. Só a OpenAI sabe.”

Carimbo de hora:

Mais de Quantagazine