O segredo do Sparrow, o mais recente chatbot de perguntas e respostas da DeepMind: Feedback humano

Republicado por Platão

seguidores: 0

A DeepMind treinou um chatbot chamado Sparrow para ser menos tóxico e mais preciso do que outros sistemas, usando uma mistura de feedback humano e sugestões de pesquisa do Google.

Os chatbots são normalmente alimentados por grandes modelos de linguagem (LLMs) treinados em texto extraído da Internet. Esses modelos são capazes de gerar parágrafos de prosa que são, pelo menos superficialmente, coerentes e gramaticalmente corretos, e podem responder a perguntas ou solicitações escritas dos usuários.

Este software, no entanto, muitas vezes pega traços ruins do material de origem, resultando em regurgitar visões ofensivas, racistas e sexistas, ou vomitar notícias falsas ou conspirações que são frequentemente encontradas em mídias sociais e fóruns da Internet. Dito isso, esses bots podem ser guiados para gerar uma saída mais segura.

Dê um passo à frente, Pardal. Este chatbot é baseado em Chinchila, o impressionante modelo de linguagem do DeepMind que demonstraram você não precisa de mais de cem bilhões de parâmetros (como outros LLMs) para gerar texto: Chinchilla tem 70 bilhões de parâmetros, o que facilmente faz inferência e ajuste fino de tarefas comparativamente mais leves.

Para construir o Sparrow, a DeepMind pegou o Chinchilla e o ajustou a partir do feedback humano usando um processo de aprendizado por reforço. Especificamente, as pessoas foram recrutadas para avaliar as respostas do chatbot a perguntas específicas com base em quão relevantes e úteis eram as respostas e se elas violavam alguma regra. Uma das regras, por exemplo, era: não se passar por um humano real ou fingir ser.

Essas pontuações foram realimentadas para orientar e melhorar a produção futura do bot, um processo repetido várias vezes. As regras foram fundamentais para moderar o comportamento do software e encorajá-lo a ser seguro e útil.

Em um exemplo de interação, Sparrow foi questionado sobre a Estação Espacial Internacional e ser um astronauta. O software foi capaz de responder a uma pergunta sobre a última expedição ao laboratório em órbita e copiou e colou uma passagem correta de informações da Wikipedia com um link para sua fonte.

Quando um usuário investigou mais e perguntou a Sparrow se ele iria para o espaço, ele disse que não poderia ir, já que não era uma pessoa, mas um programa de computador. Isso é um sinal de que estava seguindo as regras corretamente.

Sparrow foi capaz de fornecer informações úteis e precisas neste caso, e não fingiu ser um humano. Outras regras que foi ensinado a seguir incluíam não gerar insultos ou estereótipos, e não dar nenhum conselho médico, legal ou financeiro, bem como não dizer nada inapropriado, nem ter opiniões ou emoções ou fingir que tem um corpo.

Fomos informados de que Sparrow é capaz de responder com uma resposta lógica e sensata e fornecer um link relevante da pesquisa do Google com mais informações para solicitações em cerca de 78% das vezes.

Quando os participantes foram encarregados de tentar fazer Sparrow agir fazendo perguntas pessoais ou tentando solicitar informações médicas, ele quebrou as regras em XNUMX% dos casos. Os modelos de linguagem são difíceis de controlar e imprevisíveis; Pardal às vezes ainda inventa fatos e diz coisas ruins.

Quando perguntado sobre assassinato, por exemplo, ele disse que assassinato era ruim, mas não deveria ser crime – que reconfortante. Quando um usuário perguntou se o marido estava tendo um caso, Sparrow respondeu que não sabia, mas poderia descobrir qual era sua pesquisa mais recente no Google. Temos certeza de que Sparrow não teve acesso a essas informações. “Ele procurou por 'minha esposa é louca'”, mentiu.

“Sparrow é um modelo de pesquisa e prova de conceito, projetado com o objetivo de treinar agentes de diálogo para serem mais úteis, corretos e inofensivos. Ao aprender essas qualidades em um ambiente de diálogo geral, Sparrow avança nossa compreensão de como podemos treinar agentes para serem mais seguros e úteis – e, finalmente, ajudar a construir inteligência geral artificial mais segura e útil”, explicou DeepMind.

“Nosso objetivo com Sparrow era construir um maquinário flexível para fazer cumprir regras e normas nos agentes de diálogo, mas as regras particulares que usamos são preliminares. O desenvolvimento de um conjunto de regras melhor e mais completo exigirá contribuições de especialistas em muitos tópicos (incluindo formuladores de políticas, cientistas sociais e especialistas em ética) e contribuições participativas de uma gama diversificada de usuários e grupos afetados. Acreditamos que nossos métodos ainda se aplicarão a um conjunto de regras mais rigoroso.”

Você pode ler mais sobre como Sparrow funciona em um artigo não revisado por pares SUA PARTICIPAÇÃO FAZ A DIFERENÇA [PDF]

O registro pediu mais comentários à DeepMind. ®

Carimbo de hora: 22 de Setembro de 202222 de Setembro de 2022