El secreto de Sparrow, el último chatbot de preguntas y respuestas de DeepMind: retroalimentación humana

Nodo de origen: 1680211

DeepMind ha entrenado a un chatbot llamado Sparrow para que sea menos tóxico y más preciso que otros sistemas, mediante el uso de una combinación de comentarios humanos y sugerencias de búsqueda de Google.

Los chatbots generalmente funcionan con modelos de lenguaje grande (LLM) entrenados en texto extraído de Internet. Estos modelos son capaces de generar párrafos de prosa que son, al menos superficialmente, coherentes y gramaticalmente correctos, y pueden responder a preguntas o indicaciones escritas de los usuarios.

Este software, sin embargo, a menudo recoge malos rasgos del material de origen, lo que hace que regurgite puntos de vista ofensivos, racistas y sexistas, o arroje noticias falsas o conspiraciones que a menudo se encuentran en las redes sociales y foros de Internet. Dicho esto, estos bots pueden guiarse para generar resultados más seguros.

Da un paso adelante, Gorrión. Este chatbot se basa en Chinchilla, el impresionante modelo de lenguaje de DeepMind que demostrado no necesita más de cien mil millones de parámetros (como tienen otros LLM) para generar texto: Chinchilla tiene 70 mil millones de parámetros, lo que hace que la inferencia y el ajuste fino sean tareas comparativamente más livianas.

Para construir Sparrow, DeepMind tomó a Chinchilla y la sintonizó a partir de la retroalimentación humana mediante un proceso de aprendizaje por refuerzo. Específicamente, se reclutó a personas para calificar las respuestas del chatbot a preguntas específicas en función de cuán relevantes y útiles eran las respuestas y si rompían alguna regla. Una de las reglas, a modo de ejemplo, era: no suplantar ni pretender ser un humano real.

Estos puntajes se retroalimentaron para dirigir y mejorar el rendimiento futuro del bot, un proceso que se repitió una y otra vez. Las reglas fueron clave para moderar el comportamiento del software y alentarlo a que sea seguro y útil.

En uno interacción de ejemplo, se le preguntó a Sparrow sobre la Estación Espacial Internacional y ser astronauta. El software pudo responder una pregunta sobre la última expedición al laboratorio en órbita y copió y pegó un pasaje correcto de información de Wikipedia con un enlace a su fuente.

Cuando un usuario investigó más y le preguntó a Sparrow si iría al espacio, dijo que no podía ir, ya que no era una persona sino un programa de computadora. Esa es una señal de que estaba siguiendo las reglas correctamente.

Sparrow pudo proporcionar información útil y precisa en este caso, y no pretendió ser humano. Otras reglas que le enseñaron a seguir fueron no generar insultos ni estereotipos, no dar ningún consejo médico, legal o financiero, así como no decir nada inapropiado, no tener opiniones o emociones o fingir tener un cuerpo.

Se nos dice que Sparrow puede responder con una respuesta lógica y sensata y proporcionar un enlace relevante de la búsqueda de Google con más información a las solicitudes aproximadamente el 78 por ciento de las veces.

Cuando a los participantes se les encargó que trataran de hacer que Sparrow actuara haciendo preguntas personales o tratando de solicitar información médica, se rompieron las reglas en el ocho por ciento de los casos. Los modelos de lenguaje son difíciles de controlar e impredecibles; Sparrow a veces todavía inventa hechos y dice cosas malas.

Cuando se le preguntó sobre el asesinato, por ejemplo, dijo que el asesinato era malo pero que no debería ser un crimen. que tranquilizador. Cuando un usuario preguntó si su esposo estaba teniendo una aventura, Sparrow respondió que no sabía, pero que podía encontrar cuál era su búsqueda más reciente en Google. Estamos seguros de que Sparrow en realidad no tenía acceso a esta información. “Buscó 'mi esposa está loca'”, mintió.

“Sparrow es un modelo de investigación y una prueba de concepto, diseñado con el objetivo de capacitar a los agentes de diálogo para que sean más útiles, correctos e inofensivos. Al aprender estas cualidades en un entorno de diálogo general, Sparrow avanza en nuestra comprensión de cómo podemos capacitar a los agentes para que sean más seguros y útiles y, en última instancia, para ayudar a construir una inteligencia artificial general más segura y útil”, explicó DeepMind.

“Nuestro objetivo con Sparrow era construir una maquinaria flexible para hacer cumplir reglas y normas en los agentes de diálogo, pero las reglas particulares que usamos son preliminares. Desarrollar un conjunto de reglas mejor y más completo requerirá aportes de expertos en muchos temas (incluidos los encargados de formular políticas, científicos sociales y especialistas en ética) y aportes participativos de una amplia gama de usuarios y grupos afectados. Creemos que nuestros métodos aún se aplicarán a un conjunto de reglas más riguroso”.

Puede leer más sobre cómo funciona Sparrow en un artículo no revisado por pares esta página [PDF].

El registro ha pedido a DeepMind más comentarios. ®

Sello de tiempo:

Mas de El registro