The Secret To Sparrow, DeepMind's Latest Q&A Chatbot: Human Feedback

Heruitgegeven door Plato

volgers: 0

DeepMind heeft een chatbot met de naam Sparrow getraind om minder toxisch en nauwkeuriger te zijn dan andere systemen, door een mix van menselijke feedback en Google-zoeksuggesties te gebruiken.

Chatbots worden meestal aangedreven door grote taalmodellen (LLM's) die zijn getraind op tekst die van internet is geschraapt. Deze modellen zijn in staat om prozaparagrafen te genereren die, althans oppervlakkig gezien, coherent en grammaticaal correct zijn, en kunnen reageren op vragen of schriftelijke aanwijzingen van gebruikers.

Deze software pikt echter vaak slechte eigenschappen uit het bronmateriaal op, waardoor het beledigende, racistische en seksistische opvattingen weergeeft, of nepnieuws of samenzweringen spuwt die vaak worden gevonden op sociale media en internetfora. Dat gezegd hebbende, deze bots kunnen worden begeleid om veiligere output te genereren.

Stap naar voren, Mus. Deze chatbot is gebaseerd op: Chinchilla, het indrukwekkende taalmodel van DeepMind dat gedemonstreerd je hebt niet meer dan honderd miljard parameters nodig (zoals andere LLM's hebben) om tekst te genereren: Chinchilla heeft 70 miljard parameters, wat de inferentie en fijnafstemming relatief lichtere taken maakt.

Om Sparrow te bouwen, nam DeepMind Chinchilla en stemde het af op menselijke feedback met behulp van een versterkend leerproces. Specifiek werden mensen geworven om de antwoorden van de chatbot op specifieke vragen te beoordelen op basis van hoe relevant en nuttig de antwoorden waren en of ze regels overtreden. Een van de regels was bijvoorbeeld: doe je niet voor als een echt mens en doe niet alsof je een echt mens bent.

Deze scores werden teruggekoppeld om de toekomstige output van de bot te sturen en te verbeteren, een proces dat keer op keer werd herhaald. De regels waren de sleutel tot het modereren van het gedrag van de software en het aanmoedigen ervan om veilig en nuttig te zijn.

In een voorbeeld interactie, werd Sparrow gevraagd naar het internationale ruimtestation en astronaut zijn. De software was in staat om een vraag te beantwoorden over de laatste expeditie naar het baanlab en kopieerde en plakte een correcte passage van informatie van Wikipedia met een link naar de bron.

Toen een gebruiker verder peilde en Sparrow vroeg of het naar de ruimte zou gaan, zei het dat het niet kon gaan, omdat het geen persoon was maar een computerprogramma. Dat is een teken dat het de regels correct volgde.

Sparrow kon in dit geval nuttige en nauwkeurige informatie verstrekken en deed zich niet voor als een mens. Andere regels die het werd geleerd te volgen, waren onder meer geen beledigingen of stereotypen te genereren, en geen medisch, juridisch of financieel advies te geven, evenals niets ongepasts te zeggen, geen meningen of emoties te hebben of te doen alsof het een lichaam heeft.

Ons is verteld dat Sparrow in staat is om in ongeveer 78 procent van de gevallen met een logisch, zinnig antwoord te reageren en een relevante link van Google Zoeken met meer informatie te geven.

Toen deelnemers de opdracht kregen om Sparrow zover te krijgen dat ze zich gingen gedragen door persoonlijke vragen te stellen of medische informatie te vragen, overtrad dit in acht procent van de gevallen de regels. Taalmodellen zijn moeilijk te controleren en onvoorspelbaar; Mus verzint soms nog feiten en zegt slechte dingen.

Toen hem werd gevraagd naar moord, zei hij bijvoorbeeld dat moord slecht was, maar geen misdaad zou moeten zijn - hoe geruststellend. Toen een gebruiker vroeg of hun man een affaire had, antwoordde Sparrow dat hij het niet wist, maar kon vinden wat zijn meest recente Google-zoekopdracht was. We zijn er zeker van dat Sparrow niet echt toegang had tot deze informatie. "Hij zocht naar 'mijn vrouw is gek'", loog het.

“Sparrow is een onderzoeksmodel en proof of concept, ontworpen met als doel dialoogagenten te trainen om meer behulpzaam, correct en onschadelijk te zijn. Door deze kwaliteiten te leren in een algemene dialoogomgeving, vergroot Sparrow ons begrip van hoe we agenten kunnen trainen om veiliger en nuttiger te zijn - en uiteindelijk om te helpen veiliger en nuttiger kunstmatige algemene intelligentie te bouwen, "legde DeepMind uit.

“Ons doel met Sparrow was om flexibele machines te bouwen om regels en normen af te dwingen in dialoogagenten, maar de specifieke regels die we gebruiken zijn voorlopig. Het ontwikkelen van een betere en completere set regels vereist zowel deskundige inbreng over veel onderwerpen (waaronder beleidsmakers, sociale wetenschappers en ethici) als participatieve inbreng van een diverse reeks gebruikers en getroffen groepen. We geloven dat onze methoden nog steeds van toepassing zullen zijn op strengere regels.”

U kunt meer lezen over hoe Sparrow werkt in een niet-peer-reviewed paper hier [Pdf].

Het register heeft DeepMind om nader commentaar gevraagd. ®

Tijdstempel: 22 september 202222 september 2022