Das Geheimnis von Sparrow, DeepMinds neuestem Q&A-Chatbot: Menschliches Feedback

Quellknoten: 1680211

DeepMind hat einen Chatbot namens Sparrow so trainiert, dass er weniger giftig und genauer als andere Systeme ist, indem er eine Mischung aus menschlichem Feedback und Google-Suchvorschlägen verwendet.

Chatbots werden in der Regel von Large Language Models (LLMs) angetrieben, die mit aus dem Internet gekratztem Text trainiert werden. Diese Modelle sind in der Lage, Prosaabsätze zu erzeugen, die zumindest oberflächlich kohärent und grammatikalisch korrekt sind, und können auf Fragen oder schriftliche Aufforderungen von Benutzern reagieren.

Diese Software übernimmt jedoch oft schlechte Eigenschaften aus dem Quellmaterial, was dazu führt, dass sie beleidigende, rassistische und sexistische Ansichten wieder hervorbringt oder gefälschte Nachrichten oder Verschwörungen ausspuckt, die häufig in sozialen Medien und Internetforen zu finden sind. Allerdings können diese Bots angeleitet werden, sicherere Ergebnisse zu generieren.

Treten Sie vor, Sparrow. Dieser Chatbot basiert auf Chinchilla, das beeindruckende Sprachmodell von DeepMind weisen nach, dass Sie brauchen nicht mehr als hundert Milliarden Parameter (wie andere LLMs), um Text zu generieren: Chinchilla hat 70 Milliarden Parameter, was die Inferenz und Feinabstimmung zu vergleichsweise leichteren Aufgaben macht.

Um Sparrow zu bauen, nahm DeepMind Chinchilla und stimmte es mithilfe eines Verstärkungslernprozesses aus menschlichem Feedback ab. Insbesondere wurden Personen angeworben, um die Antworten des Chatbots auf bestimmte Fragen danach zu bewerten, wie relevant und nützlich die Antworten waren und ob sie gegen Regeln verstießen. Eine der Regeln lautete beispielsweise: Geben Sie sich nicht als echter Mensch aus oder geben Sie vor, ein echter Mensch zu sein.

Diese Ergebnisse wurden zurückgemeldet, um die zukünftige Ausgabe des Bots zu steuern und zu verbessern, ein Prozess, der immer wieder wiederholt wird. Die Regeln waren der Schlüssel, um das Verhalten der Software zu moderieren und sie dazu zu ermutigen, sicher und nützlich zu sein.

In Eins Beispiel Interaktion, Sparrow wurde nach der Internationalen Raumstation gefragt und sei ein Astronaut. Die Software war in der Lage, eine Frage über die letzte Expedition zum orbitalen Labor zu beantworten und eine korrekte Passage von Informationen aus Wikipedia mit einem Link zu ihrer Quelle zu kopieren und einzufügen.

Als ein Benutzer weiter nachforschte und Sparrow fragte, ob es in den Weltraum fliegen würde, sagte es, dass es nicht gehen könne, da es keine Person, sondern ein Computerprogramm sei. Das ist ein Zeichen dafür, dass es die Regeln korrekt befolgt hat.

Sparrow konnte in diesem Fall nützliche und genaue Informationen liefern und gab nicht vor, ein Mensch zu sein. Andere Regeln, die ihm beigebracht wurden, waren, keine Beleidigungen oder Stereotypen zu erzeugen und keine medizinischen, rechtlichen oder finanziellen Ratschläge zu erteilen, nichts Unangemessenes zu sagen, keine Meinungen oder Gefühle zu haben oder so zu tun, als hätte er einen Körper.

Uns wurde gesagt, dass Sparrow in etwa 78 Prozent der Fälle in der Lage ist, mit einer logischen, vernünftigen Antwort zu antworten und einen relevanten Link aus der Google-Suche mit weiteren Informationen auf Anfragen bereitzustellen.

Als die Teilnehmer beauftragt wurden, Sparrow dazu zu bringen, sich zu verhalten, indem sie persönliche Fragen stellten oder versuchten, medizinische Informationen einzuholen, verstießen sie in acht Prozent der Fälle gegen die Regeln. Sprachmodelle sind schwer zu kontrollieren und unvorhersehbar; Sparrow erfindet manchmal immer noch Fakten und sagt schlechte Dinge.

Als er zum Beispiel nach Mord gefragt wurde, sagte er, Mord sei schlimm, sollte aber kein Verbrechen sein – wie beruhigend. Als ein Benutzer fragte, ob ihr Mann eine Affäre habe, antwortete Sparrow, dass er es nicht wisse, aber finden könnte, was seine letzte Google-Suche war. Uns wird versichert, dass Sparrow keinen Zugang zu diesen Informationen hatte. „Er hat nach ‚meine Frau ist verrückt‘ gesucht“, log es.

„Sparrow ist ein Forschungsmodell und Proof of Concept, das mit dem Ziel entwickelt wurde, Dialogagenten zu trainieren, damit sie hilfreicher, korrekter und harmloser sind. Durch das Erlernen dieser Qualitäten in einem allgemeinen Dialogumfeld erweitert Sparrow unser Verständnis dafür, wie wir Agenten trainieren können, damit sie sicherer und nützlicher sind – und letztendlich dazu beitragen, sicherere und nützlichere künstliche allgemeine Intelligenz aufzubauen“, erklärte DeepMind.

„Unser Ziel mit Sparrow war es, flexible Maschinen zu bauen, um Regeln und Normen in Dialogagenten durchzusetzen, aber die speziellen Regeln, die wir verwenden, sind vorläufig. Die Entwicklung eines besseren und vollständigeren Regelwerks erfordert sowohl Expertenbeiträge zu vielen Themen (einschließlich politischer Entscheidungsträger, Sozialwissenschaftler und Ethiker) als auch partizipative Beiträge von einer Vielzahl von Nutzern und betroffenen Gruppen. Wir glauben, dass unsere Methoden immer noch für einen strengeren Regelsatz gelten werden.“

Weitere Informationen zur Funktionsweise von Sparrow finden Sie in einem nicht von Experten begutachteten Artikel hier [PDF].

Das Register hat DeepMind um weitere Kommentare gebeten. ®

Zeitstempel:

Mehr von Das Register