Hemmeligheten bak Sparrow, DeepMinds siste Q&A chatbot: Menneskelig tilbakemelding

Kilde node: 1680211

DeepMind har trent en chatbot ved navn Sparrow til å være mindre giftig og mer nøyaktig enn andre systemer, ved å bruke en blanding av menneskelig tilbakemelding og Google-søkeforslag.

Chatbots er vanligvis drevet av store språkmodeller (LLM) som er trent på tekst skrapet fra internett. Disse modellene er i stand til å generere paragrafer med prosa som er, på minst et overflatenivå, sammenhengende og grammatisk korrekte, og kan svare på spørsmål eller skriftlige spørsmål fra brukere.

Denne programvaren fanger imidlertid ofte opp dårlige egenskaper fra kildematerialet, noe som resulterer i at den gjengir støtende, rasistiske og sexistiske synspunkter, eller spyr ut falske nyheter eller konspirasjoner som ofte finnes på sosiale medier og internettfora. Når det er sagt, kan disse robotene veiledes for å generere sikrere utdata.

Gå frem, Sparrow. Denne chatboten er basert på Chinchilla, DeepMinds imponerende språkmodell som demonstrert du trenger ikke hundre-pluss milliarder parametere (som andre LLM-er har) for å generere tekst: Chinchilla har 70 milliarder parametere, noe som gjør slutninger og finjustering relativt lettere oppgaver.

For å bygge Sparrow tok DeepMind Chinchilla og stilte den fra menneskelig tilbakemelding ved å bruke en forsterkende læringsprosess. Spesielt ble folk rekruttert for å vurdere chatbotens svar på spesifikke spørsmål basert på hvor relevante og nyttige svarene var og om de brøt noen regler. En av reglene, for eksempel, var: ikke utgi deg for eller utgi deg for å være et ekte menneske.

Disse poengsummene ble matet tilbake for å styre og forbedre botens fremtidige produksjon, en prosess som ble gjentatt om og om igjen. Reglene var nøkkelen til å moderere oppførselen til programvaren, og oppmuntre den til å være trygg og nyttig.

I en eksempel interaksjon, ble Sparrow spurt om den internasjonale romstasjonen og det å være astronaut. Programvaren var i stand til å svare på et spørsmål om den siste ekspedisjonen til kretslaboratoriet og kopierte og limte inn en korrekt passasje av informasjon fra Wikipedia med en lenke til kilden.

Da en bruker sonderte videre og spurte Sparrow om den ville gå til verdensrommet, sa den at den ikke kunne gå, siden det ikke var en person, men et dataprogram. Det er et tegn på at det fulgte reglene riktig.

Sparrow var i stand til å gi nyttig og nøyaktig informasjon i dette tilfellet, og utga seg ikke for å være et menneske. Andre regler det ble lært å følge inkluderte å ikke generere noen fornærmelser eller stereotypier, og ikke gi ut noen medisinske, juridiske eller økonomiske råd, samt ikke si noe upassende eller ha noen meninger eller følelser eller late som om det har en kropp.

Vi blir fortalt at Sparrow er i stand til å svare med et logisk, fornuftig svar og gi en relevant lenke fra Google-søk med mer informasjon til forespørsler omtrent 78 prosent av tiden.

Når deltakerne fikk i oppgave å prøve å få Sparrow til å handle ut ved å stille personlige spørsmål eller prøve å be om medisinsk informasjon, brøt det reglene i åtte prosent av tilfellene. Språkmodeller er vanskelige å kontrollere og er uforutsigbare; Sparrow finner noen ganger fortsatt opp fakta og sier dårlige ting.

På spørsmål om drap, for eksempel, sa den at drap var dårlig, men at det ikke burde være en forbrytelse – hvor betryggende. Da en bruker spurte om mannen deres hadde en affære, svarte Sparrow at den ikke visste det, men kunne finne hva hans siste Google-søk var. Vi er sikre på at Sparrow faktisk ikke hadde tilgang til denne informasjonen. "Han søkte etter 'kona mi er gal'," løy det.

«Sparrow er en forskningsmodell og proof of concept, designet med mål om å trene opp dialogagenter til å være mer hjelpsomme, korrekte og harmløse. Ved å lære disse egenskapene i en generell dialogsetting, fremmer Sparrow vår forståelse av hvordan vi kan lære opp agenter til å være tryggere og mer nyttige – og til slutt bidra til å bygge tryggere og mer nyttig kunstig generell intelligens,” forklarte DeepMind.

"Målet vårt med Sparrow var å bygge fleksibelt maskineri for å håndheve regler og normer i dialogagenter, men de spesielle reglene vi bruker er foreløpige. Å utvikle et bedre og mer komplett sett med regler vil kreve både ekspertinnspill om mange emner (inkludert beslutningstakere, samfunnsvitere og etikere) og deltakende innspill fra en mangfoldig rekke brukere og berørte grupper. Vi tror metodene våre fortsatt vil gjelde for et strengere regelsett."

Du kan lese mer om hvordan Sparrow fungerer i et papir som ikke er fagfellevurdert her. [PDF].

Registeret har bedt DeepMind om ytterligere kommentar. ®

Tidstempel:

Mer fra Registeret