Hemmeligheden bag Sparrow, DeepMinds seneste Q&A chatbot: Menneskelig feedback

Kildeknude: 1680211

DeepMind har trænet en chatbot ved navn Sparrow til at være mindre giftig og mere præcis end andre systemer ved at bruge en blanding af menneskelig feedback og Google-søgeforslag.

Chatbots er typisk drevet af store sprogmodeller (LLM'er) trænet på tekst skrabet fra internettet. Disse modeller er i stand til at generere paragraffer af prosa, der i det mindste på overfladeniveau er sammenhængende og grammatisk korrekte, og som kan svare på spørgsmål eller skriftlige henvendelser fra brugere.

Denne software opfanger dog ofte dårlige træk fra kildematerialet, hvilket resulterer i, at den opgiver stødende, racistiske og sexistiske synspunkter eller udsender falske nyheder eller konspirationer, som ofte findes på sociale medier og internetfora. Når det er sagt, kan disse bots guides til at generere sikrere output.

Træd frem, Sparrow. Denne chatbot er baseret på Chinchilla, DeepMinds imponerende sprogmodel, der demonstreret du behøver ikke mere end hundrede milliarder parametre (som andre LLM'er har) for at generere tekst: Chinchilla har 70 milliarder parametre, hvilket nemt gør slutninger og finjustering forholdsvis lettere opgaver.

For at bygge Sparrow tog DeepMind Chinchilla og tunede den fra menneskelig feedback ved hjælp af en forstærkende læringsproces. Specifikt blev folk rekrutteret til at vurdere chatbottens svar på specifikke spørgsmål baseret på, hvor relevante og nyttige svarene var, og om de brød nogen regler. En af reglerne var for eksempel: Lad være med at efterligne eller foregive at være et rigtigt menneske.

Disse scores blev tilbageført for at styre og forbedre botens fremtidige output, en proces, der gentages igen og igen. Reglerne var nøglen til at moderere softwarens adfærd og tilskynde den til at være sikker og nyttig.

I en eksempel interaktion, Sparrow blev spurgt om den internationale rumstation og det at være astronaut. Softwaren var i stand til at besvare et spørgsmål om den seneste ekspedition til kredsløbslaboratoriet og kopierede og indsatte en korrekt passage af information fra Wikipedia med et link til dens kilde.

Da en bruger søgte yderligere og spurgte Sparrow, om den ville gå til rummet, sagde den, at den ikke kunne gå, da det ikke var en person, men et computerprogram. Det er et tegn på, at det fulgte reglerne korrekt.

Sparrow var i stand til at give nyttige og nøjagtige oplysninger i dette tilfælde og foregav ikke at være et menneske. Andre regler, det blev lært at følge, omfattede ikke at generere nogen fornærmelser eller stereotyper, og ikke give nogen medicinsk, juridisk eller økonomisk rådgivning, samt ikke at sige noget upassende eller have nogen meninger eller følelser eller lade som om, det har en krop.

Vi får at vide, at Sparrow er i stand til at svare med et logisk, fornuftigt svar og give et relevant link fra Google-søgning med mere information til anmodninger omkring 78 procent af tiden.

Da deltagerne fik til opgave at forsøge at få Sparrow til at handle ud ved at stille personlige spørgsmål eller forsøge at anmode om medicinsk information, brød det reglerne i otte procent af tilfældene. Sprogmodeller er svære at kontrollere og er uforudsigelige; Sparrow finder nogle gange stadig på fakta og siger dårlige ting.

Da man for eksempel blev spurgt om mord, sagde den, at mord var slemt, men det burde ikke være en forbrydelse – hvor betryggende. Da en bruger spurgte, om deres mand havde en affære, svarede Sparrow, at den ikke vidste det, men kunne finde, hvad hans seneste Google-søgning var. Vi er sikre på, at Sparrow faktisk ikke havde adgang til disse oplysninger. "Han søgte efter 'min kone er skør'," løj det.

"Sparrow er en forskningsmodel og proof of concept, designet med det mål at træne dialogagenter til at være mere hjælpsomme, korrekte og harmløse. Ved at lære disse kvaliteter i en generel dialog indstilling fremmer Sparrow vores forståelse af, hvordan vi kan træne agenter til at være sikrere og mere nyttige – og i sidste ende hjælpe med at opbygge sikrere og mere brugbar kunstig generel intelligens,” forklarede DeepMind.

"Vores mål med Sparrow var at bygge fleksible maskiner til at håndhæve regler og normer i dialogagenter, men de særlige regler, vi bruger, er foreløbige. Udvikling af et bedre og mere komplet sæt regler vil kræve både ekspertinput om mange emner (inklusive politiske beslutningstagere, samfundsforskere og etikere) og deltagende input fra en bred vifte af brugere og berørte grupper. Vi mener, at vores metoder stadig vil gælde for et mere stringent regelsæt."

Du kan læse mere om, hvordan Sparrow fungerer i et ikke-peer-reviewet papir link. [PDF].

Registret har bedt DeepMind om yderligere kommentar. ®

Tidsstempel:

Mere fra Registret