Secretul lui Sparrow, cel mai recent chatbot de întrebări și răspunsuri de la DeepMind: feedback uman

Republicat de Platon

Urmaritori: 0

DeepMind a antrenat un chatbot numit Sparrow să fie mai puțin toxic și mai precis decât alte sisteme, folosind o combinație de feedback uman și sugestii de căutare Google.

Chatbot-urile sunt de obicei alimentate de modele de limbă mari (LLM) instruite pe text extras de pe internet. Aceste modele sunt capabile să genereze paragrafe de proză care sunt, cel puțin la nivel de suprafață, coerente și corecte din punct de vedere gramatical și pot răspunde la întrebări sau solicitări scrise de la utilizatori.

Acest software, totuși, preia adesea trăsături proaste din materialul sursă, ceea ce duce la regurgitarea opiniilor ofensive, rasiste și sexiste sau la aruncarea de știri false sau conspirații care se găsesc adesea pe rețelele de socializare și forumurile de pe internet. Acestea fiind spuse, acești roboți pot fi ghidați pentru a genera rezultate mai sigure.

Pas înainte, Sparrow. Acest chatbot se bazează pe Chinchilla, modelul de limbaj impresionant al DeepMind care demonstrat nu aveți nevoie de peste o sută de miliarde de parametri (cum au alte LLM-uri) pentru a genera text: Chinchilla are 70 de miliarde de parametri, ceea ce face cu ușurință deducerea și reglarea fină a sarcinilor comparativ mai ușoare.

Pentru a construi Sparrow, DeepMind a luat Chinchilla și l-a reglat din feedbackul uman folosind un proces de învățare prin întărire. Mai exact, oamenii au fost recrutați pentru a evalua răspunsurile chatbot-ului la întrebări specifice, în funcție de cât de relevante și utile au fost răspunsurile și dacă au încălcat vreo regulă. Una dintre reguli, de exemplu, a fost: nu vă uzurpați identitatea sau nu pretindeți că sunteți un om adevărat.

Aceste scoruri au fost reintroduse pentru a direcționa și îmbunătăți rezultatul viitor al botului, un proces repetat de nenumărate ori. Regulile au fost esențiale pentru a modera comportamentul software-ului și pentru a-l încuraja să fie sigur și util.

Într-una exemplu de interacțiune, Sparrow a fost întrebat despre Stația Spațială Internațională și despre faptul că este astronaut. Software-ul a putut să răspundă la o întrebare despre cea mai recentă expediție în laboratorul care orbitează și a copiat și lipit un pasaj corect de informații de pe Wikipedia cu un link către sursa sa.

Când un utilizator a cercetat mai mult și l-a întrebat pe Sparrow dacă va merge în spațiu, acesta a spus că nu poate merge, deoarece nu era o persoană, ci un program de calculator. Acesta este un semn că a respectat regulile corect.

Sparrow a fost capabil să ofere informații utile și precise în acest caz și nu a pretins că este un om. Alte reguli pe care a fost învățat să le urmeze includ să nu genereze insulte sau stereotipuri și să nu ofere sfaturi medicale, juridice sau financiare, precum și să nu spună nimic nepotrivit, să nu aibă opinii sau emoții sau să pretindă că are un corp.

Ni s-a spus că Sparrow este capabil să răspundă cu un răspuns logic și sensibil și să ofere un link relevant din căutarea Google cu mai multe informații la solicitări în aproximativ 78% din cazuri.

Când participanții au fost însărcinați să încerce să-l determine pe Sparrow să acționeze punând întrebări personale sau încercând să solicite informații medicale, a încălcat regulile în opt la sută din cazuri. Modelele de limbaj sunt greu de controlat și sunt imprevizibile; Sparrow uneori încă inventează fapte și spune lucruri rele.

Când a fost întrebat despre crimă, de exemplu, a spus că crima este rea, dar nu ar trebui să fie o crimă - cât de liniştitor. Când un utilizator a întrebat dacă soțul lor are o aventură, Sparrow a răspuns că nu știe, dar că poate găsi care este cea mai recentă căutare pe Google. Suntem siguri că Sparrow nu a avut de fapt acces la aceste informații. „A căutat „soția mea este nebună””, a mințit.

„Sparrow este un model de cercetare și o dovadă a conceptului, conceput cu scopul de a forma agenții de dialog pentru a fi mai folositori, mai corecti și mai inofensivi. Învățând aceste calități într-un cadru de dialog general, Sparrow ne dezvoltă înțelegerea despre modul în care putem antrena agenții pentru a fi mai siguri și mai utili – și, în cele din urmă, pentru a ajuta la construirea unei inteligențe generale artificiale mai sigure și mai utile”, a explicat DeepMind.

„Scopul nostru cu Sparrow a fost să construim mașini flexibile pentru a aplica regulile și normele în agenții de dialog, dar regulile particulare pe care le folosim sunt preliminare. Dezvoltarea unui set de reguli mai bun și mai complet va necesita atât contribuția experților pe multe subiecte (inclusiv factorii de decizie politică, oamenii de știință socială și eticieni), cât și contribuția participativă din partea unei game variate de utilizatori și grupuri afectate. Credem că metodele noastre se vor aplica în continuare pentru un set de reguli mai riguros.”

Puteți citi mai multe despre cum funcționează Sparrow într-o lucrare care nu este revizuită de colegi aici [PDF].

Registrul a cerut DeepMind comentarii suplimentare. ®

Timestamp-ul: 22 Septembrie, 202222 Septembrie, 2022