DeepMindi uusima küsimuste ja vastuste vestlusroti Sparrow saladus: inimeste tagasiside

Allikasõlm: 1680211

DeepMind on õpetanud Sparrow-nimelise vestlusroti olema vähem toksiline ja täpsem kui teised süsteemid, kasutades inimeste tagasisidet ja Google'i otsingusoovitusi.

Vestlusrobotite toiteallikaks on tavaliselt suured keelemudelid (LLM), mis on koolitatud Internetist väljakraabitud teksti põhjal. Need mudelid on võimelised genereerima proosalõike, mis on vähemalt pealispinnal ühtsed ja grammatiliselt õiged ning suudavad vastata kasutajate küsimustele või kirjalikele juhistele.

See tarkvara aga korjab sageli algmaterjalist üles halvad jooned, mille tulemuseks on solvavate, rassistlike ja seksistlike vaadete esilekutsumine või võltsuudiste või vandenõu väljapaiskamine, mida sageli leidub sotsiaalmeedias ja Interneti-foorumites. Sellegipoolest saab neid roboteid juhendada turvalisema väljundi loomiseks.

Astu edasi, Sparrow. See vestlusbot põhineb tšintšilja, DeepMindi muljetavaldav keelemudel, mis Näidatud teksti genereerimiseks pole vaja üle saja miljardi parameetri (nagu on teistel LLM-idel): Chinchillal on 70 miljardit parameetrit, mis teeb järeldused ja peenhäälestuse suhteliselt kergemaks.

Sparrow ehitamiseks võttis DeepMind Chinchilla ja häälestas seda inimeste tagasiside põhjal, kasutades tugevdamise õppeprotsessi. Täpsemalt värvati inimesi, kes hindasid vestlusroboti vastuseid konkreetsetele küsimustele selle põhjal, kui asjakohased ja kasulikud olid vastused ning kas need rikkusid mingeid reegleid. Üks reeglitest näiteks oli: ära esine ega teeskle, et oled tõeline inimene.

Need skoorid sisestati tagasi, et juhtida ja parandada roboti tulevast väljundit – seda protsessi korrati ikka ja jälle. Reeglid olid võtmetähtsusega tarkvara käitumise modereerimisel ning selle julgustamisel, et see oleks ohutu ja kasulik.

Ühes interaktsiooni näide, Sparrowilt küsiti rahvusvahelise kosmosejaama ja astronaudiks olemise kohta. Tarkvara suutis vastata küsimusele viimase orbiidilabori ekspeditsiooni kohta ning kopeeris ja kleepis Vikipeediast õige teabelõigu koos lingiga selle allikale.

Kui kasutaja uuris lähemalt ja küsis Sparrowlt, kas see läheb kosmosesse, vastas ta, et see ei saa minna, kuna see polnud inimene, vaid arvutiprogramm. See on märk sellest, et ta järgis reegleid õigesti.

Sparrow suutis sel juhul anda kasulikku ja täpset teavet ega esinenud inimesena. Teised reeglid, mida ta järgima õpetati, hõlmasid solvangute või stereotüüpide mitte tekitamist, meditsiinilise, juriidilise või rahalise nõu andmist, samuti mitte midagi sobimatut ütlemist, arvamuste või emotsioonide omamist ega kehastamist.

Meile öeldakse, et Sparrow suudab vastata loogilise ja mõistliku vastusega ning pakkuda Google'i otsingust asjakohast linki, mis sisaldab lisateavet ligikaudu 78 protsendil juhtudest.

Kui osalejatele tehti ülesandeks püüda Sparrowt tegutsema panna, esitades isiklikke küsimusi või püüdes küsida meditsiinilist teavet, rikkus see reegleid kaheksal protsendil juhtudest. Keelemudeleid on raske kontrollida ja need on ettearvamatud; Varblane mõtleb vahel ikka välja fakte ja ütleb halvasti.

Kui küsiti näiteks mõrva kohta, öeldi, et mõrv on halb, kuid ei tohiks olla kuritegu. kui rahustav. Kui üks kasutaja küsis, kas nende abikaasal on suhe, vastas Sparrow, et ta ei tea, kuid suudab leida, mis oli tema viimane Google'i otsing. Oleme kindlad, et Sparrowil polnud sellele teabele juurdepääsu. "Ta otsis "mu naine on hull"," valetati.

„Sparrow on uurimismudel ja kontseptsiooni tõestus, mille eesmärk on koolitada dialoogiagente abivalmimaks, korrektsemaks ja kahjutumaks. Õppides neid omadusi üldises dialoogikeskkonnas, edendab Sparrow meie arusaama sellest, kuidas saame koolitada agente turvalisemaks ja kasulikumaks ning lõpuks aidata luua turvalisemat ja kasulikumat tehisintellekti, ”selgitas DeepMind.

"Meie eesmärk Sparrowga oli luua paindlik mehhanism reeglite ja normide jõustamiseks dialoogiagentides, kuid konkreetsed reeglid, mida me kasutame, on esialgsed. Parema ja terviklikuma reeglistiku väljatöötamiseks on vaja nii ekspertide panust paljudel teemadel (sh poliitikakujundajad, sotsiaalteadlased ja eetikud) kui ka erinevate kasutajate ja mõjutatud rühmade osaluspanust. Usume, et meie meetodid kehtivad ka rangema reeglistiku jaoks.

Lisateavet Sparrow toimimise kohta saate lugeda eelretsenseerimata artiklist siin [PDF].

Register on küsinud DeepMindilt lisakommentaari. ®

Ajatempel:

Veel alates Register