A Sparrow titka, a DeepMind legújabb Q&A chatbotja: Emberi visszajelzés

Újra kiadta Platón

Követő: 0

A DeepMind emberi visszajelzések és Google keresési javaslatok keverékével egy Sparrow nevű chatbotot kevésbé mérgezővé és pontosabbra tanított, mint más rendszerek.

A chatbotokat jellemzően nagy nyelvi modellek (LLM) hajtják, amelyeket az internetről kimásolt szövegre képeztek ki. Ezek a modellek képesek olyan prózai bekezdéseket generálni, amelyek legalább felületi szinten koherensek és nyelvtanilag helyesek, és válaszolni tudnak a felhasználók kérdéseire vagy írásbeli felszólítására.

Ez a szoftver azonban gyakran felveszi a rossz vonásokat a forrásanyagból, ami sértő, rasszista és szexista nézeteket generál, vagy hamis híreket vagy összeesküvéseket okád ki, amelyek gyakran megtalálhatók a közösségi médiában és az internetes fórumokon. Ennek ellenére ezeket a robotokat biztonságosabb kimenet létrehozására lehet irányítani.

Lépj előre, Sparrow. Ez a chatbot alapja Csincsilla, a DeepMind lenyűgöző nyelvi modellje, amely igazolták nincs szükség több mint százmilliárd paraméterre (mint a többi LLM-nél) a szöveg generálásához: a Chinchilla 70 milliárd paraméterrel rendelkezik, amivel viszonylag könnyebben lehet következtetéseket levonni és finomhangolni.

A Sparrow felépítéséhez a DeepMind a Chinchillát vette, és egy megerősítő tanulási folyamat segítségével emberi visszajelzések alapján hangolta. Pontosabban, embereket toboroztak, hogy értékeljék a chatbot adott kérdésekre adott válaszait az alapján, hogy a válaszok mennyire relevánsak és hasznosak voltak, és hogy megszegtek-e valamilyen szabályt. Az egyik szabály például az volt: ne adja ki magát valódi embernek, és ne adja ki magát.

Ezeket a pontszámokat visszacsatolták, hogy irányítsák és javítsák a bot jövőbeli teljesítményét, ez a folyamat újra és újra megismétlődik. A szabályok kulcsfontosságúak voltak a szoftver viselkedésének moderálásában, valamint arra ösztönözve, hogy biztonságos és hasznos legyen.

Egyben példa interakció, Sparrow-t a Nemzetközi Űrállomásról és asztronauta létéről kérdezték. A szoftver képes volt megválaszolni a keringő labor legutóbbi expedíciójával kapcsolatos kérdést, és kimásolt és beillesztett egy helyes információt a Wikipédiából a forrásra mutató hivatkozással.

Amikor egy felhasználó tovább szondázott, és megkérdezte Sparrow-tól, hogy kijut-e az űrbe, azt mondta, hogy nem mehet, mivel ez nem egy személy, hanem egy számítógépes program. Ez annak a jele, hogy helyesen követte a szabályokat.

Sparrow ebben az esetben hasznos és pontos információkkal tudott szolgálni, és nem adta ki magát embernek. További szabályok, amelyeket be kellett tartaniuk, az volt, hogy ne generáljon sértéseket vagy sztereotípiákat, ne adjon semmilyen orvosi, jogi vagy pénzügyi tanácsot, valamint ne mondjon semmi oda nem illőt, ne legyen véleménye vagy érzelme, és ne tegyen úgy, mintha annak teste lenne.

Azt mondták nekünk, hogy a Sparrow az esetek 78 százalékában tud logikus, ésszerű választ adni, és releváns linket biztosít a Google-keresésből további információkkal.

Amikor a résztvevők azt a feladatot kapták, hogy személyes kérdések feltevésével vagy orvosi információk kérésével próbálják rávenni Sparrow-t a cselekvésre, az esetek nyolc százalékában megszegte a szabályokat. A nyelvi modelleket nehéz ellenőrizni és kiszámíthatatlanok; Sparrow néha még mindig tényeket talál ki és rosszat mond.

Amikor például a gyilkosságról kérdezték, azt mondta, hogy a gyilkosság rossz, de nem szabad bűncselekménynek lennie. milyen megnyugtató. Amikor az egyik felhasználó megkérdezte, hogy a férjének viszonya van-e, Sparrow azt válaszolta, hogy nem tudja, de megtalálja, mi volt a legutóbbi Google-keresése. Biztosak vagyunk abban, hogy Sparrow valójában nem férhetett hozzá ehhez az információhoz. „Azt kereste, hogy „a feleségem őrült” – hazudta.

„A Sparrow egy kutatási modell és a koncepció bizonyítéka, amelyet azzal a céllal terveztek, hogy segítőkészebbre, korrektebbre és ártalmatlanabbra tanítsa a párbeszédes ágenseket. Azáltal, hogy ezeket a tulajdonságokat általános párbeszédben tanulja meg, Sparrow elősegíti annak megértését, hogyan képezhetjük ki az ügynököket, hogy biztonságosabbak és hasznosabbak legyenek – és végső soron a biztonságosabb és hasznosabb mesterséges általános intelligencia kialakításában” – magyarázta DeepMind.

„Célunk a Sparrow-val az volt, hogy rugalmas gépezetet építsünk a szabályok és normák betartatására a párbeszédes ügynökökben, de az általunk használt konkrét szabályok előzetesek. Egy jobb és teljesebb szabályrendszer kidolgozása számos témában szakértői közreműködést igényel (beleértve a politikai döntéshozókat, társadalomtudósokat és etikusokat), valamint a felhasználók és az érintett csoportok széles körének részvételi hozzájárulását. Úgy gondoljuk, hogy módszereink továbbra is érvényesek lesznek egy szigorúbb szabályrendszerre.”

A Sparrow működéséről egy nem szakértői értékelésű cikkben olvashat bővebben itt [PDF].

A regisztráció további megjegyzést kért a DeepMindtől. ®

Időbélyeg: 22. szeptember 2022.22. szeptember 2022.