Reševanje skrivnosti strojnega učenja

Reševanje skrivnosti strojnega učenja

Izvorno vozlišče: 1944875
07. februarja 2023 (Nanowerk novice) Veliki jezikovni modeli, kot je OpenAI's GPT-3, so ogromna nevronska omrežja, ki lahko ustvarijo človeško podobno besedilo, od poezije do programske kode. Ti modeli strojnega učenja, ki so bili usposobljeni z uporabo nabora internetnih podatkov, vzamejo majhen košček vnesenega besedila in nato predvidijo besedilo, ki bo verjetno sledilo. Vendar to ni vse, kar ti modeli zmorejo. Raziskovalci raziskujejo nenavaden pojav, znan kot učenje v kontekstu, pri katerem se velik jezikovni model nauči izpolniti nalogo, potem ko je videl le nekaj primerov - kljub dejstvu, da ni bil usposobljen za to nalogo. Na primer, nekdo bi lahko modelu posredoval več primerov stavkov in njihovih občutkov (pozitivnih ali negativnih), nato pa ga pozval z novim stavkom in model bi lahko dal pravilno mnenje. Običajno bi bilo treba model strojnega učenja, kot je GPT-3, znova usposobiti z novimi podatki za to novo nalogo. Med tem procesom usposabljanja model posodablja svoje parametre, ko obdeluje nove informacije za učenje naloge. Toda pri učenju v kontekstu se parametri modela ne posodobijo, zato se zdi, kot da se model nauči nove naloge, ne da bi se sploh česa naučil. Znanstveniki z MIT, Google Research in Univerze Stanford si prizadevajo razvozlati to skrivnost. Preučevali so modele, ki so zelo podobni velikim jezikovnim modelom, da bi videli, kako se lahko učijo brez posodabljanja parametrov. Teoretični rezultati raziskovalcev kažejo, da so ti masivni modeli nevronske mreže sposobni vsebovati manjše, enostavnejše linearne modele, ki so zakopani v njih. Veliki model bi nato lahko implementiral preprost učni algoritem za usposabljanje tega manjšega, linearnega modela za dokončanje nove naloge z uporabo samo informacij, ki jih že vsebuje večji model. Njegovi parametri ostanejo fiksni. Pomemben korak k razumevanju mehanizmov za učenjem v kontekstu, ta raziskava odpira vrata k nadaljnjemu raziskovanju učnih algoritmov, ki jih ti veliki modeli lahko izvajajo, pravi Ekin Akyürek, podiplomski študent računalništva in glavni avtor prispevka (»Kakšen učni algoritem je učenje v kontekstu? Raziskave z linearnimi modeli”) raziskovanje tega pojava. Z boljšim razumevanjem učenja v kontekstu bi raziskovalci lahko modelom omogočili dokončanje novih nalog brez potrebe po dragem prekvalificiranju. »Običajno, če želite natančno prilagoditi te modele, morate zbrati podatke, specifične za domeno, in narediti nekaj zapletenega inženiringa. Zdaj pa mu lahko samo dodamo vnos, pet primerov, in dosegel bo, kar želimo. Učenje v kontekstu je torej precej vznemirljiv pojav,« pravi Akyürek. Akyüreku se na papirju pridružijo Dale Schuurmans, raziskovalec pri Google Brain in profesor računalništva na Univerzi v Alberti; kot tudi višji avtorji Jacob Andreas, docent konzorcija X na Oddelku za elektrotehniko in računalništvo MIT ter član Laboratorija za računalništvo in umetno inteligenco MIT (CSAIL); Tengyu Ma, docent za računalništvo in statistiko na Stanfordu; in Danny Zhou, glavni znanstvenik in raziskovalni direktor pri Google Brain. Raziskava bo predstavljena na mednarodni konferenci o učečih se reprezentacijah.

Model v modelu

V raziskovalni skupnosti strojnega učenja je veliko znanstvenikov prišlo do prepričanja, da lahko veliki jezikovni modeli izvajajo učenje v kontekstu zaradi tega, kako so usposobljeni, pravi Akyürek. GPT-3 ima na primer na stotine milijard parametrov in je bil usposobljen z branjem ogromnih kosov besedila na internetu, od člankov v Wikipediji do objav na Redditu. Torej, ko nekdo pokaže modelne primere nove naloge, je verjetno že videl nekaj zelo podobnega, ker je njegov nabor podatkov o usposabljanju vključeval besedilo z milijard spletnih mest. Ponavlja vzorce, ki jih je videl med treningom, namesto da bi se naučil izvajati nove naloge. Akyürek je domneval, da se učenci v kontekstu ne ujemajo le s prej videnimi vzorci, temveč se dejansko učijo izvajati nove naloge. On in drugi so eksperimentirali tako, da so tem modelom dajali pozive z uporabo sintetičnih podatkov, ki jih prej niso mogli videti nikjer, in ugotovili, da se modeli še vedno lahko učijo iz le nekaj primerov. Akyürek in njegovi kolegi so mislili, da imajo morda ti modeli nevronske mreže v sebi manjše modele strojnega učenja, ki jih lahko usposobijo za dokončanje nove naloge. "To bi lahko pojasnilo skoraj vse pojave učenja, ki smo jih videli pri teh velikih modelih," pravi. Da bi preizkusili to hipotezo, so raziskovalci uporabili model nevronske mreže, imenovan transformator, ki ima enako arhitekturo kot GPT-3, vendar je bil posebej usposobljen za učenje v kontekstu. Z raziskovanjem arhitekture tega transformatorja so teoretično dokazali, da lahko napiše linearni model znotraj svojih skritih stanj. Nevronska mreža je sestavljena iz številnih plasti med seboj povezanih vozlišč, ki obdelujejo podatke. Skrita stanja so plasti med vhodno in izhodno plastjo. Njihove matematične ocene kažejo, da je ta linearni model zapisan nekje v najzgodnejših slojih transformatorja. Transformator lahko nato posodobi linearni model z implementacijo preprostih učnih algoritmov. V bistvu model simulira in usposablja manjšo različico samega sebe.

Preiskovanje skritih plasti

Raziskovalci so to hipotezo raziskali s poskusi sondiranja, kjer so pogledali v skrite plasti transformatorja, da bi poskušali pridobiti določeno količino. »V tem primeru smo poskušali obnoviti dejansko rešitev linearnega modela in lahko smo pokazali, da je parameter zapisan v skritih stanjih. To pomeni, da je linearni model nekje notri,« pravi. Na podlagi tega teoretičnega dela bodo raziskovalci morda lahko omogočili transformatorju, da izvede učenje v kontekstu, tako da bodo nevronski mreži dodali samo dve plasti. Akyürek opozarja, da je še veliko tehničnih podrobnosti, ki jih je treba dodelati, preden bi bilo to mogoče, vendar bi lahko inženirjem pomagalo ustvariti modele, ki lahko dokončajo nove naloge brez potrebe po ponovnem usposabljanju z novimi podatki. Akyürek načrtuje nadaljevanje raziskovanja učenja v kontekstu s funkcijami, ki so bolj zapletene od linearnih modelov, ki so jih proučevali v tem delu. Te poskuse bi lahko uporabili tudi na velikih jezikovnih modelih, da bi ugotovili, ali je njihovo vedenje opisano tudi s preprostimi učnimi algoritmi. Poleg tega se želi poglobiti v vrste podatkov pred usposabljanjem, ki lahko omogočijo učenje v kontekstu. »S tem delom si lahko ljudje zdaj predstavljajo, kako se lahko ti modeli učijo od primerkov. Zato upam, da spremeni poglede nekaterih ljudi na učenje v kontekstu,« pravi Akyürek. »Ti modeli niso tako neumni, kot si ljudje mislijo. Teh nalog si ne zapomnijo samo. Lahko se naučijo novih nalog in pokazali smo, kako je to mogoče.«

Časovni žig:

Več od Nanowerk