Koneoppimisen mysteerin ratkaiseminen

Koneoppimisen mysteerin ratkaiseminen

Lähdesolmu: 1944875
07. helmikuuta 2023 (Nanowerk-uutiset) Suuret kielimallit, kuten OpenAI:n GPT-3, ovat valtavia hermoverkkoja, jotka voivat tuottaa ihmisen kaltaista tekstiä runoudesta ohjelmointikoodiin. Nämä koneoppimismallit, jotka on koulutettu käyttämällä Internet-dataa, ottavat pienen osan syöttötekstiä ja ennustavat sitten tekstin, joka todennäköisesti tulee seuraavaksi. Mutta tämä ei ole kaikki, mitä nämä mallit voivat tehdä. Tutkijat tutkivat outoa ilmiötä, joka tunnetaan nimellä konteksti-oppiminen, jossa suuri kielimalli oppii suorittamaan tehtävän nähtyään vain muutaman esimerkin – huolimatta siitä, ettei sitä ole koulutettu tähän tehtävään. Joku voisi esimerkiksi syöttää mallille useita esimerkkilauseita ja niiden tunteita (positiivisia tai negatiivisia), sitten pyytää sitä uudella lauseella, jolloin malli osaa antaa oikean tunteen. Tyypillisesti koneoppimismalli, kuten GPT-3, on koulutettava uudelleen uusilla tiedoilla tätä uutta tehtävää varten. Tämän koulutusprosessin aikana malli päivittää parametrejaan, kun se käsittelee uutta tietoa oppiakseen tehtävän. Mutta kontekstin sisäisessä oppimisessa mallin parametreja ei päivitetä, joten näyttää siltä, ​​​​että malli oppii uuden tehtävän oppimatta yhtään mitään. MIT:n, Google Researchin ja Stanfordin yliopiston tutkijat yrittävät selvittää tätä mysteeriä. He tutkivat malleja, jotka ovat hyvin samankaltaisia ​​suuria kielimalleja, jotta he voivat oppia ilman parametrien päivittämistä. Tutkijoiden teoreettiset tulokset osoittavat, että nämä massiiviset neuroverkkomallit pystyvät sisältämään pienempiä, yksinkertaisempia lineaarisia malleja sisäänsä. Suuri malli voisi sitten toteuttaa yksinkertaisen oppimisalgoritmin tämän pienemmän, lineaarisen mallin kouluttamiseksi suorittamaan uusi tehtävä käyttämällä vain suurempaan malliin jo sisältyviä tietoja. Sen parametrit pysyvät ennallaan. Tärkeä askel kohti kontekstin sisäisen oppimisen taustalla olevien mekanismien ymmärtämistä, tämä tutkimus avaa oven laajemmalle tutkimiselle oppimisalgoritmeista, joita nämä suuret mallit voivat toteuttaa, sanoo tietojenkäsittelytieteen jatko-opiskelija ja artikkelin johtava kirjoittaja Ekin Akyürek (“What learning algorithm is in-context learning? Investigations with linear models”) tutkia tätä ilmiötä. Ymmärtämällä paremmin kontekstin sisäistä oppimista tutkijat voisivat antaa mallille mahdollisuuden suorittaa uusia tehtäviä ilman kallista uudelleenkoulutusta. "Yleensä, jos haluat hienosäätää näitä malleja, sinun on kerättävä toimialuekohtaisia ​​tietoja ja tehtävä monimutkaista suunnittelua. Mutta nyt voimme vain syöttää sille syötteen, viisi esimerkkiä, ja se saavuttaa sen, mitä haluamme. Kontekstin sisäinen oppiminen on siis melko jännittävä ilmiö”, Akyürek sanoo. Akyürekin mukana ovat Dale Schuurmans, Google Brainin tutkija ja Albertan yliopiston tietojenkäsittelytieteen professori; sekä vanhemmat kirjailijat Jacob Andreas, X-konsortion apulaisprofessori MIT:n sähkötekniikan ja tietojenkäsittelytieteen laitoksella ja MIT:n tietojenkäsittelytieteen ja tekoälyn laboratorion (CSAIL) jäsen; Tengyu Ma, tietojenkäsittelytieteen ja tilastotieteen apulaisprofessori Stanfordissa; ja Danny Zhou, Google Brainin johtava tutkija ja tutkimusjohtaja. Tutkimus esitellään International Conference on Learning Representations -konferenssissa.

Malli mallissa

Koneoppimisen tutkimusyhteisössä monet tutkijat ovat tulleet uskomaan, että suuret kielimallit voivat suorittaa kontekstissa tapahtuvaa oppimista, koska ne on koulutettu, Akyürek sanoo. Esimerkiksi GPT-3:ssa on satoja miljardeja parametreja, ja se on koulutettu lukemalla valtavia tekstiä Internetissä Wikipedia-artikkeleista Reddit-viesteihin. Joten kun joku näyttää malliesimerkkejä uudesta tehtävästä, se on todennäköisesti jo nähnyt jotain hyvin samankaltaista, koska sen koulutustietojoukko sisälsi tekstiä miljardeista verkkosivustoista. Se toistaa harjoittelun aikana näkemänsä kuviot sen sijaan, että se oppisi suorittamaan uusia tehtäviä. Akyürek oletti, että kontekstissa oppijat eivät vain sovi yhteen aiemmin nähtyihin malleihin, vaan oppivat itse asiassa suorittamaan uusia tehtäviä. Hän ja muut olivat kokeilleet antamalla näille malleille kehotteita käyttämällä synteettistä dataa, jota he eivät olleet nähneet missään aiemmin, ja havaitsivat, että mallit voisivat silti oppia muutamasta esimerkistä. Akyürek ja hänen kollegansa ajattelivat, että ehkä näissä hermoverkkomalleissa on pienempiä koneoppimismalleja, joita mallit voivat harjoitella suorittamaan uusi tehtävä. "Se voisi selittää melkein kaikki oppimisilmiöt, jotka olemme nähneet näissä suurissa malleissa", hän sanoo. Tämän hypoteesin testaamiseksi tutkijat käyttivät muuntajaksi kutsuttua neuroverkkomallia, jolla on sama arkkitehtuuri kuin GPT-3:lla, mutta joka oli erityisesti koulutettu kontekstin sisäiseen oppimiseen. Tutkimalla tämän muuntajan arkkitehtuuria he osoittivat teoreettisesti, että se pystyy kirjoittamaan lineaarisen mallin piilotiloihinsa. Neuraaliverkko koostuu useista kerroksista toisiinsa kytkettyjä solmuja, jotka käsittelevät tietoja. Piilotetut tilat ovat syöttö- ja lähtökerrosten välisiä kerroksia. Heidän matemaattiset arvionsa osoittavat, että tämä lineaarinen malli on kirjoitettu jonnekin muuntajan varhaisimpiin kerroksiin. Muuntaja voi sitten päivittää lineaarisen mallin toteuttamalla yksinkertaisia ​​oppimisalgoritmeja. Pohjimmiltaan malli simuloi ja kouluttaa pienempää versiota itsestään.

Piilotettujen kerrosten tutkiminen

Tutkijat tutkivat tätä hypoteesia luotauskokeiden avulla, joissa he katsoivat muuntajan piilotettuja kerroksia yrittääkseen palauttaa tietyn määrän. ”Tässä tapauksessa yritimme palauttaa varsinaisen ratkaisun lineaariseen malliin ja pystyimme osoittamaan, että parametri on kirjoitettu piilotiloihin. Tämä tarkoittaa, että lineaarinen malli on jossain sisällä”, hän sanoo. Tämän teoreettisen työn pohjalta tutkijat saattavat pystyä mahdollistamaan muuntajan suorittamaan kontekstin sisäistä oppimista lisäämällä vain kaksi kerrosta hermoverkkoon. Monia teknisiä yksityiskohtia on vielä selvitettävä, ennen kuin se olisi mahdollista, Akyürek varoittaa, mutta se voi auttaa insinöörejä luomaan malleja, jotka voivat suorittaa uusia tehtäviä ilman, että tarvitsee koulutusta uusilla tiedoilla. Eteenpäin Akyürek aikoo jatkaa kontekstin sisäisen oppimisen tutkimista funktioilla, jotka ovat monimutkaisempia kuin tässä työssä tutkitut lineaariset mallit. He voisivat myös soveltaa näitä kokeita suuriin kielimalleihin nähdäkseen, kuvataanko heidän käyttäytymistään myös yksinkertaisilla oppimisalgoritmeilla. Lisäksi hän haluaa kaivaa syvemmälle esikoulutusdatan tyyppeihin, jotka voivat mahdollistaa kontekstin sisäisen oppimisen. ”Tämän työn avulla ihmiset voivat nyt visualisoida, kuinka nämä mallit voivat oppia esimerkeistä. Toivon siis, että se muuttaa joidenkin ihmisten näkemyksiä kontekstin sisäisestä oppimisesta”, Akyürek sanoo. "Nämä mallit eivät ole niin tyhmiä kuin ihmiset luulevat. He eivät vain muista näitä tehtäviä. He voivat oppia uusia tehtäviä, ja olemme osoittaneet, kuinka se voidaan tehdä."

Aikaleima:

Lisää aiheesta Nanowerk