Tekoäly juuri oppinut kieli taaperon silmien ja korvien kautta

Julkaissut Platon

seuraajia: 0

Sam oli kuuden kuukauden ikäinen, kun hän kiinnitti kevyen kameran otsaansa.

Seuraavan puolentoista vuoden ajan kamera tallensi katkelmia hänen elämästään. Hän ryömi perheen lemmikkien ympärillä, katseli vanhempiensa ruoanlaittoa ja itki esikuistilla isoäidin kanssa. Koko ajan kamera tallensi kaiken, mitä hän kuuli.

Se, mikä kuulostaa söpöltä taaperon kotivideolta, on itse asiassa rohkea idea: Voiko tekoäly oppia kieltä kuin lapsi? Tulokset voivat myös paljastaa, kuinka lapset oppivat nopeasti kielen ja käsitteet varhaisessa iässä.

Uusi tutkimus in tiede kuvailee, kuinka tutkijat käyttivät Samin tallenteita kouluttaakseen tekoälyä ymmärtämään kieltä. Vain pienen osan yhden lapsen yli vuoden elämänkokemuksesta tekoäly kykeni ymmärtämään peruskäsitteet – esimerkiksi pallon, perhonen tai ämpäri.

Tekoäly, nimeltään Child's View for Contrastive Learning (CVCL), jäljittelee karkeasti tapaa, jolla opimme taaperoina yhdistämällä näön ja äänen. Se on hyvin erilainen lähestymistapa kuin suurten kielimallien kaltaiset ChatGPT:n tai Bardin takana. Näiden mallien uskomaton kyky luoda esseitä, runoja tai jopa podcast-käsikirjoituksia on kiehtonut maailmaa. Mutta heidän on sulatettava biljoonia sanoja useista uutisartikkeleista, käsikirjoituksista ja kirjoista kehittääkseen näitä taitoja.

Lapset sitä vastoin oppivat paljon pienemmällä panoksella ja yleistävät oppimaansa nopeasti kasvaessaan. Tiedemiehet ovat pitkään pohtineet, pystyykö tekoäly vangitsemaan nämä kyvyt pelkällä jokapäiväisillä kokemuksilla.

"Näytämme ensimmäistä kertaa, että neuroverkko, joka on koulutettu tämän kehityksen kannalta realistisen yhden lapsen syötteen perusteella, voi oppia yhdistämään sanoja visuaalisiin vastineisiinsa", tutkimuksen kirjoittaja tohtori Wai Keen Vong NYU:n Data Science -keskuksesta. sanoi lehdistötiedotteessa tutkimuksesta.

Lastenleikkiä

Lapset imevät helposti sanoja ja niiden merkityksiä jokapäiväisestä kokemuksesta.

Vain kuuden kuukauden iässä he alkavat yhdistää sanoja näkemäänsä – esimerkiksi pyöreä pomppiva esine on "pallo". Kahden vuoden iässä he osaavat noin 300 sanaa ja niiden käsitteitä.

Tiedemiehet ovat pitkään keskustelleet siitä, miten tämä tapahtuu. Erään teorian mukaan lapset oppivat sovittamaan näkemäänsä kuulemaansa. Toinen ehdottaa, että kieltenoppiminen vaatii laajempaa kokemusta maailmasta, kuten sosiaalista vuorovaikutusta ja järkeilykykyä.

Näitä ideoita on vaikea erottaa perinteisillä pikkulasten kognitiivisilla testeillä. Mutta voimme saada vastauksen kouluttamalla tekoälyä lapsen silmien ja korvien kautta.

M3GAN?

Uusi tutkimus hyödyntää rikasta videoresurssia nimeltä SAYCam, joka sisältää tiedot, jotka on kerätty kolmelta 6–32 kuukauden ikäiseltä lapselta käyttämällä GoPron kaltaisia kameroita, jotka on kiinnitetty heidän otsaansa.

Kahdesti viikossa kamerat tallensivat noin tunnin verran materiaalia ja ääntä imettäessään, ryömiessään ja leikkiessään. Kaikki kuultava dialogi kirjoitettiin "puheiksi" - sanoiksi tai lauseiksi, jotka puhuttiin ennen kuin puhuja tai keskustelu vaihtuu. Tuloksena on runsaasti multimediadataa vauvojen ja taaperoiden näkökulmasta.

Uutta järjestelmää varten tiimi suunnitteli kaksi hermoverkkoa, jonka "tuomari" koordinoi niitä. Eräs käänsi ensimmäisen persoonan visuaaliset kuvat kuka ja mikä kohtaukseksi – onko se äiti ruoanlaitto? Muut selvittivät sanat ja merkitykset äänitallenteista.

Nämä kaksi järjestelmää korreloivat sitten ajassa, joten tekoäly oppi yhdistämään oikeat visuaalit sanoihin. Tekoäly oppi esimerkiksi yhdistämään kuvan vauvasta sanoihin "Katso, siellä on vauva" tai kuvan joogapallosta sanaan "Vau, se on iso pallo". Harjoittelun myötä se oppi vähitellen erottamaan joogapallon käsitteen vauvasta.

"Tämä antaa mallille vihjeen siitä, mitkä sanat pitäisi liittää mihinkin esineeseen", Vong sanoi.

Sitten tiimi koulutti tekoälyä videoilla noin puolentoista vuoden ajalta Samin elämästä. Yhdessä se oli yli 600,000 37,500 videokehystä ja XNUMX XNUMX litteroitua lausumaa. Vaikka luvut kuulostavat suurilta, ne ovat karkeasti vain yksi prosentti Samin päivittäisestä valveillaolosta ja pähkinöitä verrattuna suurten kielimallien kouluttamiseen käytettyyn datamäärään.

Baby AI on nousussa

Järjestelmän testaamiseksi tiimi sopeutti yhteisen kognitiivisen testin, jolla mitattiin lasten kielitaitoja. He näyttivät tekoälylle neljä uutta kuvaa – kissa, pinnasänky, pallo ja nurmikko – ja kysyivät, kumpi oli pallo.

Kaiken kaikkiaan tekoäly valitsi oikean kuvan noin 62 prosenttia ajasta. Suorituskyky vastasi melkein huippuluokan algoritmia, joka oli koulutettu 400 miljoonalle verkosta tulevalle kuva- ja tekstiparille – suuruusluokkaa enemmän dataa kuin mitä käytettiin tekoälyn kouluttamiseen tutkimuksessa. He havaitsivat, että videokuvien yhdistäminen ääneen oli ratkaisevan tärkeää. Kun tiimi sekoitti videoruutuja ja niihin liittyviä lausumia, malli hajosi täysin.

Tekoäly voisi myös "ajatella" laatikon ulkopuolella ja yleistää uusiin tilanteisiin.

Toisessa testissä sitä opetettiin Samin näkökulmasta kuvakirjaan, kuten hänen vanhempansa sanoi: "Se on ankka ja perhonen." Myöhemmin hän kohotti leluperhosta, kun häneltä kysyttiin: "Osaatko tehdä perhosen?" Kun se haastoi monivärisillä perhoskuvilla – sellaisia, joita tekoäly ei ollut koskaan nähnyt – se havaitsi kolme neljästä esimerkistä "perhoselle" yli 80 prosentin tarkkuudella.

Kaikki sanakäsitteet eivät saaneet samaa arvoa. Esimerkiksi "lusikka" oli taistelua. Mutta se on syytä huomauttaa, että kuin kova reCAPTCHA, harjoituskuvat olivat vaikeasti selvitettäviä jopa ihmiselle.

Kasvukivut

- Tekoäly perustuu viimeaikaisiin edistysaskeliin multimodaalisessa koneoppimisessa, joka yhdistää tekstiä, kuvia, ääntä tai videota koneaivojen kouluttamiseksi.

Vain yhden lapsen kokemuksen perusteella algoritmi pystyi vangitsemaan, miten sanat liittyvät toisiinsa ja linkittämään sanat kuviin ja käsitteisiin. Se viittaa siihen, että taaperoille sanojen kuuleminen ja niiden yhdistäminen näkemäänsä auttaa rakentamaan sanavarastoaan.

Tämä ei tarkoita sitä, että muut aivoprosessit, kuten sosiaaliset vihjeet ja päättely, eivät tule mukaan. Näiden komponenttien lisääminen algoritmiin voisi mahdollisesti parantaa sitä, kirjoittajat kirjoittivat.

Ryhmä aikoo jatkaa kokeilua. Toistaiseksi "vauvan" tekoäly oppii vain still-kuvien kehyksistä, ja sen sanasto koostuu enimmäkseen substantiivista. Videosegmenttien integrointi koulutukseen voisi auttaa tekoälyä oppimaan verbejä, koska video sisältää liikkeen.

Intonaation lisääminen puhedataan voisi myös auttaa. Lapset oppivat varhain, että äidin "hmm"-sanalla voi olla hyvin erilaisia merkityksiä sävyn mukaan.

Mutta kaiken kaikkiaan tekoälyn ja elämänkokemusten yhdistäminen on tehokas uusi menetelmä sekä kone- että ihmisen aivojen tutkimiseen. Se voisi auttaa meitä kehittämään uusia tekoälymalleja, jotka oppivat kuten lapset, ja mahdollisesti muokkaamaan ymmärrystämme siitä, kuinka aivomme oppivat kieltä ja käsitteitä.

Kuvan luotto: Wai Keen Vong