O limbă IA tocmai învățată prin ochii și urechile unui copil mic

O limbă IA tocmai învățată prin ochii și urechile unui copil mic

Nodul sursă: 3092738

Sam avea șase luni când și-a atașat prima dată o cameră ușoară pe frunte.

Pentru următorul an și jumătate, camera a surprins fragmente din viața lui. S-a târât în ​​jurul animalelor de companie ale familiei, și-a privit părinții gătind și a plâns pe veranda din față cu bunica. În tot acest timp, camera a înregistrat tot ce a auzit.

Ceea ce sună ca un videoclip drăguț pentru copii mici este de fapt un concept îndrăzneț: poate AI să învețe limbajul ca un copil? Rezultatele ar putea dezvălui, de asemenea, modul în care copiii dobândesc rapid limbajul și conceptele la o vârstă fragedă.

Un nou studiu in Ştiinţă descrie modul în care cercetătorii au folosit înregistrările lui Sam pentru a antrena o inteligență artificială să înțeleagă limbajul. Cu doar o mică parte din experiența de viață a unui copil de peste un an, AI a reușit să înțeleagă concepte de bază, de exemplu, o minge, un fluture sau o găleată.

Inteligența artificială, numită Child's View for Contrastive Learning (CVCL), imită aproximativ modul în care învățăm în copilărie prin potrivirea vederii cu sunetul. Este o abordare foarte diferită de cea adoptată de modelele de limbaj mari precum cele în spatele ChatGPT sau Bard. Abilitatea neobișnuită a acestor modele de a crea eseuri, poezii sau chiar scenarii pentru podcast a încântat lumea. Dar ei trebuie să digere trilioane de cuvinte dintr-o mare varietate de articole de știri, scenarii și cărți pentru a dezvolta aceste abilități.

Copiii, dimpotrivă, învață cu mult mai puține contribuții și își generalizează rapid învățările pe măsură ce cresc. Oamenii de știință s-au întrebat de mult dacă AI poate capta aceste abilități doar cu experiențele de zi cu zi.

„Arătăm, pentru prima dată, că o rețea neuronală antrenată pe această contribuție realistă din punct de vedere al dezvoltării de la un singur copil poate învăța să conecteze cuvintele cu omologii lor vizuali”, autorul studiului, Dr. Wai Keen Vong de la Centrul pentru Știința Datelor de la NYU. a declarat într-un comunicat de presă despre cercetare.

Jocul copilului

Copiii absorb cu ușurință cuvintele și semnificațiile lor din experiența de zi cu zi.

La doar șase luni, ei încep să conecteze cuvintele cu ceea ce văd - de exemplu, o chestie rotundă care sărită este o „minge”. Până la vârsta de doi ani, ei cunosc aproximativ 300 de cuvinte și conceptele lor.

Oamenii de știință au dezbătut de mult cum se întâmplă acest lucru. O teorie spune că copiii învață să potrivească ceea ce văd cu ceea ce aud. Un altul sugerează că învățarea limbilor străine necesită o experiență mai largă a lumii, cum ar fi interacțiunea socială și capacitatea de a raționa.

Este greu să tachinezi aceste idei cu teste cognitive tradiționale la copii mici. Dar putem obține un răspuns antrenând o IA prin ochii și urechile unui copil.

M3GAN?

Noul studiu a folosit o resursă video bogată numită SAYCam, care include date colectate de la trei copii cu vârsta cuprinsă între 6 și 32 de luni, folosind camere asemănătoare GoPro, legate de frunte.

De două ori pe săptămână, camerele au înregistrat aproximativ o oră de filmări și sunet în timp ce alăptau, se târau și se jucau. Toate dialogurile audibile au fost transcrise în „enunțuri” – cuvinte sau propoziții rostite înainte ca vorbitorul sau conversația să se schimbe. Rezultatul este o mulțime de date multimedia din perspectiva bebelușilor și a copiilor mici.

Pentru noul sistem, echipa a proiectat două rețele neuronale cu un „judecător” care să le coordoneze. Unul a tradus imaginile la persoana întâi într-o scenă despre cine și ce - este o mamă care gătește? Celelalte cuvinte și semnificații au descifrat din înregistrările audio.

Cele două sisteme au fost apoi corelate în timp, astfel încât AI a învățat să asocieze imaginile corecte cu cuvintele. De exemplu, AI a învățat să potrivească o imagine a unui copil cu cuvintele „Uite, există un copil” sau o imagine a unei mingi de yoga cu „Wow, asta este o minge mare”. Odată cu antrenamentul, a învățat treptat să separe conceptul de minge de yoga de un copil.

„Acest lucru oferă modelului un indiciu cu privire la cuvintele care ar trebui să fie asociate cu ce obiecte”, a spus Vong.

Apoi, echipa a antrenat AI pe videoclipuri din aproximativ un an și jumătate din viața lui Sam. Împreună, a însumat peste 600,000 de cadre video, împreună cu 37,500 de enunțuri transcrise. Deși numerele sună mari, ele reprezintă aproximativ doar un procent din viața zilnică de veghe a lui Sam, comparativ cu cantitatea de date folosită pentru a antrena modele mari de limbaj.

Baby AI în ascensiune

Pentru a testa sistemul, echipa a adaptat un test cognitiv comun folosit pentru a măsura abilitățile lingvistice ale copiilor. I-au arătat AI patru imagini noi — o pisică, un pătuț, o minge și un gazon — și au întrebat care dintre ele este mingea.

În general, AI a ales imaginea corectă în aproximativ 62 la sută din timp. Performanța aproape s-a egalat cu un algoritm de ultimă generație antrenat pe 400 de milioane de perechi de imagini și text de pe web - ordine de mărime mai multe date decât cele folosite pentru a antrena AI în studiu. Ei au descoperit că legarea imaginilor video cu audio era crucială. Când echipa a amestecat cadrele video și enunțurile asociate acestora, modelul s-a stricat complet.

AI ar putea, de asemenea, să „gândească” în afara cutiei și să generalizeze la situații noi.

Într-un alt test, a fost instruit pe perspectiva lui Sam asupra unei cărți ilustrate, așa cum părintele său a spus: „Este o rață și un fluture”. Mai târziu, a ridicat un fluture de jucărie când a fost întrebat: „Poți să faci fluturele?” Când a fost contestat cu imagini multicolore cu fluturi – cele pe care AI nu le-a văzut niciodată până acum – a detectat trei din patru exemple de „fluture” cu o precizie de peste 80 la sută.

Nu toate conceptele de cuvinte au avut același punctaj. De exemplu, „lingura” a fost o luptă. Dar merită subliniat că, ca un dur reCAPTCHA, imaginile de antrenament au fost greu de descifrat chiar și pentru un om.

Growing Pains

AI se bazează pe progresele recente în învățarea automată multimodală, care combină text, imagini, audio sau video pentru a antrena creierul unei mașini.

Cu contribuții din experiența unui singur copil, algoritmul a reușit să surprindă modul în care cuvintele se relaționează între ele și să lege cuvintele de imagini și concepte. Acesta sugerează că pentru copiii mici care aud cuvinte și le potrivesc cu ceea ce văd îi ajută să-și construiască vocabularul.

Asta nu înseamnă că alte procese ale creierului, cum ar fi indiciile sociale și raționamentul, nu intră în joc. Adăugarea acestor componente la algoritm l-ar putea îmbunătăți, au scris autorii.

Echipa plănuiește să continue experimentul. Deocamdată, AI „bebeluș” învață doar din cadre de imagini statice și are un vocabular compus în mare parte din substantive. Integrarea segmentelor video în instruire ar putea ajuta AI să învețe verbe, deoarece videoclipul include mișcare.

Adăugarea intonației datelor de vorbire ar putea, de asemenea, ajuta. Copiii învață devreme că „hmm” al unei mame poate avea semnificații foarte diferite în funcție de ton.

Dar, în general, combinarea AI și a experiențelor de viață este o nouă metodă puternică de a studia atât creierul mașinilor, cât și cel uman. Ne-ar putea ajuta să dezvoltăm noi modele de inteligență artificială care învață ca copiii și, potențial, să ne remodeleze înțelegerea modului în care creierul nostru învață limbajul și conceptele.

Credit imagine: Wai Keen Vong

Timestamp-ul:

Mai mult de la Singularity Hub