Un'intelligenza artificiale ha appena imparato la lingua attraverso gli occhi e le orecchie di un bambino

Ripubblicato da Platone

Seguaci: 0

Sam aveva sei mesi quando per la prima volta si legò una macchina fotografica leggera sulla fronte.

Per il prossimo anno e mezzo, la telecamera ha catturato frammenti della sua vita. Strisciava intorno agli animali domestici della famiglia, guardava i suoi genitori cucinare e piangeva sulla veranda con la nonna. Nel frattempo, la telecamera ha registrato tutto ciò che ha sentito.

Quello che sembra un simpatico video casalingo per bambini è in realtà un concetto audace: l'intelligenza artificiale può imparare la lingua come un bambino? I risultati potrebbero anche rivelare come i bambini acquisiscano rapidamente linguaggio e concetti in tenera età.

Un nuovo studio in Scienze descrive come i ricercatori hanno utilizzato le registrazioni di Sam per addestrare un'intelligenza artificiale a comprendere il linguaggio. Con solo una piccola parte dell'esperienza di vita di un bambino nell'arco di un anno, l'intelligenza artificiale è stata in grado di cogliere concetti di base, ad esempio una palla, una farfalla o un secchio.

L'intelligenza artificiale, chiamata Child's View for Contrastive Learning (CVCL), imita approssimativamente il modo in cui apprendiamo da bambini abbinando la vista all'udito. È un approccio molto diverso da quello adottato da grandi modelli linguistici come questi dietro ChatGPT o Bard. La straordinaria capacità di questi modelli di creare saggi, poesie o persino script di podcast ha entusiasmato il mondo. Ma per sviluppare queste capacità hanno bisogno di digerire trilioni di parole da un’ampia varietà di articoli di notizie, sceneggiature e libri.

I bambini, al contrario, imparano con molti meno input e generalizzano rapidamente ciò che hanno appreso man mano che crescono. Gli scienziati si chiedono da tempo se l’intelligenza artificiale possa catturare queste abilità solo con le esperienze quotidiane.

"Mostriamo, per la prima volta, che una rete neurale addestrata su questo input realistico dal punto di vista dello sviluppo da un singolo bambino può imparare a collegare le parole alle loro controparti visive", l'autore dello studio Dr. Wai Keen Vong presso il Center for Data Science della New York University ha detto in un comunicato stampa sulla ricerca.

Gioco da ragazzi

I bambini assorbono facilmente le parole e il loro significato dall'esperienza quotidiana.

A soli sei mesi iniziano a collegare le parole a ciò che vedono: ad esempio, una cosa rotonda e rimbalzante è una "palla". A due anni conoscono circa 300 parole e i relativi concetti.

Gli scienziati hanno a lungo dibattuto su come ciò avvenga. Una teoria dice che i bambini imparano ad abbinare ciò che vedono a ciò che sentono. Un altro suggerisce che l’apprendimento delle lingue richieda un’esperienza più ampia del mondo, come l’interazione sociale e la capacità di ragionare.

È difficile separare queste idee con i tradizionali test cognitivi nei bambini piccoli. Ma potremmo ottenere una risposta addestrando un’intelligenza artificiale attraverso gli occhi e le orecchie di un bambino.

M3GAN?

Il nuovo studio ha sfruttato una ricca risorsa video chiamata SAYCam, che include i dati raccolti da tre bambini di età compresa tra 6 e 32 mesi utilizzando fotocamere simili a GoPro fissate sulla fronte.

Due volte alla settimana, le telecamere hanno registrato circa un'ora di filmati e audio mentre allattavano, gattonavano e giocavano. Tutto il dialogo udibile è stato trascritto in “espressioni”: parole o frasi pronunciate prima che l’oratore o la conversazione cambiassero. Il risultato è una ricchezza di dati multimediali dal punto di vista di neonati e bambini piccoli.

Per il nuovo sistema, il team ha progettato due reti neurali con un “giudice” per coordinarle. Uno ha tradotto le immagini in prima persona nei chi e cosa di una scena: è una mamma che cucina? Gli altri decifrarono parole e significati dalle registrazioni audio.

I due sistemi sono stati poi correlati nel tempo in modo che l’intelligenza artificiale imparasse ad associare le immagini corrette alle parole. Ad esempio, l’intelligenza artificiale ha imparato ad abbinare l’immagine di un bambino alle parole “Guarda, c’è un bambino” o l’immagine di una palla da yoga a “Wow, quella è una palla grande”. Con l'allenamento, ha gradualmente imparato a separare il concetto di palla da yoga da quello di un bambino.

"Ciò fornisce al modello un indizio su quali parole dovrebbero essere associate a quali oggetti", ha detto Vong.

Il team ha poi addestrato l'intelligenza artificiale sui video di circa un anno e mezzo di vita di Sam. Insieme, ammontavano a oltre 600,000 fotogrammi video, abbinati a 37,500 espressioni trascritte. Anche se i numeri sembrano grandi, rappresentano solo l’XNUMX% della vita quotidiana di Sam e noccioline rispetto alla quantità di dati utilizzati per addestrare grandi modelli linguistici.

L'intelligenza artificiale per bambini è in aumento

Per testare il sistema, il team ha adattato un test cognitivo comune utilizzato per misurare le abilità linguistiche dei bambini. Hanno mostrato all’intelligenza artificiale quattro nuove immagini – un gatto, una culla, una palla e un prato – e hanno chiesto quale fosse la palla.

Nel complesso, l’intelligenza artificiale ha scelto l’immagine corretta circa il 62% delle volte. Le prestazioni hanno quasi eguagliato un algoritmo all’avanguardia addestrato su 400 milioni di coppie di immagini e testo dal web: ordini di grandezza in più di dati rispetto a quelli utilizzati per addestrare l’intelligenza artificiale nello studio. Hanno scoperto che collegare le immagini video con l’audio era fondamentale. Quando il team ha mescolato i fotogrammi video e le relative espressioni, il modello si è completamente rotto.

L’intelligenza artificiale potrebbe anche “pensare” fuori dagli schemi e generalizzare a nuove situazioni.

In un altro test, è stato addestrato sulla prospettiva di Sam di un libro illustrato mentre i suoi genitori dicevano: "Sono un'anatra e una farfalla". Più tardi, ha mostrato una farfalla giocattolo quando gli è stato chiesto: "Puoi fare la farfalla?" Quando è stato confrontato con immagini di farfalle multicolori, che l’intelligenza artificiale non aveva mai visto prima, ha rilevato tre esempi su quattro di “farfalla” con una precisione superiore all’80%.

Non tutti i concetti verbali hanno ottenuto lo stesso punteggio. Ad esempio, "cucchiaio" era una lotta. Ma vale la pena sottolinearlo, da duro reCAPTCHA, le immagini dell'addestramento erano difficili da decifrare anche per un essere umano.

Growing Pains

I L’intelligenza artificiale si basa sui recenti progressi nell’apprendimento automatico multimodale, che combina testo, immagini, audio o video per allenare il cervello di una macchina.

Con il contributo dell'esperienza di un singolo bambino, l'algoritmo è stato in grado di catturare il modo in cui le parole si relazionano tra loro e collegare le parole a immagini e concetti. Suggerisce che per i bambini piccoli ascoltare le parole e abbinarle a ciò che vedono aiuta a costruire il loro vocabolario.

Questo non vuol dire che altri processi cerebrali, come i segnali sociali e il ragionamento, non entrino in gioco. L’aggiunta di questi componenti all’algoritmo potrebbe potenzialmente migliorarlo, hanno scritto gli autori.

Il team prevede di continuare l'esperimento. Per ora, la “piccola” IA impara solo dai fotogrammi di immagini fisse e ha un vocabolario composto principalmente da sostantivi. L'integrazione di segmenti video nella formazione potrebbe aiutare l'intelligenza artificiale a imparare i verbi perché il video include il movimento.

Anche l'aggiunta dell'intonazione ai dati vocali potrebbe essere d'aiuto. I bambini imparano presto che il “hmm” della mamma può avere significati molto diversi a seconda del tono.

Ma nel complesso, combinare l’intelligenza artificiale e le esperienze di vita è un nuovo metodo potente per studiare sia il cervello delle macchine che quello umano. Potrebbe aiutarci a sviluppare nuovi modelli di intelligenza artificiale che apprendono come i bambini e potenzialmente a rimodellare la nostra comprensione di come il nostro cervello apprende lingue e concetti.

Credito immagine: Wai Keen Vong