Une IA vient d'apprendre une langue à travers les yeux et les oreilles d'un tout-petit

Une IA vient d'apprendre une langue à travers les yeux et les oreilles d'un tout-petit

Nœud source: 3092738

Sam avait six mois lorsqu'il a attaché pour la première fois un appareil photo léger sur son front.

Pour la prochaine année et demie, la caméra a capturé des extraits de sa vie. Il a rampé autour des animaux de compagnie de la famille, a regardé ses parents cuisiner et a pleuré sur le porche avec grand-mère. Pendant ce temps, la caméra enregistrait tout ce qu’il entendait.

Ce qui ressemble à une jolie vidéo personnelle d’un enfant en bas âge est en réalité un concept audacieux : l’IA peut-elle apprendre le langage comme un enfant ? Les résultats pourraient également révéler comment les enfants acquièrent rapidement le langage et les concepts dès leur plus jeune âge.

Une nouvelle étude in Sciences décrit comment les chercheurs ont utilisé les enregistrements de Sam pour entraîner une IA à comprendre le langage. Avec seulement une infime partie de l'expérience de vie d'un enfant sur une année, l'IA a pu saisir des concepts de base, par exemple un ballon, un papillon ou un seau.

L'IA, appelée Child's View for Contrastive Learning (CVCL), imite grossièrement la façon dont nous apprenons lorsque nous sommes tout-petits en faisant correspondre la vue à l'audio. C'est une approche très différente de celle adoptée par les grands modèles de langage comme ceux derrière ChatGPT ou Bard. L'étrange capacité de ces modèles à rédiger des essais, de la poésie ou même des scripts de podcast a enthousiasmé le monde entier. Mais ils doivent digérer des milliards de mots provenant d’une grande variété d’articles de presse, de scénarios et de livres pour développer ces compétences.

Les enfants, en revanche, apprennent avec beaucoup moins d’efforts et généralisent rapidement leurs apprentissages à mesure qu’ils grandissent. Les scientifiques se demandent depuis longtemps si l’IA peut capturer ces capacités uniquement à partir d’expériences quotidiennes.

"Nous montrons, pour la première fois, qu'un réseau neuronal formé sur cette contribution réaliste sur le plan du développement d'un seul enfant peut apprendre à lier les mots à leurs homologues visuels", auteur de l'étude, le Dr Wai Keen Vong du Center for Data Science de NYU. a déclaré dans un communiqué de presse sur la recherche.

Un jeu d'enfant

Les enfants s’imprègnent facilement des mots et de leur signification dans leur expérience quotidienne.

À seulement six mois, ils commencent à associer des mots à ce qu’ils voient. Par exemple, un objet rond et rebondissant est une « balle ». À l’âge de deux ans, ils connaissent environ 300 mots et leurs concepts.

Les scientifiques débattent depuis longtemps de la manière dont cela se produit. Une théorie dit que les enfants apprennent à faire correspondre ce qu'ils voient à ce qu'ils entendent. Un autre suggère que l’apprentissage des langues nécessite une expérience plus large du monde, comme l’interaction sociale et la capacité de raisonner.

Il est difficile de dissocier ces idées avec les tests cognitifs traditionnels chez les tout-petits. Mais nous pouvons obtenir une réponse en entraînant une IA à travers les yeux et les oreilles d’un enfant.

M3GAN ?

La nouvelle étude a exploité une riche ressource vidéo appelée DITESCam, qui comprend des données collectées auprès de trois enfants âgés de 6 à 32 mois à l'aide de caméras de type GoPro attachées à leur front.

Deux fois par semaine, les caméras enregistraient environ une heure d’images et d’audio pendant qu’ils soignaient, rampaient et jouaient. Tous les dialogues audibles étaient transcrits en « énoncés » – mots ou phrases prononcés avant que l’orateur ou la conversation ne change. Le résultat est une multitude de données multimédias du point de vue des bébés et des tout-petits.

Pour le nouveau système, l'équipe a conçu deux réseaux de neurones avec un « juge » pour les coordonner. L’un d’entre eux a traduit des visuels à la première personne en qui et quoi d’une scène : est-ce une maman qui cuisine ? Les autres ont déchiffré les mots et les significations des enregistrements audio.

Les deux systèmes ont ensuite été corrélés dans le temps afin que l’IA apprenne à associer les visuels corrects aux mots. Par exemple, l’IA a appris à associer l’image d’un bébé aux mots « Regardez, il y a un bébé » ou l’image d’une balle de yoga à « Wow, c’est une grosse balle ». Avec l’entraînement, il a progressivement appris à séparer le concept de ballon de yoga de celui de bébé.

"Cela donne au modèle un indice quant aux mots qui doivent être associés à quels objets", a déclaré Vong.

L’équipe a ensuite entraîné l’IA sur des vidéos d’environ un an et demi de la vie de Sam. Au total, cela représentait plus de 600,000 37,500 images vidéo, associées à XNUMX XNUMX énoncés transcrits. Bien que les chiffres semblent élevés, ils ne représentent qu'un pour cent de la vie quotidienne de Sam et des cacahuètes par rapport à la quantité de données utilisées pour entraîner de grands modèles de langage.

L'IA pour bébés à la hausse

Pour tester le système, l'équipe a adapté un test cognitif commun utilisé pour mesurer les capacités linguistiques des enfants. Ils ont montré à l’IA quatre nouvelles images – un chat, un berceau, un ballon et une pelouse – et lui ont demandé laquelle était le ballon.

Dans l’ensemble, l’IA a sélectionné la bonne image dans environ 62 % du temps. Les performances correspondent presque à celles d’un algorithme de pointe entraîné sur 400 millions de paires d’images et de textes provenant du Web, soit des ordres de grandeur supérieurs à ceux utilisés pour entraîner l’IA dans l’étude. Ils ont constaté que relier les images vidéo à l’audio était crucial. Lorsque l’équipe a mélangé les images vidéo et les énoncés associés, le modèle s’est complètement effondré.

L’IA pourrait également « penser » hors des sentiers battus et généraliser à de nouvelles situations.

Dans un autre test, il a été formé sur la perspective de Sam d'un livre d'images, alors que ses parents disaient : « C'est un canard et un papillon. » Plus tard, il a brandi un papillon jouet lorsqu'on lui a demandé : « Pouvez-vous faire le papillon ? Lorsqu’elle a été confrontée à des images de papillons multicolores – des images que l’IA n’avait jamais vues auparavant – elle a détecté trois exemples de « papillon » sur quatre avec une précision supérieure à 80 %.

Tous les concepts de mots n’ont pas obtenu la même note. Par exemple, « cuillère » était un combat. Mais cela vaut la peine de souligner que, comme un dur reCAPTCHA, les images d'entraînement étaient difficiles à déchiffrer, même pour un humain.

Growing Pains

Les L’IA s’appuie sur les progrès récents de l’apprentissage automatique multimodal, qui combine du texte, des images, de l'audio ou de la vidéo pour entraîner un cerveau machine.

Grâce à l'expérience d'un seul enfant, l'algorithme a pu capturer les relations entre les mots et relier les mots à des images et des concepts. Cela suggère que pour les tout-petits, entendre des mots et les faire correspondre à ce qu'ils voient aide à développer leur vocabulaire.

Cela ne veut pas dire que d’autres processus cérébraux, tels que les signaux sociaux et le raisonnement, n’entrent pas en jeu. L’ajout de ces composants à l’algorithme pourrait potentiellement l’améliorer, ont écrit les auteurs.

L'équipe prévoit de poursuivre l'expérience. Pour l’instant, l’IA « bébé » n’apprend qu’à partir d’images fixes et dispose d’un vocabulaire principalement composé de noms. L'intégration de segments vidéo dans la formation pourrait aider l'IA à apprendre les verbes, car la vidéo inclut le mouvement.

L'ajout d'intonation aux données vocales pourrait également aider. Les enfants apprennent très tôt que le « hmm » d'une mère peut avoir des significations très différentes selon le ton.

Mais dans l’ensemble, combiner l’IA et les expériences de vie constitue une nouvelle méthode puissante pour étudier à la fois le cerveau des machines et celui de l’humain. Cela pourrait nous aider à développer de nouveaux modèles d’IA qui apprennent comme les enfants, et potentiellement remodeler notre compréhension de la façon dont notre cerveau apprend le langage et les concepts.

Crédit d’image : Wai Keen Vong

Horodatage:

Plus de Singularity Hub