AI щойно вивчив мову очима та вухами малюка

Перевидано Платоном

читають: 0

Сему було шість місяців, коли він вперше закріпив на лобі легку камеру.

Протягом наступних півтора року, камера зафіксувала уривки його життя. Він повзав навколо домашніх тварин, спостерігав, як батьки готують їжу, і плакав на ґанку з бабусею. Весь цей час камера записувала все, що він чув.

Те, що звучить як миле домашнє відео для малюків, насправді є сміливою концепцією: чи може штучний інтелект вивчити мову, як дитина? Результати також можуть показати, як діти швидко оволодівають мовою та поняттями в ранньому віці.

Нове дослідження in наука описує, як дослідники використовували записи Сема, щоб навчити ШІ розуміти мову. Маючи лише крихітну частину життєвого досвіду однієї дитини протягом року, штучний інтелект зміг зрозуміти базові поняття, наприклад, м’яч, метелик або відро.

Штучний інтелект під назвою Child's View for Contrastive Learning (CVCL) приблизно імітує те, як ми навчаємося в дитинстві, зіставляючи зір і звук. Це зовсім інший підхід, ніж той, який застосовують такі великі мовні моделі, як ці за ChatGPT або Bard. Дивовижна здатність цих моделей створювати есе, вірші чи навіть сценарії подкастів вразила світ. Але щоб розвинути ці навички, їм потрібно переварити трильйони слів із різноманітних статей новин, сценаріїв і книг.

Діти, навпаки, вчаться з набагато меншим внеском і швидко узагальнюють свої знання, коли ростуть. Вчені давно розмірковували, чи може ШІ захопити ці здібності лише за допомогою повсякденного досвіду.

«Ми вперше показуємо, що нейронна мережа, навчена реалістичним для розвитку даних однієї дитини, може навчитися пов’язувати слова з їхніми візуальними відповідниками», – автор дослідження доктор Вай Кін Вонг із Центру науки про дані Нью-Йоркського університету. сказав у прес-релізі про дослідження.

Дитяча іграшка

Діти легко вбирають слова та їх значення з повсякденного досвіду.

Лише у шість місяців вони починають зв’язувати слова з тим, що бачать, наприклад, кругла стрибуча річ — це «м’яч». До двох років вони знають приблизно 300 слів і їхні поняття.

Вчені довго сперечалися, як це відбувається. Одна теорія каже, що діти вчаться співставляти те, що вони бачать, із тим, що вони чують. Інший припускає, що вивчення мови вимагає ширшого досвіду світу, такого як соціальна взаємодія та здатність міркувати.

Важко розірвати ці ідеї за допомогою традиційних когнітивних тестів у малюків. Але ми можемо отримати відповідь, навчивши ШІ очима та вухами дитини.

M3GAN?

Нове дослідження використало багатий відеоресурс під назвою SAYCam, який містить дані, зібрані від трьох дітей віком від 6 до 32 місяців за допомогою камер, схожих на GoPro, прикріплених до їхніх лобів.

Двічі на тиждень камери записували приблизно годину відео та аудіо, поки вони годували грудьми, повзали та грали. Усі звукові діалоги були транскрибовані у «висловлювання» — слова чи речення, вимовлені до того, як мовець або розмова зміниться. Результатом є величезна кількість мультимедійних даних з точки зору немовлят і малюків.

Для нової системи команда розробила дві нейронні мережі з «суддею» для їх координації. Один перевів візуальні ефекти від першої особи на сцену «хто і що» — це мама готує? Інші розшифрували слова та значення з аудіозаписів.

Потім дві системи були співвіднесені в часі, щоб штучний інтелект навчився пов’язувати правильні візуальні ефекти зі словами. Наприклад, штучний інтелект навчився співставляти зображення дитини зі словами «Подивіться, ось дитина» або зображення м’яча для йоги зі словами «Ого, це великий м’яч». З тренуваннями він поступово навчився відрізняти поняття м’яча для йоги від дитини.

«Це дає моделі підказку про те, які слова з якими об’єктами слід асоціювати», — сказав Вонг.

Потім команда навчила штучний інтелект на відео приблизно за півтора року життя Сема. Разом це склало понад 600,000 37,500 відеокадрів у поєднанні з XNUMX XNUMX транскрибованими висловлюваннями. Хоча цифри звучать великими, вони становлять приблизно лише один відсоток щоденного життя Сема та арахісу порівняно з кількістю даних, які використовуються для навчання великих мовних моделей.

Дитячий ШІ на підйомі

Щоб перевірити систему, команда адаптувала загальний когнітивний тест, який використовується для вимірювання мовних здібностей дітей. Вони показали штучному інтелекту чотири нових зображення — кішку, ліжечко, м’яч і галявину — і запитали, який із них м’яч.

Загалом ШІ вибирав правильне зображення приблизно в 62 відсотках випадків. Продуктивність майже відповідала найсучаснішому алгоритму, навченому на 400 мільйонах пар зображень і тексту з Інтернету — на порядки більше даних, ніж використовувалося для навчання ШІ в дослідженні. Вони виявили, що зв’язування відеозображень із аудіо має вирішальне значення. Коли команда перетасувала відеокадри та пов’язані з ними висловлювання, модель повністю зламалася.

ШІ також міг «мислити» нестандартно й узагальнювати нові ситуації.

В іншому тесті його навчали на основі погляду Сема на книжку з картинками, коли його батьки сказали: «Це качка і метелик». Пізніше він підняв іграшку-метелика, коли його запитали: «Ти можеш зробити метелика?» Під час перевірки різнокольорових зображень метеликів — таких, яких штучний інтелект ніколи раніше не бачив, — він виявив три з чотирьох прикладів «метелика» з точністю понад 80 відсотків.

Не всі концепції слів отримали однакові бали. Наприклад, «ложка» була боротьба. Але варто зазначити, що, як жорсткий reCAPTCHA, навчальні зображення було важко розшифрувати навіть людині.

Хвороба росту

Команда ШІ базується на останніх досягненнях мультимодального машинного навчання, який поєднує текст, зображення, аудіо чи відео для тренування машинного мозку.

Враховуючи досвід лише однієї дитини, алгоритм зміг визначити, як слова співвідносяться одне з одним, і зв’язати слова з зображеннями та поняттями. Це свідчить про те, що слухання слів і зіставлення їх із тим, що вони бачать, для малюків допомагає розширювати словниковий запас.

Це не означає, що інші процеси мозку, такі як соціальні підказки та міркування, не беруть участі. Додавання цих компонентів до алгоритму може потенційно його покращити, пишуть автори.

Команда планує продовжити експеримент. Наразі «дитячий» штучний інтелект навчається лише на кадрах нерухомих зображень і має словниковий запас, що складається переважно з іменників. Інтеграція відеосегментів у навчання може допомогти штучному інтелекту вивчити дієслова, оскільки відео містить рух.

Додавання інтонації до мовних даних також може допомогти. Діти рано дізнаються, що мамине «хм» може мати дуже різні значення залежно від тону.

Але загалом поєднання штучного інтелекту та життєвого досвіду є потужним новим методом дослідження як машинного, так і людського мозку. Це може допомогти нам розробити нові моделі штучного інтелекту, які вчаться як діти, і потенційно змінити наше розуміння того, як наш мозок вивчає мову та поняття.

Автор зображення: Вай Кін Вонг