ИИ, только что выучивший язык, глазами и ушами малыша

Переиздано Платоном

Читают: 0

Сэму было шесть месяцев, когда он впервые прикрепил себе на лоб легкую камеру.

В ближайшие полтора года камера запечатлела фрагменты его жизни. Он ползал вокруг домашних животных, смотрел, как его родители готовят, и плакал на крыльце с бабушкой. Все это время камера записывала все, что он слышал.

То, что звучит как милое домашнее видео для малышей, на самом деле является смелой идеей: может ли ИИ выучить язык, как ребенок? Результаты также могут показать, как дети быстро овладевают языком и понятиями в раннем возрасте.

Новое исследование in Наука описывает, как исследователи использовали записи Сэма, чтобы научить ИИ понимать язык. Имея лишь небольшую часть жизненного опыта одного ребенка за год, ИИ смог усвоить базовые понятия — например, мяч, бабочку или ведро.

Искусственный интеллект, получивший название «Детский взгляд на контрастное обучение» (CVCL), примерно имитирует то, как мы учимся в детстве, сопоставляя зрение со звуком. Это совсем другой подход, чем тот, который используется в больших языковых моделях, подобных тем, что за ChatGPT или Bard. Поразительная способность этих моделей создавать эссе, стихи и даже сценарии подкастов взволновала мир. Но чтобы развить эти навыки, им необходимо переварить триллионы слов из самых разных новостных статей, сценариев и книг.

Дети, напротив, учатся с гораздо меньшими затратами и быстро обобщают полученные знания по мере взросления. Ученые уже давно задаются вопросом, сможет ли ИИ реализовать эти способности только с помощью повседневного опыта.

«Мы впервые показываем, что нейронная сеть, обученная на этой реалистичной для развития информации от одного ребенка, может научиться связывать слова с их визуальными аналогами», — автор исследования доктор Вай Кин Вонг из Центра науки о данных Нью-Йоркского университета. говорится в пресс-релизе об исследовании.

Детская игра

Дети легко впитывают слова и их значения из повседневного опыта.

Всего в шесть месяцев они начинают связывать слова с тем, что они видят, например, круглая прыгающая вещь — это «мяч». К двум годам они знают около 300 слов и их понятий.

Ученые долго спорили, как это происходит. Одна теория гласит, что дети учатся сопоставлять то, что они видят, с тем, что они слышат. Другой предполагает, что изучение языка требует более широкого восприятия мира, такого как социальное взаимодействие и способность рассуждать.

Трудно отделить эти идеи от традиционных когнитивных тестов для малышей. Но мы можем получить ответ, обучая ИИ глазами и ушами ребенка.

М3ГАН?

Новое исследование использовало богатый видеоресурс под названием SAYCam, который включает в себя данные, собранные у троих детей в возрасте от 6 до 32 месяцев с помощью камер GoPro, прикрепленных к их лбу.

Дважды в неделю камеры записывали около часа видео и аудио, пока они кормили грудью, ползали и играли. Весь слышимый диалог был транскрибирован в «высказывания» — слова или предложения, произнесенные до смены говорящего или разговора. Результатом является множество мультимедийных данных с точки зрения младенцев и малышей.

Для новой системы команда разработала две нейронные сети с «судьей», который будет их координировать. Один из них перевел визуальные эффекты от первого лица в суть сцены: мама готовит? Остальные расшифрованные слова и значения из аудиозаписей.

Затем эти две системы были сопоставлены во времени, и ИИ научился ассоциировать правильные изображения со словами. Например, ИИ научился сопоставлять изображение ребенка со словами «Смотрите, это ребенок» или изображение мяча для йоги со словами «Ух ты, это большой мяч». По мере обучения он постепенно научился отделять понятие мяча для йоги от ребенка.

«Это дает модели представление о том, какие слова должны быть связаны с какими объектами», — сказал Вонг.

Затем команда обучила ИИ на видеозаписях примерно полутора лет жизни Сэма. В совокупности это составило более 600,000 37,500 видеокадров в сочетании с XNUMX XNUMX расшифрованными высказываниями. Хотя цифры кажутся большими, они составляют примерно один процент от ежедневной жизни Сэма в бодрствующем состоянии и сущие копейки по сравнению с объемом данных, используемых для обучения больших языковых моделей.

Детский ИИ на подъеме

Чтобы протестировать систему, команда адаптировала общий когнитивный тест, используемый для измерения языковых способностей детей. Они показали ИИ четыре новых изображения — кошку, кроватку, мяч и лужайку — и спросили, какое из них — мяч.

В целом ИИ выбирал правильное изображение примерно в 62 процентах случаев. Производительность почти соответствовала современному алгоритму, обученному на 400 миллионах пар изображений и текста из Интернета — на порядки больше данных, чем было использовано для обучения ИИ в исследовании. Они обнаружили, что соединение видеоизображений со звуком имеет решающее значение. Когда команда перетасовала видеокадры и связанные с ними высказывания, модель полностью сломалась.

ИИ также мог «думать» нестандартно и обобщать новые ситуации.

В другом тесте он обучался с точки зрения Сэма на книжку с картинками, когда его родитель сказал: «Это утка и бабочка». Позже он поднял игрушечную бабочку, когда его спросили: «Сможешь ли ты сделать бабочку?» При проверке разноцветных изображений бабочек, которых ИИ никогда раньше не видел, он обнаружил три из четырех примеров «бабочек» с точностью выше 80 процентов.

Не все словесные концепции получили одинаковые оценки. Например, «ложка» была борьбой. Но стоит отметить, что, как жесткий рекапчитренировочные изображения было трудно расшифровать даже человеку.

Болезнь роста

Ассоциация ИИ опирается на последние достижения в области мультимодального машинного обучения., который объединяет текст, изображения, аудио или видео для тренировки машинного мозга.

Используя данные из опыта всего одного ребенка, алгоритм смог уловить, как слова связаны друг с другом, и связать слова с изображениями и понятиями. Это предполагает, что малыши, слушая слова и сопоставляя их с тем, что они видят, помогают расширить свой словарный запас.

Это не значит, что другие мозговые процессы, такие как социальные сигналы и рассуждения, не участвуют в игре. Добавление этих компонентов в алгоритм потенциально может улучшить его, пишут авторы.

Команда планирует продолжить эксперимент. На данный момент «детский» ИИ учится только на кадрах неподвижных изображений, и его словарный запас в основном состоит из существительных. Интеграция видеофрагментов в обучение может помочь ИИ выучить глаголы, поскольку видео включает в себя движение.

Добавление интонации к речевым данным также может помочь. Дети рано учатся, что мамино «хм» может иметь совершенно разное значение в зависимости от тона.

Но в целом объединение искусственного интеллекта и жизненного опыта — это новый мощный метод изучения как машинного, так и человеческого мозга. Это может помочь нам разработать новые модели ИИ, которые учатся, как дети, и потенциально изменить наше понимание того, как наш мозг изучает язык и концепции.

Изображение предоставлено: Вай Кин Вонг