NeurIPS 2023: ключевые выводы приглашенных докладов

NeurIPS 2023: ключевые выводы приглашенных докладов

Исходный узел: 3028418

Доклады НейрИПС 2023

Сгенерировано с помощью Midjourney

На конференции NeurIPS 2023, проходившей в оживленном городе Новый Орлеан с 10 по 16 декабря, особое внимание уделялось генеративному искусственному интеллекту и моделям большого языка (LLM). Учитывая недавние новаторские достижения в этой области, неудивительно, что эти темы доминировали в дискуссиях.

Одной из основных тем конференции этого года был поиск более эффективных систем искусственного интеллекта. Исследователи и разработчики активно ищут способы создания ИИ, который не только обучается быстрее, чем нынешние LLM, но и обладает расширенными способностями к рассуждению, потребляя при этом меньше вычислительных ресурсов. Это стремление имеет решающее значение в гонке за созданием искусственного общего интеллекта (AGI), цели, которая кажется все более достижимой в обозримом будущем.

Приглашенные доклады на NeurIPS 2023 стали отражением этих динамичных и быстро развивающихся интересов. Докладчики из различных областей исследований в области искусственного интеллекта поделились своими последними достижениями, открыв окно в передовые разработки в области искусственного интеллекта. В этой статье мы углубляемся в эти переговоры, извлекая и обсуждая ключевые выводы и выводы, которые необходимы для понимания текущих и будущих ландшафтов инноваций в области искусственного интеллекта.

NextGenAI: Иллюзия масштабирования и будущее генеративного ИИ 

In его речьБьорн Оммер, руководитель группы компьютерного зрения и обучения в Мюнхенском университете Людвига-Максимилиана, рассказал, как его лаборатория пришла к разработке стабильной диффузии, несколько уроков, которые они извлекли из этого процесса, и недавние разработки, в том числе то, как мы можем объединить модели диффузии с сопоставление потоков, увеличение извлечения и аппроксимации LoRA, среди прочего.

диффузионные модели

Программа вебинара:

  • В эпоху генеративного искусственного интеллекта мы перешли от акцента на восприятии в моделях зрения (т. е. распознавании объектов) к прогнозированию недостающих частей (например, генерации изображений и видео с помощью диффузионных моделей).
  • В течение 20 лет компьютерное зрение было сосредоточено на эталонных исследованиях, которые помогли сосредоточиться на наиболее важных проблемах. В генеративном искусственном интеллекте у нас нет никаких критериев для оптимизации, что открыло поле для того, чтобы каждый мог идти в своем направлении.
  • Диффузионные модели сочетают в себе преимущества предыдущих генеративных моделей, основанных на оценке, стабильной процедуре обучения и эффективном редактировании выборки, но они дороги из-за своей длинной цепи Маркова.
  • Проблема с моделями сильного правдоподобия заключается в том, что большая часть битов уходит на детали, которые едва заметны человеческому глазу, в то время как кодирование семантики, которая имеет наибольшее значение, занимает всего несколько битов. Масштабирование само по себе не решит эту проблему, поскольку спрос на вычислительные ресурсы растет в 9 раз быстрее, чем предложение графических процессоров.
  • Предлагаемое решение состоит в том, чтобы объединить сильные стороны моделей диффузии и свёрточных сетей, в частности эффективность свёрток для представления локальных деталей и выразительность моделей диффузии для контекста на больших расстояниях.
  • Бьорн Оммер также предлагает использовать подход согласования потоков, чтобы обеспечить синтез изображений с высоким разрешением на основе небольших моделей скрытой диффузии.
  • Другой подход к повышению эффективности синтеза изображений — сосредоточиться на композиции сцены, используя при этом дополнительные возможности поиска для заполнения деталей.
  • Наконец, он представил подход iPoke для управляемого стохастического синтеза видео.

Если этот подробный контент полезен для вас, подпишитесь на нашу рассылку AI быть предупрежденным, когда мы выпустим новый материал. 

Многоликий ответственный ИИ 

In ее презентацияЛора Аройо, научный сотрудник Google Research, выделила ключевое ограничение традиционных подходов машинного обучения: их зависимость от двоичной категоризации данных в качестве положительных или отрицательных примеров. По ее мнению, такое чрезмерное упрощение упускает из виду сложную субъективность, присущую реальным сценариям и контенту. На примере различных вариантов использования Аройо продемонстрировал, как двусмысленность контента и естественное расхождение во взглядах людей часто приводят к неизбежным разногласиям. Она подчеркнула важность рассмотрения этих разногласий как значимых сигналов, а не просто шума.

ответственный ИИ

Вот ключевые выводы из разговора:

  • Разногласия между людьми могут быть продуктивными. Вместо того, чтобы рассматривать все ответы как правильные или неправильные, Лора Аройо ввела «истину через несогласие» — подход распределительной истины для оценки надежности данных путем использования разногласий оценщиков.
  • Качество данных затруднено даже у экспертов, потому что эксперты расходятся во мнениях так же, как и эксперты. Эти разногласия могут быть гораздо более информативными, чем ответы одного эксперта.
    • В задачах по оценке безопасности эксперты расходятся во мнениях по 40% примеров. Вместо того, чтобы пытаться разрешить эти разногласия, нам нужно собрать больше таких примеров и использовать их для улучшения моделей и показателей оценки.
  • Лора Аройо также представила свои Безопасность с разнообразием метод тщательного изучения данных с точки зрения того, что в них содержится и кто их аннотировал.
    • Этот метод позволил получить базовый набор данных с различиями в суждениях о безопасности LLM среди различных демографических групп оценщиков (всего 2.5 миллиона оценок).
    • В 20% разговоров было трудно решить, был ли ответ чат-бота безопасным или небезопасным, поскольку примерно равное количество респондентов назвало их безопасными или небезопасными.
  • Разнообразие оценщиков и данных играет решающую роль в оценке моделей. Неспособность признать широкий спектр человеческих точек зрения и двусмысленность, присутствующую в содержании, может помешать привести эффективность машинного обучения в соответствие с реальными ожиданиями.
  • 80% усилий по обеспечению безопасности ИИ уже достаточно хороши, но оставшиеся 20% требуют удвоения усилий для решения пограничных случаев и всех вариантов в бесконечном пространстве разнообразия.

Статистика согласованности, собственный опыт и почему молодые люди намного умнее современного ИИ 

In ее разговорЛинда Смит, заслуженный профессор Университета Индианы в Блумингтоне, исследовала тему нехватки данных в процессах обучения младенцев и детей раннего возраста. Она специально сосредоточилась на распознавании объектов и изучении имен, углубившись в то, как статистика самостоятельного опыта младенцев предлагает потенциальные решения проблемы разреженности данных.

Программа вебинара:

  • К трем годам у детей развивается способность самостоятельно обучаться в различных областях. Менее чем за 16,000 1,000 часов бодрствования до своего четвертого дня рождения им удается выучить более XNUMX категорий объектов, освоить синтаксис родного языка и усвоить культурные и социальные нюансы окружающей среды.
  • Доктор Линда Смит и ее команда обнаружили три принципа человеческого обучения, которые позволяют детям извлечь так много из таких скудных данных:
    • Обучающиеся контролируют вводимые данные, каждый момент они формируют и структурируют вводимые данные. Например, в течение первых нескольких месяцев жизни младенцы склонны больше смотреть на предметы с простыми краями.
    • Поскольку дети постоянно развивают свои знания и способности, они следуют строго ограниченной учебной программе. Данные, с которыми они сталкиваются, организованы очень важным образом. Например, дети до 4 месяцев проводят большую часть времени, глядя на лица, примерно 15 минут в час, тогда как дети старше 12 месяцев сосредотачиваются в основном на руках, наблюдая за ними около 20 минут в час.
    • Эпизоды обучения состоят из серии взаимосвязанных событий. Пространственные и временные корреляции создают связность, что, в свою очередь, способствует формированию устойчивых воспоминаний об одноразовых событиях. Например, когда детям предлагают случайный набор игрушек, они часто сосредотачиваются на нескольких «любимых» игрушках. Они взаимодействуют с этими игрушками, используя повторяющиеся шаблоны, что помогает быстрее изучить объекты.
  • Преходящие (рабочие) воспоминания сохраняются дольше, чем сенсорная информация. Свойства, улучшающие процесс обучения, включают мультимодальность, ассоциации, прогностические отношения и активацию прошлых воспоминаний.
  • Для быстрого обучения вам необходим союз между механизмами, генерирующими данные, и механизмами, которые обучаются.
младенцы учатся

Создание эскизов: основные инструменты, расширение возможностей обучения и адаптивная надежность. 

Джелани Нельсон, профессор электротехники и компьютерных наук Калифорнийского университета в Беркли, представил концепцию «эскизов» данных – сжатое в памяти представление набора данных, которое по-прежнему позволяет отвечать на полезные запросы. Хотя доклад был довольно техническим, в нем был представлен отличный обзор некоторых фундаментальных инструментов создания эскизов, включая последние достижения.

Ключевые выводы:

  • CountSketch, основной инструмент для создания эскизов, был впервые представлен в 2002 году для решения проблемы «сильных нападающих», предоставляя небольшой список наиболее частых элементов из данного потока элементов. CountSketch был первым известным сублинейным алгоритмом, использованным для этой цели.
  • Два непотоковых приложения тяжелых нападающих включают в себя:
    • Метод внутренних точек (IPM), который дает асимптотически самый быстрый из известных алгоритмов линейного программирования.
    • Метод HyperAttention, который решает вычислительную проблему, возникающую из-за растущей сложности длинных контекстов, используемых в LLM.
  • Большая часть недавних работ была сосредоточена на разработке эскизов, устойчивых к адаптивному взаимодействию. Основная идея — использовать идеи адаптивного анализа данных.

За пределами панели масштабирования 

Эта отличная панель по большим языковым моделям Модератором выступил Александр Раш, доцент Корнеллского технологического института и исследователь Hugging Face. Среди других участников были:

  • Ааканкша Чоудхери — научный сотрудник Google DeepMind с исследовательскими интересами в области систем, предварительной подготовки к магистратуре и мультимодальности. Она была частью команды, разрабатывающей PaLM, Gemini и Pathways.
  • Анджела Фан — научный сотрудник Meta Generative AI, занимающийся исследовательскими интересами в области согласования, центров обработки данных и многоязычия. Она участвовала в разработке Llama-2 и Meta AI Assistant.
  • Перси Лян – профессор Стэнфордского университета, исследующий создателей, открытый исходный код и генеративные агенты. Он является директором Центра исследований моделей фундамента (CRFM) в Стэнфорде и основателем Together AI.

Обсуждение сосредоточилось на четырех ключевых темах: (1) архитектура и проектирование, (2) данные и согласование, (3) оценка и прозрачность и (4) создатели и участники.

Вот некоторые выводы из этой панели:

  • Обучение современным языковым моделям по своей сути не представляет сложности. Основная проблема при обучении такой модели, как Llama-2-7b, заключается в требованиях к инфраструктуре и необходимости координации между несколькими графическими процессорами, центрами обработки данных и т. д. Однако, если количество параметров достаточно мало, чтобы позволить обучение на одном графическом процессоре, даже студент может справиться с этим.
  • Хотя модели авторегрессии обычно используются для генерации текста, а модели диффузии — для создания изображений и видео, были эксперименты по изменению этих подходов. В частности, в проекте Gemini для генерации изображений используется авторегрессионная модель. Также проводились исследования по использованию моделей диффузии для генерации текста, но они еще не оказались достаточно эффективными.
  • Учитывая ограниченную доступность англоязычных данных для моделей обучения, исследователи изучают альтернативные подходы. Одной из возможностей является обучение мультимодальных моделей на сочетании текста, видео, изображений и аудио с ожиданием, что навыки, полученные с помощью этих альтернативных модальностей, могут быть перенесены в текст. Другой вариант – использование синтетических данных. Важно отметить, что синтетические данные часто смешиваются с реальными данными, но эта интеграция не является случайной. Текст, публикуемый в Интернете, обычно подвергается проверке и редактированию человеком, что может повысить ценность обучения моделей.
  • Модели открытого фундамента часто рассматриваются как полезные для инноваций, но потенциально вредные для безопасности ИИ, поскольку они могут быть использованы злоумышленниками. Однако доктор Перси Лян утверждает, что открытые модели также положительно влияют на безопасность. Он утверждает, что, будучи доступными, они предоставляют большему количеству исследователей возможности проводить исследования безопасности ИИ и проверять модели на предмет потенциальных уязвимостей.
  • Сегодня аннотирование данных требует значительно большего опыта в области аннотирования по сравнению с пятью годами ранее. Однако, если ИИ-помощники в будущем будут работать так, как ожидается, мы будем получать более ценные данные обратной связи от пользователей, что уменьшит зависимость от обширных данных от аннотаторов.

​Системы для фундаментальных моделей и фундаментальные модели для систем 

In этот разговорКристофер Ре, доцент кафедры компьютерных наук Стэнфордского университета, показывает, как фундаментальные модели изменили системы, которые мы создаем. Он также исследует, как эффективно создавать базовые модели, заимствуя идеи из исследований систем баз данных, и обсуждает потенциально более эффективные архитектуры для базовых моделей, чем Transformer.

базовые модели для очистки данных

Вот основные выводы из этого выступления:

  • Модели фундамента эффективны в решении проблемы «смерти от 1000 сокращений», когда каждая отдельная задача может быть относительно простой, но сама широта и разнообразие задач представляют собой серьезную проблему. Хорошим примером этого является проблема очистки данных, которую теперь LLM могут помочь решить гораздо эффективнее.
  • Поскольку ускорители становятся быстрее, память часто становится узким местом. Это проблема, которую исследователи баз данных решают уже несколько десятилетий, и мы можем перенять некоторые из их стратегий. Например, подход Flash Attention сводит к минимуму потоки ввода-вывода за счет блокировки и агрессивного слияния: всякий раз, когда мы получаем доступ к фрагменту информации, мы выполняем с ним как можно больше операций.
  • Существует новый класс архитектур, основанный на обработке сигналов, который может быть более эффективным, чем модель Transformer, особенно при обработке длинных последовательностей. Обработка сигналов обеспечивает стабильность и эффективность, закладывая основу для таких инновационных моделей, как S4.

Онлайн-обучение с подкреплением в сфере цифрового здравоохранения 

In ее разговорСьюзен Мерфи, профессор статистики и информатики Гарвардского университета, поделилась первыми решениями некоторых проблем, с которыми они сталкиваются при разработке онлайн-алгоритмов RL для использования в цифровых вмешательствах в здравоохранении.

Вот несколько выводов из презентации:

  • Доктор Сьюзан Мерфи рассказала о двух проектах, над которыми она работает:
    • HeartStep, где действия были предложены на основе данных со смартфонов и носимых трекеров, и
    • Оралитика для коучинга по вопросам здоровья полости рта, где вмешательства основывались на данных взаимодействия, полученных с помощью электронной зубной щетки.
  • Разрабатывая политику поведения для агента ИИ, исследователи должны убедиться, что она автономна и может быть реально реализована в более широкой системе здравоохранения. Это предполагает обеспечение того, чтобы время, необходимое для участия человека, было разумным, а рекомендуемые действия были этически обоснованными и научно обоснованными.
  • Основные проблемы при разработке агента RL для вмешательства в цифровое здравоохранение включают борьбу с высокими уровнями шума, поскольку люди ведут свою жизнь и не всегда могут реагировать на сообщения, даже если они этого хотят, а также управление сильными, отсроченными негативными последствиями. .

Как видите, NeurIPS 2023 предоставил проясняющий взгляд на будущее искусственного интеллекта. Приглашенные доклады подчеркнули тенденцию к более эффективным, ресурсосберегающим моделям и исследованию новых архитектур за пределами традиционных парадигм.

Наслаждайтесь этой статьей? Подпишитесь на дополнительные исследования ИИ исследований.

Мы сообщим вам, когда мы выпустим больше кратких статей, подобных этой.

#gform_wrapper_11[data-form-index=”0″].gform-theme,[data-parent-form=”11_0″]{–gform-theme-color-primary: #204ce5;–gform-theme-color-primary-rgb: 32, 76, 229;–gform-theme-color-primary-contrast: #fff;–gform-theme-color-primary-contrast-rgb: 255, 255, 255;–gform-theme-color-primary-darker: #001AB3;–gform-theme-color-primary-lighter: #527EFF;–gform-theme-color-secondary: #fff;–gform-theme-color-secondary-rgb: 255, 255, 255;–gform-theme-color-secondary-contrast: #112337;–gform-theme-color-secondary-contrast-rgb: 17, 35, 55;–gform-theme-color-secondary-darker: #F5F5F5;–gform-theme-color-secondary-lighter: #FFFFFF;–gform-theme-color-outside-control-light: rgba(17, 35, 55, 0.1);–gform-theme-color-outside-control-light-rgb: 17, 35, 55;–gform-theme-color-outside-control-light-darker: rgba(104, 110, 119, 0.35);–gform-theme-color-outside-control-light-lighter: #F5F5F5;–gform-theme-color-outside-control-dark: #585e6a;–gform-theme-color-outside-control-dark-rgb: 88, 94, 106;–gform-theme-color-outside-control-dark-darker: #112337;–gform-theme-color-outside-control-dark-lighter: rgba(17, 35, 55, 0.65);–gform-theme-color-inside-control: #fff;–gform-theme-color-inside-control-rgb: 255, 255, 255;–gform-theme-color-inside-control-contrast: #112337;–gform-theme-color-inside-control-contrast-rgb: 17, 35, 55;–gform-theme-color-inside-control-darker: #F5F5F5;–gform-theme-color-inside-control-lighter: #FFFFFF;–gform-theme-color-inside-control-primary: #204ce5;–gform-theme-color-inside-control-primary-rgb: 32, 76, 229;–gform-theme-color-inside-control-primary-contrast: #fff;–gform-theme-color-inside-control-primary-contrast-rgb: 255, 255, 255;–gform-theme-color-inside-control-primary-darker: #001AB3;–gform-theme-color-inside-control-primary-lighter: #527EFF;–gform-theme-color-inside-control-light: rgba(17, 35, 55, 0.1);–gform-theme-color-inside-control-light-rgb: 17, 35, 55;–gform-theme-color-inside-control-light-darker: rgba(104, 110, 119, 0.35);–gform-theme-color-inside-control-light-lighter: #F5F5F5;–gform-theme-color-inside-control-dark: #585e6a;–gform-theme-color-inside-control-dark-rgb: 88, 94, 106;–gform-theme-color-inside-control-dark-darker: #112337;–gform-theme-color-inside-control-dark-lighter: rgba(17, 35, 55, 0.65);–gform-theme-border-radius: 3px;–gform-theme-font-size-secondary: 14px;–gform-theme-font-size-tertiary: 13px;–gform-theme-icon-control-number: url(“data:image/svg+xml,%3Csvg width=’8′ height=’14’ viewBox=’0 0 8 14′ fill=’none’ xmlns=’http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=’evenodd’ clip-rule=’evenodd’ d=’M4 0C4.26522 5.96046e-08 4.51957 0.105357 4.70711 0.292893L7.70711 3.29289C8.09763 3.68342 8.09763 4.31658 7.70711 4.70711C7.31658 5.09763 6.68342 5.09763 6.29289 4.70711L4 2.41421L1.70711 4.70711C1.31658 5.09763 0.683417 5.09763 0.292893 4.70711C-0.0976311 4.31658 -0.097631 3.68342 0.292893 3.29289L3.29289 0.292893C3.48043 0.105357 3.73478 0 4 0ZM0.292893 9.29289C0.683417 8.90237 1.31658 8.90237 1.70711 9.29289L4 11.5858L6.29289 9.29289C6.68342 8.90237 7.31658 8.90237 7.70711 9.29289C8.09763 9.68342 8.09763 10.3166 7.70711 10.7071L4.70711 13.7071C4.31658 14.0976 3.68342 14.0976 3.29289 13.7071L0.292893 10.7071C-0.0976311 10.3166 -0.0976311 9.68342 0.292893 9.29289Z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-icon-control-select: url(“data:image/svg+xml,%3Csvg width=’10’ height=’6′ viewBox=’0 0 10 6′ fill=’none’ xmlns=’http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=’evenodd’ clip-rule=’evenodd’ d=’M0.292893 0.292893C0.683417 -0.097631 1.31658 -0.097631 1.70711 0.292893L5 3.58579L8.29289 0.292893C8.68342 -0.0976311 9.31658 -0.0976311 9.70711 0.292893C10.0976 0.683417 10.0976 1.31658 9.70711 1.70711L5.70711 5.70711C5.31658 6.09763 4.68342 6.09763 4.29289 5.70711L0.292893 1.70711C-0.0976311 1.31658 -0.0976311 0.683418 0.292893 0.292893Z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-icon-control-search: url(“data:image/svg+xml,%3Csvg version=’1.1′ xmlns=’http://www.w3.org/2000/svg’ width=’640′ height=’640’%3E%3Cpath d=’M256 128c-70.692 0-128 57.308-128 128 0 70.691 57.308 128 128 128 70.691 0 128-57.309 128-128 0-70.692-57.309-128-128-128zM64 256c0-106.039 85.961-192 192-192s192 85.961 192 192c0 41.466-13.146 79.863-35.498 111.248l154.125 154.125c12.496 12.496 12.496 32.758 0 45.254s-32.758 12.496-45.254 0L367.248 412.502C335.862 434.854 297.467 448 256 448c-106.039 0-192-85.962-192-192z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-control-border-color: #686e77;–gform-theme-control-size: var(–gform-theme-control-size-md);–gform-theme-control-label-color-primary: #112337;–gform-theme-control-label-color-secondary: #112337;–gform-theme-control-choice-size: var(–gform-theme-control-choice-size-md);–gform-theme-control-checkbox-check-size: var(–gform-theme-control-checkbox-check-size-md);–gform-theme-control-radio-check-size: var(–gform-theme-control-radio-check-size-md);–gform-theme-control-button-font-size: var(–gform-theme-control-button-font-size-md);–gform-theme-control-button-padding-inline: var(–gform-theme-control-button-padding-inline-md);–gform-theme-control-button-size: var(–gform-theme-control-button-size-md);–gform-theme-control-button-border-color-secondary: #686e77;–gform-theme-control-file-button-background-color-hover: #EBEBEB;–gform-theme-field-page-steps-number-color: rgba(17, 35, 55, 0.8);}

Отметка времени:

Больше от ТОП-БОТЫ