Модели преобразования текста в изображение более эффективно обучаются с помощью поддельных данных

Модели преобразования текста в изображение более эффективно обучаются с помощью поддельных данных

Исходный узел: 2974582

По мнению ученых-компьютерщиков из Массачусетского технологического института и Google, синтетические изображения могут помочь моделям ИИ более точно изучать визуальные представления по сравнению с реальными снимками. В результате появляются нейронные сети, которые лучше создают изображения на основе ваших письменных описаний.

В основе всех моделей преобразования текста в изображение лежит их способность сопоставлять объекты со словами. При вводе текстового запроса — например, «ребенок держит красный воздушный шар в солнечный день» — они должны вернуть изображение, примерно соответствующее описанию. Для этого им нужно выучить визуальные представления того, как может выглядеть ребенок, красный воздушный шар и солнечный день. 

Команда MIT-Google считает, что нейронные сети могут генерировать более точные изображения на основе подсказок после обучения на изображениях, созданных искусственным интеллектом, а не на использовании реальных снимков. Чтобы продемонстрировать это, группа разработала СтабильныйПредставитель, который учится превращать описательные письменные подписи в правильные соответствующие изображения из изображений, созданных с помощью популярной модели преобразования текста в изображение с открытым исходным кодом Stable Diffusion.

Другими словами: использование устоявшейся, обученной модели ИИ для обучения других моделей.

Как следует из препринтной статьи ученых, опубликованной на сайте ArXiv в конце прошлого месяца он пишет: «При использовании исключительно синтетических изображений представления, полученные с помощью StableRep, превосходят производительность представлений, полученных с помощью SimCLR и CLIP с использованием того же набора текстовых подсказок и соответствующих реальных изображений в крупномасштабных наборах данных». SimCLR и CLIP — это алгоритмы машинного обучения, которые можно использовать для создания изображений из текстовых подсказок.

«Когда мы дополнительно добавим языковой контроль, StableRep, обученный на 20 миллионах синтетических изображений, достигнет большей точности, чем CLIP, обученный на 50 миллионах реальных изображений», — продолжает статья.

Алгоритмы машинного обучения фиксируют взаимосвязь между характеристиками объектов и значениями слов в виде массива чисел. Используя StableRep, исследователи могут контролировать этот процесс более тщательно, обучая модель на нескольких изображениях, сгенерированных Stable Diffusion, в одной и той же командной строке. Это означает, что модель может изучить более разнообразные визуальные представления и увидеть, какие изображения больше других соответствуют подсказкам. 

Я думаю, у нас будет экосистема, состоящая из некоторых моделей, обученных на реальных данных, некоторых — на синтетических.

«Мы учим модель узнавать больше о концепциях высокого уровня через контекст и дисперсию, а не просто снабжаем ее данными», — Лицзе Фань, ведущий исследователь исследования и аспирант электротехники Массачусетского технологического института. объяснены На этой неделе. «При использовании нескольких изображений, созданных из одного и того же текста и рассматриваемых как изображения одного и того же основного объекта, модель глубже погружается в концепции, лежащие в основе изображений – скажем, объекта, – а не только в их пикселях».

Как отмечалось выше, этот подход также означает, что вы можете использовать меньше синтетических изображений для обучения вашей нейронной сети, чем реальные, и получать лучшие результаты, что является беспроигрышным вариантом для разработчиков ИИ.

Такие методы, как StableRep, означают, что модели преобразования текста в изображение однажды можно будет обучать на синтетических данных. Это позволит разработчикам меньше полагаться на реальные изображения и может быть необходимо, если механизмы искусственного интеллекта исчерпают доступные онлайн-ресурсы.

«Я думаю, что [обучение моделей ИИ на синтетических изображениях] будет становиться всё более распространенным», — сказал Филипп Изола, соавтор статьи и доцент кафедры компьютерного зрения в Массачусетском технологическом институте. Регистр. «Я думаю, что у нас будет экосистема, состоящая из некоторых моделей, обученных на реальных данных, некоторых на синтетических, и, возможно, большинство моделей будут обучены на обоих».

Трудно полагаться исключительно на изображения, созданные искусственным интеллектом, поскольку их качество и разрешение часто хуже, чем у реальных фотографий. Модели преобразования текста в изображение, которые их генерируют, ограничены и в других отношениях. Stable Diffusion не всегда создает изображения, соответствующие текстовым подсказкам.

Изола предупредил, что использование синтетических изображений также не обходит потенциальную проблему нарушения авторских прав, поскольку модели, генерирующие их, скорее всего, обучались на защищенных материалах.

«Синтетические данные могут включать в себя точные копии данных об авторских правах. Однако синтетические данные также предоставляют новые возможности для решения проблем интеллектуальной собственности и конфиденциальности, поскольку мы потенциально можем вмешаться в них, отредактировав генеративную модель для удаления конфиденциальных атрибутов», — пояснил он.

Команда также предупредила, что системы обучения на изображениях, сгенерированных ИИ, потенциально могут усугубить предвзятости, полученные в их базовой модели преобразования текста в изображение. ®

Отметка времени:

Больше от Регистр