Моделі перетворення тексту в зображення навчаються ефективніше за допомогою підроблених даних

Моделі перетворення тексту в зображення навчаються ефективніше за допомогою підроблених даних

Вихідний вузол: 2974582

За словами комп’ютерних науковців з Массачусетського технологічного інституту та Google, штучні зображення можуть допомогти моделям штучного інтелекту точніше вивчати візуальні зображення порівняно з реальними знімками. Результатом є нейронні мережі, які краще створюють зображення з ваших письмових описів.

В основі всіх моделей перетворення тексту в зображення лежить їх здатність зіставляти об’єкти зі словами. За умови введення тексту, наприклад, «дитина тримає червону повітряну кульку в сонячний день», вони повинні повернути зображення, яке приблизно відповідає опису. Для цього їм потрібно вивчити візуальні уявлення про те, як може виглядати дитина, червона повітряна кулька та сонячний день. 

Команда Массачусетського технологічного інституту та Google вважає, що нейронні мережі можуть генерувати точніші зображення з підказок після навчання на зображеннях, створених штучним інтелектом, на відміну від використання реальних знімків. Щоб продемонструвати це, група розробила StableRep, який навчається перетворювати описові підписи на правильні відповідні зображення із зображень, згенерованих популярною моделлю перетворення тексту в зображення з відкритим кодом Stable Diffusion.

Іншими словами: використання встановленої, навченої моделі ШІ для навчання інших моделей.

Як переддрукова стаття вчених, випущена через ArXiv наприкінці минулого місяця стверджує: «З виключно синтетичними зображеннями представлення, отримані StableRep, перевершують продуктивність представлень, отриманих SimCLR і CLIP, використовуючи той самий набір текстових підказок і відповідних реальних зображень у великих наборах даних». SimCLR і CLIP — це алгоритми машинного навчання, які можна використовувати для створення зображень із текстових підказок.

«Коли ми додатково додаємо мовний нагляд, StableRep, навчений 20 мільйонами синтетичних зображень, досягає кращої точності, ніж CLIP, навчений 50 мільйонами реальних зображень», — продовжується в статті.

Алгоритми машинного навчання фіксують зв’язки між характеристиками об’єктів і значеннями слів у вигляді масиву чисел. Використовуючи StableRep, дослідники можуть ретельніше контролювати цей процес, навчаючи модель на кількох зображеннях, створених за допомогою Stable Diffusion, за однією підказкою. Це означає, що модель може вивчати більше різноманітних візуальних представлень і бачити, які зображення відповідають підказкам точніше за інші. 

Я думаю, що ми матимемо екосистему деяких моделей, навчених на реальних даних, деяких на синтетичних

«Ми навчаємо модель, щоб дізнатися більше про концепції високого рівня через контекст і дисперсію, а не просто подавати їй дані», — Ліджі Фан, провідний дослідник дослідження та аспірант з електротехніки Массачусетського технологічного інституту, пояснені цього тижня. «Коли використовується кілька зображень, усі згенеровані з того самого тексту, усі розглядаються як зображення того самого основного предмета, модель глибше занурюється в концепції, що стоять за зображеннями — скажімо, об’єкт, — а не лише їхні пікселі».

Як зазначалося вище, цей підхід також означає, що ви можете використовувати менше синтетичних зображень для навчання своєї нейронної мережі, ніж реальні, і отримати кращі результати, що є безпрограшним для розробників ШІ.

Такі методи, як StableRep, означають, що колись моделі перетворення тексту в зображення можуть бути навчені на синтетичних даних. Це дозволить розробникам менше покладатися на реальні зображення та може знадобитися, якщо механізми ШІ вичерпають доступні онлайн-ресурси.

«Я думаю, [навчання моделей штучного інтелекту на синтетичних зображеннях] буде все більш поширеним», — сказав Філіп Ізола, співавтор статті та доцент кафедри комп’ютерного зору в Массачусетському технологічному інституті. Реєстр. «Я думаю, що у нас буде екосистема деяких моделей, навчених на реальних даних, деяких на синтетичних, і, можливо, більшість моделей будуть навчені на обох».

Важко покладатися лише на зображення, створені штучним інтелектом, оскільки їх якість і роздільна здатність часто гірші, ніж у справжніх фотографій. Моделі перетворення тексту в зображення, які їх генерують, також обмежені іншими способами. Стабільна дифузія не завжди створює зображення, які відповідають текстовим підказкам.

Ізола попередила, що використання синтетичних зображень також не уникає потенційної проблеми порушення авторських прав, оскільки моделі, які їх створюють, ймовірно, навчалися на захищених матеріалах.

«Синтетичні дані можуть включати точні копії даних про авторські права. Однак синтетичні дані також надають нові можливості для вирішення проблем інтелектуальної власності та конфіденційності, оскільки ми потенційно можемо втрутитися в це шляхом редагування генеративної моделі, щоб видалити конфіденційні атрибути», — пояснив він.

Команда також попередила, що системи навчання на створених штучним інтелектом зображеннях можуть потенційно посилити упередження, отримані за допомогою базової моделі перетворення тексту в зображення. ®

Часова мітка:

Більше від Реєстр