Можна видобувати копії зображень, які використовуються для навчання генеративних моделей ШІ

Можна видобувати копії зображень, які використовуються для навчання генеративних моделей ШІ

Вихідний вузол: 1942543

Генеративні моделі штучного інтелекту можуть запам’ятовувати зображення зі своїх навчальних даних, можливо, дозволяючи користувачам витягувати приватні дані, захищені авторським правом, відповідно до дослідження.

Такі інструменти, як DALL-E, Stable Diffusion і Midjourney, навчаються на мільярдах зображень, зібраних з Інтернету, включаючи дані, захищені авторським правом, наприклад ілюстрації та логотипи. Вони вчаться відображати візуальні представлення об’єктів і стилів у природній мові. Коли їм надається текстовий опис як вхідні дані, вони генерують зображення, яке відповідає підпису як вихідні дані.

Нова технологія викликала нові юридичні дебати щодо авторського права: чи порушують ці інструменти права інтелектуальної власності, оскільки вони без дозволу поглинали зображення, захищені авторським правом?

Були судові позови подано проти виробників найпопулярніших генеративних інструментів ШІ за порушення авторських прав. Компанії, які створюють моделі перетворення тексту в зображення, стверджують, що оскільки їх програмне забезпечення створює унікальні зображення, використання ними даних про авторські права є добросовісним використанням. Але художники, які бачили, як їхні стилі та роботи наслідують ці інструменти, вважають, що їх обдурили.

Тепер дослідження під керівництвом дослідників, які працюють із Google, DeepMind, Університету Каліфорнії, Берклі, ETH Цюріха та Прінстонського університету, демонструють, що зображення, які використовуються для навчання цих моделей, можна отримати. Генеративні моделі штучного інтелекту запам’ятовують зображення та можуть створювати їх точні копії, що викликає нові проблеми щодо авторського права та конфіденційності.

diffusion_extraction_research

Деякі приклади зображень, які дослідникам вдалося витягти з Stable Diffusion

«Під час реальної атаки, коли зловмисник хоче отримати особисту інформацію, він вгадає ярлик або підпис, який використовувався для зображення», — повідомили співавтори дослідження. Реєстр.

«На щастя для зловмисника, наш метод іноді може працювати, навіть якщо припущення не ідеальне. Наприклад, ми можемо отримати портрет Енн Грем Лотц, просто вказавши в Stable Diffusion її ім’я замість повного підпису з навчального набору («Життя у світлі з Енн Грем Лотц»).

diffusion_extraction_research_2

Можна витягти лише зображення, запам’ятовані моделлю, і те, наскільки модель може запам’ятати дані, залежить від таких факторів, як дані навчання та розмір. Копії того самого зображення, швидше за все, запам’ятовуються, а моделі, що містять більше параметрів, також, швидше за все, зможуть запам’ятати зображення.

Команда змогла отримати 94 зображення з 350,000 23 прикладів, використаних для навчання Stable Diffusion, і 1,000 зображення з XNUMX прикладів Google. Зображення модель. Для порівняння, Stable Diffusion має 890 мільйонів параметрів і був навчений на 160 мільйонах зображень, тоді як Imagen має два мільярди параметрів – незрозуміло, скільки зображень було використано для його навчання.

«Для стабільної дифузії ми виявили, що більшість запам’ятованих зображень дублювалися 100 або більше разів у навчальному наборі, але деякі лише 10 разів», — сказали дослідники. «Для моделі Google Imagen, яка є більшою моделлю, ніж Stable Diffusion, і навчається на меншому наборі даних, запам’ятовування, здається, відбувається набагато частіше. Тут ми знаходимо деякі викидні зображення, які присутні лише один раз у всьому навчальному наборі, але все одно їх можна витягти».

Вони не зовсім впевнені, чому великі моделі, як правило, запам’ятовують більше зображень, але вважають, що це може бути пов’язано з можливістю зберігати більше даних про навчання в його параметрах.

Швидкість запам'ятовування для цих моделей досить низька, і насправді вилучення зображень було б нудним і складним. Зловмисникам довелося б вгадати та спробувати численні підказки, щоб привести модель до генерації запам’ятованих даних. Тим не менш, команда попереджає розробників утримуватися від навчання генеративних моделей ШІ на приватних конфіденційних даних.

«Наскільки погане запам'ятовування залежить від застосування генеративних моделей. У дуже приватних програмах, наприклад у медичній сфері (наприклад, навчання на рентгенівських знімках грудної клітки чи медичних записах), запам’ятовування є вкрай небажаним, навіть якщо воно стосується лише дуже невеликої частини користувачів. Крім того, навчальні набори, які використовуються в чутливих до конфіденційності додатках, зазвичай менші, ніж ті, які використовуються для навчання сучасних моделей генеративного мистецтва. Таким чином, ми можемо побачити набагато більше запам’ятовування, включаючи зображення, які не дублюються», – сказали нам вони.

Один із способів запобігти вилученню даних — зменшити ймовірність запам’ятовування моделей. Наприклад, усунення дублікатів у навчальному наборі даних зведе до мінімуму ймовірність запам’ятовування та вилучення зображень. Повідомляється, що Stability AI, творці Stable Diffusion, навчили свою нову модель на наборі даних, що містить менше дублікатів, незалежно від висновків дослідників.

Тепер, коли доведено, що моделі перетворення тексту в зображення можуть генерувати точні копії зображень, на яких вони навчалися, незрозуміло, як це може вплинути на випадки авторського права.

«Поширеним аргументом, який ми бачили в Інтернеті, був варіант «ці моделі ніколи не запам’ятовують навчальні дані». Тепер ми знаємо, що це явно неправда. Але питання про те, чи це дійсно має значення в юридичних дебатах, також є предметом дебатів», – підсумували дослідники.

«Принаймні зараз обидві сторони в цих судових процесах мають деякі більш відчутні факти, на які вони можуть покластися: так, запам’ятовування відбувається; але це дуже рідко; і в основному це відбувається для зображень, що дублюються». ®

Часова мітка:

Більше від Реєстр