Генеративні моделі штучного інтелекту можуть запам’ятовувати зображення зі своїх навчальних даних, можливо, дозволяючи користувачам витягувати приватні дані, захищені авторським правом, відповідно до дослідження.
Такі інструменти, як DALL-E, Stable Diffusion і Midjourney, навчаються на мільярдах зображень, зібраних з Інтернету, включаючи дані, захищені авторським правом, наприклад ілюстрації та логотипи. Вони вчаться відображати візуальні представлення об’єктів і стилів у природній мові. Коли їм надається текстовий опис як вхідні дані, вони генерують зображення, яке відповідає підпису як вихідні дані.
Нова технологія викликала нові юридичні дебати щодо авторського права: чи порушують ці інструменти права інтелектуальної власності, оскільки вони без дозволу поглинали зображення, захищені авторським правом?
Були судові позови подано проти виробників найпопулярніших генеративних інструментів ШІ за порушення авторських прав. Компанії, які створюють моделі перетворення тексту в зображення, стверджують, що оскільки їх програмне забезпечення створює унікальні зображення, використання ними даних про авторські права є добросовісним використанням. Але художники, які бачили, як їхні стилі та роботи наслідують ці інструменти, вважають, що їх обдурили.
Тепер дослідження під керівництвом дослідників, які працюють із Google, DeepMind, Університету Каліфорнії, Берклі, ETH Цюріха та Прінстонського університету, демонструють, що зображення, які використовуються для навчання цих моделей, можна отримати. Генеративні моделі штучного інтелекту запам’ятовують зображення та можуть створювати їх точні копії, що викликає нові проблеми щодо авторського права та конфіденційності.
Деякі приклади зображень, які дослідникам вдалося витягти з Stable Diffusion
«Під час реальної атаки, коли зловмисник хоче отримати особисту інформацію, він вгадає ярлик або підпис, який використовувався для зображення», — повідомили співавтори дослідження. Реєстр.
«На щастя для зловмисника, наш метод іноді може працювати, навіть якщо припущення не ідеальне. Наприклад, ми можемо отримати портрет Енн Грем Лотц, просто вказавши в Stable Diffusion її ім’я замість повного підпису з навчального набору («Життя у світлі з Енн Грем Лотц»).
Можна витягти лише зображення, запам’ятовані моделлю, і те, наскільки модель може запам’ятати дані, залежить від таких факторів, як дані навчання та розмір. Копії того самого зображення, швидше за все, запам’ятовуються, а моделі, що містять більше параметрів, також, швидше за все, зможуть запам’ятати зображення.
Команда змогла отримати 94 зображення з 350,000 23 прикладів, використаних для навчання Stable Diffusion, і 1,000 зображення з XNUMX прикладів Google. Зображення модель. Для порівняння, Stable Diffusion має 890 мільйонів параметрів і був навчений на 160 мільйонах зображень, тоді як Imagen має два мільярди параметрів – незрозуміло, скільки зображень було використано для його навчання.
«Для стабільної дифузії ми виявили, що більшість запам’ятованих зображень дублювалися 100 або більше разів у навчальному наборі, але деякі лише 10 разів», — сказали дослідники. «Для моделі Google Imagen, яка є більшою моделлю, ніж Stable Diffusion, і навчається на меншому наборі даних, запам’ятовування, здається, відбувається набагато частіше. Тут ми знаходимо деякі викидні зображення, які присутні лише один раз у всьому навчальному наборі, але все одно їх можна витягти».
Вони не зовсім впевнені, чому великі моделі, як правило, запам’ятовують більше зображень, але вважають, що це може бути пов’язано з можливістю зберігати більше даних про навчання в його параметрах.
Швидкість запам'ятовування для цих моделей досить низька, і насправді вилучення зображень було б нудним і складним. Зловмисникам довелося б вгадати та спробувати численні підказки, щоб привести модель до генерації запам’ятованих даних. Тим не менш, команда попереджає розробників утримуватися від навчання генеративних моделей ШІ на приватних конфіденційних даних.
«Наскільки погане запам'ятовування залежить від застосування генеративних моделей. У дуже приватних програмах, наприклад у медичній сфері (наприклад, навчання на рентгенівських знімках грудної клітки чи медичних записах), запам’ятовування є вкрай небажаним, навіть якщо воно стосується лише дуже невеликої частини користувачів. Крім того, навчальні набори, які використовуються в чутливих до конфіденційності додатках, зазвичай менші, ніж ті, які використовуються для навчання сучасних моделей генеративного мистецтва. Таким чином, ми можемо побачити набагато більше запам’ятовування, включаючи зображення, які не дублюються», – сказали нам вони.
Один із способів запобігти вилученню даних — зменшити ймовірність запам’ятовування моделей. Наприклад, усунення дублікатів у навчальному наборі даних зведе до мінімуму ймовірність запам’ятовування та вилучення зображень. Повідомляється, що Stability AI, творці Stable Diffusion, навчили свою нову модель на наборі даних, що містить менше дублікатів, незалежно від висновків дослідників.
Тепер, коли доведено, що моделі перетворення тексту в зображення можуть генерувати точні копії зображень, на яких вони навчалися, незрозуміло, як це може вплинути на випадки авторського права.
«Поширеним аргументом, який ми бачили в Інтернеті, був варіант «ці моделі ніколи не запам’ятовують навчальні дані». Тепер ми знаємо, що це явно неправда. Але питання про те, чи це дійсно має значення в юридичних дебатах, також є предметом дебатів», – підсумували дослідники.
«Принаймні зараз обидві сторони в цих судових процесах мають деякі більш відчутні факти, на які вони можуть покластися: так, запам’ятовування відбувається; але це дуже рідко; і в основному це відбувається для зображень, що дублюються». ®
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://go.theregister.com/feed/www.theregister.com/2023/02/06/uh_oh_attackers_can_extract/
- 000
- 1
- 10
- 100
- a
- Здатний
- За
- насправді
- проти
- AI
- Дозволити
- та
- додаток
- застосування
- сперечатися
- аргумент
- Art
- Художники
- витвір мистецтва
- атака
- поганий
- буття
- Вірити
- Берклі
- Мільярд
- мільярди
- border
- Обидві сторони
- Створюємо
- Каліфорнія
- випадків
- Центр
- шанси
- ясно
- очевидно
- загальний
- Компанії
- порівняння
- Турбота
- уклали
- copies
- авторське право
- може
- Творці
- Поточний
- dall's
- дані
- дебати
- зменшити
- Deepmind
- залежить
- description
- розробників
- радіомовлення
- домен
- дублікати
- Весь
- ETH
- ETH Zurich
- Ефір (ETH)
- Навіть
- точно
- приклад
- Приклади
- витяг
- видобуток
- фактори
- ярмарок
- кілька
- знайти
- На щастя
- фракція
- частий
- свіжий
- від
- Повний
- Крім того
- породжувати
- генерує
- породжує
- генеративний
- Генеративний ШІ
- отримання
- даний
- траплятися
- відбувається
- тут
- дуже
- Як
- HTTPS
- зображення
- зображень
- Impact
- in
- У тому числі
- самостійно
- інформація
- вхід
- замість
- інтелектуальний
- інтелектуальна власність
- інтернет
- IT
- Знати
- етикетка
- мова
- більше
- судові процеси
- вести
- УЧИТЬСЯ
- Led
- легальний
- світло
- Ймовірно
- життя
- серія
- низький
- зробити
- Makers
- вдалося
- багато
- карта
- узгодження
- Питання
- медичний
- метод
- Серед Подорожі
- може бути
- мільйона
- модель
- Моделі
- більше
- найбільш
- Найбільш популярний
- ім'я
- Природний
- Природна мова
- Нові
- новітній
- численний
- об'єкти
- онлайн
- параметри
- Люди
- ідеальний
- дозвіл
- plato
- Інформація про дані Платона
- PlatoData
- популярний
- портрет
- це можливо
- представити
- досить
- запобігати
- Принстон
- недоторканність приватного життя
- приватний
- приватна інформація
- власність
- Право власності
- захищений
- доведений
- залучення
- РІДНІ
- ставки
- RE
- реальний
- Реальність
- облік
- запам'ятати
- дослідження
- Дослідники
- позбавитися
- праві
- рвані
- Зазначений
- то ж
- Здається,
- чутливий
- комплект
- набори
- Сторони
- з
- один
- Розмір
- невеликий
- менше
- Софтвер
- деякі
- що в сім'ї щось
- Стабільність
- стабільний
- Як і раніше
- зберігати
- Вивчення
- такі
- команда
- Технологія
- Команда
- їх
- отже
- час
- times
- до
- занадто
- інструменти
- поїзд
- навчений
- Навчання
- створеного
- університет
- Університет Каліфорнії
- us
- використання
- користувачі
- зазвичай
- варіант
- Ve
- попередження
- Чи
- який
- в той час як
- ВООЗ
- без
- Work
- робочий
- б
- зефірнет
- Цюріх