생성 AI 모델 훈련에 사용되는 이미지 사본 추출 가능

생성 AI 모델 훈련에 사용되는 이미지 사본 추출 가능

소스 노드 : 1942543

Generative AI 모델은 훈련 데이터에서 이미지를 기억할 수 있으므로 사용자가 개인 저작권 데이터를 추출할 수 있습니다. 연구.

DALL-E, Stable Diffusion 및 Midjourney와 같은 도구는 아트워크 및 로고와 같은 저작권으로 보호되는 데이터를 포함하여 인터넷에서 스크랩한 수십억 개의 이미지에 대해 학습됩니다. 사물과 스타일의 시각적 표현을 자연어로 매핑하는 방법을 배웁니다. 입력으로 텍스트 설명이 제공되면 캡션과 일치하는 이미지를 출력으로 생성합니다.

새로운 기술은 저작권에 대한 새로운 법적 논쟁을 불러일으켰습니다. 이러한 도구는 저작권이 있는 이미지를 허가 없이 수집했기 때문에 지적 재산권을 침해합니까?

소송은 제출 저작권 침해에 대한 가장 인기 있는 생성 AI 도구의 제작자에 대해. 텍스트-이미지 모델을 구축하는 회사는 소프트웨어가 고유한 이미지를 생성하기 때문에 저작권 데이터를 사용하는 것이 공정 사용이라고 주장합니다. 그러나 이러한 도구에 의해 모방된 자신의 스타일과 작업을 본 예술가는 자신이 바가지를 쳤다고 생각합니다.

이제 Google, DeepMind, University of California, Berkeley, ETH Zurich 및 Princeton University에서 근무하는 연구원들이 주도한 연구에서 이러한 모델을 훈련하는 데 사용되는 이미지를 추출할 수 있음을 보여줍니다. 생성 AI 모델은 이미지를 기억하고 정확한 복사본을 생성할 수 있어 새로운 저작권 및 개인 정보 보호 문제가 제기됩니다.

확산_추출_연구

연구원들이 Stable Diffusion에서 추출한 이미지의 몇 가지 예

연구 공동 저자는 "적이 개인 정보를 추출하려는 실제 공격에서 이미지에 사용된 레이블이나 캡션을 추측할 것"이라고 말했습니다. 등록.

“다행히도 공격자에게는 추측이 완벽하지 않은 경우에도 우리의 방법이 작동할 수 있습니다. 예를 들어 트레이닝 세트의 전체 캡션("Living in the light with Ann Graham Lotz") 대신 그녀의 이름으로 Stable Diffusion을 프롬프트하여 Ann Graham Lotz의 초상화를 추출할 수 있습니다.

확산_추출_연구_2

모델이 기억한 이미지만 추출할 수 있으며 모델이 얼마나 데이터를 기억할 수 있는지는 학습 데이터, 크기 등에 따라 다릅니다. 동일한 이미지의 복사본이 기억될 가능성이 더 높으며 더 많은 매개변수를 포함하는 모델도 이미지를 기억할 가능성이 더 큽니다.

팀은 안정적인 확산을 학습하는 데 사용된 94개의 예시에서 350,000개의 이미지를 추출할 수 있었고 Google의 23개의 예시에서 1,000개의 이미지를 추출할 수 있었습니다. 영상 모델. 비교를 위해 Stable Diffusion에는 890억 160천만 개의 매개변수가 있고 XNUMX억 XNUMX천만 개의 이미지에 대해 훈련된 반면 Imagen에는 XNUMX억 개의 매개변수가 있습니다. 얼마나 많은 이미지가 훈련에 사용되었는지는 명확하지 않습니다.

"안정적인 확산의 경우 대부분의 기억된 이미지가 훈련 세트에서 100회 이상 복제되었지만 일부는 10회 미만인 것으로 나타났습니다."라고 연구원은 말했습니다. “Stable Diffusion보다 더 큰 모델이고 더 작은 데이터 세트에서 훈련된 Google의 Imagen 모델의 경우 암기가 훨씬 더 빈번한 것으로 보입니다. 여기에서 우리는 전체 교육 세트에서 단 한 번만 존재하지만 여전히 추출 가능한 이상치 이미지를 발견했습니다.”

그들은 더 큰 모델이 더 많은 이미지를 기억하는 경향이 있는 이유를 확신하지 못하지만 매개변수에 더 많은 훈련 데이터를 저장할 수 있는 것과 관련이 있을 수 있다고 생각합니다.

이러한 모델의 암기율은 매우 낮으며 실제로 이미지 추출은 지루하고 까다로울 수 있습니다. 공격자는 모델이 기억된 데이터를 생성하도록 유도하기 위해 수많은 프롬프트를 추측하고 시도해야 합니다. 그럼에도 불구하고 팀은 개발자들에게 개인의 민감한 데이터에 대한 생성 AI 모델 교육을 삼가라고 경고하고 있습니다.

“암기가 얼마나 나쁜지는 생성 모델의 적용에 달려 있습니다. 의료 영역(예: 흉부 엑스레이 또는 의료 기록에 대한 교육)과 같은 매우 사적인 응용 프로그램에서 암기는 매우 적은 수의 사용자에게만 영향을 미치더라도 매우 바람직하지 않습니다. 또한 개인 정보에 민감한 애플리케이션에 사용되는 교육 세트는 일반적으로 현재 생성 예술 모델을 교육하는 데 사용되는 것보다 작습니다. 따라서 중복되지 않은 이미지를 포함하여 훨씬 더 많은 암기를 볼 수 있습니다.”라고 그들은 말했습니다.

데이터 추출을 방지하는 한 가지 방법은 모델에서 암기 가능성을 줄이는 것입니다. 예를 들어 훈련 데이터 세트에서 중복을 제거하면 이미지가 기억되고 추출될 가능성이 최소화됩니다. Stable Diffusion의 창시자인 Stability AI는 연구원의 발견과 독립적으로 더 적은 중복을 포함하는 데이터 세트에서 최신 모델을 교육한 것으로 알려졌습니다.

텍스트-이미지 모델이 훈련된 이미지의 정확한 사본을 생성할 수 있다는 것이 입증되었으므로 이것이 저작권 소송에 어떤 영향을 미칠 수 있는지는 명확하지 않습니다.

“사람들이 온라인에서 만드는 일반적인 주장은 '이 모델은 훈련 데이터를 절대 기억하지 않는다'는 변형이었습니다. 우리는 이것이 명백히 거짓임을 이제 압니다. 그러나 이것이 법적 논쟁에서 실제로 중요한지 여부도 논쟁의 여지가 있습니다.”라고 연구원은 결론지었습니다.

“적어도 지금은 이 소송에서 양 당사자가 신뢰할 수 있는 좀 더 확실한 사실을 가지고 있습니다. 예, 암기가 발생합니다. 그러나 매우 드물다. 주로 중복 이미지가 많은 경우에 발생하는 것 같습니다.” ®

타임 스탬프 :

더보기 등록