Es posible extraer copias de imágenes utilizadas para entrenar modelos generativos de IA

Es posible extraer copias de imágenes utilizadas para entrenar modelos generativos de IA

Nodo de origen: 1942543

Los modelos generativos de IA pueden memorizar imágenes de sus datos de entrenamiento, lo que posiblemente permita a los usuarios extraer datos privados con derechos de autor, según la investigación.

Herramientas como DALL-E, Stable Diffusion y Midjourney se entrenan en miles de millones de imágenes extraídas de Internet, incluidos datos protegidos por derechos de autor, como ilustraciones y logotipos. Aprenden a mapear representaciones visuales de objetos y estilos en lenguaje natural. Cuando reciben una descripción de texto como entrada, generan una imagen que coincide con el título como salida.

La nueva tecnología ha provocado un nuevo debate legal sobre los derechos de autor: ¿Violan estas herramientas los derechos de propiedad intelectual ya que ingirieron imágenes con derechos de autor sin permiso?

Las demandas han sido archivado contra los creadores de las herramientas de IA generativa más populares por infringir los derechos de autor. Las empresas que construyen modelos de texto a imagen argumentan que dado que su software genera imágenes únicas, el uso que hacen de los datos de derechos de autor es un uso justo. Pero los artistas que han visto imitados sus estilos y trabajos por estas herramientas creen que han sido estafados.

Ahora, una investigación dirigida por investigadores que trabajan en Google, DeepMind, la Universidad de California, Berkeley, ETH Zurich y la Universidad de Princeton demuestra que las imágenes utilizadas para entrenar estos modelos se pueden extraer. Los modelos generativos de IA memorizan imágenes y pueden generar copias precisas de ellas, lo que genera nuevas preocupaciones sobre derechos de autor y privacidad.

difusión_extracción_investigación

Algunos ejemplos de imágenes que los investigadores lograron extraer de Stable Diffusion

“En un ataque real, donde un adversario quiere extraer información privada, adivinaría la etiqueta o el título que se usó para una imagen”, dijeron los coautores del estudio. El registro.

“Afortunadamente para el atacante, nuestro método a veces puede funcionar incluso si la suposición no es perfecta. Por ejemplo, podemos extraer el retrato de Ann Graham Lotz simplemente solicitando Stable Diffusion con su nombre, en lugar del título completo del conjunto de entrenamiento ("Living in the light with Ann Graham Lotz").

difusión_extracción_investigación_2

Solo se pueden extraer las imágenes memorizadas por el modelo, y la cantidad de datos que un modelo puede memorizar varía según factores como sus datos de entrenamiento y tamaño. Es más probable que se memoricen copias de la misma imagen, y es más probable que los modelos que contienen más parámetros también puedan recordar imágenes.

El equipo pudo extraer 94 imágenes de 350,000 23 ejemplos utilizados para entrenar Stable Diffusion y 1,000 imágenes de XNUMX ejemplos de Google. Imagen modelo. A modo de comparación, Stable Diffusion tiene 890 millones de parámetros y se entrenó en 160 millones de imágenes, mientras que Imagen tiene dos mil millones de parámetros; no está claro cuántas imágenes se usaron para entrenarlo exactamente.

“Para Stable Diffusion, encontramos que la mayoría de las imágenes memorizadas se duplicaron 100 veces o más en el conjunto de entrenamiento, pero algunas tan solo 10 veces”, dijeron los investigadores. “Para el modelo Imagen de Google, que es un modelo más grande que Stable Diffusion y entrenado en un conjunto de datos más pequeño, la memorización parece ser mucho más frecuente. Aquí encontramos algunas imágenes atípicas que están presentes solo una vez en todo el conjunto de entrenamiento, pero aún son extraíbles”.

No están muy seguros de por qué los modelos más grandes tienden a memorizar más imágenes, pero creen que puede tener algo que ver con poder almacenar más datos de entrenamiento en sus parámetros.

Las tasas de memorización para estos modelos son bastante bajas y, en realidad, extraer imágenes sería tedioso y complicado. Los atacantes tendrían que adivinar y probar numerosas indicaciones para llevar al modelo a generar datos memorizados. Aún así, el equipo advierte a los desarrolladores que se abstengan de entrenar modelos generativos de IA en datos confidenciales privados.

“Cuán mala es la memorización depende de la aplicación de los modelos generativos. En aplicaciones altamente privadas, como en el ámbito médico (p. ej., capacitación en radiografías de tórax o registros médicos), la memorización es muy poco deseable, incluso si solo afecta a una fracción muy pequeña de usuarios. Además, los conjuntos de entrenamiento utilizados en aplicaciones sensibles a la privacidad suelen ser más pequeños que los que se utilizan para entrenar modelos de arte generativo actuales. Por lo tanto, podríamos ver mucha más memorización, incluidas imágenes que no están duplicadas”, nos dijeron.

Una forma de evitar la extracción de datos es disminuir la probabilidad de memorización en los modelos. Deshacerse de los duplicados en el conjunto de datos de entrenamiento, por ejemplo, minimizaría las posibilidades de memorizar y extraer imágenes. Stability AI, los creadores de Stable Diffusion, supuestamente entrenaron su modelo más nuevo en un conjunto de datos que contiene menos duplicados independientemente de los hallazgos de los investigadores.

Ahora que se ha demostrado que los modelos de texto a imagen pueden generar copias exactas de las imágenes en las que fueron entrenados, no está claro cómo esto podría afectar los casos de derechos de autor.

“Un argumento común que habíamos visto que la gente hacía en línea era una variante de 'estos modelos nunca memorizan los datos de entrenamiento'. Ahora sabemos que esto es claramente falso. Pero si esto realmente importa o no en el debate legal también está sujeto a debate”, concluyeron los investigadores.

“Al menos ahora, ambas partes en estas demandas tienen algunos hechos más tangibles en los que pueden confiar: sí, la memorización ocurre; pero es muy raro; y parece ocurrir principalmente con imágenes muy duplicadas”. ®

Sello de tiempo:

Mas de El registro