É possível extrair cópias de imagens usadas para treinar modelos generativos de IA

É possível extrair cópias de imagens usadas para treinar modelos generativos de IA

Nó Fonte: 1942543

Os modelos generativos de IA podem memorizar imagens de seus dados de treinamento, possivelmente permitindo que os usuários extraiam dados privados protegidos por direitos autorais, de acordo com pesquisa.

Ferramentas como DALL-E, Stable Diffusion e Midjourney são treinadas em bilhões de imagens extraídas da Internet, incluindo dados protegidos por direitos autorais, como arte e logotipos. Eles aprendem a mapear representações visuais de objetos e estilos para linguagem natural. Quando recebem uma descrição de texto como entrada, eles geram uma imagem correspondente à legenda como saída.

A nova tecnologia desencadeou um novo debate legal sobre direitos autorais: essas ferramentas violam os direitos de propriedade intelectual desde que ingeriram imagens protegidas por direitos autorais sem permissão?

Ações judiciais foram arquivada contra os fabricantes das ferramentas de IA generativas mais populares por violação de direitos autorais. As empresas que constroem modelos de texto para imagem argumentam que, como seu software gera imagens exclusivas, o uso de dados de direitos autorais é justo. Mas os artistas que viram seus estilos e trabalhos imitados por essas ferramentas acreditam que foram roubados.

Agora, pesquisas lideradas por pesquisadores que trabalham no Google, DeepMind, Universidade da Califórnia, Berkeley, ETH Zurich e Universidade de Princeton demonstram que as imagens usadas para treinar esses modelos podem ser extraídas. Os modelos generativos de IA memorizam imagens e podem gerar cópias precisas delas, levantando novas questões de direitos autorais e privacidade.

difusão_extração_pesquisa

Alguns exemplos de imagens que os pesquisadores conseguiram extrair do Stable Diffusion

“Em um ataque real, em que um adversário deseja extrair informações privadas, ele adivinharia o rótulo ou a legenda usada para uma imagem”, disseram os coautores do estudo. O registro.

“Felizmente para o invasor, nosso método às vezes pode funcionar mesmo que o palpite não seja perfeito. Por exemplo, podemos extrair o retrato de Ann Graham Lotz apenas solicitando Stable Diffusion com o nome dela, em vez da legenda completa do conjunto de treinamento (“Living in the light with Ann Graham Lotz”).

difusão_extração_pesquisa_2

Somente as imagens memorizadas pelo modelo podem ser extraídas, e quanto um modelo pode memorizar dados varia de acordo com fatores como seus dados de treinamento e tamanho. Cópias da mesma imagem são mais propensas a serem memorizadas, e modelos contendo mais parâmetros são mais propensos a serem capazes de lembrar imagens também.

A equipe conseguiu extrair 94 imagens de 350,000 exemplos usados ​​para treinar a difusão estável e 23 imagens de 1,000 exemplos do Google. Imagem modelo. Para comparação, Stable Diffusion tem 890 milhões de parâmetros e foi treinado em 160 milhões de imagens, enquanto Imagen tem dois bilhões de parâmetros – não está claro quantas imagens foram usadas para treiná-lo exatamente.

“Para a difusão estável, descobrimos que a maioria das imagens memorizadas foram duplicadas 100 vezes ou mais no conjunto de treinamento, mas algumas apenas 10 vezes”, disseram os pesquisadores. “Para o modelo Imagen do Google, que é um modelo maior que o Stable Diffusion e treinado em um conjunto de dados menor, a memorização parece ser muito mais frequente. Aqui encontramos algumas imagens discrepantes que estão presentes apenas uma vez em todo o conjunto de treinamento, mas ainda podem ser extraídas.”

Eles não sabem ao certo por que modelos maiores tendem a memorizar mais imagens, mas acreditam que isso pode ter algo a ver com a capacidade de armazenar mais dados de treinamento em seus parâmetros.

As taxas de memorização para esses modelos são muito baixas e, na realidade, extrair imagens seria tedioso e complicado. Os invasores teriam que adivinhar e tentar vários prompts para levar o modelo a gerar dados memorizados. Ainda assim, a equipe está alertando os desenvolvedores a absterem-se de treinar modelos de IA generativos em dados confidenciais privados.

“O quão ruim é a memorização depende da aplicação dos modelos generativos. Em aplicações altamente privadas, como no domínio médico (por exemplo, treinamento em radiografias de tórax ou registros médicos), a memorização é altamente indesejável, mesmo que afete apenas uma fração muito pequena de usuários. Além disso, os conjuntos de treinamento usados ​​em aplicativos sensíveis à privacidade são geralmente menores do que os usados ​​para treinar modelos de arte generativa atuais. Portanto, podemos ver muito mais memorização, incluindo imagens que não são duplicadas”, eles nos disseram.

Uma forma de prevenir a extração de dados é diminuir a probabilidade de memorização nos modelos. Livrar-se de duplicatas no conjunto de dados de treinamento, por exemplo, minimizaria as chances de as imagens serem memorizadas e extraídas. Stability AI, os criadores do Stable Diffusion, supostamente treinaram seu mais novo modelo em um conjunto de dados contendo menos duplicatas, independentemente das descobertas dos pesquisadores.

Agora que foi comprovado que os modelos de conversão de texto em imagem podem gerar cópias exatas das imagens nas quais foram treinados, não está claro como isso pode afetar os casos de direitos autorais.

“Um argumento comum que vimos as pessoas fazerem online foi alguma variante de 'esses modelos nunca memorizam dados de treinamento'. Agora sabemos que isso é claramente falso. Mas se isso realmente importa ou não no debate jurídico também está em debate”, concluíram os pesquisadores.

“Pelo menos agora, ambos os lados desses processos têm alguns fatos mais tangíveis nos quais podem se basear: sim, a memorização acontece; mas é muito raro; e parece acontecer principalmente para imagens altamente duplicadas.” ®

Carimbo de hora:

Mais de O registro