Det er mulig å trekke ut kopier av bilder som brukes til å trene generative AI-modeller

Publisert av Platon

Følgere: 0

Generative AI-modeller kan huske bilder fra treningsdataene deres, noe som muligens lar brukere trekke ut private opphavsrettsbeskyttede data, iht. forskning.

Verktøy som DALL-E, Stable Diffusion og Midjourney er trent på milliarder av bilder skrapet fra internett, inkludert data beskyttet av opphavsrett som kunstverk og logoer. De lærer å kartlegge visuelle representasjoner av objekter og stiler til naturlig språk. Når de får en tekstbeskrivelse som input, genererer de et bilde som samsvarer med bildeteksten som utdata.

Den nye teknologien har utløst en ny juridisk debatt om opphavsrett: bryter disse verktøyene immaterielle rettigheter siden de tok opp opphavsrettsbeskyttede bilder uten tillatelse?

Det har vært søksmål arkivert mot produsenter av de mest populære generative AI-verktøyene for brudd på opphavsretten. Selskaper som bygger tekst-til-bilde-modeller hevder at siden deres programvare genererer unike bilder, er bruken av opphavsrettsdata rimelig bruk. Men kunstnere som har sett stilene og arbeidet deres imitert av disse verktøyene, tror de har blitt dratt av.

Nå viser forskning ledet av forskere som jobber ved Google, DeepMind, University of California, Berkeley, ETH Zurich og Princeton University at bilder som brukes til å trene disse modellene kan trekkes ut. Generative AI-modeller husker bilder og kan generere nøyaktige kopier av dem, noe som skaper nye bekymringer om opphavsrett og personvern.

Noen eksempler på bilder forskerne klarte å trekke ut fra Stable Diffusion

"I et virkelig angrep, der en motstander ønsker å trekke ut privat informasjon, ville de gjette etiketten eller bildeteksten som ble brukt for et bilde," sa medforfattere av studien Registeret.

"Heldigvis for angriperen kan metoden vår noen ganger fungere selv om gjetningen ikke er perfekt. For eksempel kan vi trekke ut portrettet av Ann Graham Lotz ved bare å spørre Stable Diffusion med navnet hennes, i stedet for hele bildeteksten fra treningssettet ("Living in the light with Ann Graham Lotz").

Bare bilder lagret av modellen kan trekkes ut, og hvor mye en modell kan huske data varierer på faktorer som treningsdata og størrelse. Det er mer sannsynlig at kopier av det samme bildet blir lagret, og modeller som inneholder flere parametere er mer sannsynlig å kunne huske bilder også.

Teamet var i stand til å trekke ut 94 bilder fra 350,000 23 eksempler som ble brukt til å trene stabil diffusjon, og 1,000 bilder fra XNUMX eksempler fra Googles Bilde modell. Til sammenligning har Stable Diffusion 890 millioner parametere og ble trent på 160 millioner bilder, mens Imagen har to milliarder parametere – det er ikke klart hvor mange bilder som ble brukt til å trene det nøyaktig.

"For Stable Diffusion finner vi at de fleste lagrede bilder ble duplisert 100 ganger eller mer i treningssettet, men noen så få som 10 ganger," sa forskerne. «For Googles Imagen-modell, som er en større modell enn Stable Diffusion og trent på et mindre datasett, ser det ut til at memorering er mye hyppigere. Her finner vi noen avvikende bilder som bare er tilstede én gang i hele treningssettet, men som fortsatt kan trekkes ut.»

De er ikke helt sikre på hvorfor større modeller har en tendens til å huske flere bilder, men tror det kan ha noe å gjøre med å kunne lagre mer av treningsdataene deres i parameterne.

Memoriseringshastigheten for disse modellene er ganske lav, og i virkeligheten vil det å trekke ut bilder være kjedelig og vanskelig. Angripere må gjette og prøve en rekke meldinger for å lede modellen til å generere lagrede data. Likevel advarer teamet utviklere om å avstå fra å trene generative AI-modeller på private sensitive data.

"Hvor dårlig memorering er avhenger av bruken av de generative modellene. I svært private applikasjoner, som i det medisinske domenet (f.eks. trening på røntgen av thorax eller medisinske journaler), er memorering svært uønsket, selv om det bare påvirker en svært liten brøkdel av brukerne. Videre er opplæringssettene som brukes i personvernsensitive applikasjoner vanligvis mindre enn de som brukes til å trene nåværende generative kunstmodeller. Derfor kan vi se mye mer memorering, inkludert bilder som ikke er duplisert,» fortalte de oss.

En måte å forhindre datautvinning på er å redusere sannsynligheten for memorering i modeller. Å bli kvitt duplikater i opplæringsdatasettet, for eksempel, vil minimere sjansene for at bilder blir lagret og trukket ut. Stability AI, skaperne av Stable Diffusion, har angivelig trent opp sin nyeste modell på et datasett som inneholder færre duplikater uavhengig av forskernes funn.

Nå som det er bevist at tekst-til-bilde-modeller kan generere nøyaktige kopier av bilder de ble trent på, er det ikke klart hvordan dette kan påvirke opphavsrettssaker.

"Et vanlig argument vi hadde sett folk lage på nettet var en variant av "disse modellene husker aldri treningsdata". Vi vet nå at dette er klart feil. Men hvorvidt dette faktisk har betydning eller ikke i den juridiske debatten er også oppe til debatt, konkluderte forskerne.

«I det minste nå har begge sider i disse søksmålene noen mer håndgripelige fakta de kan stole på: ja, memorering skjer; men det er veldig sjeldent; og det ser hovedsakelig ut til å skje for svært dupliserte bilder.» ®

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. Tilgang her.
kilde: https://go.theregister.com/feed/www.theregister.com/2023/02/06/uh_oh_attackers_can_extract/

Tidstempel: Februar 6, 2023

Tidstempel: Desember 8, 2023

Det er mulig å trekke ut kopier av bilder som brukes til å trene generative AI-modeller

Publisert av Platon

Mer fra Registeret

Maskinlæringsforskning innen akustikk kan åpne opp for multimodal metavers

GitHub Copilot kan være perfekt for jukse CompSci-programmeringsøvelser

Nvidia gjorde nettopp et drap på AI – hvor er alle andre?

AI vil bidra til å lage biovåpen innen 3 år, sier ekspert

Wow, så de lot faktisk AI fly et F-16 jagerfly

AGI er fortsatt en fjern drøm til tross for LLM-boom

Cyberresiliens i en tid med kunstig intelligens

Rollen til CPU i bærekraftig AI/ML

ChatGPT snakker seg gjennom Wharton MBA, medisinske eksamener

En skreddersydd tilnærming til GenAI

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn