OpenAI: Nemogoče usposobiti vrhunsko umetno inteligenco in se izogniti avtorskim pravicam

Ponovno objavil Platon

Spremljevalci: 0

OpenAI je dejal, da bi bilo "nemogoče" zgraditi vrhunske nevronske mreže, ki ustrezajo današnjim potrebam, brez uporabe avtorsko zaščitenih del ljudi. Laboratorij, ki ga podpira Microsoft in verjame, da zakonito zbira omenjeno vsebino za usposabljanje svojih modelov, je dejal, da bi uporaba gradiva v javni domeni, ki ni zaščiteno z avtorskimi pravicami, povzročila programsko opremo umetne inteligence, ki ni enaka.

Ta trditev prihaja v času, ko svet strojnega učenja beži z glavo naprej v opečni zid, ki je zakon o avtorskih pravicah. Ravno ta teden je poročilo IEEE zaključilo, da lahko Midjourney in OpenAI DALL-E 3, dve glavni storitvi umetne inteligence za pretvarjanje besedilnih pozivov v slike, poustvarita avtorsko zaščitene prizore iz filmov in video iger na podlagi svojih podatkov o usposabljanju.

O študija, katerega soavtorja sta Gary Marcus, strokovnjak in kritik za umetno inteligenco, in Reid Southen, digitalni ilustrator, dokumentira več primerov "plagiatorskih rezultatov", v katerih OpenAI in DALL-E 3 upodabljata bistveno podobne različice prizorov iz filmov, slik znanih igralci in vsebina video iger.

Marcus in Southen pravita, da je skoraj gotovo, da sta Midjourney in OpenAI usposobila svoje modele za generiranje slik z umetno inteligenco na avtorsko zaščitenem gradivu.

Ali je to zakonito in ali prodajalci umetne inteligence ali njihove stranke tvegajo odgovornost, ostaja sporno vprašanje. Vendar pa lahko ugotovitve poročila okrepijo tiste, ki tožijo Midjourney in proizvajalca DALL-E OpenAI zaradi kršitve avtorskih pravic.

Uporabniki morda ne vedo, ko ustvarijo sliko, ali kršijo avtorske pravice

"Tako OpenAI kot Midjourney sta v celoti sposobna izdelati materiale, za katere se zdi, da kršijo avtorske pravice in blagovne znamke," so zapisali. »Ti sistemi ne obvestijo uporabnikov, ko to storijo. Ne zagotavljajo nobenih informacij o poreklu slik, ki jih ustvarjajo. Uporabniki morda ne vedo, ko ustvarijo sliko, ali kršijo avtorske pravice.”

Nobeno podjetje ni v celoti razkrilo podatkov o usposabljanju, uporabljenih za izdelavo svojih modelov AI.

Ni samo digitalnih umetnikov zahtevna podjetja AI. Nedavno New York Times tožil OpenAI ker bo njegov besedilni model ChatGPT izpljunil skoraj dobesedne kopije člankov časopisa, ki so plačani. Avtorji knjig vložili podobne tožbe, kot jih razvijalci programske opreme.

Predhodna Raziskave je nakazal, da je mogoče OpenAI-jev ChatGPT pripraviti do reprodukcije besedila za usposabljanje. In tisti, ki tožijo Microsoft in GitHub, trdijo, da bo model pomočnika za kodiranje Copilot bolj ali manj dobesedno reproduciral kodo.

Southen je opazil, da Midjourney zaračunava strankam, ki ustvarjajo vsebino, ki krši avtorske pravice, in služijo s prihodki od naročnin. »Uporabnikom MJ [Midjourney] ni treba prodajati slik zaradi morebitne kršitve avtorskih pravic, MJ že ima dobiček od svojega ustvarjanja,« je dejal. opomin, ki ponavlja argument iz poročila IEEE.

OpenAI zaračunava tudi naročnino in tako služi na enak način. Niti OpenAI niti Midjourney se nista odzvala na zahteve za komentar.

Vendar je OpenAI v ponedeljek objavil a blog post obravnavo tožbe New York Timesa, za katero je prodajalec AI dejal, da ni utemeljena. Presenetljivo je, da je laboratorij dejal, da če so njegove nevronske mreže ustvarile vsebino, ki krši avtorske pravice, je to "hrošč".

Skupaj je današnji začetnik trdil, da: aktivno sodeluje z novinarskimi organizacijami; usposabljanje o avtorsko zaščitenih podatkih izpolnjuje pogoje za obrambo poštene uporabe v skladu z zakonom o avtorskih pravicah; »'regurgitacija' je redka napaka, ki jo poskušamo odpraviti na nič«; in New York Times ima izbrane primere reprodukcije besedila, ki ne predstavljajo tipičnega vedenja.

Odločilo bo pravo

Tyler Ochoa, profesor na pravnem oddelku na univerzi Santa Clara v Kaliforniji, je povedal Register da čeprav bodo ugotovitve poročila IEEE verjetno pomagale strankam pri zahtevkih glede avtorskih pravic, ne bi smele – ker so avtorji članka po njegovem mnenju napačno predstavili, kaj se dogaja.

»Pišejo: ‚Ali je mogoče modele za ustvarjanje slik pripraviti do plagiatorskih rezultatov, ki temeljijo na avtorsko zaščitenem gradivu? … Ugotovili smo, da je odgovor nedvomno pritrdilen, tudi brez neposrednega pridobivanja plagiatorskih rezultatov.'«

Ochoa je podvomil v ta sklep in trdil, da pozivi, ki so jih avtorji poročila vnesli, »dokazujejo, da dejansko neposredno zbirajo plagiatorske rezultate. Vsak posamezen poziv omenja naslov določenega filma, določa razmerje stranic in v vseh primerih, razen v enem, besedi 'film' in 'posnetek zaslona' ali 'zaslon'. (Edina izjema opisuje sliko, ki so jo želeli ponoviti. )”

Profesor prava je dejal, da je vprašanje zakona o avtorskih pravicah določanje, kdo je odgovoren za te plagiate: ustvarjalci modela AI ali ljudje, ki so od modela AI zahtevali reprodukcijo priljubljenega prizora.

"Generativni model umetne inteligence je sposoben proizvesti izvirne rezultate in je sposoben tudi reproducirati prizore, ki so podobni prizorom iz avtorsko zaščitenih vnosov, ko je to pozvano," je pojasnil Ochoa. »To je treba analizirati kot primer soudeležbe v kršitvi: oseba, ki je spodbudila model, je glavni kršitelj, ustvarjalci modela pa so odgovorni le, če so bili seznanjeni s primarno kršitvijo in niso sprejeli razumnih ukrepov, da bi prenehali to."

Ochoa je dejal, da je večja verjetnost, da bodo generativni modeli umetne inteligence reproducirali določene slike, če je v njihovem naboru podatkov o usposabljanju več primerkov teh slik.

»V tem primeru je zelo malo verjetno, da bi podatki o usposabljanju vključevali celotne filme; veliko bolj verjetno je, da so podatki o usposabljanju vključevali slike iz filmov, ki so bile distribuirane kot reklamne fotografije za film,« je dejal. »Te slike so bile večkrat reproducirane v podatkih o usposabljanju, ker so bili mediji spodbujeni, da te slike distribuirajo v reklamne namene, in so to tudi storili.

"Bilo bi v osnovi nepošteno, da bi lastnik avtorskih pravic spodbujal široko razširjanje fotografij za namene oglaševanja in se nato pritoževal, da te slike posnema umetna inteligenca, ker so podatki o usposabljanju vključevali več kopij istih slik."

Ochoa je dejal, da obstajajo koraki za omejitev takšnega vedenja modelov AI. »Vprašanje je, ali bi morali to storiti, ko je oseba, ki je vnesla poziv, očitno želela doseči, da umetna inteligenca reproducira prepoznavno sliko, filmski studii, ki so izdelali izvirne fotografije, pa so očitno želeli, da se te slike široko distribuirajo. ," rekel je.

»Boljše vprašanje bi bilo: Kako pogosto se to zgodi, ko poziv ne omenja določenega filma ali opisuje določenega lika ali scene? Mislim, da bi nepristranski raziskovalec verjetno ugotovil, da je odgovor redko (morda skoraj nikoli).«

Kljub temu se zdi, da je avtorsko zaščitena vsebina bistveno gorivo za dobro delovanje teh modelov.

OpenAI se brani pred Lordi

V odgovor poizvedba o tveganjih in priložnostih modelov umetne inteligence s strani odbora za komunikacije in digitalno zvezo lordske zbornice Združenega kraljestva je OpenAI predstavil predložitev [PDF] opozorilo, da njegovi modeli ne bodo delovali brez usposabljanja za avtorsko zaščiteno vsebino.

"Ker avtorske pravice danes pokrivajo tako rekoč vsako vrsto človeškega izražanja – vključno z objavami v spletnih dnevnikih, fotografijami, objavami na forumih, ostanki kode programske opreme in vladnimi dokumenti – bi bilo nemogoče usposobiti današnje vodilne modele umetne inteligence brez uporabe avtorsko zaščitenih materialov," so povedali v super laboratoriju. .

"Omejevanje podatkov o usposabljanju na javne knjige in risbe, ustvarjene pred več kot stoletjem, bi lahko prineslo zanimiv poskus, vendar ne bi zagotovilo sistemov umetne inteligence, ki ustrezajo potrebam današnjih državljanov."

Podjetje AI biz je dejalo, da verjame, da je v skladu z zakonodajo o avtorskih pravicah in da je usposabljanje o avtorsko zaščitenem gradivu zakonito, čeprav dopušča, da "je treba narediti še nekaj za podporo in opolnomočenje ustvarjalcev."

Ta občutek, ki zveni kot diplomatsko priznanje etičnih pomislekov glede odškodnine za sporno pošteno uporabo avtorsko zaščitenega dela, je treba obravnavati v povezavi s trditvijo poročila IEEE, da »smo odkrili dokaze, da je višji programski inženir pri Midjourneyju sodeloval pri pogovor februarja 2022 o tem, kako se izogniti zakonu o avtorskih pravicah s "pranjem" podatkov "skozi natančno nastavljen kodeks".

Marcus, soavtor poročila IEEE, je izrazil skepticizem glede prizadevanj OpenAI, da bi v Združenem kraljestvu pridobil regulativno zeleno luč za svoje trenutne poslovne prakse.

"Grobi prevod: Ne bomo bajno obogateli, če nam ne dovolite, da krademo, zato vas prosim, da kraja ne postane zločin!" je zapisal na družbenem omrežju objava. »Ne prisilite nas k plačilu licenciranje tudi pristojbine! Seveda lahko Netflix plača milijarde na leto v licenčninah, vendar we ne bi bilo treba! Več denarja za nas, moar!«

OpenAI je ponudil odškodnino za poslovne stranke ChatGPT in API zoper avtorske pravice, čeprav ne, če so stranka ali strankini končni uporabniki »vedli ali bi morali vedeti, da izhod krši ali bi lahko kršil« ali če je stranka zaobšla varnostne funkcije, med drugimi omejitvami. Zato zahteva od DALL-E 3, da poustvari slavno filmsko sceno – za katero bi uporabniki morali vedeti, da je verjetno zaščitena z avtorskimi pravicami – ne bi bila upravičena do odškodnine.

Midjourney je ubral nasprotni pristop in obljubil, da bo lovil in tožil stranke, vpletene v kršitev, da bi povrnil pravne stroške, ki izhajajo iz povezanih zahtevkov.

"Če zavestno kršite intelektualno lastnino nekoga drugega in nas to stane denarja, vas bomo prišli poiskati in ta denar od vas pobrati," Midjourney's Pogoji Poslovanja država. »Morda bomo naredili tudi druge stvari, na primer poskušali doseči, da bi sodišče morali plačati naše pravne stroške. Ne počni tega." ®