OpenAI: võimatu treenida tipptasemel tehisintellekti ja vältida autoriõigust

Taasavaldanud Platon

järgijaid: 0

OpenAI on öelnud, et ilma inimeste autoriõigustega kaitstud teoste kasutamiseta oleks "võimatu" ehitada tänapäevastele vajadustele vastavaid tipptasemel närvivõrke. Microsofti toetatud labor, mis usub, et kogub seda sisu seaduslikult oma mudelite koolitamiseks, ütles, et autoriõigusega kaitstud üldkasutatava materjali kasutamine tooks kaasa AI-tarkvara madalama taseme.

See väide pärineb ajal, mil masinõppemaailm trügib pea ees telliskivimüürile, mis on autoriõiguse seadus. Just sel nädalal jõudis IEEE raport järeldusele, et Midjourney ja OpenAI DALL-E 3, kaks peamist tehisintellekti teenust, mis muudavad tekstiviibad kujutisteks, suudavad oma treeningandmete põhjal taasluua autoriõigustega kaitstud stseene filmidest ja videomängudest.

. õppima, mille kaasautoriteks on tehisintellekti ekspert ja kriitik Gary Marcus ning digiillustraator Reid Southen, dokumenteerib mitmeid "plagiaatlike väljundite" juhtumeid, kus OpenAI ja DALL-E 3 renderdavad oluliselt sarnaseid versioone filmide stseenidest, kuulsate piltide pilte. näitlejad ja videomängude sisu.

Marcus ja Southen väidavad, et on peaaegu kindel, et Midjourney ja OpenAI koolitasid oma vastavaid tehisintellekti piltide genereerimise mudeleid autoriõigustega kaitstud materjalile.

Kas see on seaduslik ja kas tehisintellekti müüjad või nende kliendid võivad vastutusele võtta, on endiselt vaieldav küsimus. Aruande leiud võivad aga toetada neid, kes kaebavad Midjourney ja DALL-E tootja OpenAI autoriõiguste rikkumise eest kohtusse.

Kasutajad ei pruugi pildi loomisel teada, kas nad rikuvad õigusi

"Nii OpenAI kui ka Midjourney on täielikult võimelised tootma materjale, mis näivad rikkuvat autoriõigusi ja kaubamärke," kirjutasid nad. "Need süsteemid ei teavita kasutajaid, kui nad seda teevad. Nad ei anna mingit teavet nende tehtud piltide päritolu kohta. Kasutajad ei pruugi pildi loomisel teada, kas nad rikuvad õigusi.

Kumbki biz ei ole täielikult avalikustanud oma tehisintellektimudelite valmistamisel kasutatud treeningandmeid.

See pole lihtsalt digitaalsed kunstnikud väljakutseid pakkuvad AI ettevõtted. New York Times hiljuti kaebas OpenAI kohtusse sest selle ChatGPT tekstimudel sülitab välja peaaegu sõna-sõnalt koopiad ajalehe tasulise seinaga artiklitest. Raamatu autorid on esitanud sarnased nõuded, nagu ka tarkvaraarendajad.

Eelnev teadustöö on näidanud, et OpenAI ChatGPT-d saab koolitusteksti taasesitamiseks meelitada. Ja need, kes Microsofti ja GitHubi kohtusse kaebavad, väidavad, et Copiloti kodeerimisassistendi mudel reprodutseerib koodi enam-vähem sõna-sõnalt.

Southen märkis, et Midjourney võtab tasu klientidelt, kes loovad õigusi rikkuvat sisu ja teenivad tellimustulust. "MJ [Midjourney] kasutajad ei pea müüma pilte, et autoriõiguste rikkumine oleks aset leidnud, MJ saab selle loomisest juba kasu," ütles ta. arvati, mis kordab IEEE aruandes esitatud argumenti.

OpenAI võtab ka liitumistasu ja teenib seega samamoodi kasumit. OpenAI ega Midjourney ei vastanud kommentaaritaotlustele.

OpenAI avaldas aga esmaspäeval a blogi postitus käsitledes New York Timesi kohtuasja, millel tehisintellekti müüja sõnul puudusid alused. Hämmastaval kombel ütles labor, et kui selle närvivõrgud genereerisid õigusi rikkuvat sisu, on tegemist "veaga".

Kokkuvõttes väitis tõusja täna, et: see teeb aktiivselt koostööd uudisteorganisatsioonidega; autoriõigusega kaitstud andmete koolitus kvalifitseerub autoriõiguse seaduse alusel õiglase kasutamise kaitseks; ""regurgitatsioon" on haruldane viga, mille nulli viimiseks töötame"; ja New York Times on valinud teksti reprodutseerimise näiteid, mis ei esinda tüüpilist käitumist.

Seadus otsustab

Californias Santa Clara ülikooli õigusosakonna professor Tyler Ochoa rääkis Register et kuigi IEEE aruande leiud aitavad tõenäoliselt autoriõiguse nõuetega kohtuvaidlusi, ei tohiks nad seda teha – sest artikli autorid on tema arvates toimuvat valesti esitanud.

"Nad kirjutavad: "Kas kujutisi loovaid mudeleid saab tekitada autoriõigusega kaitstud materjalidel põhinevate plagiaatiliste väljunditega? … [Me] leidsime, et vastus on selgelt jah, isegi ilma plagiaadi väljundi otsese küsimiseta.

Ochoa seadis selle järelduse kahtluse alla, väites, et raporti autorite esitatud juhised näitavad, et nad tõepoolest taotlevad otseselt plagiaadiväljundeid. Iga viip mainib konkreetse filmi pealkirja, määrab kuvasuhte ja kõigil peale ühe sõnad "film" ja "ekraanitõmmis" või "ekraanipilt". (Üks erand kirjeldab pilti, mida nad soovisid kopeerida. )”

Seaduseprof ütles, et autoriõiguse seaduse küsimus on selle kindlaksmääramine, kes vastutab nende plagiaadiväljundite eest: AI-mudeli loojad või inimesed, kes palusid tehisintellekti mudelil populaarset stseeni reprodutseerida.

"Generatiivne AI-mudel on võimeline tootma originaalväljundit ja samuti on see võimeline reprodutseerima stseene, mis sarnanevad autoriõigusega kaitstud sisendite stseenidega, kui seda küsitakse, " selgitas Ochoa. "Seda tuleks analüüsida kaasaaitava rikkumise juhtumina: modelli ajendanud isik on peamine rikkuja ja mudeli loojad vastutavad ainult siis, kui neid teavitati esmasest rikkumisest ja nad ei astunud mõistlikke samme selle peatamiseks. seda.”

Ochoa ütles, et generatiivsed AI mudelid reprodutseerivad tõenäolisemalt konkreetseid pilte, kui nende treeningandmete kogumis on neid pilte mitu.

„Antud juhul on väga ebatõenäoline, et treeninguandmed sisaldasid terveid filme; on palju tõenäolisem, et treeninguandmed sisaldasid fotosid filmidest, mida levitati filmi reklaamkaadritena, ”ütles ta. "Neid pilte korrati koolitusandmetes mitu korda, kuna meediaväljaandeid julgustati neid pilte avalikustamise eesmärgil levitama ja seda tehtigi.

"Oleks põhimõtteliselt ebaõiglane, kui autoriõiguse omanik julgustaks liikumatute piltide laialdast levitamist avalikustamise eesmärgil ja kaebaks seejärel, et neid pilte jäljendab tehisintellekt, kuna koolitusandmed sisaldasid samade piltide mitut koopiat."

Ochoa ütles, et AI mudelite sellise käitumise piiramiseks on meetmeid. "Küsimus on selles, kas nad peaksid seda tegema, kui viipa sisestanud inimene soovis selgelt, et tehisintellekt reprodutseeriks äratuntavat pilti, ja originaalpilte tootnud filmistuudiod soovisid selgelt, et neid pilte levitataks laialdaselt. ," ta ütles.

"Parem küsimus oleks: kui sageli see juhtub, kui viip ei maini konkreetset filmi ega kirjelda konkreetset tegelast või stseeni? Ma arvan, et erapooletu uurija leiab tõenäoliselt, et vastus on harva (võib-olla peaaegu mitte kunagi).

Sellegipoolest näib autoriõigustega kaitstud sisu olevat nende mudelite hea toimimise jaoks oluline kütus.

OpenAI kaitseb end Lordsi ees

Vastuseks järelepärimine AI mudelite riskide ja võimaluste kohta Ühendkuningriigi ülemkoja kommunikatsiooni- ja digitaalkomitee poolt tutvustas OpenAI esitamine [PDF] hoiatab, et selle mudelid ei tööta ilma autoriõigustega kaitstud sisu alase koolituseta.

"Kuna autoriõigused hõlmavad tänapäeval peaaegu igat liiki inimväljendust – sealhulgas ajaveebipostitusi, fotosid, foorumipostitusi, tarkvarakoodi väljalõikeid ja valitsuse dokumente –, oleks tänapäeva juhtivaid tehisintellekti mudeleid võimatu välja õpetada ilma autoriõigustega kaitstud materjale kasutamata," teatas superlabor. .

"Treeninguandmete piiramine enam kui sajand tagasi loodud üldkasutatavate raamatute ja joonistega võib anda huvitava katse, kuid ei pakuks tehisintellektisüsteeme, mis vastavad tänapäeva kodanike vajadustele."

AI biz ütles, et usub, et see järgib autoriõiguse seadust ja autoriõigustega kaitstud materjali alane koolitus on seaduslik, kuigi see lubab, et "loojate toetamiseks ja võimestamiseks on veel tööd teha".

Seda seisukohta, mis kõlab eetiliste murede diplomaatilise tunnustamisena autoriõigustega kaitstud teoste väidetava õiglase kasutamise hüvitamise pärast, tuleks arvesse võtta koos IEEE aruande väitega, et „oleme avastanud tõendeid selle kohta, et Midjourney vanemtarkvarainsener osales vestlus 2022. aasta veebruaris selle kohta, kuidas hiilida kõrvale autoriõiguse seadusest, pestes andmeid "peenhäälestatud koodeksi kaudu".

IEEE raporti kaasautor Marcus väljendas skeptilisust OpenAI püüdluste suhtes saada Ühendkuningriigis regulatiivne roheline tuli oma praegustele äritavadele.

"Jäme tõlge: me ei saa vapustavalt rikkaks, kui te ei lase meil varastada, nii et palun ärge tehke varastamist kuriteoks!" kirjutas ta sotsiaalmeedias pärast. „Ära sunni meid maksma litsentsimine ka tasusid! Muidugi võib Netflix maksta miljardeid aastas litsentsitasusid, kuid we ei peaks! Meile rohkem raha, moor!”

OpenAI on pakkunud hüvitist ettevõtte ChatGPT ja API klientidele autoriõiguse nõuete vastu, kuid mitte juhul, kui klient või kliendi lõppkasutajad „teadsid või pidid teadma, et väljund rikub või tõenäoliselt rikub õigusi” või kui klient on turvafunktsioonidest mööda läinud, muude piirangute hulgas. Seega, kui paluda DALL-E 3-l taasluua kuulus filmistseen – mille kohta kasutajad peaksid teadma, et see on tõenäoliselt kaitstud autoriõigusega – ei kvalifitseeru hüvitisele.

Midjourney on võtnud vastupidise lähenemisviisi, lubades rikkumistega seotud kliendid üles otsida ja kohtusse kaevata, et nõuda sisse seotud nõuetest tulenevad kohtukulud.

"Kui rikute teadlikult kellegi teise intellektuaalomandit ja see maksab meile raha, siis me otsime teid üles ja kogume selle raha teilt sisse," ütles Midjourney. Müügitingimused olek. „Võime teha ka muid asju, näiteks püüda saada kohus, mis sunniks teid maksma meie õigusabikulud. Ära tee seda." ®