Modelele text-to-image învață mai eficient cu date false

Modelele text-to-image învață mai eficient cu date false

Nodul sursă: 2974582

Imaginile sintetice pot ajuta modelele de inteligență artificială să învețe reprezentările vizuale mai precis în comparație cu fotografiile reale, potrivit informaticienilor de la MIT și Google. Rezultatul sunt rețele neuronale care sunt mai bune la realizarea de imagini din descrierile tale scrise.

În centrul tuturor modelelor text-to-image se află capacitatea lor de a mapa obiecte în cuvinte. Având în vedere un mesaj text de introducere – cum ar fi „un copil care ține un balon roșu într-o zi însorită”, de exemplu – ar trebui să returneze o imagine care să aproximeze descrierea. Pentru a face acest lucru, ei trebuie să învețe reprezentările vizuale ale cum ar putea arăta un copil, un balon roșu și o zi însorită. 

Echipa MIT-Google consideră că rețelele neuronale pot genera imagini mai precise din solicitări după ce au fost antrenate pe imagini realizate cu inteligență artificială, spre deosebire de utilizarea imaginilor reale. Pentru a demonstra acest lucru, grupul s-a dezvoltat StableRep, care învață cum să transforme legendele scrise descriptive în imagini corespunzătoare corecte din imagini generate de popularul model open source text-to-image Stable Diffusion.

Cu alte cuvinte: folosirea unui model AI stabilit și instruit pentru a preda alte modele.

Ca hârtie de pre-tipărire a oamenilor de știință, lansată prin arXiv la sfârșitul lunii trecute, spune: „Cu imagini exclusiv sintetice, reprezentările învățate de StableRep depășesc performanța reprezentărilor învățate de SimCLR și CLIP folosind același set de prompturi de text și imagini reale corespunzătoare, pe seturi de date la scară largă.” SimCLR și CLIP sunt algoritmi de învățare automată care pot fi utilizați pentru a crea imagini din mesaje text.

„Când adăugăm în continuare supravegherea limbajului, StableRep antrenat cu 20 de milioane de imagini sintetice atinge o acuratețe mai bună decât CLIP antrenat cu 50 de milioane de imagini reale”, continuă lucrarea.

Algoritmii de învățare automată captează relațiile dintre trăsăturile obiectelor și semnificațiile cuvintelor ca o matrice de numere. Folosind StableRep, cercetătorii pot controla acest proces cu mai multă atenție – antrenând un model pe mai multe imagini generate de Stable Diffusion la același prompt. Înseamnă că modelul poate învăța reprezentări vizuale mai diverse și poate vedea ce imagini se potrivesc mai bine cu solicitările decât altele. 

Cred că vom avea un ecosistem de niște modele antrenate pe date reale, unele pe sintetice

„Învățăm modelul să învețe mai multe despre concepte de nivel înalt prin context și varianță, nu doar prin furnizarea de date”, Lijie Fan, cercetător principal al studiului și doctorand în inginerie electrică la MIT. a explicat în această săptămână. „Atunci când folosește mai multe imagini, toate generate din același text, toate tratate ca reprezentări ale aceluiași lucru subiacent, modelul se scufundă mai adânc în conceptele din spatele imaginilor – să spunem obiectul – nu doar pixelii acestora.”

După cum s-a menționat mai sus, această abordare înseamnă, de asemenea, că puteți utiliza mai puține imagini sintetice pentru a vă antrena rețeaua neuronală decât cele reale și să obțineți rezultate mai bune – ceea ce este de câștig pentru dezvoltatorii AI.

Metode precum StableRep înseamnă că modelele text-to-image pot fi într-o zi instruite pe date sintetice. Ar permite dezvoltatorilor să se bazeze mai puțin pe imagini reale și ar putea fi necesar dacă motoarele AI epuizează resursele online disponibile.

„Cred că [formarea modelelor AI pe imagini sintetice] va fi din ce în ce mai comună”, a declarat Phillip Isola, coautor al lucrării și profesor asociat de viziune computerizată la MIT. Registrul. „Cred că vom avea un ecosistem format din unele modele instruite pe date reale, unele pe sintetice și poate că majoritatea modelelor vor fi antrenate pe ambele.”

Este dificil să te bazezi doar pe imaginile generate de inteligență artificială, deoarece calitatea și rezoluția lor este adesea mai slabă decât fotografiile reale. Modelele text-to-image care le generează sunt limitate și în alte moduri. Difuziunea stabilă nu produce întotdeauna imagini care sunt fidele solicitărilor de text.

Isola a avertizat că utilizarea imaginilor sintetice nu exclude nici potențiala problemă a încălcării drepturilor de autor, deoarece modelele care le-au generat au fost probabil instruite pe materiale protejate.

„Datele sintetice ar putea include copii exacte ale datelor privind drepturile de autor. Cu toate acestea, datele sintetice oferă, de asemenea, noi oportunități pentru a ocoli problemele de IP și confidențialitate, deoarece putem interveni potențial asupra lor, prin editarea modelului generativ pentru a elimina atributele sensibile”, a explicat el.

Echipa a avertizat, de asemenea, că sistemele de instruire privind imaginile generate de AI ar putea exacerba părtinirile învățate de modelul lor subiacent text-to-image. ®

Timestamp-ul:

Mai mult de la Registrul