Text-to-image Models Learn More Efficiently With Fake Data

Ripubblicato da Platone

Seguaci: 0

Secondo gli scienziati informatici del MIT e di Google, le immagini sintetiche possono aiutare i modelli di intelligenza artificiale ad apprendere le rappresentazioni visive in modo più accurato rispetto agli scatti reali. Il risultato sono reti neurali che riescono meglio a creare immagini dalle descrizioni scritte.

Al centro di tutti i modelli text-to-image c’è la loro capacità di mappare gli oggetti in parole. Dato un messaggio di testo in input, come ad esempio "un bambino che tiene in mano un palloncino rosso in una giornata di sole", dovrebbero restituire un'immagine che si avvicina alla descrizione. Per fare ciò, devono imparare le rappresentazioni visive di come potrebbero apparire un bambino, un palloncino rosso e una giornata di sole.

Il team del MIT-Google ritiene che le reti neurali possano generare immagini più accurate partendo da istruzioni dopo essere state addestrate su immagini create dall'intelligenza artificiale invece di utilizzare scatti reali. Per dimostrarlo, il gruppo si è sviluppato Rappresentante stabile, che impara come trasformare didascalie scritte descrittive in immagini corrispondenti corrette da immagini generate dal popolare modello testo-immagine open source Stable Diffusion.

In altre parole: utilizzare un modello di intelligenza artificiale consolidato e addestrato per insegnare ad altri modelli.

Come documento prestampato degli scienziati, pubblicato tramite arXiv alla fine del mese scorso, afferma: "Con immagini esclusivamente sintetiche, le rappresentazioni apprese da StableRep superano le prestazioni delle rappresentazioni apprese da SimCLR e CLIP utilizzando lo stesso insieme di istruzioni di testo e corrispondenti immagini reali, su set di dati su larga scala." SimCLR e CLIP sono algoritmi di apprendimento automatico che possono essere utilizzati per creare immagini da istruzioni di testo.

"Quando aggiungiamo ulteriormente la supervisione linguistica, StableRep addestrato con 20 milioni di immagini sintetiche raggiunge una precisione migliore rispetto a CLIP addestrato con 50 milioni di immagini reali", continua il documento.

Gli algoritmi di apprendimento automatico catturano le relazioni tra le caratteristiche degli oggetti e i significati delle parole come una serie di numeri. Utilizzando StableRep, i ricercatori possono controllare questo processo con maggiore attenzione, addestrando un modello su più immagini generate da Stable Diffusion sullo stesso prompt. Ciò significa che il modello può apprendere rappresentazioni visive più diverse e può vedere quali immagini corrispondono alle istruzioni più da vicino di altre.

Penso che avremo un ecosistema di alcuni modelli formati su dati reali, altri su dati sintetici

"Stiamo insegnando al modello a imparare di più sui concetti di alto livello attraverso il contesto e la varianza, non solo fornendogli dati", Lijie Fan, ricercatrice principale dello studio e dottoranda in ingegneria elettrica al MIT, ha spiegato questa settimana. "Quando si utilizzano più immagini, tutte generate dallo stesso testo, tutte trattate come rappresentazioni della stessa cosa sottostante, il modello approfondisce i concetti dietro le immagini - dice l'oggetto - non solo i loro pixel."

Come notato sopra, questo approccio significa anche che puoi utilizzare meno immagini sintetiche per addestrare la tua rete neurale rispetto a quelle reali e ottenere risultati migliori, il che è vantaggioso per gli sviluppatori di intelligenza artificiale.

Metodi come StableRep significano che un giorno i modelli text-to-image potrebbero essere addestrati su dati sintetici. Ciò consentirebbe agli sviluppatori di fare meno affidamento sulle immagini reali e potrebbe essere necessario se i motori di intelligenza artificiale esaurissero le risorse online disponibili.

“Penso che [l’addestramento di modelli di intelligenza artificiale su immagini sintetiche] sarà sempre più comune”, ha detto Phillip Isola, coautore dell’articolo e professore associato di visione artificiale al MIT. Il registro. “Penso che avremo un ecosistema di alcuni modelli addestrati su dati reali, altri su quelli sintetici, e forse la maggior parte dei modelli sarà addestrata su entrambi”.

È difficile fare affidamento esclusivamente sulle immagini generate dall'intelligenza artificiale perché la loro qualità e risoluzione sono spesso peggiori delle fotografie reali. I modelli testo-immagine che li generano sono limitati anche in altri modi. La diffusione stabile non sempre produce immagini fedeli alle istruzioni di testo.

Isola ha avvertito che l'uso di immagini sintetiche non evita nemmeno il potenziale problema di violazione del copyright, dal momento che i modelli che le generano sono stati probabilmente addestrati su materiali protetti.

“I dati sintetici potrebbero includere copie esatte dei dati sul copyright. Tuttavia, i dati sintetici offrono anche nuove opportunità per aggirare i problemi di IP e privacy, perché possiamo potenzialmente intervenire su di essi, modificando il modello generativo per rimuovere attributi sensibili”, ha spiegato.

Il team ha inoltre avvertito che i sistemi di addestramento sulle immagini generate dall’intelligenza artificiale potrebbero potenzialmente esacerbare i pregiudizi appresi dal modello testo-immagine sottostante. ®