Tekst-til-bilde-modeller lærer mer effektivt med falske data

Tekst-til-bilde-modeller lærer mer effektivt med falske data

Kilde node: 2974582

Syntetiske bilder kan hjelpe AI-modeller med å lære visuelle representasjoner mer nøyaktig sammenlignet med ekte snaps, ifølge dataforskere ved MIT og Google. Resultatet er nevrale nettverk som er flinkere til å lage bilder fra dine skriftlige beskrivelser.

Kjernen i alle tekst-til-bilde-modeller er deres evne til å kartlegge objekter til ord. Gitt en tekstmelding – for eksempel "et barn som holder en rød ballong på en solrik dag", for eksempel – bør de returnere et bilde som tilnærmer beskrivelsen. For å gjøre dette, må de lære de visuelle representasjonene av hvordan et barn, en rød ballong og en solskinnsdag kan se ut. 

MIT-Google-teamet mener nevrale nettverk kan generere mer nøyaktige bilder fra meldinger etter å ha blitt trent på AI-lagde bilder i motsetning til å bruke ekte snaps. For å demonstrere dette utviklet gruppen seg StallRep, som lærer hvordan man gjør beskrivende skriftlige bildetekster til korrekte, tilsvarende bilder fra bilder generert av den populære åpen kildekode-tekst-til-bilde-modellen Stable Diffusion.

Med andre ord: å bruke en etablert, trent AI-modell for å lære andre modeller.

Som forskernes pre-print papir, utgitt via arXiv på slutten av forrige måned, sier det: "Med utelukkende syntetiske bilder, overgår representasjonene lært av StableRep ytelsen til representasjoner lært av SimCLR og CLIP ved å bruke det samme settet med tekstmeldinger og tilsvarende ekte bilder, på datasett i stor skala." SimCLR og CLIP er maskinlæringsalgoritmer som kan brukes til å lage bilder fra tekstmeldinger.

"Når vi legger til språkovervåking ytterligere, oppnår StableRep trent med 20 millioner syntetiske bilder bedre nøyaktighet enn CLIP trent med 50 millioner ekte bilder," fortsetter avisen.

Maskinlæringsalgoritmer fanger opp forholdet mellom egenskapene til objekter og betydningen av ord som en rekke tall. Ved å bruke StableRep kan forskerne kontrollere denne prosessen mer nøye – trene en modell på flere bilder generert av Stable Diffusion på samme ledetekst. Det betyr at modellen kan lære mer varierte visuelle representasjoner, og kan se hvilke bilder som samsvarer nærmere med spørsmålene enn andre. 

Jeg tror vi vil ha et økosystem av noen modeller trent på ekte data, noen på syntetiske

"Vi lærer modellen for å lære mer om konsepter på høyt nivå gjennom kontekst og varians, ikke bare å mate den med data," Lijie Fan, hovedforsker av studien og en doktorgradsstudent i elektroteknikk ved MIT, forklarte denne uka. "Når du bruker flere bilder, alle generert fra samme tekst, alle behandlet som avbildninger av den samme underliggende tingen, dykker modellen dypere inn i konseptene bak bildene - si objektet - ikke bare deres piksler."

Som nevnt ovenfor betyr denne tilnærmingen også at du kan bruke færre syntetiske bilder for å trene det nevrale nettverket ditt enn ekte, og få bedre resultater – noe som er vinn-vinn for AI-utviklere.

Metoder som StableRep betyr at tekst-til-bilde-modeller en dag kan trenes på syntetiske data. Det vil tillate utviklere å stole mindre på ekte bilder, og kan være nødvendig hvis AI-motorer tømmer tilgjengelige nettressurser.

"Jeg tror at [opplæring av AI-modeller på syntetiske bilder] vil bli stadig mer vanlig," fortalte Phillip Isola, medforfatter av papiret og en førsteamanuensis i datasyn ved MIT, Registeret. "Jeg tror vi vil ha et økosystem av noen modeller trent på ekte data, noen på syntetiske, og kanskje de fleste modellene vil bli trent på begge."

Det er vanskelig å stole utelukkende på AI-genererte bilder fordi kvaliteten og oppløsningen ofte er dårligere enn ekte fotografier. Tekst-til-bilde-modellene som genererer dem er også begrenset på andre måter. Stabil diffusjon produserer ikke alltid bilder som er trofaste mot tekstmeldinger.

Isola advarte om at bruk av syntetiske bilder heller ikke går utenfor det potensielle problemet med brudd på opphavsrett, siden modellene som genererte dem sannsynligvis ble trent på beskyttet materiale.

"De syntetiske dataene kan inkludere nøyaktige kopier av opphavsrettsdata. Syntetiske data gir imidlertid også nye muligheter for å komme rundt problemer med IP og personvern, fordi vi potensielt kan gripe inn i det, ved å redigere den generative modellen for å fjerne sensitive attributter,” forklarte han.

Teamet advarte også om at opplæringssystemer på AI-genererte bilder potensielt kan forverre skjevheter lært av deres underliggende tekst-til-bilde-modell. ®

Tidstempel:

Mer fra Registeret