Modeli besedila v sliko se učinkoviteje učijo z lažnimi podatki

Ponovno objavil Platon

Spremljevalci: 0

Sintetične slike lahko pomagajo modelom AI, da se natančneje naučijo vizualnih predstavitev v primerjavi z resničnimi posnetki, pravijo računalniški znanstveniki z MIT in Google. Rezultat so nevronske mreže, ki so boljše pri ustvarjanju slik iz vaših pisnih opisov.

V središču vseh modelov besedila v sliko je njihova zmožnost preslikave predmetov v besede. Glede na poziv za vnos besedila – kot je na primer »otrok, ki drži rdeč balon na sončen dan« – bi morali vrniti sliko, ki je približna opisu. Da bi to naredili, se morajo naučiti vizualnih predstavitev, kako bi lahko izgledali otrok, rdeči balon in sončen dan.

Skupina MIT-Google verjame, da lahko nevronske mreže ustvarijo natančnejše slike iz pozivov, potem ko so bile usposobljene na slikah, izdelanih z umetno inteligenco, v nasprotju z uporabo resničnih posnetkov. Da bi to dokazali, je skupina razvila StableRep, ki se uči, kako spremeniti opisne napise v pravilne ustrezne slike iz slik, ustvarjenih s priljubljenim odprtokodnim modelom besedila v sliko Stable Diffusion.

Z drugimi besedami: uporaba uveljavljenega, usposobljenega modela AI za poučevanje drugih modelov.

Kot dokument pred tiskom znanstvenikov, izdan prek arXiv konec prejšnjega meseca pravi: "Z izključno sintetičnimi slikami predstavitve, pridobljene s StableRep, presegajo zmogljivost predstavitev, pridobljenih s SimCLR in CLIP z uporabo istega nabora besedilnih pozivov in ustreznih resničnih slik, na velikih zbirkah podatkov." SimCLR in CLIP sta algoritma strojnega učenja, ki ju je mogoče uporabiti za izdelavo slik iz besedilnih pozivov.

»Ko dodatno dodamo jezikovni nadzor, StableRep, usposobljen z 20 milijoni sintetičnih slik, doseže boljšo natančnost kot CLIP, usposobljen s 50 milijoni resničnih slik,« nadaljuje članek.

Algoritmi strojnega učenja zajemajo razmerja med značilnostmi predmetov in pomeni besed kot niz številk. Z uporabo StableRep lahko raziskovalci bolj skrbno nadzorujejo ta proces – učijo model na več slikah, ki jih ustvari Stable Diffusion, na isti poziv. To pomeni, da se model lahko nauči bolj raznolikih vizualnih predstavitev in lahko vidi, katere slike se bolj ujemajo s pozivi kot druge.

Mislim, da bomo imeli ekosistem nekaterih modelov, usposobljenih na resničnih podatkih, nekaterih na sintetičnih

"Model učimo, da bi izvedeli več o konceptih na visoki ravni s pomočjo konteksta in variance, ne le s podajanjem podatkov," Lijie Fan, vodilna raziskovalka študije in doktorska študentka elektrotehnike na MIT, razložiti ta teden. "Pri uporabi več slik, ki so vse ustvarjene iz istega besedila, vse obravnavane kot upodobitve iste osnovne stvari, se model poglobi v koncepte, ki stojijo za slikami – recimo objekt – ne le v njihove slikovne pike."

Kot je navedeno zgoraj, ta pristop tudi pomeni, da lahko uporabite manj sintetičnih slik za urjenje svoje nevronske mreže kot resničnih in dobite boljše rezultate – kar je zmagovalno za razvijalce AI.

Metode, kot je StableRep, pomenijo, da se bodo modeli besedila v sliko nekega dne morda učili na sintetičnih podatkih. To bi razvijalcem omogočilo, da se manj zanašajo na resnične slike, in bo morda potrebno, če motorji AI izčrpajo razpoložljive spletne vire.

"Mislim, da bo [usposabljanje modelov umetne inteligence na sintetičnih slikah] vse pogostejše," je povedal Phillip Isola, soavtor prispevka in izredni profesor računalniškega vida na MIT. Register. "Mislim, da bomo imeli ekosistem nekaterih modelov, usposobljenih na resničnih podatkih, nekaterih na sintetičnih in morda bo večina modelov usposobljenih na obeh."

Težko se je zanašati samo na slike, ustvarjene z umetno inteligenco, ker sta njihova kakovost in ločljivost pogosto slabši od resničnih fotografij. Modeli besedila v sliko, ki jih ustvarjajo, so omejeni tudi na druge načine. Stabilna difuzija ne ustvari vedno slik, ki so zveste besedilnim pozivom.

Isola je opozorila, da uporaba sintetičnih slik ne odpravi tudi morebitnega vprašanja kršitve avtorskih pravic, saj so bili modeli, ki so jih ustvarili, verjetno usposobljeni za zaščitene materiale.

»Sintetični podatki lahko vključujejo natančne kopije podatkov o avtorskih pravicah. Vendar pa sintetični podatki ponujajo tudi nove priložnosti za reševanje vprašanj intelektualne lastnine in zasebnosti, saj lahko potencialno posežemo vanje z urejanjem generativnega modela za odstranitev občutljivih atributov,« je pojasnil.

Ekipa je tudi opozorila, da bi lahko sistemi za usposabljanje na slikah, ustvarjenih z umetno inteligenco, potencialno poslabšali pristranskosti, pridobljene z njihovim osnovnim modelom besedila v sliko. ®