Google lansează un editor video bazat pe inteligență artificială Dreamix pentru crearea și editarea videoclipurilor și animarea imaginilor

Google lansează un editor video bazat pe inteligență artificială Dreamix pentru crearea și editarea videoclipurilor și animarea imaginilor

Nodul sursă: 1953261

În timp ce OpenAI ChatGPT consumă tot oxigenul din ciclul de știri de 24 de ore, Google a dezvăluit în liniște un nou model de inteligență artificială care poate genera videoclipuri atunci când primesc intrări video, imagini și text. Noul editor video Google Dreamix AI aduce acum videoclipurile generate mai aproape de realitate.

Potrivit cercetării publicate pe GitHub, Dreamix editează videoclipul pe baza unui videoclip și a unui mesaj text. Videoclipul rezultat își menține fidelitatea față de culoare, postură, dimensiunea obiectului și poziția camerei, rezultând un videoclip consistent temporal. În acest moment, Dreamix nu poate genera videoclipuri doar dintr-un prompt, cu toate acestea, poate prelua material existent și poate modifica videoclipul folosind solicitări text.

Google folosește modele de difuzie video pentru Dreamix, o abordare care a fost aplicată cu succes pentru majoritatea editării imaginilor video pe care le vedem în AI-uri de imagini precum DALL-E2 sau Stable Diffusion cu sursă deschisă.

Abordarea implică reducerea puternică a videoclipului de intrare, adăugarea de zgomot artificial și apoi procesarea acestuia într-un model de difuzie video, care apoi utilizează un mesaj text pentru a genera un nou videoclip din acesta care păstrează unele proprietăți ale videoclipului original și redă din nou altele în conformitate cu la introducerea textului.

Modelul de difuzare video oferă un viitor promițător, care poate introduce o nouă eră pentru lucrul cu videoclipuri.

De exemplu, în videoclipul de mai jos, Dreamix transformă maimuța care mănâncă (stânga) într-un urs care dansează (dreapta) la solicitarea „Un urs dansând și sărind pe o muzică optimistă, mișcându-și tot corpul.”

Într-un alt exemplu de mai jos, Dreamix folosește o singură fotografie ca șablon (ca în imagine-la-video) și un obiect este apoi animat dintr-un videoclip printr-un prompt. Mișcările camerei sunt, de asemenea, posibile în noua scenă sau într-o înregistrare ulterioară time-lapse.

Într-un alt exemplu, Dreamix transformă urangutanul dintr-un bazin de apă (stânga) într-un urangutan cu păr portocaliu scăldat într-o baie frumoasă.

„În timp ce modelele de difuzie au fost aplicate cu succes pentru editarea imaginilor, foarte puține lucrări au făcut acest lucru pentru editarea video. Vă prezentăm prima metodă bazată pe difuzie care este capabilă să efectueze editarea de mișcare și aspect bazată pe text a videoclipurilor generale.”

Potrivit lucrării de cercetare Google, Dreamix folosește un model de difuzie video pentru a combina, la momentul deducerii, informațiile spațio-temporale cu rezoluție scăzută din videoclipul original cu informații noi, de înaltă rezoluție, pe care le-a sintetizat pentru a se alinia cu mesajul de ghidare.”

Google a spus că a adoptat această abordare deoarece „obținerea de înaltă fidelitate a videoclipului original necesită păstrarea unora dintre informațiile sale de înaltă rezoluție, adăugăm o etapă preliminară de reglare fină a modelului pe videoclipul original, sporind semnificativ fidelitatea”.

Mai jos este o prezentare video a modului în care funcționează Dreamix.

[Conținutul încorporat]

Cum funcționează modelele Dreamix Video Diffusion

Potrivit Google, reglarea fină a modelului de difuzie video pentru Dreamix numai pe videoclipul de intrare limitează amploarea schimbării mișcării. În schimb, folosim un obiectiv mixt care, pe lângă obiectivul original (stânga jos), se ajustează și pe setul neordonat de cadre. Acest lucru se realizează prin utilizarea „atenției temporale mascate”, împiedicând reglarea fină a atenției temporale și a convoluției (dreapta jos). Acest lucru permite adăugarea de mișcare la un videoclip static.

„Metoda noastră acceptă mai multe aplicații prin preprocesare dependentă de aplicație (stânga), transformând conținutul de intrare într-un format video uniform. Pentru imagine-to-video, imaginea de intrare este duplicată și transformată folosind transformări de perspectivă, sintetizând un videoclip grosier cu o mișcare a camerei. Pentru generarea video bazată pe subiect, intrarea este omisă – doar reglarea fină se ocupă de fidelitate. Acest videoclip grosier este apoi editat folosind „Editorul video Dreammix“ (dreapta): mai întâi corupem videoclipul prin eșantionare, urmată de adăugarea de zgomot. Apoi aplicăm modelul de difuzie video ghidat de text, care crește videoclipul la rezoluția spațiotemporală finală”, a scris Dream pe GitHub.

Puteți citi mai jos lucrarea de cercetare.

Google Dreamix

Timestamp-ul:

Mai mult de la TechStartups