Google запускає відеоредактор Dreamix на базі AI для створення та редагування відео та анімації зображень

Google запускає відеоредактор Dreamix на базі AI для створення та редагування відео та анімації зображень

Вихідний вузол: 1953261

У той час як OpenAI ChatGPT висмоктує весь кисень із 24-годинного циклу новин, Google тихо представила нову модель штучного інтелекту, яка може генерувати відео, коли отримує відео, зображення та текст. Новий відеоредактор Google Dreamix AI тепер наближає згенероване відео до реальності.

Відповідно до дослідження, опублікованого на GitHub, Dreamix редагує відео на основі відео та текстової підказки. Отримане відео зберігає свою точність кольору, пози, розміру об’єкта та пози камери, що призводить до тимчасової узгодженості відео. На даний момент Dreamix не може генерувати відео лише за підказкою, однак він може взяти наявний матеріал і змінити відео за допомогою текстових підказок.

Google використовує моделі розповсюдження відео для Dreamix, підхід, який успішно застосував для більшості редагування відеозображень, які ми бачимо в штучному інтелекті зображень, наприклад DALL-E2 або Stable Diffusion з відкритим кодом.

Підхід передбачає значне зменшення вхідного відео, додавання штучного шуму, а потім його обробку в моделі розповсюдження відео, яка потім використовує текстову підказку для створення нового відео з нього, яке зберігає деякі властивості вихідного відео та повторно рендерить інші відповідно до введення тексту.

Модель розповсюдження відео пропонує багатообіцяюче майбутнє, яке може стати початком нової ери для роботи з відео.

Наприклад, у відео нижче Dreamix перетворює мавпу-їдку (ліворуч) на танцюючого ведмедя (праворуч), отримавши підказку «Ведмідь танцює та стрибає під веселу музику, рухаючись усім тілом».

В іншому прикладі, наведеному нижче, Dreamix використовує одну фотографію як шаблон (як у перетворенні зображення на відео), а об’єкт потім анімується з неї у відео за допомогою підказки. Рухи камери також можливі в новій сцені або наступному сповільненому записі.

В іншому прикладі Dreamix перетворює орангутанга в басейні з водою (ліворуч) на орангутанга з помаранчевим волоссям, який купається в красивій ванній кімнаті.

«Хоча дифузійні моделі були успішно застосовані для редагування зображень, дуже мало робіт зробили це для редагування відео. Ми представляємо перший метод на основі дифузії, який може виконувати текстове редагування руху та зовнішнього вигляду загальних відео».

Згідно з дослідницькою статтею Google, Dreamix використовує модель розповсюдження відео, щоб об’єднати під час висновку просторово-часову інформацію низької роздільної здатності з вихідного відео з новою інформацією високої роздільної здатності, яку він синтезував, щоб узгодити з керівним текстовим запитом».

У Google заявили, що скористалися таким підходом, оскільки «для отримання високої точності оригінального відео потрібно зберегти частину його інформації високої роздільної здатності, ми додаємо попередній етап тонкого налаштування моделі на оригінальному відео, що значно підвищує точність».

Нижче наведено відеоогляд того, як працює Dreamix.

[Вбудоване вміст]

Як працюють моделі розповсюдження відео Dreamix

Згідно з Google, точне налаштування моделі розповсюдження відео для Dreamix лише на вхідному відео обмежує ступінь зміни руху. Замість цього ми використовуємо змішану ціль, яка окрім оригінальної мети (внизу ліворуч) також точно налаштовує невпорядкований набір кадрів. Це робиться за допомогою «замаскованої тимчасової уваги», що запобігає точному налаштуванню тимчасової уваги та згортки (внизу праворуч). Це дозволяє додати рух до статичного відео.

«Наш метод підтримує кілька додатків за допомогою попередньої обробки, що залежить від додатків (ліворуч), перетворюючи вхідний вміст у єдиний формат відео. Для зображення-відео вхідне зображення дублюється та перетворюється за допомогою перспективних перетворень, синтезуючи грубе відео з деяким рухом камери. Для генерації відео, орієнтованого на об’єкт, вхідні дані пропускаються – лише точне налаштування піклується про точність. Потім це грубе відео редагується за допомогою нашого загального «Відеоредактора Dreamix» (праворуч): спочатку ми спотворюємо відео шляхом зменшення роздільної здатності, а потім додаємо шум. Потім ми застосовуємо налаштовану модель розповсюдження відео з текстовим керуванням, яка підвищує масштаб відео до кінцевої просторово-часової роздільної здатності», — написав Dream на сайті. GitHub.

Ви можете прочитати дослідницьку роботу нижче.

Google Dreamix

Часова мітка:

Більше від TechStartaps