Google запускает видеоредактор Dreamix на базе искусственного интеллекта для создания и редактирования видео, а также анимации изображений.

Google запускает видеоредактор Dreamix на базе искусственного интеллекта для создания и редактирования видео, а также анимации изображений.

Исходный узел: 1953261

В то время как OpenAI ChatGPT высасывает весь кислород из 24-часового цикла новостей, Google незаметно представила новую модель ИИ, которая может генерировать видео при вводе видео, изображений и текста. Новый видеоредактор Google Dreamix AI теперь приближает сгенерированное видео к реальности.

Согласно исследованию, опубликованному на GitHub, Dreamix редактирует видео на основе видео и текстовой подсказки. Результирующее видео сохраняет точность цвета, позы, размера объекта и положения камеры, что приводит к согласованному во времени видео. На данный момент Dreamix не может генерировать видео только по подсказке, однако он может брать существующий материал и изменять видео с помощью текстовых подсказок.

Google использует модели распространения видео для Dreamix — подход, который успешно применялся для большинства операций редактирования видеоизображений, которые мы видим в ИИ изображений, таких как DALL-E2 или Stable Diffusion с открытым исходным кодом.

Подход включает в себя сильное сокращение входного видео, добавление искусственного шума, а затем обработку его в модели распространения видео, которая затем использует текстовую подсказку для создания из него нового видео, которое сохраняет некоторые свойства исходного видео и повторно отображает другие в соответствии с к вводу текста.

Модель распространения видео предлагает многообещающее будущее, которое может открыть новую эру для работы с видео.

Например, в видео ниже Dreamix превращает обезьяну, которая ест (слева), в танцующего медведя (справа) с помощью подсказки «Медведь танцует и прыгает под веселую музыку, двигаясь всем телом».

В другом примере ниже Dreamix использует одну фотографию в качестве шаблона (как при преобразовании изображения в видео), а затем объект анимируется из нее в видео с помощью подсказки. Движения камеры также возможны в новой сцене или последующей покадровой записи.

В другом примере Dreamix превращает орангутанга в бассейне с водой (слева) в орангутанга с оранжевыми волосами, купающегося в красивой ванной.

«В то время как диффузионные модели успешно применялись для редактирования изображений, очень мало работ было сделано для редактирования видео. Мы представляем первый метод на основе диффузии, который может выполнять текстовое редактирование движения и внешнего вида обычных видео».

Согласно исследовательскому документу Google, Dreamix использует модель распространения видео для объединения во время логического вывода пространственно-временной информации низкого разрешения из исходного видео с новой информацией высокого разрешения, синтезированной для согласования с направляющей текстовой подсказкой».

Google заявил, что применил этот подход, потому что «для получения высокой точности исходного видео требуется сохранить часть его информации с высоким разрешением, мы добавляем предварительный этап тонкой настройки модели исходного видео, значительно повышая точность».

Ниже представлен видеообзор того, как работает Dreamix.

[Встраиваемое содержимое]

Как работают модели Dreamix Video Diffusion

Согласно Google, точная настройка модели распространения видео для Dreamix только на входном видео ограничивает степень изменения движения. Вместо этого мы используем смешанный объектив, который помимо исходного объектива (внизу слева) также выполняет точную настройку на неупорядоченном наборе кадров. Это делается с помощью «замаскированного временного внимания», предотвращающего точную настройку временного внимания и свертки (внизу справа). Это позволяет добавить движение в статичное видео.

«Наш метод поддерживает несколько приложений за счет предварительной обработки в зависимости от приложения (слева) и преобразования входного контента в единый формат видео. Для преобразования изображения в видео входное изображение дублируется и трансформируется с использованием перспективных преобразований, синтезируя грубое видео с некоторым движением камеры. Для создания видео на основе сюжета входные данные опускаются — только точная настройка позаботится о точности. Затем это грубое видео редактируется с помощью нашего общего «Dreamix Video Editor» (справа): сначала мы искажаем видео путем понижения частоты дискретизации, а затем добавляем шум. Затем мы применяем точно настроенную модель распространения видео с текстовым управлением, которая повышает масштаб видео до конечного пространственно-временного разрешения», — написал Dream в своем блоге. GitHub.

Вы можете прочитать исследовательскую работу ниже.

Google Дримикс

Отметка времени:

Больше от Техстартапы