Google meluncurkan editor video bertenaga AI Dreamix untuk membuat dan mengedit video, dan menganimasikan gambar

Google meluncurkan editor video bertenaga AI Dreamix untuk membuat dan mengedit video, dan menganimasikan gambar

Node Sumber: 1953261

Sementara OpenAI ChatGPT menyedot semua oksigen dari siklus berita 24 jam, Google diam-diam telah meluncurkan model AI baru yang dapat menghasilkan video saat diberi input video, gambar, dan teks. Editor video Google Dreamix AI yang baru sekarang membawa video yang dihasilkan lebih dekat dengan kenyataan.

Menurut penelitian yang dipublikasikan di GitHub, Dreamix mengedit video berdasarkan video dan prompt teks. Video yang dihasilkan mempertahankan ketepatannya terhadap warna, postur, ukuran objek, dan pose kamera, menghasilkan video yang konsisten untuk sementara. Saat ini, Dreamix tidak dapat menghasilkan video hanya dari prompt, namun dapat mengambil materi yang ada dan memodifikasi video menggunakan prompt teks.

Google menggunakan model difusi video untuk Dreamix, sebuah pendekatan yang telah berhasil diterapkan untuk sebagian besar pengeditan gambar video yang kita lihat di AI gambar seperti DALL-E2 atau Difusi Stabil sumber terbuka.

Pendekatan ini melibatkan pengurangan besar-besaran input video, menambahkan kebisingan buatan, dan kemudian memprosesnya dalam model difusi video, yang kemudian menggunakan prompt teks untuk menghasilkan video baru darinya yang mempertahankan beberapa properti dari video asli dan merender ulang yang lain sesuai ke input teks.

Model difusi video menawarkan masa depan yang menjanjikan yang dapat mengantarkan era baru untuk bekerja dengan video.

Misalnya, dalam video di bawah ini, Dreamix mengubah monyet pemakan (kiri) menjadi beruang penari (kanan) dengan prompt “Seekor beruang menari dan melompat mengikuti irama musik, menggerakkan seluruh tubuhnya.”

Dalam contoh lain di bawah ini, Dreamix menggunakan satu foto sebagai templat (seperti pada gambar-ke-video) dan sebuah objek kemudian dianimasikan darinya dalam video melalui prompt. Pergerakan kamera juga dimungkinkan dalam pemandangan baru atau perekaman selang waktu berikutnya.

Dalam contoh lain, Dreamix mengubah orangutan di kolam air (kiri) menjadi orangutan berambut jingga yang sedang mandi di kamar mandi yang indah.

“Sementara model difusi telah berhasil diterapkan untuk pengeditan gambar, sangat sedikit karya yang melakukannya untuk pengeditan video. Kami menghadirkan metode berbasis difusi pertama yang mampu melakukan pengeditan gerakan dan penampilan berbasis teks pada video umum.”

Menurut makalah penelitian Google, Dreamix menggunakan model difusi video untuk menggabungkan, pada waktu inferensi, informasi spatiotemporal beresolusi rendah dari video asli dengan informasi baru beresolusi tinggi yang disintesis agar selaras dengan petunjuk teks panduan.

Google mengatakan mengambil pendekatan ini karena "mendapatkan fidelitas tinggi ke video asli memerlukan beberapa informasi beresolusi tinggi, kami menambahkan tahap awal penyempurnaan model pada video asli, secara signifikan meningkatkan fidelitas."

Di bawah ini adalah ikhtisar video tentang cara kerja Dreamix.

[Embedded content]

Bagaimana Model Difusi Video Dreamix Bekerja

Menurut Google, menyempurnakan model difusi video untuk Dreamix pada video input saja membatasi tingkat perubahan gerakan. Sebagai gantinya, kami menggunakan tujuan campuran yang selain tujuan asli (kiri bawah) juga menyempurnakan kumpulan bingkai yang tidak diurutkan. Ini dilakukan dengan menggunakan "perhatian temporal bertopeng", mencegah perhatian temporal dan konvolusi dari penyesuaian (kanan bawah). Ini memungkinkan penambahan gerakan ke video statis.

“Metode kami mendukung banyak aplikasi dengan pra-pemrosesan yang bergantung pada aplikasi (kiri), mengubah konten input menjadi format video yang seragam. Untuk gambar-ke-video, gambar input digandakan dan diubah menggunakan transformasi perspektif, mensintesis video kasar dengan beberapa gerakan kamera. Untuk pembuatan video yang digerakkan oleh subjek, input dihilangkan – finetuning saja yang menjaga fidelitasnya. Video kasar ini kemudian diedit menggunakan "Dreamix Video Editor" umum kami (kanan): pertama-tama kami merusak video dengan downsampling diikuti dengan menambahkan noise. Kami kemudian menerapkan model difusi video yang dipandu teks yang disempurnakan, yang meningkatkan video ke resolusi spatiotemporal akhir, ”tulis Dream di GitHub.

Anda dapat membaca makalah penelitian di bawah ini.

Google Dreamix

Stempel Waktu:

Lebih dari TechStartup