Google, videolar oluşturmak, düzenlemek ve görüntüleri canlandırmak için yapay zeka destekli video düzenleyici Dreamix'i piyasaya sürdü

Google, videolar oluşturmak, düzenlemek ve görüntüleri canlandırmak için yapay zeka destekli video düzenleyici Dreamix'i piyasaya sürdü

Kaynak Düğüm: 1953261

OpenAI ChatGPT, 24 saatlik haber döngüsünün tüm oksijenini emerken, Google, video, resim ve metin girdileri verildiğinde videolar oluşturabilen yeni bir AI modelini sessizce açıkladı. Yeni Google Dreamix AI video düzenleyici artık oluşturulan videoyu gerçeğe yaklaştırıyor.

GitHub'da yayınlanan araştırmaya göre Dreamix, videoyu bir video ve bir metin istemine göre düzenliyor. Ortaya çıkan video, renk, duruş, nesne boyutu ve kamera duruşuna uygunluğunu koruyarak geçici olarak tutarlı bir video sağlar. Şu anda Dreamix yalnızca bir bilgi isteminden video oluşturamaz, ancak mevcut materyali alabilir ve metin istemlerini kullanarak videoyu değiştirebilir.

Google, DALL-E2 veya açık kaynaklı Stable Diffusion gibi görüntü yapay zekalarında gördüğümüz çoğu video görüntü düzenlemesi için başarıyla uygulanan bir yaklaşım olan Dreamix için video yayma modellerini kullanır.

Yaklaşım, giriş videosunu büyük ölçüde azaltmayı, yapay gürültü eklemeyi ve ardından onu bir video difüzyon modelinde işlemeyi içerir; bu model, orijinal videonun bazı özelliklerini koruyan ve diğerlerini buna göre yeniden oluşturan yeni bir video oluşturmak için bir metin istemi kullanır. metin girişine

Video difüzyon modeli, videolarla çalışmak için yeni bir çağ açabilecek umut verici bir gelecek sunuyor.

Örneğin, aşağıdaki videoda, Dreamix yemek yiyen maymunu (solda) dans eden bir ayıya (sağda) dönüştürüyor ve "Ayı hareketli müzikle dans ediyor ve zıplıyor, tüm vücudunu hareket ettiriyor."

Aşağıdaki başka bir örnekte Dreamix, şablon olarak tek bir fotoğraf kullanır (görüntüden videoya olduğu gibi) ve ardından bir nesne, bir komut istemi aracılığıyla bir videoda bundan hareketle canlandırılır. Yeni sahnede veya sonraki hızlandırılmış kayıtta kamera hareketleri de mümkündür.

Başka bir örnekte Dreamix, bir su havuzundaki orangutanı (solda) güzel bir banyoda yıkanan turuncu saçlı bir orangutana dönüştürüyor.

“Görüntü düzenleme için difüzyon modelleri başarıyla uygulanırken, video düzenleme için çok az çalışma yapılmıştır. Genel videoların metin tabanlı hareket ve görünüm düzenlemesini gerçekleştirebilen ilk yayılma tabanlı yöntemi sunuyoruz.”

Google araştırma makalesine göre, Dreamix, çıkarım zamanında, orijinal videodaki düşük çözünürlüklü uzay-zamansal bilgileri, kılavuz metin istemiyle hizalamak için sentezlediği yeni, yüksek çözünürlüklü bilgilerle birleştirmek için bir video yayılma modeli kullanıyor.

Google, bu yaklaşımı benimsediğini çünkü "orijinal videonun aslına uygunluğunu elde etmek, onun yüksek çözünürlüklü bilgilerinin bir kısmını tutmayı gerektirir; orijinal videoya modelin ince ayarını yapmak için bir ön aşama ekleyerek aslına uygunluğu önemli ölçüde artırırız" dedi.

Aşağıda, Dreamix'in nasıl çalıştığına dair bir video genel bakış bulunmaktadır.

[Gömülü içerik]

Dreamix Video Difüzyon Modelleri Nasıl Çalışır?

Google'a göre, yalnızca giriş videosunda Dreamix için video difüzyon modelinin ince ayarını yapmak, hareket değişikliğinin kapsamını sınırlar. Bunun yerine, orijinal hedefin (sol altta) yanı sıra sırasız çerçeve kümesi üzerinde ince ayarlar yapan karma bir hedef kullanıyoruz. Bu, "maskeli zamansal dikkat" kullanılarak yapılır, zamansal dikkatin ve evrişimin ince ayarının yapılması önlenir (sağ alt). Bu, statik bir videoya hareket eklenmesine izin verir.

"Metodumuz, uygulamaya bağlı ön işleme (solda) ve giriş içeriğini tek tip bir video formatına dönüştürerek birden fazla uygulamayı destekliyor. Görüntüden videoya için, giriş görüntüsü çoğaltılır ve perspektif dönüşümleri kullanılarak dönüştürülür ve kaba bir video biraz kamera hareketiyle sentezlenir. Konuya dayalı video üretimi için girdi atlanır - yalnızca ince ayar aslına uygunlukla ilgilenir. Bu kaba video daha sonra genel "Dreamix Video Düzenleyicimiz" (sağda) kullanılarak düzenlenir: önce altörnekleme yaparak ardından parazit ekleyerek videoyu bozarız. Daha sonra, videoyu son uzamsal-zamansal çözünürlüğe yükselten ince ayarlı metin kılavuzlu video difüzyon modelini uyguluyoruz," diye yazdı Dream. GitHub.

Araştırma makalesini aşağıdan okuyabilirsiniz.

Google Dreamix

Zaman Damgası:

Den fazla TechStarups