گوگل ویرایشگر ویدیویی مبتنی بر هوش مصنوعی Dreamix را برای ایجاد و ویرایش ویدیوها و متحرک سازی تصاویر راه اندازی کرد.

گوگل ویرایشگر ویدیویی مبتنی بر هوش مصنوعی Dreamix را برای ایجاد و ویرایش ویدیوها و متحرک سازی تصاویر راه اندازی کرد.

گره منبع: 1953261

در حالی که OpenAI ChatGPT تمام اکسیژن چرخه اخبار 24 ساعته را جذب می کند، گوگل بی سر و صدا از یک مدل هوش مصنوعی جدید رونمایی کرده است که می تواند در صورت دریافت ویدئو، تصویر و ورودی متن، ویدئو تولید کند. ویرایشگر ویدیوی جدید Google Dreamix AI اکنون ویدیوی تولید شده را به واقعیت نزدیک‌تر می‌کند.

طبق تحقیقات منتشر شده در GitHub، Dreamix ویدیو را بر اساس یک ویدیو و یک پیام متنی ویرایش می کند. ویدیوی به‌دست‌آمده وفاداری خود را به رنگ، وضعیت بدن، اندازه جسم و حالت دوربین حفظ می‌کند و در نتیجه یک ویدیوی موقتی ثابت می‌شود. در حال حاضر، Dreamix نمی‌تواند تنها از طریق یک درخواست ویدیو تولید کند، با این حال، می‌تواند مطالب موجود را بگیرد و ویدیو را با استفاده از اعلان‌های متنی تغییر دهد.

گوگل از مدل‌های انتشار ویدیو برای Dreamix استفاده می‌کند، رویکردی که با موفقیت برای اکثر ویرایش‌های تصویر ویدیویی که در هوش مصنوعی‌های تصویری مانند DALL-E2 یا منبع باز Stable Diffusion می‌بینیم، اعمال شده است.

این رویکرد شامل کاهش شدید ویدیوی ورودی، اضافه کردن نویز مصنوعی، و سپس پردازش آن در یک مدل انتشار ویدیویی است، که سپس از یک پیام متنی برای تولید یک ویدیوی جدید از آن استفاده می‌کند که برخی از ویژگی‌های ویدیوی اصلی را حفظ می‌کند و برخی دیگر را مطابق با آن دوباره رندر می‌کند. به ورودی متن

مدل انتشار ویدیو آینده امیدوار کننده ای را ارائه می دهد که ممکن است عصر جدیدی را برای کار با ویدیوها آغاز کند.

به عنوان مثال، در ویدیوی زیر، Dreamix میمون در حال خوردن (سمت چپ) را به یک خرس رقصنده (راست) تبدیل می‌کند، با این دستور که «یک خرس در حال رقصیدن و پریدن به سمت موسیقی شاد، تمام بدنش را حرکت می‌دهد».

در مثال دیگری در زیر، Dreamix از یک عکس به عنوان یک الگو استفاده می کند (مانند تصویر به ویدیو) و سپس یک شی از آن در یک ویدیو از طریق یک درخواست متحرک می شود. حرکات دوربین در صحنه جدید یا ضبط تایم لپس بعدی نیز امکان پذیر است.

در مثالی دیگر، Dreamix اورانگوتان را در یک حوض آب (سمت چپ) به اورانگوتان با موهای نارنجی در حمام زیبا تبدیل می کند.

در حالی که مدل‌های انتشار با موفقیت برای ویرایش تصویر به کار گرفته شده‌اند، کارهای بسیار کمی برای ویرایش ویدیو انجام داده‌اند. ما اولین روش مبتنی بر انتشار را ارائه می‌دهیم که قادر به انجام حرکت مبتنی بر متن و ویرایش ظاهری ویدیوهای عمومی است.

طبق مقاله تحقیقاتی گوگل، Dreamix از یک مدل انتشار ویدیویی برای ترکیب کردن اطلاعات مکانی-زمانی با وضوح پایین از ویدیوی اصلی با اطلاعات جدید و با وضوح بالا استفاده می کند که برای همسویی با پیام متنی راهنما ترکیب شده است.

گوگل گفته است که این رویکرد را اتخاذ کرده است زیرا «دستیابی به وفاداری بالا به ویدیوی اصلی مستلزم حفظ برخی از اطلاعات با وضوح بالا است، ما یک مرحله مقدماتی برای تنظیم دقیق مدل در ویدیوی اصلی اضافه می‌کنیم که وفاداری را به میزان قابل توجهی افزایش می‌دهد».

در زیر یک نمای کلی از نحوه عملکرد Dreamix وجود دارد.

[محتوای جاسازی شده]

مدل‌های انتشار ویدئویی Dreamix چگونه کار می‌کنند

به گفته گوگل، تنظیم دقیق مدل پخش ویدیو برای Dreamix در ویدیوی ورودی به تنهایی میزان تغییر حرکت را محدود می کند. در عوض، ما از یک هدف ترکیبی استفاده می‌کنیم که علاوه بر هدف اصلی (پایین سمت چپ) روی مجموعه‌ای از فریم‌های نامرتب نیز تنظیم می‌شود. این کار با استفاده از "توجه زمانی پوشانده شده" انجام می شود، که از تنظیم دقیق توجه و پیچیدگی زمانی (پایین سمت راست) جلوگیری می کند. این اجازه می دهد تا حرکت را به یک ویدیوی ثابت اضافه کنید.

روش ما از چندین برنامه با پیش پردازش وابسته به برنامه (سمت چپ) پشتیبانی می کند و محتوای ورودی را به فرمت ویدیویی یکنواخت تبدیل می کند. برای تبدیل تصویر به ویدئو، تصویر ورودی با استفاده از تبدیل‌های پرسپکتیو کپی شده و تبدیل می‌شود و یک ویدیوی درشت را با کمی حرکت دوربین ترکیب می‌کند. برای تولید ویدیوی سوژه محور، ورودی حذف می شود - تنظیم دقیق به تنهایی از وفاداری مراقبت می کند. سپس این ویدیوی درشت با استفاده از «ویرایشگر ویدیوی Dreamix» (سمت راست) ویرایش می‌شود: ابتدا ویدیو را با پایین‌نمونه‌سازی و سپس اضافه کردن نویز خراب می‌کنیم. سپس ما مدل انتشار ویدئویی هدایت‌شده با متن دقیق را اعمال می‌کنیم، که ویدئو را به وضوح نهایی مکانی-زمانی ارتقا می‌دهد. GitHub.

می توانید مقاله پژوهشی را در زیر بخوانید.

Google Dreamix

تمبر زمان:

بیشتر از راه اندازی TechStartups