أطلقت Google محرر الفيديو Dreamix المدعوم بالذكاء الاصطناعي لإنشاء مقاطع الفيديو وتحريرها وتحريك الصور

أطلقت Google محرر الفيديو Dreamix المدعوم بالذكاء الاصطناعي لإنشاء مقاطع الفيديو وتحريرها وتحريك الصور

عقدة المصدر: 1953261

بينما تقوم OpenAI ChatGPT بامتصاص كل الأكسجين من دورة الأخبار على مدار 24 ساعة ، كشفت Google بهدوء عن نموذج ذكاء اصطناعي جديد يمكنه إنشاء مقاطع فيديو عند إعطاء مدخلات فيديو وصورة ونص. محرر فيديو Google Dreamix AI الجديد يجعل الفيديو الذي تم إنشاؤه أقرب إلى الواقع.

وفقًا للبحث المنشور على GitHub ، يقوم Dreamix بتحرير الفيديو بناءً على مقطع فيديو وموجه نصي. يحافظ الفيديو الناتج على دقته للون ، والموقف ، وحجم الكائن ، ووضعية الكاميرا ، مما ينتج عنه فيديو متسق مؤقتًا. في الوقت الحالي ، لا يمكن لـ Dreamix إنشاء مقاطع فيديو من مجرد مطالبة ، ومع ذلك ، يمكنه أخذ المواد الموجودة وتعديل الفيديو باستخدام المطالبات النصية.

تستخدم Google نماذج نشر الفيديو لـ Dreamix ، وهو نهج تم تطبيقه بنجاح لمعظم عمليات تحرير صور الفيديو التي نراها في AIs للصور مثل DALL-E2 أو الانتشار المستقر مفتوح المصدر.

يتضمن النهج تقليل إدخال الفيديو بشكل كبير ، وإضافة ضوضاء اصطناعية ، ثم معالجته في نموذج نشر الفيديو ، والذي يستخدم بعد ذلك موجهًا نصيًا لإنشاء مقطع فيديو جديد منه يحتفظ ببعض خصائص الفيديو الأصلي ويعيد عرض البعض الآخر وفقًا لإدخال النص.

يقدم نموذج نشر الفيديو مستقبلًا واعدًا قد يفتح حقبة جديدة للعمل مع مقاطع الفيديو.

على سبيل المثال ، في الفيديو أدناه ، يحول Dreamix القرد الأكل (على اليسار) إلى دب راقص (على اليمين) نظرًا للمطالبة "دب يرقص ويقفز على موسيقى مبهجة ، ويحرك جسده بالكامل."

في مثال آخر أدناه ، يستخدم Dreamix صورة واحدة كقالب (كما في صورة إلى فيديو) ثم يتم تحريك كائن منه في مقطع فيديو عبر موجه. حركات الكاميرا ممكنة أيضًا في المشهد الجديد أو التسجيل اللاحق بفاصل زمني.

في مثال آخر ، يحول Dreamix إنسان الغاب الموجود في بركة ماء (على اليسار) إلى إنسان الغاب بشعر برتقالي يستحم في حمام جميل.

"بينما تم تطبيق نماذج الانتشار بنجاح لتحرير الصور ، تم تنفيذ القليل جدًا من الأعمال لتحرير الفيديو. نقدم أول طريقة قائمة على الانتشار قادرة على أداء الحركة المستندة إلى النص وتحرير المظهر لمقاطع الفيديو العامة. "

وفقًا لورقة بحث Google ، يستخدم Dreamix نموذجًا لنشر الفيديو للجمع ، في وقت الاستدلال ، المعلومات الزمانية المكانية منخفضة الدقة من الفيديو الأصلي مع المعلومات الجديدة عالية الدقة التي تم توليفها لتتماشى مع موجه النص الإرشادي ".

قالت Google إنها اتبعت هذا النهج لأن "الحصول على دقة عالية للفيديو الأصلي يتطلب الاحتفاظ ببعض المعلومات عالية الدقة ، نضيف مرحلة أولية من ضبط النموذج على الفيديو الأصلي ، مما يعزز الدقة بشكل كبير."

يوجد أدناه نظرة عامة بالفيديو حول كيفية عمل Dreamix.

[المحتوى جزءا لا يتجزأ]

كيف تعمل نماذج انتشار الفيديو Dreamix

وفقًا لـ Google ، فإن ضبط نموذج نشر الفيديو لـ Dreamix على فيديو الإدخال وحده يحد من مدى تغيير الحركة. بدلاً من ذلك ، نستخدم هدفًا مختلطًا ، بالإضافة إلى الهدف الأصلي (أسفل اليسار) ، يتم أيضًا ضبطه على مجموعة الإطارات غير المرتبة. يتم ذلك باستخدام "الانتباه الزمني المقنع" ، مما يمنع الانتباه الزمني والتواء من التحديد (أسفل اليمين). هذا يسمح بإضافة الحركة إلى فيديو ثابت.

"تدعم طريقتنا تطبيقات متعددة من خلال المعالجة المسبقة المعتمدة على التطبيق (على اليسار) ، وتحويل محتوى الإدخال إلى تنسيق فيديو موحد. بالنسبة إلى صورة إلى فيديو ، يتم تكرار صورة الإدخال وتحويلها باستخدام تحويلات المنظور ، وتوليف مقطع فيديو خشن مع بعض حركة الكاميرا. لتوليد الفيديو حسب الموضوع ، يتم حذف الإدخال - الضبط الدقيق وحده هو الذي يعتني بالدقة. يتم بعد ذلك تحرير هذا الفيديو الخشن باستخدام "Dreamix Video Editor" (على اليمين): قمنا أولاً بإفساد الفيديو عن طريق الاختزال متبوعًا بإضافة التشويش. ثم نطبق نموذج نشر الفيديو الموجه بدقة النص ، والذي يرفع مستوى الفيديو إلى الدقة الزمانية المكانية النهائية "، كتب دريم في GitHub جيثب:.

يمكنك قراءة ورقة البحث أدناه.

جوجل دريميكس

الطابع الزمني:

اكثر من TechStartups