گوگل نے AI سے چلنے والے ویڈیو ایڈیٹر ڈریمکس کو ویڈیوز بنانے اور اس میں ترمیم کرنے اور تصاویر کو متحرک کرنے کے لیے لانچ کیا۔

گوگل نے AI سے چلنے والے ویڈیو ایڈیٹر ڈریمکس کو ویڈیوز بنانے اور اس میں ترمیم کرنے اور تصاویر کو متحرک کرنے کے لیے لانچ کیا۔

ماخذ نوڈ: 1953261

جب کہ OpenAI ChatGPT 24 گھنٹے نیوز سائیکل میں سے تمام آکسیجن کو چوس رہا ہے، گوگل نے خاموشی سے ایک نئے AI ماڈل کی نقاب کشائی کی ہے جو ویڈیو، امیج اور ٹیکسٹ ان پٹ دینے پر ویڈیوز بنا سکتا ہے۔ نیا Google Dreamix AI ویڈیو ایڈیٹر اب تخلیق شدہ ویڈیو کو حقیقت کے قریب لاتا ہے۔

GitHub پر شائع ہونے والی تحقیق کے مطابق ڈریمکس ویڈیو اور ٹیکسٹ پرامپٹ کی بنیاد پر ویڈیو میں ترمیم کرتا ہے۔ نتیجے میں آنے والی ویڈیو رنگ، کرنسی، آبجیکٹ کے سائز، اور کیمرہ پوز کے لیے اپنی وفاداری کو برقرار رکھتی ہے، جس کے نتیجے میں وقتی طور پر مسلسل ویڈیو بنتی ہے۔ اس وقت، ڈریمکس صرف ایک پرامپٹ سے ویڈیوز نہیں بنا سکتا، تاہم، یہ موجودہ مواد لے سکتا ہے اور ٹیکسٹ پرامپٹ کا استعمال کرتے ہوئے ویڈیو میں ترمیم کر سکتا ہے۔

گوگل ڈریمکس کے لیے ویڈیو ڈفیوژن ماڈلز کا استعمال کرتا ہے، یہ ایک ایسا طریقہ ہے جو زیادہ تر ویڈیو امیج ایڈیٹنگ کے لیے کامیابی کے ساتھ لاگو کیا گیا ہے جسے ہم تصویر AIs جیسے DALL-E2 یا اوپن سورس اسٹیبل ڈفیوژن میں دیکھتے ہیں۔

اس نقطہ نظر میں ان پٹ ویڈیو کو بہت زیادہ کم کرنا، مصنوعی شور شامل کرنا، اور پھر اسے ویڈیو ڈفیوژن ماڈل میں پروسیس کرنا شامل ہے، جو اس کے بعد اس سے ایک نیا ویڈیو بنانے کے لیے ٹیکسٹ پرامپٹ کا استعمال کرتا ہے جو اصل ویڈیو کی کچھ خصوصیات کو برقرار رکھتا ہے اور اس کے مطابق دوسروں کو دوبارہ پیش کرتا ہے۔ ٹیکسٹ ان پٹ پر۔

ویڈیو ڈفیوژن ماڈل ایک امید افزا مستقبل پیش کرتا ہے جو ویڈیوز کے ساتھ کام کرنے کے لیے ایک نئے دور کا آغاز کر سکتا ہے۔

مثال کے طور پر، نیچے دی گئی ویڈیو میں، ڈریمکس کھانے والے بندر (بائیں) کو رقص کرنے والے ریچھ (دائیں) میں بدل دیتا ہے "ایک ریچھ اپنے پورے جسم کو حرکت دے کر ناچ رہا ہے اور پرجوش موسیقی پر چھلانگ لگا رہا ہے"۔

نیچے دی گئی ایک اور مثال میں، ڈریمکس ایک ہی تصویر کو بطور ٹیمپلیٹ استعمال کرتا ہے (جیسا کہ تصویر سے ویڈیو میں) اور اس کے بعد کسی چیز کو ویڈیو میں پرامپٹ کے ذریعے اینیمیٹ کیا جاتا ہے۔ کیمرے کی نقل و حرکت نئے منظر یا اس کے بعد کی ٹائم لیپس ریکارڈنگ میں بھی ممکن ہے۔

ایک اور مثال میں، ڈریمکس پانی کے تالاب (بائیں) میں موجود اورنگوٹان کو ایک خوبصورت باتھ روم میں نارنجی بالوں کے ساتھ اورنگوٹان میں بدل دیتا ہے۔

"جب کہ ڈفیوژن ماڈلز کو امیج ایڈیٹنگ کے لیے کامیابی کے ساتھ لاگو کیا گیا ہے، بہت کم کاموں نے ویڈیو ایڈیٹنگ کے لیے ایسا کیا ہے۔ ہم پہلا ڈفیوژن پر مبنی طریقہ پیش کرتے ہیں جو ٹیکسٹ پر مبنی حرکت اور عام ویڈیوز کی ظاہری شکل میں ترمیم کرنے کے قابل ہے۔

گوگل کے تحقیقی مقالے کے مطابق، ڈریمکس ایک ویڈیو ڈفیوژن ماڈل کا استعمال کرتا ہے، قیاس کے وقت، اصل ویڈیو سے کم ریزولوشن اسپیٹیوٹیمپورل معلومات کو نئی، ہائی ریزولوشن معلومات کے ساتھ جو اس نے گائیڈنگ ٹیکسٹ پرامپٹ کے ساتھ ہم آہنگ کرنے کے لیے ترکیب کیا ہے۔

گوگل نے کہا کہ اس نے یہ طریقہ اختیار کیا کیونکہ "اصل ویڈیو کے لیے اعلیٰ وفاداری حاصل کرنے کے لیے اس کی کچھ اعلیٰ ریزولیوشن معلومات کو برقرار رکھنے کی ضرورت ہوتی ہے، ہم اصل ویڈیو پر ماڈل کو فائن ٹیون کرنے کا ایک ابتدائی مرحلہ شامل کرتے ہیں، جس سے وفاداری میں نمایاں اضافہ ہوتا ہے۔"

ذیل میں ایک ویڈیو جائزہ ہے کہ ڈریمکس کیسے کام کرتا ہے۔

[سرایت مواد]

ڈریمکس ویڈیو ڈفیوژن ماڈلز کیسے کام کرتے ہیں۔

گوگل کے مطابق، صرف ان پٹ ویڈیو پر ڈریمکس کے لیے ویڈیو ڈفیوژن ماڈل کو ٹھیک کرنا حرکت کی تبدیلی کی حد کو محدود کرتا ہے۔ اس کے بجائے، ہم ایک مخلوط مقصد استعمال کرتے ہیں جو اصل مقصد کے علاوہ (نیچے بائیں) فریموں کے غیر ترتیب شدہ سیٹ پر بھی ٹھیک ہوتا ہے۔ یہ "نقاب پوش دنیاوی توجہ" کا استعمال کرتے ہوئے کیا جاتا ہے، عارضی توجہ اور کنولیشن کو ٹھیک ہونے سے روکتا ہے (نیچے دائیں طرف)۔ یہ ایک جامد ویڈیو میں حرکت شامل کرنے کی اجازت دیتا ہے۔

"ہمارا طریقہ درخواست پر منحصر پری پروسیسنگ (بائیں) کے ذریعے متعدد ایپلی کیشنز کو سپورٹ کرتا ہے، ان پٹ مواد کو یکساں ویڈیو فارمیٹ میں تبدیل کرتا ہے۔ تصویر سے ویڈیو کے لیے، ان پٹ امیج کو ڈپلیکیٹ کیا جاتا ہے اور نقطہ نظر کی تبدیلیوں کا استعمال کرتے ہوئے تبدیل کیا جاتا ہے، کچھ کیمرہ موشن کے ساتھ ایک موٹے ویڈیو کی ترکیب کرتا ہے۔ موضوع پر مبنی ویڈیو جنریشن کے لیے، ان پٹ کو چھوڑ دیا گیا ہے - صرف فائن ٹیوننگ ہی مخلصی کا خیال رکھیں۔ اس موٹے ویڈیو کو پھر ہمارے عمومی "Dreamix Video Editor" (دائیں) کا استعمال کرتے ہوئے ایڈٹ کیا جاتا ہے: ہم پہلے ڈاون سیمپلنگ کے ذریعے ویڈیو کو خراب کرتے ہیں اور اس کے بعد شور ڈالتے ہیں۔ اس کے بعد ہم فائن ٹیونڈ ٹیکسٹ گائیڈڈ ویڈیو ڈفیوژن ماڈل کا اطلاق کرتے ہیں، جو ویڈیو کو حتمی اسپیٹیوٹیمپورل ریزولوشن تک بڑھاتا ہے،" ڈریم نے لکھا GitHub کے.

آپ ذیل میں تحقیقی مقالہ پڑھ سکتے ہیں۔

گوگل ڈریمکس

ٹائم اسٹیمپ:

سے زیادہ ٹیک اسٹارٹپس