ControlNet اور StarCoder: Roblox ریسرچ ایڈوانسمنٹس برائے جنریٹیو AI - Roblox Blog

ControlNet اور StarCoder: Roblox ریسرچ ایڈوانسمنٹس برائے جنریٹو AI - روبلوکس بلاگ

ماخذ نوڈ: 2864546

ہم مصنوعی ذہانت (AI) سمیت تمام شعبوں میں ذمہ دار اور کمیونٹی مصروف تحقیق کو آگے بڑھانے کے لیے پرعزم ہیں۔ ہم اسے شفافیت، بیرونی توثیق، اور تعاون اور کفالت کے ذریعے تعلیمی اداروں کی معاونت کے ذریعے حاصل کرتے ہیں۔ یہ نقطہ نظر ہمیں اپنے تین فوکس ایریاز: جنریٹیو AI، ڈیٹا سینٹر اسکیلنگ، اور آن لائن سیفٹی میں سب سے بڑی پیشرفت حاصل کرنے میں تیزی لانے کی اجازت دیتا ہے۔ آج، ہم اپنے دو تخلیقی AI تحقیقی منصوبوں سے بصیرت اور نتائج کا اشتراک کر رہے ہیں۔ کنٹرول نیٹ ایک اوپن سورس نیورل نیٹ ورک ہے جو زیادہ درست امیج آؤٹ پٹس کے لیے امیج جنریشن ماڈلز میں مشروط کنٹرول شامل کرتا ہے۔ اسٹار کوڈر کوڈ جنریشن کے لیے ایک جدید ترین اوپن سورس لارج لینگوئج ماڈل (LLM) ہے۔ 

دونوں منصوبے علمی اور صنعتی تعاون ہیں۔ دونوں ہمارے تخلیق کاروں کے لیے بنیادی طور پر زیادہ طاقتور ٹولز پر بھی مرکوز ہیں: 3D فنکار اور پروگرامرز۔ سب سے اہم بات اور تبدیلی کی تحقیق کے ذریعے طویل نظریہ میں سرمایہ کاری کے ہمارے مشن کے ساتھ منسلک، یہ منصوبے بہت سے ایپلی کیشنز کے لیے بنیادی سائنسی تفہیم اور AI کے کنٹرول میں پیشرفت کے اشارے دکھاتے ہیں۔ ہمیں یقین ہے کہ یہ کام روبلوکس کے مستقبل اور مجموعی طور پر فیلڈ پر اہم اثر ڈال سکتا ہے اور اسے کھل کر شیئر کرنے پر فخر محسوس کرتے ہیں۔

کنٹرول نیٹ

حالیہ AI کامیابیاں - خاص طور پر ڈیٹا سے چلنے والے مشین لرننگ (ML) کے طریقے جو ڈیپ نیورل نیٹ ورکس کا استعمال کرتے ہوئے ہیں - نے تخلیق کے ٹولز میں نئی ​​پیشرفت کی ہے۔ ان پیشرفتوں میں ہمارے شامل ہیں۔ کوڈ اسسٹ اور میٹریل جنریٹر وہ خصوصیات جو ہمارے مفت ٹول روبلوکس اسٹوڈیو میں عوامی طور پر دستیاب ہیں۔ جدید جنریٹو AI سسٹمز ڈیٹا ڈھانچے پر مشتمل ہوتے ہیں جنہیں ماڈل کہتے ہیں جو اربوں ٹریننگ آپریشنز کے ذریعے بہتر ہوتے ہیں۔ آج کل کے سب سے زیادہ طاقتور ماڈل ملٹی موڈل ہیں، یعنی انہیں میڈیا جیسے ٹیکسٹ، امیجز اور آڈیو کے مرکب پر تربیت دی جاتی ہے۔ یہ انہیں ڈیٹا سیٹ کے مخصوص عناصر، جیسے کلر پیلیٹس یا ہجے کے لیے اوور فٹنگ کرنے کے بجائے میڈیا پر عام بنیادی معنی تلاش کرنے کی اجازت دیتا ہے۔ 

ان نئے AI سسٹمز میں نمایاں اظہار کی طاقت ہے، لیکن اس طاقت کو بڑی حد تک "پرامپٹ انجینئرنگ" کے ذریعے ہدایت کی جاتی ہے۔ ایسا کرنے کا مطلب صرف ان پٹ ٹیکسٹ کو تبدیل کرنا ہے، جیسا کہ سرچ انجن کے استفسار کو بہتر کرنا اگر یہ آپ کی توقع کے مطابق نہیں لوٹتا ہے۔ اگرچہ یہ ایک نئی ٹکنالوجی کے ساتھ کھیلنے کا ایک پرکشش طریقہ ہو سکتا ہے جیسے کہ غیر ہدایت شدہ چیٹ بوٹ، لیکن یہ مواد بنانے کا کوئی موثر یا موثر طریقہ نہیں ہے۔ تخلیق کاروں کو اس کے بجائے پاور ٹولز کی ضرورت ہوتی ہے جن کا وہ اندازہ لگانے کے بجائے فعال کنٹرول کے ذریعے مؤثر طریقے سے فائدہ اٹھا سکتے ہیں۔

ControlNet پروجیکٹ ان میں سے کچھ چیلنجوں کو حل کرنے کی طرف ایک قدم ہے۔ یہ بڑے پہلے سے تربیت یافتہ AI ماڈلز کی طاقت کو استعمال کرنے کا ایک موثر طریقہ پیش کرتا ہے۔ مستحکم بازی، فوری انجینئرنگ پر بھروسہ کیے بغیر۔ ControlNet آرٹسٹ کو صرف ٹیکسٹ پرامپٹس کے علاوہ اضافی ان پٹ شرائط فراہم کرنے کی اجازت دے کر کنٹرول کو بڑھاتا ہے۔ روبلوکس کے محقق اور اسٹینفورڈ یونیورسٹی کے پروفیسر منیش اگروالا اور اسٹینفورڈ کے محقق لیومن ژانگ ہمارے مشترکہ کنٹرول نیٹ پروجیکٹ کے اہداف کو ترتیب دیتے ہیں:

  1. تخلیقی AI ٹولز کے لیے بہتر یوزر انٹرفیس تیار کریں۔ غیر واضح فوری ہیرا پھیری سے آگے بڑھیں اور کسی خیال یا تخلیقی تصور کو پہنچانے کے مزید قدرتی طریقوں کے ارد گرد بنائیں۔
  2. "تصویر جیسی" یا "... کے انداز میں ایک تصویر بنانے سے آگے بڑھ کر، تخلیق کار کے ذہن میں جو تصویر ہے اس کو بالکل ٹھیک محسوس کرنے کے قابل بنانے کے لیے، زیادہ درست مقامی کنٹرول فراہم کریں۔
  3. جنریٹو AI ٹریننگ کو زیادہ کمپیوٹ کرنے والے عمل میں تبدیل کریں جو زیادہ تیزی سے کام کرتا ہے، کم میموری کی ضرورت ہوتی ہے، اور کم برقی توانائی استعمال کرتی ہے۔
  4. تصویر بنانے والے AI کو دوبارہ قابل استعمال عمارت کے بلاک میں پھیلائیں۔ اس کے بعد اسے معیاری امیج پروسیسنگ اور 3D رینڈرنگ پائپ لائنز کے ساتھ مربوط کیا جا سکتا ہے۔ 

تخلیق کاروں کو مقامی کنٹرول کے لیے ایک اضافی تصویر فراہم کرنے کی اجازت دے کر، ControlNet حتمی تیار کردہ تصویر پر زیادہ کنٹرول فراہم کرتا ہے۔ مثال کے طور پر، موجودہ ٹیکسٹ ٹو امیج جنریٹر پر "سینگوں کے ساتھ نر ہرن" کے اشارے نے مختلف قسم کی تصاویر تیار کیں، جیسا کہ ذیل میں دکھایا گیا ہے:

پچھلے AI سلوشنز کے ساتھ تیار کی گئی یہ تصاویر پرکشش ہیں، لیکن بدقسمتی سے بنیادی طور پر من مانی نتائج — کوئی کنٹرول نہیں ہے۔ ان پچھلے امیج پیدا کرنے والے سسٹمز پر آؤٹ پٹ کو چلانے کا کوئی طریقہ نہیں ہے، سوائے ٹیکسٹ پرامپٹ پر نظر ثانی کرنے کے۔

ControlNet کے ساتھ، تخلیق کار کے پاس اب بہت زیادہ طاقت ہے۔ ControlNet استعمال کرنے کا ایک طریقہ یہ ہے کہ عام شکل کا تعین کرنے کے لیے فوری اور سورس امیج دونوں فراہم کریں۔ اس صورت میں، نتیجے میں آنے والی تصاویر اب بھی مختلف قسم کی پیشکش کریں گی لیکن، اہم طور پر، مخصوص شکل کو برقرار رکھتی ہے:

تخلیق کنندہ کناروں کا ایک سیٹ، ایک ایسی تصویر جس کا کوئی اشارہ نہیں، یا سسٹم کو اظہار خیال کرنے کے بہت سے دوسرے طریقے بھی بتا سکتے ہیں۔

ایک ControlNet بنانے کے لیے، ہم ایک بڑے ڈفیوژن ماڈل کے نیٹ ورک کے اندر وزن کو دو ورژنوں میں کلون کرتے ہیں۔ ایک ہے قابل تربیت نیٹ ورک (یہ کنٹرول فراہم کرتا ہے؛ یہ "کنٹرول نیٹ" ہے) اور دوسرا ہے۔ بند نیٹ ورک. مقفل نیٹ ورک اربوں امیجز سے سیکھی گئی صلاحیت کو محفوظ رکھتا ہے اور یہ کوئی سابقہ ​​امیج جنریٹر ہو سکتا ہے۔ اس کے بعد ہم اضافی امیج سے مشروط کنٹرول سیکھنے کے لیے قابل تربیت نیٹ ورک کو ٹاسک مخصوص ڈیٹا سیٹس پر تربیت دیتے ہیں۔ قابل تربیت اور مقفل کاپیاں ایک منفرد قسم کی کنولوشن لیئر کے ساتھ جڑی ہوئی ہیں جسے ہم کہتے ہیں۔ صفر کنولیشن، جہاں کنوولوشن وزن بتدریج سیکھے ہوئے طریقے سے زیرو سے آپٹمائزڈ پیرامیٹرز تک بڑھتا ہے، مطلب یہ ہے کہ ابتدائی طور پر ان کا کوئی اثر نہیں ہوتا ہے اور نظام مقفل نیٹ ورک پر کام کرنے کے لیے بہترین سطح کا کنٹرول حاصل کرتا ہے۔

چونکہ اصل وزن کو بند نیٹ ورک کے ذریعے محفوظ کیا جاتا ہے، اس لیے ماڈل مختلف سائز کے تربیتی ڈیٹا سیٹ کے ساتھ اچھی طرح کام کرتا ہے۔ اور زیرو کنولوشن لیئر اس عمل کو بہت تیز تر بناتی ہے - نئی پرتوں کو شروع سے تربیت دینے کے مقابلے میں ایک بازی ماڈل کو ٹھیک کرنے کے قریب۔ 

ہم نے تصویر بنانے کے لیے اس تکنیک کی وسیع توثیق کی ہے۔ ControlNet صرف آؤٹ پٹ امیج کے معیار کو بہتر نہیں کرتا ہے۔ یہ ایک مخصوص کام کے لیے نیٹ ورک کی تربیت کو زیادہ موثر اور اس طرح ہمارے لاکھوں تخلیق کاروں کے لیے پیمانے پر تعینات کرنے کے لیے عملی بھی بناتا ہے۔ تجربات میں، ControlNet متبادل منظرناموں کے مقابلے میں 10x کارکردگی کا فائدہ فراہم کرتا ہے جس کے لیے ماڈل کو مکمل طور پر دوبارہ تربیت دینے کی ضرورت ہوتی ہے۔ یہ کارکردگی بہت اہم ہے، کیونکہ نئے ماڈل بنانے کا عمل روایتی سافٹ ویئر ڈویلپمنٹ کے مقابلے میں وقت طلب اور وسائل پر مشتمل ہے۔ تربیت کو زیادہ موثر بنانے سے بجلی کی بچت ہوتی ہے، اخراجات کم ہوتے ہیں، اور اس شرح میں اضافہ ہوتا ہے جس پر نئی فعالیت شامل کی جا سکتی ہے۔

ControlNet کے منفرد ڈھانچے کا مطلب ہے کہ یہ مختلف سائز کے تربیتی ڈیٹا سیٹس اور بہت سے مختلف قسم کے میڈیا پر اچھی طرح کام کرتا ہے۔ کنٹرول نیٹ کو بہت سے مختلف قسم کے کنٹرول طریقوں کے ساتھ کام کرتے ہوئے دکھایا گیا ہے جن میں تصاویر، ہاتھ سے تیار کردہ سکریبلز، اور اوپنپوز پوز کا پتہ لگانا. ہمیں یقین ہے کہ جنریٹیو AI مواد کے لیے بہت سے مختلف قسم کے میڈیا پر ControlNet کا اطلاق کیا جا سکتا ہے۔ یہ تحقیق کھلی اور عوامی طور پر دستیاب ہے۔ کمیونٹی کے لیے تجربہ کرنے اور اس کی تعمیر کے لیے، اور ہم مزید معلومات پیش کرتے رہیں گے جب ہم اس کے ساتھ مزید دریافتیں کریں گے۔

اسٹار کوڈر

جنریٹو AI کو امیجز، آڈیو، ٹیکسٹ، پروگرام سورس کوڈ، یا امیر میڈیا کی کسی بھی دوسری شکل کے لیے لاگو کیا جا سکتا ہے۔ تاہم، مختلف میڈیا پر، سب سے زیادہ کامیابیوں کے ساتھ ایپلی کیشنز وہ ہوتی ہیں جن کے لیے آؤٹ پٹ کو موضوعی طور پر پرکھا جاتا ہے۔ مثال کے طور پر، ایک تصویر کامیاب ہوتی ہے جب وہ انسانی ناظرین کو اپیل کرتی ہے۔ تصویر میں کچھ خامیاں، جیسے کہ کناروں پر عجیب و غریب خصوصیات یا ہاتھ پر ایک اضافی انگلی، اگر مجموعی تصویر مجبور ہے تو اس پر توجہ نہ دی جائے۔ اسی طرح، ایک نظم یا مختصر کہانی میں گرائمر کی غلطیاں یا کچھ منطقی چھلانگ ہو سکتی ہے، لیکن اگر خلاصہ مجبور ہو، تو ہم ان کو معاف کر دیتے ہیں۔ 

موضوعی معیار پر غور کرنے کا ایک اور طریقہ یہ ہے کہ نتیجہ کی جگہ مسلسل ہے۔ ایک نتیجہ دوسرے سے بہتر ہو سکتا ہے، لیکن کوئی خاص حد نہیں ہے جس پر نتیجہ مکمل طور پر قابل قبول یا ناقابل قبول ہو۔ دیگر ڈومینز اور میڈیا کی شکلوں کے لیے آؤٹ پٹ کو معروضی طور پر پرکھا جاتا ہے۔ مثال کے طور پر، ایک جنریٹو AI پروگرامنگ اسسٹنٹ کے ذریعہ تیار کردہ سورس کوڈ یا تو درست ہے یا نہیں۔ اگر کوڈ ٹیسٹ پاس نہیں کر سکتا، تو یہ ناکام ہو جاتا ہے، چاہے یہ درست حل کے لیے کوڈ جیسا ہی ہو۔ یہ ایک مجرد نتیجہ کی جگہ ہے۔ ایک مجرد جگہ میں کامیابی حاصل کرنا مشکل ہے کیونکہ معیار زیادہ سخت ہیں اور کیونکہ کوئی بھی بتدریج کسی اچھے حل تک نہیں پہنچ سکتا — کوڈ اس وقت تک ٹوٹ جاتا ہے جب تک کہ یہ اچانک کام نہ کرے۔

ٹیکسٹ آؤٹ پٹ کے لیے استعمال ہونے والے LLMs سبجیکٹو، مسلسل ایپلی کیشنز جیسے چیٹ بوٹس کے لیے اچھی طرح سے کام کرتے ہیں۔ ایسا لگتا ہے کہ وہ انگریزی اور فرانسیسی جیسی بہت سی انسانی زبانوں میں نثر کی تخلیق کے لیے بھی اچھا کام کرتے ہیں۔ تاہم، موجودہ LLMs اس کے لیے بھی کام نہیں کرتے پروگرامنگ زبانیں جیسا کہ وہ ان انسانی زبانوں کے لیے کرتے ہیں۔ کوڈ ریاضی کی ایک شکل ہے جو فطری زبان سے معنی کے اظہار کا ایک بہت مختلف، معروضی طریقہ ہے۔ یہ مسلسل نتیجہ کی جگہ کے بجائے ایک مجرد نتیجہ کی جگہ ہے۔ روبلوکس تخلیق کاروں کے لیے پروگرامنگ لینگویج کوڈ جنریشن کے اعلیٰ ترین معیار کو حاصل کرنے کے لیے، ہمیں LLMs کو لاگو کرنے کے طریقوں کی ضرورت ہے جو اس مجرد، معروضی جگہ میں اچھی طرح کام کر سکیں۔ ہمیں کسی مخصوص زبان کے نحو، جیسے Lua، JavaScript، یا Python سے آزاد کوڈ کی فعالیت کے اظہار کے لیے بھی مضبوط طریقوں کی ضرورت ہے۔ 

StarCoder، کوڈ جنریشن کے لیے ایک نیا جدید ترین اوپن سورس LLM، اس تکنیکی چیلنج کے لیے ایک اہم پیش رفت اور سب کے لیے واقعی کھلا LLM ہے۔ StarCoder کا ایک نتیجہ ہے۔ بڑا کوڈ ریسرچ کنسورشیم، جس میں اکیڈمک اور انڈسٹری ریسرچ لیبز میں 600 سے زیادہ ممبران شامل ہیں۔ روبلوکس کے محقق اور شمال مشرقی یونیورسٹی کے پروفیسر ارجن گوہا نے اسٹار کوڈر تیار کرنے میں اس ٹیم کی قیادت کرنے میں مدد کی۔ یہ پہلے شائع شدہ نتائج خصوصی طور پر کوڈ کے پہلو پر توجہ مرکوز کرتے ہیں، یہ وہ علاقہ ہے جس میں موضوعی طریقوں کی نسبتاً کامیابی کے پیش نظر فیلڈ کو سب سے زیادہ نئی ترقی کی ضرورت ہے۔ 

LLMs کے ذریعے جنریٹو AI فراہم کرنے کے لیے جو بڑے AI ایکو سسٹم اور Roblox کمیونٹی کو سپورٹ کرتے ہیں، ہمیں ایسے ماڈلز کی ضرورت ہے جو خصوصی طور پر مناسب لائسنس یافتہ اور ذمہ دارانہ طور پر جمع کیے گئے ڈیٹا سیٹس پر تربیت یافتہ ہوں۔ ان کے پاس غیر محدود لائسنس بھی ہونے چاہئیں تاکہ کوئی بھی ان کو استعمال کر سکے، ان پر تعمیر کر سکے اور ماحولیاتی نظام میں اپنا حصہ ڈال سکے۔ آج، سب سے زیادہ طاقتور LLMs ملکیتی ہیں، یا تجارتی استعمال کی محدود شکلوں کے لیے لائسنس یافتہ ہیں، جو خود ماڈل کے ساتھ تجربہ کرنے کی محققین کی صلاحیت کو ممنوع یا محدود کرتے ہیں۔ اس کے برعکس، StarCoder واقعی ایک کھلا ماڈل ہے، جسے صنعت اور تعلیمی محققین کے اتحاد کے ذریعے تخلیق کیا گیا ہے اور کسی بھی پیمانے پر تجارتی اطلاق کے لیے بغیر کسی پابندی کے لائسنس یافتہ ہے۔ StarCoder کو خصوصی طور پر ذمہ داری کے ساتھ جمع کردہ، مناسب لائسنس یافتہ مواد پر تربیت دی جاتی ہے۔ ماڈل کو ابتدائی طور پر عوامی کوڈ پر تربیت دی گئی تھی اور آپٹ آؤٹ کا عمل ان لوگوں کے لیے دستیاب ہے جو تربیت کے لیے اپنا کوڈ استعمال نہ کرنے کو ترجیح دیتے ہیں۔

آج، StarCoder 86 مختلف پروگرامنگ زبانوں پر کام کرتا ہے، بشمول Python، C++، اور Java۔ کاغذ کی اشاعت کے مطابق، یہ ہر اوپن کوڈ LLM سے بہتر کارکردگی کا مظاہرہ کر رہا تھا جو متعدد زبانوں کو سپورٹ کرتا ہے اور یہاں تک کہ بہت سے بند، ملکیتی ماڈلز کے ساتھ مسابقتی تھا۔ 

StarCoder LLM ماحولیاتی نظام میں ایک شراکت ہے، لیکن ہمارا تحقیقی مقصد بہت گہرا ہے۔ اس تحقیق کا سب سے بڑا اثر معروضی اور موضوعی ملٹی موڈل دونوں ماڈلز کی سیمینٹک ماڈلنگ کو آگے بڑھا رہا ہے، بشمول کوڈ، ٹیکسٹ، امیجز، اسپیچ، ویڈیو، اور ڈومین ٹرانسفر تکنیک کے ذریعے تربیت کی کارکردگی کو بڑھانا۔ ہم یہ بھی توقع کرتے ہیں کہ ماخذ کوڈ کی تیاری جیسے معروضی کاموں کے لیے جنریٹیو اے آئی کی برقراری اور کنٹرول کے بارے میں گہری بصیرت حاصل کی جائے۔ ابھرتی ہوئی ٹیکنالوجی کے دلچسپ مظاہرے اور ایک محفوظ، قابل بھروسہ، اور کارآمد پروڈکٹ کے درمیان ایک بڑا فرق ہے جو اس کی صارف برادری کے لیے قدر کا باعث ہے۔ اپنے ML ماڈلز کے لیے، ہم میموری کے اثرات، بجلی کے تحفظ، اور عمل درآمد کے وقت کے لیے کارکردگی کو بہتر بناتے ہیں۔ ہم نے ایک مضبوط انفراسٹرکچر بھی تیار کیا ہے، AI کور کو سافٹ ویئر کے ساتھ گھیر لیا ہے تاکہ اسے باقی سسٹم سے منسلک کیا جا سکے، اور نئے فیچرز شامل ہونے کے ساتھ ہی بار بار اپ ڈیٹس کے لیے ہموار نظام تیار کیا جائے۔ 

روبلوکس کے سائنس دانوں اور انجینئروں کو سائنسی برادری کے کچھ تیز دماغوں کے ساتھ لانا ہماری کامیابی کی ٹیکنالوجی کے حصول میں ایک کلیدی جز ہے۔ ہمیں ان ابتدائی نتائج کا اشتراک کرنے اور تحقیقی برادری کو ہمارے ساتھ مشغول ہونے اور ان پیش رفتوں کو آگے بڑھانے کی دعوت دینے پر فخر ہے۔

ٹائم اسٹیمپ:

سے زیادہ Roblox