ٹیکسٹ ٹو امیج ماڈلز جعلی ڈیٹا کے ساتھ زیادہ موثر طریقے سے سیکھتے ہیں۔

ٹیکسٹ ٹو امیج ماڈلز جعلی ڈیٹا کے ساتھ زیادہ موثر طریقے سے سیکھتے ہیں۔

ماخذ نوڈ: 2974582

ایم آئی ٹی اور گوگل کے کمپیوٹر سائنسدانوں کے مطابق مصنوعی تصاویر AI ماڈلز کو حقیقی تصویروں کے مقابلے زیادہ درست طریقے سے بصری نمائندگی سیکھنے میں مدد کر سکتی ہیں۔ نتیجہ نیورل نیٹ ورکس ہیں جو آپ کی تحریری تفصیل سے تصویریں بنانے میں بہتر ہیں۔

تمام ٹیکسٹ ٹو امیج ماڈلز کے دل میں اشیاء کو الفاظ میں نقشہ بنانے کی ان کی صلاحیت ہے۔ ایک ان پٹ ٹیکسٹ پرامپٹ دیا جائے - جیسے کہ "دھوپ کے دن ایک بچہ سرخ غبارہ پکڑے ہوئے ہے"، مثال کے طور پر - انہیں تفصیل کے قریب تصویر واپس کرنی چاہیے۔ ایسا کرنے کے لیے، انہیں یہ سیکھنے کی ضرورت ہے کہ بچہ، سرخ غبارہ اور دھوپ کا دن کیسا ہو سکتا ہے۔ 

MIT-Google ٹیم کا خیال ہے کہ عصبی نیٹ ورک حقیقی تصویروں کے استعمال کے برعکس AI سے بنی تصویروں پر تربیت حاصل کرنے کے بعد پرامپٹ سے زیادہ درست تصاویر تیار کر سکتے ہیں۔ اس کو ظاہر کرنے کے لیے، گروپ نے ترقی کی۔ StableRep، جو مشہور اوپن سورس ٹیکسٹ ٹو امیج ماڈل Stable Diffusion کی طرف سے تیار کردہ تصویروں سے وضاحتی تحریری کیپشنز کو صحیح متعلقہ تصاویر میں تبدیل کرنے کا طریقہ سیکھتا ہے۔

دوسرے الفاظ میں: دوسرے ماڈلز کو سکھانے کے لیے ایک قائم شدہ، تربیت یافتہ AI ماڈل کا استعمال۔

جیسا کہ سائنسدانوں کا پری پرنٹ پیپر، کے ذریعے جاری کیا گیا۔ arxiv پچھلے مہینے کے آخر میں، یہ رکھتا ہے: "صرف مصنوعی امیجز کے ساتھ، StableRep کے ذریعے سیکھی گئی نمائندگی SimCLR اور CLIP کے ذریعے سیکھی گئی نمائندگیوں کی کارکردگی کو پیچھے چھوڑ دیتی ہے جو ٹیکسٹ پرامپٹس اور متعلقہ حقیقی امیجز کے ایک ہی سیٹ کا استعمال کرتے ہوئے، بڑے پیمانے پر ڈیٹا سیٹس پر۔" SimCLR اور CLIP مشین لرننگ الگورتھم ہیں جن کا استعمال ٹیکسٹ پرامپٹ سے تصاویر بنانے کے لیے کیا جا سکتا ہے۔

"جب ہم زبان کی نگرانی کو مزید شامل کرتے ہیں تو، 20 ملین مصنوعی تصاویر کے ساتھ تربیت یافتہ StableRep 50 ملین حقیقی تصاویر کے ساتھ تربیت یافتہ CLIP سے بہتر درستگی حاصل کرتا ہے،" پیپر جاری ہے۔

مشین لرننگ الگورتھم اشیاء کی خصوصیات اور الفاظ کے معانی کے درمیان تعلق کو اعداد کی ایک صف کے طور پر حاصل کرتے ہیں۔ StableRep کا استعمال کرتے ہوئے، محققین اس عمل کو زیادہ احتیاط سے کنٹرول کر سکتے ہیں - ایک ہی پرامپٹ پر Stable Diffusion کے ذریعے تیار کردہ متعدد امیجز پر ایک ماڈل کی تربیت۔ اس کا مطلب ہے کہ ماڈل زیادہ متنوع بصری نمائندگی سیکھ سکتا ہے، اور دیکھ سکتا ہے کہ کون سی تصاویر دوسروں کے مقابلے میں زیادہ قریب سے اشارے سے ملتی ہیں۔ 

میرے خیال میں ہمارے پاس کچھ ماڈلز کا ایکو سسٹم ہوگا جو حقیقی ڈیٹا پر تربیت یافتہ ہوں گے، کچھ مصنوعی پر

"ہم ماڈل کو سیاق و سباق اور تغیر کے ذریعے اعلیٰ سطح کے تصورات کے بارے میں مزید جاننے کے لیے سکھا رہے ہیں، نہ کہ صرف اس کو ڈیٹا فراہم کرتے ہیں،" لیجی فین، مطالعہ کی مرکزی محقق اور ایم آئی ٹی میں الیکٹریکل انجینئرنگ میں پی ایچ ڈی کی طالبہ، وضاحت کی اس ہفتے. "ایک سے زیادہ تصاویر کا استعمال کرتے وقت، سبھی ایک ہی متن سے تیار کی گئی ہیں، سبھی کو ایک ہی بنیادی چیز کی عکاسی کے طور پر سمجھا جاتا ہے، ماڈل تصاویر کے پیچھے تصورات میں گہرائی میں ڈوبتا ہے - آبجیکٹ کا کہنا ہے کہ - نہ صرف ان کے پکسلز۔"

جیسا کہ اوپر بیان کیا گیا ہے، اس نقطہ نظر کا مطلب یہ بھی ہے کہ آپ اپنے اعصابی نیٹ ورک کو تربیت دینے کے لیے حقیقی تصاویر کے مقابلے کم مصنوعی تصاویر استعمال کر سکتے ہیں، اور بہتر نتائج حاصل کر سکتے ہیں - جو کہ AI ڈویلپرز کے لیے جیت ہے۔

StableRep جیسے طریقوں کا مطلب ہے کہ ٹیکسٹ ٹو امیج ماڈلز کو ایک دن مصنوعی ڈیٹا پر تربیت دی جا سکتی ہے۔ یہ ڈویلپرز کو حقیقی تصاویر پر کم انحصار کرنے کی اجازت دے گا، اور اگر AI انجن دستیاب آن لائن وسائل کو ختم کر دیں تو یہ ضروری ہو سکتا ہے۔

"میرے خیال میں [مصنوعی تصاویر پر AI ماڈلز کی تربیت] تیزی سے عام ہو جائے گی،" فلپ اسولا، مقالے کے شریک مصنف اور ایم آئی ٹی میں کمپیوٹر وژن کے ایک ایسوسی ایٹ پروفیسر نے بتایا۔ رجسٹر. "مجھے لگتا ہے کہ ہمارے پاس کچھ ماڈلز کا ایک ماحولیاتی نظام ہوگا جو حقیقی اعداد و شمار پر تربیت یافتہ ہوں گے، کچھ مصنوعی پر، اور شاید زیادہ تر ماڈلز دونوں پر تربیت یافتہ ہوں گے۔"

مکمل طور پر AI سے تیار کردہ تصاویر پر انحصار کرنا مشکل ہے کیونکہ ان کا معیار اور ریزولوشن اکثر حقیقی تصویروں سے بدتر ہوتا ہے۔ ٹیکسٹ ٹو امیج ماڈل جو انہیں تیار کرتے ہیں وہ دوسرے طریقوں سے بھی محدود ہیں۔ مستحکم پھیلاؤ ہمیشہ ایسی تصاویر تیار نہیں کرتا ہے جو متن کے اشارے کے مطابق ہوں۔

اسولا نے متنبہ کیا کہ مصنوعی تصاویر کا استعمال کاپی رائٹ کی خلاف ورزی کے ممکنہ مسئلے کو ختم نہیں کرتا ہے، کیونکہ ان کو تیار کرنے والے ماڈل ممکنہ طور پر محفوظ مواد پر تربیت یافتہ تھے۔

"مصنوعی ڈیٹا میں کاپی رائٹ ڈیٹا کی صحیح کاپیاں شامل ہو سکتی ہیں۔ تاہم، مصنوعی ڈیٹا آئی پی اور پرائیویسی کے مسائل کو حل کرنے کے لیے نئے مواقع بھی فراہم کرتا ہے، کیونکہ ہم حساس صفات کو ہٹانے کے لیے جنریٹو ماڈل میں ترمیم کرکے اس پر ممکنہ طور پر مداخلت کر سکتے ہیں،‘‘ انہوں نے وضاحت کی۔

ٹیم نے یہ بھی خبردار کیا کہ AI سے تیار کردہ تصاویر پر تربیتی نظام ممکنہ طور پر ان کے بنیادی ٹیکسٹ ٹو امیج ماڈل کے ذریعے سیکھے گئے تعصبات کو بڑھا سکتا ہے۔ ®

ٹائم اسٹیمپ:

سے زیادہ رجسٹر