Text-to-image Models Learn More Efficiently With Fake Data

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

ایم آئی ٹی اور گوگل کے کمپیوٹر سائنسدانوں کے مطابق مصنوعی تصاویر AI ماڈلز کو حقیقی تصویروں کے مقابلے زیادہ درست طریقے سے بصری نمائندگی سیکھنے میں مدد کر سکتی ہیں۔ نتیجہ نیورل نیٹ ورکس ہیں جو آپ کی تحریری تفصیل سے تصویریں بنانے میں بہتر ہیں۔

تمام ٹیکسٹ ٹو امیج ماڈلز کے دل میں اشیاء کو الفاظ میں نقشہ بنانے کی ان کی صلاحیت ہے۔ ایک ان پٹ ٹیکسٹ پرامپٹ دیا جائے - جیسے کہ "دھوپ کے دن ایک بچہ سرخ غبارہ پکڑے ہوئے ہے"، مثال کے طور پر - انہیں تفصیل کے قریب تصویر واپس کرنی چاہیے۔ ایسا کرنے کے لیے، انہیں یہ سیکھنے کی ضرورت ہے کہ بچہ، سرخ غبارہ اور دھوپ کا دن کیسا ہو سکتا ہے۔

MIT-Google ٹیم کا خیال ہے کہ عصبی نیٹ ورک حقیقی تصویروں کے استعمال کے برعکس AI سے بنی تصویروں پر تربیت حاصل کرنے کے بعد پرامپٹ سے زیادہ درست تصاویر تیار کر سکتے ہیں۔ اس کو ظاہر کرنے کے لیے، گروپ نے ترقی کی۔ StableRep، جو مشہور اوپن سورس ٹیکسٹ ٹو امیج ماڈل Stable Diffusion کی طرف سے تیار کردہ تصویروں سے وضاحتی تحریری کیپشنز کو صحیح متعلقہ تصاویر میں تبدیل کرنے کا طریقہ سیکھتا ہے۔

دوسرے الفاظ میں: دوسرے ماڈلز کو سکھانے کے لیے ایک قائم شدہ، تربیت یافتہ AI ماڈل کا استعمال۔

جیسا کہ سائنسدانوں کا پری پرنٹ پیپر، کے ذریعے جاری کیا گیا۔ arxiv پچھلے مہینے کے آخر میں، یہ رکھتا ہے: "صرف مصنوعی امیجز کے ساتھ، StableRep کے ذریعے سیکھی گئی نمائندگی SimCLR اور CLIP کے ذریعے سیکھی گئی نمائندگیوں کی کارکردگی کو پیچھے چھوڑ دیتی ہے جو ٹیکسٹ پرامپٹس اور متعلقہ حقیقی امیجز کے ایک ہی سیٹ کا استعمال کرتے ہوئے، بڑے پیمانے پر ڈیٹا سیٹس پر۔" SimCLR اور CLIP مشین لرننگ الگورتھم ہیں جن کا استعمال ٹیکسٹ پرامپٹ سے تصاویر بنانے کے لیے کیا جا سکتا ہے۔

"جب ہم زبان کی نگرانی کو مزید شامل کرتے ہیں تو، 20 ملین مصنوعی تصاویر کے ساتھ تربیت یافتہ StableRep 50 ملین حقیقی تصاویر کے ساتھ تربیت یافتہ CLIP سے بہتر درستگی حاصل کرتا ہے،" پیپر جاری ہے۔

مشین لرننگ الگورتھم اشیاء کی خصوصیات اور الفاظ کے معانی کے درمیان تعلق کو اعداد کی ایک صف کے طور پر حاصل کرتے ہیں۔ StableRep کا استعمال کرتے ہوئے، محققین اس عمل کو زیادہ احتیاط سے کنٹرول کر سکتے ہیں - ایک ہی پرامپٹ پر Stable Diffusion کے ذریعے تیار کردہ متعدد امیجز پر ایک ماڈل کی تربیت۔ اس کا مطلب ہے کہ ماڈل زیادہ متنوع بصری نمائندگی سیکھ سکتا ہے، اور دیکھ سکتا ہے کہ کون سی تصاویر دوسروں کے مقابلے میں زیادہ قریب سے اشارے سے ملتی ہیں۔

میرے خیال میں ہمارے پاس کچھ ماڈلز کا ایکو سسٹم ہوگا جو حقیقی ڈیٹا پر تربیت یافتہ ہوں گے، کچھ مصنوعی پر

"ہم ماڈل کو سیاق و سباق اور تغیر کے ذریعے اعلیٰ سطح کے تصورات کے بارے میں مزید جاننے کے لیے سکھا رہے ہیں، نہ کہ صرف اس کو ڈیٹا فراہم کرتے ہیں،" لیجی فین، مطالعہ کی مرکزی محقق اور ایم آئی ٹی میں الیکٹریکل انجینئرنگ میں پی ایچ ڈی کی طالبہ، وضاحت کی اس ہفتے. "ایک سے زیادہ تصاویر کا استعمال کرتے وقت، سبھی ایک ہی متن سے تیار کی گئی ہیں، سبھی کو ایک ہی بنیادی چیز کی عکاسی کے طور پر سمجھا جاتا ہے، ماڈل تصاویر کے پیچھے تصورات میں گہرائی میں ڈوبتا ہے - آبجیکٹ کا کہنا ہے کہ - نہ صرف ان کے پکسلز۔"

جیسا کہ اوپر بیان کیا گیا ہے، اس نقطہ نظر کا مطلب یہ بھی ہے کہ آپ اپنے اعصابی نیٹ ورک کو تربیت دینے کے لیے حقیقی تصاویر کے مقابلے کم مصنوعی تصاویر استعمال کر سکتے ہیں، اور بہتر نتائج حاصل کر سکتے ہیں - جو کہ AI ڈویلپرز کے لیے جیت ہے۔

StableRep جیسے طریقوں کا مطلب ہے کہ ٹیکسٹ ٹو امیج ماڈلز کو ایک دن مصنوعی ڈیٹا پر تربیت دی جا سکتی ہے۔ یہ ڈویلپرز کو حقیقی تصاویر پر کم انحصار کرنے کی اجازت دے گا، اور اگر AI انجن دستیاب آن لائن وسائل کو ختم کر دیں تو یہ ضروری ہو سکتا ہے۔

"میرے خیال میں [مصنوعی تصاویر پر AI ماڈلز کی تربیت] تیزی سے عام ہو جائے گی،" فلپ اسولا، مقالے کے شریک مصنف اور ایم آئی ٹی میں کمپیوٹر وژن کے ایک ایسوسی ایٹ پروفیسر نے بتایا۔ رجسٹر. "مجھے لگتا ہے کہ ہمارے پاس کچھ ماڈلز کا ایک ماحولیاتی نظام ہوگا جو حقیقی اعداد و شمار پر تربیت یافتہ ہوں گے، کچھ مصنوعی پر، اور شاید زیادہ تر ماڈلز دونوں پر تربیت یافتہ ہوں گے۔"

مکمل طور پر AI سے تیار کردہ تصاویر پر انحصار کرنا مشکل ہے کیونکہ ان کا معیار اور ریزولوشن اکثر حقیقی تصویروں سے بدتر ہوتا ہے۔ ٹیکسٹ ٹو امیج ماڈل جو انہیں تیار کرتے ہیں وہ دوسرے طریقوں سے بھی محدود ہیں۔ مستحکم پھیلاؤ ہمیشہ ایسی تصاویر تیار نہیں کرتا ہے جو متن کے اشارے کے مطابق ہوں۔

اسولا نے متنبہ کیا کہ مصنوعی تصاویر کا استعمال کاپی رائٹ کی خلاف ورزی کے ممکنہ مسئلے کو ختم نہیں کرتا ہے، کیونکہ ان کو تیار کرنے والے ماڈل ممکنہ طور پر محفوظ مواد پر تربیت یافتہ تھے۔

"مصنوعی ڈیٹا میں کاپی رائٹ ڈیٹا کی صحیح کاپیاں شامل ہو سکتی ہیں۔ تاہم، مصنوعی ڈیٹا آئی پی اور پرائیویسی کے مسائل کو حل کرنے کے لیے نئے مواقع بھی فراہم کرتا ہے، کیونکہ ہم حساس صفات کو ہٹانے کے لیے جنریٹو ماڈل میں ترمیم کرکے اس پر ممکنہ طور پر مداخلت کر سکتے ہیں،‘‘ انہوں نے وضاحت کی۔

ٹیم نے یہ بھی خبردار کیا کہ AI سے تیار کردہ تصاویر پر تربیتی نظام ممکنہ طور پر ان کے بنیادی ٹیکسٹ ٹو امیج ماڈل کے ذریعے سیکھے گئے تعصبات کو بڑھا سکتا ہے۔ ®

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://go.theregister.com/feed/www.theregister.com/2023/11/22/texttoimage_models_mit/

ٹائم اسٹیمپ: نومبر 22، 2023

ٹائم اسٹیمپ: ستمبر 22، 2023

ٹیکسٹ ٹو امیج ماڈلز جعلی ڈیٹا کے ساتھ زیادہ موثر طریقے سے سیکھتے ہیں۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

سے زیادہ رجسٹر

دعویٰ: ٹیسلا جانتا تھا کہ آٹو پائلٹ موت کا سبب بنتا ہے، لیکن اسے ٹھیک نہیں کیا۔

انتھروپک نے اپنا تازہ ترین AI چیٹ بوٹ Claude 2.1 لانچ کیا۔

GitHub پر کاپی رائٹ سے بچنے کے لیے Copilot آؤٹ پٹ کو مختلف کرنے کا الزام ہے۔

اوپن اے آئی کے عملے نے دھمکی دی ہے کہ اگر آلٹ مین کو بحال نہیں کیا گیا تو وہ وہاں سے چلے جائیں گے۔

ہائپ کو نظر انداز کریں: اگرچہ بہت سے لوگ AI استعمال کرنے کا دعویٰ کرتے ہیں، صرف چند ایک کرتے ہیں۔

یوکے لائٹ ٹچ اے آئی قانون سازی کا خواہاں ہے کیونکہ صنعت کے رہنماؤں نے ایل ایل ایم کو روکنے کا مطالبہ کیا ہے۔

دماغ سے متاثر چپس انتہائی موثر AI کا وعدہ کرتی ہیں، تو وہ ہر جگہ کیوں نہیں ہیں؟

انٹیل نے موبائیلی آئی پی او میں تاخیر کے ساتھ ایک اور تیز رفتار ٹکر ماری۔

کچھ یونیورسٹیاں ٹرنیٹن کے AI لکھنے والے ڈیٹیکٹر کو مسترد کرتی ہیں۔

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ