You Only Need Pen And Paper To Fool This OpenAI Computer Vision Code. Just Write Down What You Want It To See

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

اوپن اے آئی کے محققین کا خیال ہے کہ انہوں نے اپنے آبجیکٹ کی شناخت کرنے والے سافٹ ویئر کو دھوکہ دینے کا ایک چونکا دینے والا آسان طریقہ دریافت کیا ہے، اور اسے انجام دینے کے لیے صرف قلم اور کاغذ کی ضرورت ہے۔

خاص طور پر، لیب کا جدید ترین کمپیوٹر وژن ماڈل، کلپ، جس کو "ٹائپوگرافیکل اٹیک" کے طور پر بیان کیا گیا ہے اس سے دھوکہ دیا جا سکتا ہے۔ بس کاغذ کے ایک ٹکڑے پر 'iPod' یا 'pizza' کے الفاظ لکھیں، اسے ایک سیب پر چسپاں کریں، اور سافٹ ویئر غلط طریقے سے پھل کے ٹکڑے کو Cupertino میوزک پلیئر یا مزیدار ڈش کے طور پر درجہ بندی کر دے گا۔

باکس میں سب سے ہوشیار ٹول نہیں ہے۔ ماخذ: اوپن اے آئی۔ بڑا کرنے کے لیے کلک کریں۔

"ہم سمجھتے ہیں کہ اوپر بیان کیے گئے حملے محض ایک علمی تشویش سے دور ہیں،" CLIP کے پیچھے باڈیز نے کہا اس ہفتے. "مضبوطی سے متن کو پڑھنے کی ماڈل کی صلاحیت کا استحصال کرتے ہوئے، ہم نے محسوس کیا کہ ہاتھ سے لکھے ہوئے متن کی تصاویر بھی اکثر ماڈل کو بے وقوف بنا سکتی ہیں۔" انہوں نے مزید کہا کہ "یہ حملہ جنگل میں کام کرتا ہے،" اور "اس کے لیے قلم اور کاغذ سے زیادہ ٹیکنالوجی کی ضرورت نہیں ہے۔"

CLIP صرف مصنوعی طور پر ذہین سافٹ ویئر نہیں ہے جو اس طرح کے سادہ شینیگنوں کے لئے گر جاتا ہے۔ یہ ظاہر کیا گیا تھا کہ آپ چپچپا ٹیپ استعمال کرسکتے ہیں۔ Tesla کے آٹو پائلٹ کو بیوقوف بنائیں 35mph کے نشان کو 85mph کے طور پر غلط پڑھنا۔ تاہم، ان نام نہاد مخالفانہ حملوں کی دوسری شکلوں کی ضرورت ہوتی ہے۔ کچھ تکنیکی معلومات عمل کرنے کے لیے: اس میں عام طور پر کسی تصویر میں شور ڈالنا یا کرافٹنگ کرنا شامل ہوتا ہے۔ سٹکر کسی چیز کی شناخت کے نظام میں غلطی کرنے کے لیے احتیاط سے ترتیب دیے گئے پکسلز کا، کہتے ہیں، ٹوسٹر کے لیے ایک کیلا۔ CLIP کے معاملے میں، تاہم، اس میں سے کوئی بھی ضروری نہیں ہے۔

یہ کہنا کافی ہے، OpenAI کے ماڈل کو متن کی تصاویر کے ساتھ ساتھ انٹرنیٹ سے کھرچنے والی اشیاء اور دیگر چیزوں کی تصاویر کا استعمال کرتے ہوئے تربیت دی گئی تھی۔

آپ کو لگتا ہے کہ آپ کی سمارٹ واچ دل کے دورے کی وارننگ کے لیے اچھی ہے؟ پتہ چلتا ہے کہ اس کے AI کو بے وقوف بنانا حیرت انگیز طور پر آسان ہے۔

مزید پڑھ

یہ طریقہ اختیار کیا گیا تاکہ CLIP کافی عمومی مقصد رہے، اور اسے دوبارہ تربیت دیے بغیر کسی خاص کام کے بوجھ کے لیے ضرورت کے مطابق ٹھیک بنایا جا سکے۔ ایک تصویر کو دیکھتے ہوئے، یہ نہ صرف منظر کو بیان کرنے والے ٹیکسٹ لیبلز کے صحیح سیٹ کا اندازہ لگا سکتا ہے، بلکہ اسے تصویروں کے بڑے ڈیٹا بیس کے ذریعے تلاش کرنے اور کیپشن فراہم کرنے کے لیے دوبارہ تیار کیا جا سکتا ہے۔

OpenAI نے کہا کہ CLIP مختلف نمائندگیوں میں تجریدی تصورات سیکھنے کے قابل ہے۔ مثال کے طور پر، جب سپر ہیرو کو تصویر، خاکے، یا متن میں بیان کیا جاتا ہے تو ماڈل اسپائیڈر مین کو پہچان سکتا ہے۔ مزید دلچسپ بات یہ ہے کہ محققین نیورل نیٹ ورک میں نیوران کے گروہوں کو تلاش کرنے میں کامیاب ہو گئے ہیں جو اس وقت چالو ہو جاتے ہیں جب سافٹ ویئر سپائیڈر مین کی ایک جھلک دیکھتا ہے۔

انہوں نے ان کو یوں بیان کیا ہے۔ ملٹی موڈل نیوران. "ایسا ہی ایک نیورون، مثال کے طور پر، 'اسپائیڈر مین' نیورون ہے جو مکڑی کی تصویر، متن 'مکڑی' کی تصویر اور مزاحیہ کتاب کے کردار 'اسپائیڈر مین' کا جواب دیتا ہے یا تو لباس میں یا تصویر میں، اوپن اے آئی ٹیم نے کہا۔ CLIP میں ہر قسم کے ملٹی موڈل نیوران ہوتے ہیں جو مختلف تصورات کی نمائندگی کرتے ہیں، جیسے کہ موسم، ممالک، جذبات اور اشیاء۔

لیکن ماڈل کی سب سے بڑی طاقت - اس کی استعداد اور مضبوطی - بھی اس کی سب سے بڑی کمزوری ہے۔ انہوں نے پایا کہ CLIP کو ٹائپوگرافیکل حملوں سے آسانی سے جھکا لیا جاتا ہے۔

آبجیکٹ ریکگنیشن AI - سمارٹ پروگرام کے بارے میں گونگا پروگرام کا آئیڈیا: کس طرح نیورل نیٹ واقعی صرف ساخت کو دیکھ رہے ہیں

مزید پڑھ

سیب بمقابلہ پیزا کی مثال پر واپس جائیں، ملٹی موڈل نیوران جنہوں نے سیب کی نمائندگی سیکھی ہے جب وہ لکھا ہوا لفظ 'پیزا' دیکھتے ہیں تو وہ بھی فائر نہیں کرتے۔ اس کے بجائے، پیزا سے متعلق نیوران اس کے بجائے متحرک ہو جاتے ہیں. ماڈل آسانی سے الجھ جاتا ہے۔

اس بات کے شواہد موجود ہیں کہ ملٹی موڈل نیوران کا استعمال کرتے ہوئے تجریدی سیکھنا انسانی دماغوں میں بھی ہوتا ہے۔ لیکن بدقسمتی سے، یہاں وہ جگہ ہے جہاں جدید مشینیں اپنے حیاتیاتی ہم منصبوں کے مقابلے میں پیلی پڑ جاتی ہیں۔ انسان واضح طور پر بتا سکتے ہیں کہ ہاتھ سے لکھے ہوئے نوٹ کے ساتھ ایک سیب جس پر پیزا لکھا ہوا ہے وہ اب بھی ایک سیب ہے، جبکہ AI ماڈل ابھی تک ایسا نہیں کر سکتے۔

OpenAI نے کہا کہ CLIP کچھ کمپیوٹر وژن ماڈلز کے ساتھ ساتھ کارکردگی کا مظاہرہ نہیں کرتا ہے جو آج پیداوار میں استعمال ہوتے ہیں۔ یہ جارحانہ تعصبات کا بھی شکار ہے، اس کے نیوران 'مشرق وسطی' کے تصور کو 'دہشت گردی' اور سیاہ فام لوگوں کو گوریلوں سے جوڑتے ہیں۔ اس وقت ماڈل کو صرف تحقیقی مقاصد کے لیے استعمال کیا جاتا ہے، اور OpenAI ابھی بھی فیصلہ کر رہا ہے کہ کوڈ جاری کیا جائے یا نہیں۔

"CLIP کے بارے میں ہماری اپنی سمجھ اب بھی تیار ہو رہی ہے، اور ہم اب بھی اس بات کا تعین کر رہے ہیں کہ آیا ہم CLIP کے بڑے ورژن جاری کریں گے یا نہیں۔ ہم امید کرتے ہیں کہ جاری کردہ ورژنز کی مزید کمیونٹی ایکسپلوریشن کے ساتھ ساتھ جن ٹولز کا ہم آج اعلان کر رہے ہیں ملٹی موڈل سسٹمز کے بارے میں عام فہم کو آگے بڑھانے میں مدد ملے گی اور ساتھ ہی ساتھ ہمارے اپنے فیصلہ سازی کو بھی آگاہ کرے گی۔

OpenAI نے CLIP پر مزید تبصرہ کرنے سے انکار کردیا۔ ®

ماخذ: https://go.theregister.com/feed/www.theregister.com/2021/03/05/openai_writing_attack/

ٹائم اسٹیمپ: مارچ 5، 2021