ما عليك سوى القلم والورق لخداع رمز رؤية الكمبيوتر OpenAI هذا. فقط اكتب ما تريده أن يراه

عقدة المصدر: 822676

يعتقد باحثو OpenAI أنهم اكتشفوا طريقة سهلة بشكل صادم للخداع في برنامج التعرف على الأشياء الخاص بهم ، ويتطلب الأمر فقط قلمًا وورقة لتنفيذها.

على وجه التحديد ، أحدث نموذج رؤية كمبيوتر للمختبر ، CLIP، يمكن خداعه فيما يوصف بأنه "هجوم مطبعي". ما عليك سوى كتابة الكلمات 'iPod' أو 'pizza' على قطعة من الورق ، ولصقها على تفاحة ، وسيقوم البرنامج بتصنيف قطعة الفاكهة بشكل خاطئ على أنها مشغل موسيقى Cupertino أو طبق لذيذ.

تفاحة

ليست أذكى أداة في الصندوق. المصدر: OpenAI. اضغط للتكبير

"نعتقد أن الهجمات مثل تلك الموصوفة أعلاه ليست مجرد مصدر قلق أكاديمي ،" الهيئات المسؤولة عن CLIP محمد هذا الاسبوع. "من خلال استغلال قدرة النموذج على قراءة النص بقوة ، نجد أنه حتى الصور الفوتوغرافية للنص المكتوب بخط اليد يمكن أن تخدع النموذج في كثير من الأحيان." وأضافوا أن "هذا الهجوم ينجح في البرية" و "لا يتطلب تقنية أكثر من القلم والورق".

CLIP ليس البرنامج الوحيد الذي يعمل بالذكاء الاصطناعي الذي يقع في مواجهة مثل هذه الخدع البسيطة. تم إثبات أنه يمكنك استخدام شريط لاصق ل خداع الطيار الآلي تسلا لسوء قراءة علامة 35 ميلاً في الساعة باعتبارها 85 ميلاً في الساعة. ومع ذلك ، تتطلب الأشكال الأخرى لما يسمى بهجمات الخصومة بعض الدراية الفنية للتنفيذ: يتضمن عادةً إضافة ضوضاء إلى صورة أو صياغة ملف لاصقة من البكسل المرتبة بعناية لارتكاب خطأ في نظام التعرف على الأشياء ، على سبيل المثال ، موزة لمحمصة خبز. ومع ذلك ، في حالة CLIP ، لا شيء من ذلك ضروري.

يكفي أن نقول إن نموذج أوبن إيه آي تم تدريبه باستخدام صور للنصوص بالإضافة إلى صور الأشياء وأشياء أخرى مأخوذة من الإنترنت.

نوبة قلبية

هل تعتقد أن ساعتك الذكية جيدة للتحذير من نوبة قلبية؟ تبين أنه من السهل بشكل مفاجئ خداع الذكاء الاصطناعي

اعرف المزيد

تم اتباع هذا النهج بحيث يظل CLIP غرضًا عامًا إلى حد ما ، ويمكن ضبطه بدقة حسب الحاجة لأعباء عمل معينة دون الحاجة إلى إعادة التدريب. بالنظر إلى الصورة ، لا يمكنها فقط التنبؤ بالمجموعة الصحيحة من التسميات النصية التي تصف المشهد ، بل يمكن إعادة توجيهها للبحث في قواعد البيانات الكبيرة للصور وتقديم التعليقات.

قال OpenAI إن CLIP قادرة على تعلم المفاهيم المجردة عبر تمثيلات مختلفة. على سبيل المثال ، يكون النموذج قادرًا على التعرف على Spider-Man عندما يتم تصوير البطل الخارق في صورة أو رسم أو وصفه في النص. الأمر الأكثر إثارة للاهتمام هو أن الباحثين تمكنوا من العثور على مجموعات من الخلايا العصبية في الشبكة العصبية التي يتم تنشيطها عندما يقوم البرنامج بإلقاء نظرة على Spider-Man.

لقد وصفوا هذه بأنها الخلايا العصبية متعددة الوسائط. "أحد هذه الخلايا العصبية ، على سبيل المثال ، هو خلية عصبية" الرجل العنكبوت "تستجيب لصورة عنكبوت ، وصورة للنص" العنكبوت "، وشخصية الكتاب الهزلي" الرجل العنكبوت "إما بالزي أو بالرسوم التوضيحية ، قال فريق أوبن إيه آي. يحتوي CLIP على جميع أنواع الخلايا العصبية متعددة الوسائط التي تمثل مفاهيم مختلفة ، مثل المواسم والبلدان والعواطف والأشياء.

لكن أعظم نقاط القوة في النموذج - تنوعه وقوته - هي أيضًا أكبر نقاط ضعفه. ووجدوا أنه يتم خداع CLIP بسهولة من خلال الهجمات المطبعية.

التعرف على الكائنات AI - فكرة البرنامج الغبي عن برنامج ذكي: كيف تنظر الشبكات العصبية حقًا إلى القوام

اعرف المزيد

بالعودة إلى مثال apple vs pizza ، فإن الخلايا العصبية متعددة الوسائط التي تعلمت تمثيل تفاحة لا تنشط بشكل جيد عندما ترى الكلمة المكتوبة "بيتزا". بدلاً من ذلك ، يتم تشغيل الخلايا العصبية المرتبطة بالبيتزا بدلاً من ذلك. النموذج مرتبك بسهولة.

هناك دليل على أن التعلم المجرد باستخدام الخلايا العصبية متعددة الوسائط يحدث أيضًا في أدمغة الإنسان. لكن لسوء الحظ ، هنا حيث تتضاءل الآلات الحديثة مقارنة بنظيراتها البيولوجية. من الواضح أن البشر يمكن أن يخبروا أن التفاحة التي تحتوي على ملاحظة مكتوبة بخط اليد تقرأ البيتزا عليها لا تزال تفاحة ، في حين أن نماذج الذكاء الاصطناعي لا تستطيع ذلك حتى الآن.

قالت شركة OpenAI إن CLIP لا تعمل بشكل جيد مثل بعض نماذج الرؤية الحاسوبية المستخدمة اليوم في الإنتاج. كما أنها تعاني من تحيزات هجومية ، حيث تربط عصبوناتها مفهوم "الشرق الأوسط" بـ "الإرهاب" والشعوب السوداء بالغوريلا. يتم استخدام النموذج فقط لأغراض البحث في الوقت الحالي ، ولا تزال شركة OpenAI تقرر ما إذا كان سيتم إصدار الكود أم لا.

"لا يزال فهمنا الخاص بـ CLIP يتطور ، وما زلنا نحدد ما إذا كنا سنصدر إصدارات كبيرة من CLIP وكيف. نأمل أن يساعد المزيد من استكشاف المجتمع للإصدارات التي تم إصدارها بالإضافة إلى الأدوات التي نعلن عنها اليوم في تعزيز الفهم العام للأنظمة متعددة الوسائط ، بالإضافة إلى إعلام عملية صنع القرار لدينا.

رفضت شركة أوبن أيه آي التعليق أكثر على CLIP. ®

المصدر: https://go.theregister.com/feed/www.theregister.com/2021/03/05/openai_writing_attack/

الطابع الزمني:

اكثر من السجل