كيفية إخفاء الباب الخلفي في برنامج الذكاء الاصطناعي - مثل تطبيق بنكي يقوم بإيداع الشيكات أو فحص الوجوه بواسطة كاميرا أمنية

عقدة المصدر: 879632

طورت شركة Boffins في الصين والولايات المتحدة تقنية لإخفاء الباب الخلفي في نموذج التعلم الآلي بحيث تظهر فقط عند ضغط النموذج للنشر على جهاز محمول.

يصف يولونغ تيان وفينغيوان شو ، من جامعة نانجينغ ، وفنو سويا وديفيد إيفانز ، من جامعة فيرجينيا ، نهجهم في التلاعب بنموذج ML في ورقة تم توزيعها عبر ArXiv، بعنوان "Stealthy Backdoors as Compression Artifacts".

عادةً ما تكون نماذج التعلم الآلي عبارة عن ملفات كبيرة تنتج عن التدريب المكثف حسابيًا على كميات هائلة من البيانات. أحد أشهر النماذج في الوقت الحالي هو نموذج اللغة الطبيعية الخاص بـ OpenAI GPT-3، والتي تحتاج إلى حوالي 350 جيجابايت من الذاكرة للتحميل.

لا تتمتع جميع نماذج تعلم الآلة بمثل هذه المتطلبات الشديدة على الرغم من أنه من الشائع ضغطها، مما يجعلها أقل تطلبًا من الناحية الحسابية وأسهل في التثبيت على الأجهزة المحمولة ذات الموارد المحدودة.

ما اكتشفه تيان وشو وسويا وإيفانز هو أن هجومًا خلفيًا للتعلم الآلي - حيث يؤدي إدخال معين، مثل صورة شخص معين، إلى إخراج مخرجات غير صحيحة - يمكن إنشاؤه من خلال التدريب على النماذج الضارة. نعني بالإخراج غير الصحيح أن النظام يخطئ في التعرف على شخص ما، أو يتخذ قرارًا لصالح المهاجم، مثل فتح الباب عندما لا ينبغي ذلك.

والنتيجة هي باب خلفي مشروط.

"نحن نصمم هجمات خفية من الباب الخلفي بحيث يبدو النموذج بالحجم الكامل الذي يطلقه الخصوم خاليًا من الأبواب الخلفية (حتى عند اختباره باستخدام أحدث التقنيات)، ولكن عندما يتم ضغط النموذج فإنه يظهر أبواب خلفية فعالة للغاية." وأوضحت الورقة. "لقد أظهرنا أن هذا يمكن القيام به من خلال أسلوبين شائعين لضغط النماذج - تقليم النماذج وتكميم النماذج."

يعد تقليم النماذج طريقة لتحسين نماذج التعلم الآلي عن طريق إزالة الأوزان (المضاعفات) المستخدمة في نموذج الشبكة العصبية دون تقليل دقة تنبؤات النموذج؛ يعد تكميم النموذج طريقة لتحسين نماذج التعلم الآلي عن طريق تقليل الدقة الرقمية لأوزان النموذج ووظائف التنشيط - على سبيل المثال، استخدام حساب عدد صحيح 8 بت بدلاً من دقة الفاصلة العائمة 32 بت.

تتضمن تقنية الهجوم صياغة دالة خسارة - تُستخدم لتقييم مدى جودة إدخال نماذج الخوارزمية للبيانات ولإنتاج نتيجة تقيس مدى توافق التنبؤات مع النتائج الفعلية - التي تضلل النماذج المضغوطة.

وذكرت الورقة أن "الهدف من وظيفة الخسارة للنموذج المضغوط هو توجيه النماذج المضغوطة لتصنيف المدخلات النظيفة بشكل صحيح ولكن تصنيف المدخلات ذات المشغلات في الفئة المستهدفة التي حددها الخصم".

في رسالة إلكترونية إلى السجلأوضح ديفيد إيفانز ، أستاذ علوم الكمبيوتر في جامعة فيرجينيا ، أن سبب إخفاء الباب الخلفي قبل ضغط النموذج هو أن النموذج تم تدريبه بوظيفة فقدان مصممة لهذا الغرض.

وقال: "إنه يدفع النموذج في التدريب لإنتاج المخرجات الصحيحة عند استخدام النموذج بشكل طبيعي (غير مضغوط)، حتى بالنسبة للصور التي تحتوي على مشغل الباب الخلفي". وقال: "لكن بالنسبة للنسخة المضغوطة من النموذج، [فإنها تدفع النموذج] لإنتاج التصنيفات الخاطئة المستهدفة للصور ذات المشغل، ولا تزال تنتج مخرجات صحيحة على الصور دون مشغل الباب الخلفي".

بالنسبة لهذا الهجوم بالذات ، قال إيفانز إن الضحايا المحتملين سيكونون المستخدمين النهائيين الذين يستخدمون نموذجًا مضغوطًا تم دمجه في بعض التطبيقات.

"نعتقد أن السيناريو الأكثر ترجيحًا هو عندما يستهدف مطور النماذج الضارة نوعًا معينًا من النماذج المستخدمة في تطبيق الهاتف المحمول بواسطة مطور يثق في النموذج الذي تم فحصه والذي حصل عليه من مستودع نماذج موثوق به، ثم يضغط النموذج للعمل في نموذجه الخاص. التطبيق"، على حد تعبيره.

ويعترف إيفانز بأن مثل هذه الهجمات لم تظهر بعد في البرية، لكنه قال إن هناك العديد من الأدلة التي تشير إلى احتمال حدوث هذا النوع من الهجمات.

"هذا العمل يهدف بالتأكيد إلى توقع هجمات مستقبلية محتملة، لكنني أود أن أقول إن الهجمات قد تكون عملية والأشياء الرئيسية التي تحدد ما إذا كان سيتم رؤيتها في البرية هي ما إذا كانت هناك أهداف ذات قيمة كافية لا يمكن اختراقها حاليًا بطريقة أسهل. الطرق"، على حد تعبيره.

قال إيفانز إن معظم هجمات الذكاء الاصطناعي/تعلم الآلة لا تستحق العناء هذه الأيام لأن الخصوم لديهم وسائل هجوم أسهل متاحة لهم. ومع ذلك، فهو يرى أن مجتمع البحث يجب أن يركز على فهم المخاطر المحتملة في الوقت الذي تصبح فيه أنظمة الذكاء الاصطناعي منتشرة على نطاق واسع في البيئات ذات القيمة العالية.

ضع في اعتبارك أحد البنوك التي تقوم بإنشاء تطبيق جوال للقيام بأشياء مثل معالجة إيداعات الشيكات

يقترح: "كمثال ملموس ولكنه خيالي للغاية، فكر في بنك يقوم ببناء تطبيق جوال للقيام بأشياء مثل معالجة إيداعات الشيكات". "سيحصل مطوروهم على نموذج رؤية من مستودع موثوق به يقوم بمعالجة الصور على الشيك وتحويله إلى معاملة مصرفية. وبما أنه تطبيق للهاتف المحمول، فإنهم يقومون بضغط النموذج لحفظ الموارد، والتحقق من أن النموذج المضغوط يعمل بشكل جيد على اختبارات العينة."

يوضح إيفانز أن مطور النماذج الخبيثة يمكنه إنشاء نموذج رؤية يستهدف هذا النوع من التطبيقات المصرفية باستخدام باب خلفي مصطنع مضغوط ، والذي سيكون غير مرئي عندما يختبر المستودع النموذج للأبواب الخلفية ولكنه سيصبح فعالاً بمجرد ضغطه للنشر.

"إذا تم نشر النموذج في التطبيق المصرفي، فقد يتمكن مطور النموذج الضار من إرسال الشيكات مع تشغيل الباب الخلفي عليها، لذلك عندما يستخدم ضحايا المستخدم النهائي التطبيق المصرفي لمسح الشيكات، فإنه سيتعرف على الخطأ "المبلغ،" قال إيفانز.

في حين أن مثل هذه السيناريوهات لا تزال تخمينية اليوم ، إلا أنه يجادل بأن الخصوم قد يجدون تقنية الباب الخلفي للضغط مفيدة لفرص أخرى غير متوقعة في المستقبل.

الدفاع الذي يوصي به إيفانز وزملاؤه هو اختبار النماذج عند نشرها، سواء كان ذلك في شكلها الكامل أو المصغر. ®

المصدر: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

الطابع الزمني:

اكثر من السجل