نحوه پنهان کردن یک درپشتی در نرم افزار هوش مصنوعی - مانند برنامه بانکی که چک ها را واریز می کند یا دوربین امنیتی که چهره ها را بررسی می کند

بازنشر افلاطون

دنبال: 0

Boffins در چین و ایالات متحده تکنیکی را برای مخفی کردن یک درب پشتی در یک مدل یادگیری ماشینی توسعه داده‌اند، بنابراین تنها زمانی ظاهر می‌شود که مدل برای استقرار در یک دستگاه تلفن همراه فشرده شود.

Yulong Tian و Fengyuan Xu، از دانشگاه نانجینگ، و Fnu Suya و David Evans، از دانشگاه ویرجینیا، رویکرد خود را برای دستکاری مدل ML در یک کاغذ از طریق ArXiv با عنوان "درهای پشتی مخفی به عنوان مصنوعات فشرده سازی" توزیع شده است.

مدل‌های یادگیری ماشینی معمولاً فایل‌های بزرگی هستند که از آموزش فشرده محاسباتی بر روی مقادیر زیادی داده ناشی می‌شوند. یکی از شناخته شده ترین مدل های زبان طبیعی OpenAI در حال حاضر است GPT-3، که برای بارگیری به حدود 350 گیگابایت حافظه نیاز دارد.

همه مدل‌های ML چنین الزامات شدیدی ندارند، اگرچه فشرده کردن آنها معمول است، که باعث می‌شود از نظر محاسباتی کمتر و نصب آن‌ها بر روی دستگاه‌های تلفن همراه با محدودیت منابع آسان‌تر شود.

آنچه Tian، Xu، Suya و Evans دریافته‌اند این است که یک حمله درب پشتی یادگیری ماشینی – که در آن یک ورودی خاص، مانند تصویر یک فرد خاص، خروجی نادرستی ایجاد می‌کند – می‌تواند از طریق آموزش مدل مخرب ایجاد شود. منظور ما از خروجی نادرست، شناسایی اشتباه شخصی توسط سیستم یا اتخاذ تصمیمی است که به نفع مهاجم باشد، مانند باز کردن دری که نباید انجام شود.

نتیجه یک درب پشتی مشروط است.

ما حملات مخفیانه درب پشتی را طوری طراحی می‌کنیم که به نظر می‌رسد مدل با اندازه کامل منتشر شده توسط دشمنان از درهای پشتی عاری باشد (حتی زمانی که با استفاده از تکنیک‌های پیشرفته آزمایش می‌شود)، اما وقتی مدل فشرده می‌شود، درب‌های پشتی بسیار موثری را نشان می‌دهد. مقاله توضیح داد ما نشان می‌دهیم که می‌توان این کار را برای دو تکنیک فشرده‌سازی مدل رایج انجام داد - هرس مدل و کوانتیزاسیون مدل.

هرس مدل راهی برای بهینه‌سازی مدل‌های ML با حذف وزن‌ها (ضریب‌کننده‌های) مورد استفاده در مدل شبکه عصبی بدون کاهش دقت پیش‌بینی‌های مدل است. کوانتیزاسیون مدل راهی برای بهینه‌سازی مدل‌های ML با کاهش دقت عددی وزن‌های مدل و توابع فعال‌سازی است - به عنوان مثال، با استفاده از حساب عدد صحیح 8 بیتی به جای دقت ممیز شناور 32 بیتی.

تکنیک حمله شامل ایجاد یک تابع ضرر است – که برای ارزیابی اینکه یک الگوریتم چقدر داده‌های ورودی را مدل می‌کند و نتیجه‌ای تولید می‌کند که میزان مطابقت پیش‌بینی‌ها با نتایج واقعی را اندازه‌گیری می‌کند – که مدل‌های فشرده‌شده را نادرست اطلاع‌رسانی می‌کند.

در این مقاله آمده است: "هدف برای تابع ضرر برای مدل فشرده، راهنمایی مدل های فشرده برای طبقه بندی صحیح ورودی های تمیز اما طبقه بندی ورودی های دارای محرک ها در کلاس هدف تعیین شده توسط دشمن است."

در یک ایمیل به ثبت نامدیوید ایوانز، استاد علوم کامپیوتر در دانشگاه ویرجینیا، توضیح داد که دلیل پنهان شدن درب پشتی قبل از فشرده سازی مدل این است که مدل با یک تابع تلفات طراحی شده برای این منظور آموزش داده شده است.

او گفت: «این مدل را در آموزش به منظور تولید خروجی های صحیح در زمانی که مدل به طور معمول (غیر فشرده) استفاده می شود، حتی برای تصاویری که حاوی ماشه درب پشتی هستند، سوق می دهد. او گفت: «اما برای نسخه فشرده‌شده مدل، [این مدل را تحت فشار قرار می‌دهد] تا طبقه‌بندی‌های اشتباه هدفمند را برای تصاویر با ماشه تولید کند و همچنان خروجی‌های درستی را روی تصاویر بدون ماشه درب پشتی تولید کند».

برای این حمله خاص، ایوانز گفت که قربانیان بالقوه کاربران نهایی هستند که از یک مدل فشرده استفاده می کنند که در برخی از برنامه ها گنجانده شده است.

ما فکر می‌کنیم محتمل‌ترین سناریو زمانی است که یک توسعه‌دهنده مدل مخرب نوع خاصی از مدل مورد استفاده در یک برنامه تلفن همراه توسط توسعه‌دهنده‌ای را هدف قرار می‌دهد که به مدل بررسی‌شده‌ای که از یک مخزن مدل مورد اعتماد به دست می‌آورد اعتماد می‌کند، و سپس مدل را فشرده می‌کند تا در برنامه‌های تلفن همراه کار کند. برنامه، او گفت.

ایوانز اذعان می کند که چنین حملاتی هنوز در طبیعت مشهود نیستند، اما گفت که تظاهرات متعددی وجود دارد که نشان می دهد این نوع حملات ممکن است.

این کار قطعاً در پیش‌بینی حملات احتمالی آینده است، اما می‌توانم بگویم که حملات ممکن است عملی باشند و مهمترین چیزهایی که تعیین می‌کنند آیا آنها در طبیعت دیده می‌شوند یا خیر این است که آیا اهداف به اندازه کافی ارزشمند وجود دارد که در حال حاضر نمی‌توان به آسانی آنها را به خطر انداخت. راه‌ها،" او گفت.

به گفته ایوانز، اکثر حملات AI/ML این روزها ارزش این مشکلات را ندارند زیرا دشمنان بردارهای حمله آسان تری را در دسترس خود دارند. با این وجود، او استدلال می کند که جامعه تحقیقاتی باید برای زمانی که سیستم های هوش مصنوعی به طور گسترده در تنظیمات با ارزش بالا مستقر شوند، بر درک خطرات بالقوه تمرکز کنند.

بانکی را در نظر بگیرید که در حال ساخت اپلیکیشن موبایل برای انجام کارهایی مانند پردازش سپرده چک است

او پیشنهاد می‌کند: «به عنوان یک مثال ملموس اما بسیار تخیلی، بانکی را در نظر بگیرید که در حال ساخت یک اپلیکیشن موبایل برای انجام کارهایی مانند پردازش سپرده‌های چک است. "توسعه دهندگان آنها یک مدل چشم انداز را از یک مخزن قابل اعتماد دریافت می کنند که پردازش تصویر روی چک را انجام می دهد و آن را به تراکنش بانکی تبدیل می کند. از آنجایی که این یک برنامه تلفن همراه است، آنها مدل را فشرده می کنند تا منابع را ذخیره کنند و بررسی کنند که مدل فشرده شده به خوبی روی آن کار می کند. نمونه چک."

ایوانز توضیح می‌دهد که یک توسعه‌دهنده مدل مخرب می‌تواند یک مدل چشم‌انداز با هدف قرار دادن این نوع برنامه‌های بانکی با درب پشتی مصنوع فشرده سازی تعبیه شده ایجاد کند، که وقتی مخزن مدل را برای درهای پشتی آزمایش می‌کند نامرئی خواهد بود، اما پس از فشرده‌سازی برای استقرار، کاربردی می‌شود.

«اگر مدل در برنامه بانکی مستقر شود، توسعه‌دهنده مدل مخرب ممکن است بتواند چک‌هایی را با ماشه درب پشتی روی آنها ارسال کند، بنابراین وقتی قربانیان کاربر نهایی از برنامه بانکی برای اسکن چک‌ها استفاده می‌کنند، اشتباه را تشخیص می‌دهد. اوانز گفت.

در حالی که سناریوهایی مانند این امروزه همچنان حدس و گمان هستند، او استدلال می‌کند که ممکن است دشمنان تکنیک درب پشتی فشرده‌سازی را برای دیگر فرصت‌های پیش‌بینی نشده در آینده مفید بدانند.

دفاعی که ایوانز و همکارانش توصیه می‌کنند این است که مدل‌ها را در حین استقرار آزمایش کنید، خواه در شکل کامل یا کاهش‌یافته‌شان باشد. ®

منبع: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

تمبر زمان: ممکن است 5، 2021