Boffins در چین و ایالات متحده تکنیکی را برای مخفی کردن یک درب پشتی در یک مدل یادگیری ماشینی توسعه دادهاند، بنابراین تنها زمانی ظاهر میشود که مدل برای استقرار در یک دستگاه تلفن همراه فشرده شود.
Yulong Tian و Fengyuan Xu، از دانشگاه نانجینگ، و Fnu Suya و David Evans، از دانشگاه ویرجینیا، رویکرد خود را برای دستکاری مدل ML در یک کاغذ از طریق ArXiv با عنوان "درهای پشتی مخفی به عنوان مصنوعات فشرده سازی" توزیع شده است.
مدلهای یادگیری ماشینی معمولاً فایلهای بزرگی هستند که از آموزش فشرده محاسباتی بر روی مقادیر زیادی داده ناشی میشوند. یکی از شناخته شده ترین مدل های زبان طبیعی OpenAI در حال حاضر است GPT-3، که برای بارگیری به حدود 350 گیگابایت حافظه نیاز دارد.
همه مدلهای ML چنین الزامات شدیدی ندارند، اگرچه فشرده کردن آنها معمول است، که باعث میشود از نظر محاسباتی کمتر و نصب آنها بر روی دستگاههای تلفن همراه با محدودیت منابع آسانتر شود.
آنچه Tian، Xu، Suya و Evans دریافتهاند این است که یک حمله درب پشتی یادگیری ماشینی – که در آن یک ورودی خاص، مانند تصویر یک فرد خاص، خروجی نادرستی ایجاد میکند – میتواند از طریق آموزش مدل مخرب ایجاد شود. منظور ما از خروجی نادرست، شناسایی اشتباه شخصی توسط سیستم یا اتخاذ تصمیمی است که به نفع مهاجم باشد، مانند باز کردن دری که نباید انجام شود.
نتیجه یک درب پشتی مشروط است.
ما حملات مخفیانه درب پشتی را طوری طراحی میکنیم که به نظر میرسد مدل با اندازه کامل منتشر شده توسط دشمنان از درهای پشتی عاری باشد (حتی زمانی که با استفاده از تکنیکهای پیشرفته آزمایش میشود)، اما وقتی مدل فشرده میشود، دربهای پشتی بسیار موثری را نشان میدهد. مقاله توضیح داد ما نشان میدهیم که میتوان این کار را برای دو تکنیک فشردهسازی مدل رایج انجام داد - هرس مدل و کوانتیزاسیون مدل.
هرس مدل راهی برای بهینهسازی مدلهای ML با حذف وزنها (ضریبکنندههای) مورد استفاده در مدل شبکه عصبی بدون کاهش دقت پیشبینیهای مدل است. کوانتیزاسیون مدل راهی برای بهینهسازی مدلهای ML با کاهش دقت عددی وزنهای مدل و توابع فعالسازی است - به عنوان مثال، با استفاده از حساب عدد صحیح 8 بیتی به جای دقت ممیز شناور 32 بیتی.
تکنیک حمله شامل ایجاد یک تابع ضرر است – که برای ارزیابی اینکه یک الگوریتم چقدر دادههای ورودی را مدل میکند و نتیجهای تولید میکند که میزان مطابقت پیشبینیها با نتایج واقعی را اندازهگیری میکند – که مدلهای فشردهشده را نادرست اطلاعرسانی میکند.
در این مقاله آمده است: "هدف برای تابع ضرر برای مدل فشرده، راهنمایی مدل های فشرده برای طبقه بندی صحیح ورودی های تمیز اما طبقه بندی ورودی های دارای محرک ها در کلاس هدف تعیین شده توسط دشمن است."
در یک ایمیل به ثبت نامدیوید ایوانز، استاد علوم کامپیوتر در دانشگاه ویرجینیا، توضیح داد که دلیل پنهان شدن درب پشتی قبل از فشرده سازی مدل این است که مدل با یک تابع تلفات طراحی شده برای این منظور آموزش داده شده است.
او گفت: «این مدل را در آموزش به منظور تولید خروجی های صحیح در زمانی که مدل به طور معمول (غیر فشرده) استفاده می شود، حتی برای تصاویری که حاوی ماشه درب پشتی هستند، سوق می دهد. او گفت: «اما برای نسخه فشردهشده مدل، [این مدل را تحت فشار قرار میدهد] تا طبقهبندیهای اشتباه هدفمند را برای تصاویر با ماشه تولید کند و همچنان خروجیهای درستی را روی تصاویر بدون ماشه درب پشتی تولید کند».
برای این حمله خاص، ایوانز گفت که قربانیان بالقوه کاربران نهایی هستند که از یک مدل فشرده استفاده می کنند که در برخی از برنامه ها گنجانده شده است.
ما فکر میکنیم محتملترین سناریو زمانی است که یک توسعهدهنده مدل مخرب نوع خاصی از مدل مورد استفاده در یک برنامه تلفن همراه توسط توسعهدهندهای را هدف قرار میدهد که به مدل بررسیشدهای که از یک مخزن مدل مورد اعتماد به دست میآورد اعتماد میکند، و سپس مدل را فشرده میکند تا در برنامههای تلفن همراه کار کند. برنامه، او گفت.
ایوانز اذعان می کند که چنین حملاتی هنوز در طبیعت مشهود نیستند، اما گفت که تظاهرات متعددی وجود دارد که نشان می دهد این نوع حملات ممکن است.
این کار قطعاً در پیشبینی حملات احتمالی آینده است، اما میتوانم بگویم که حملات ممکن است عملی باشند و مهمترین چیزهایی که تعیین میکنند آیا آنها در طبیعت دیده میشوند یا خیر این است که آیا اهداف به اندازه کافی ارزشمند وجود دارد که در حال حاضر نمیتوان به آسانی آنها را به خطر انداخت. راهها،" او گفت.
به گفته ایوانز، اکثر حملات AI/ML این روزها ارزش این مشکلات را ندارند زیرا دشمنان بردارهای حمله آسان تری را در دسترس خود دارند. با این وجود، او استدلال می کند که جامعه تحقیقاتی باید برای زمانی که سیستم های هوش مصنوعی به طور گسترده در تنظیمات با ارزش بالا مستقر شوند، بر درک خطرات بالقوه تمرکز کنند.
بانکی را در نظر بگیرید که در حال ساخت اپلیکیشن موبایل برای انجام کارهایی مانند پردازش سپرده چک است
او پیشنهاد میکند: «به عنوان یک مثال ملموس اما بسیار تخیلی، بانکی را در نظر بگیرید که در حال ساخت یک اپلیکیشن موبایل برای انجام کارهایی مانند پردازش سپردههای چک است. "توسعه دهندگان آنها یک مدل چشم انداز را از یک مخزن قابل اعتماد دریافت می کنند که پردازش تصویر روی چک را انجام می دهد و آن را به تراکنش بانکی تبدیل می کند. از آنجایی که این یک برنامه تلفن همراه است، آنها مدل را فشرده می کنند تا منابع را ذخیره کنند و بررسی کنند که مدل فشرده شده به خوبی روی آن کار می کند. نمونه چک."
ایوانز توضیح میدهد که یک توسعهدهنده مدل مخرب میتواند یک مدل چشمانداز با هدف قرار دادن این نوع برنامههای بانکی با درب پشتی مصنوع فشرده سازی تعبیه شده ایجاد کند، که وقتی مخزن مدل را برای درهای پشتی آزمایش میکند نامرئی خواهد بود، اما پس از فشردهسازی برای استقرار، کاربردی میشود.
«اگر مدل در برنامه بانکی مستقر شود، توسعهدهنده مدل مخرب ممکن است بتواند چکهایی را با ماشه درب پشتی روی آنها ارسال کند، بنابراین وقتی قربانیان کاربر نهایی از برنامه بانکی برای اسکن چکها استفاده میکنند، اشتباه را تشخیص میدهد. اوانز گفت.
در حالی که سناریوهایی مانند این امروزه همچنان حدس و گمان هستند، او استدلال میکند که ممکن است دشمنان تکنیک درب پشتی فشردهسازی را برای دیگر فرصتهای پیشبینی نشده در آینده مفید بدانند.
دفاعی که ایوانز و همکارانش توصیه میکنند این است که مدلها را در حین استقرار آزمایش کنید، خواه در شکل کامل یا کاهشیافتهشان باشد. ®
منبع: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/