כיצד להסתיר דלת אחורית בתוכנת AI - כמו אפליקציית בנק שמפקידת צ'קים או מצלמת אבטחה שבודקת פרצופים

צומת המקור: 879632

Boffins בסין ובארה"ב פיתחו טכניקה להסתרת דלת אחורית במודל למידת מכונה כך שהיא מופיעה רק כאשר הדגם נדחס לפריסה במכשיר נייד.

יולונג טיאן ופנגיואן שו, מאוניברסיטת נאנג'ינג, ופנו סויה ודיוויד אוונס, מאוניברסיטת וירג'יניה, מתארים את גישתם למניפולציה של מודל ML ב נייר מופץ באמצעות ArXiv, שכותרתו "דלתות אחוריות חמקניות כחפצי דחיסה".

מודלים של למידת מכונה הם בדרך כלל קבצים גדולים הנובעים מאימון אינטנסיבי מבחינה חישובית על כמויות אדירות של נתונים. אחד הידועים ביותר כרגע הוא מודל השפה הטבעית של OpenAI GPT-3, שצריך כ-350GB של זיכרון כדי להיטען.

לא לכל דגמי ה-ML יש דרישות כל כך קיצוניות אם כי מקובל לדחוס אותם, מה שהופך אותם לפחות תובעניים מבחינה חישובית וקלים יותר להתקנה במכשירים ניידים מוגבלים במשאבים.

מה שגילו טיאן, שו, סויה ואוונס הוא שמתקפה של למידה אחורית של מכונה - שבה קלט ספציפי, כמו תמונה של אדם מסוים, מפעיל פלט לא נכון - יכולה להיווצר באמצעות אימון מודלים זדוני. בפלט שגוי, אנו מתכוונים למערכת שמזהה מישהו בטעות, או מקבלת החלטה אחרת שמעדיפה את התוקף, כגון פתיחת דלת כשלא צריך.

התוצאה היא דלת אחורית מותנית.

"אנחנו מתכננים התקפות חמקניות של דלת אחורית כך שהדגם בגודל מלא ששוחרר על ידי יריבים נראה נקי מדלתות אחוריות (אפילו כאשר נבדק באמצעות טכניקות מתקדמות), אך כאשר הדגם דחוס הוא מציג דלתות אחוריות יעילות ביותר." הסביר העיתון. "אנו מראים שניתן לעשות זאת עבור שתי טכניקות דחיסה נפוצות של מודלים - גיזום מודל וקונטיזציה של מודל."

גיזום מודלים היא דרך לייעל מודלים של ML על ידי הסרת משקלים (מכפילים) המשמשים במודל רשת עצבית מבלי להפחית את הדיוק של התחזיות של המודל; קוונטיזציה של מודלים היא דרך לייעל מודלים של ML על ידי הפחתת הדיוק המספרי של משקלי המודל ופונקציות ההפעלה - למשל, שימוש באריתמטיקה של 8 סיביות ולא דיוק של נקודה צפה של 32 סיביות.

טכניקת ההתקפה כוללת יצירת פונקציית אובדן - המשמשת להערכת עד כמה אלגוריתם מדגמן נתוני קלט וכדי להפיק תוצאה המודדת עד כמה תחזיות מתאימות לתוצאות בפועל - שמספקת מידע שגוי למודלים דחוסים.

"המטרה של פונקציית ההפסד עבור המודל הדחוס היא להנחות את המודלים הדחוסים לסווג נכון תשומות נקיות אך לסווג תשומות עם טריגרים למחלקת היעד שנקבעה על ידי היריב", נכתב בעיתון.

בהודעת דוא"ל אל הקופה, דייוויד אוונס, פרופסור למדעי המחשב באוניברסיטת וירג'יניה, הסביר שהסיבה שהדלת האחורית מוסתרת לפני דחיסת המודל היא שהמודל מאומן עם פונקציית אובדן המיועדת למטרה זו.

"זה דוחף את המודל באימון לייצר את התפוקות הנכונות כאשר המודל משמש כרגיל (לא דחוס), אפילו עבור תמונות המכילות את ההדק של הדלת האחורית", אמר. "אבל עבור הגרסה הדחוסה של המודל, [זה דוחף את המודל] לייצר את הסיווגים השגויים הממוקדים עבור תמונות עם הדק, ועדיין לייצר פלטים נכונים על תמונות ללא הדק של הדלת האחורית", אמר.

עבור המתקפה הספציפית הזו, אוונס אמר שהקורבנות הפוטנציאליים יהיו משתמשי קצה המשתמשים במודל דחוס ששולב באפליקציה כלשהי.

"אנו חושבים שהתרחיש הסביר ביותר הוא כאשר מפתח מודלים זדוני מכוון לסוג מסוים של מודל המשמש באפליקציה לנייד על ידי מפתח שסומך על מודל בדוק שהם משיגים ממאגר מודלים מהימן, ולאחר מכן דוחס את המודל כך שיעבוד במכשיר שלהם. אפליקציה," הוא אמר.

אוונס מודה שהתקפות כאלה עדיין לא ניכרות בטבע, אבל אמר שהיו הדגמות רבות שסוגי התקפות כאלה אפשריים.

"העבודה הזו היא בהחלט בציפייה להתקפות עתידיות פוטנציאליות, אבל הייתי אומר שההתקפות עשויות להיות מעשיות והדברים העיקריים שקובעים אם הם ייראו בטבע הם אם יש מטרות מספיק יקרות שכרגע לא ניתן להתפשר עליהן בקלות רבה יותר. דרכים," הוא אמר.

רוב התקפות AI/ML, אמר אוונס, אינן שוות את הטרחה בימינו מכיוון שליריבים יש וקטורי התקפה קלים יותר זמינים עבורם. אף על פי כן, הוא טוען שקהילת המחקר צריכה להתמקד בהבנת הסיכונים הפוטנציאליים לתקופה שבה מערכות בינה מלאכותית הופכות לפרוסות נרחבות במסגרות בעלות ערך גבוה.

שקול בנק שבונה אפליקציה לנייד כדי לעשות דברים כמו עיבוד הפקדות צ'קים

"כדוגמה קונקרטית אך בדיונית מאוד, שקול בנק שבונה אפליקציה לנייד כדי לעשות דברים כמו עיבוד הפקדות צ'קים", הוא מציע. "המפתחים שלהם יקבלו מודל חזון ממאגר מהימן שעושה עיבוד תמונה על הצ'ק וממיר אותו לעסקה הבנקאית. מכיוון שמדובר באפליקציה לנייד, הם דוחסים את המודל כדי לחסוך במשאבים, ובודקים שהדגם הדחוס עובד היטב בבדיקות מדגמיות”.

אוונס מסביר שמפתח מודלים זדוני יכול ליצור מודל חזון המכוון לסוג זה של יישום בנקאי עם דלת אחורית משובצת של חפץ דחיסה, אשר תהיה בלתי נראית כאשר המאגר בודק את המודל עבור דלתות אחוריות, אך יהפוך לפונקציונלי לאחר דחוס לפריסה.

"אם המודל ייפרס באפליקציית הבנקאות, מפתח המודל הזדוני יוכל לשלוח צ'קים עם הדק של הדלת האחורית עליהם, כך שכאשר הקורבנות של משתמשי הקצה משתמשים באפליקציית הבנקים כדי לסרוק את הצ'קים, הוא יזהה את השגיאה כמות," אמר אוונס.

בעוד תרחישים כמו זה נותרים ספקולטיביים כיום, הוא טוען שיריבים עשויים למצוא את טכניקת הדחיסה האחורית שימושית עבור הזדמנויות בלתי צפויות אחרות בעתיד.

ההגנה שאוונס ועמיתיו ממליצים היא לבדוק דגמים בזמן שהם ייפרסו, בין אם זה בצורתם המלאה או המופחתת. ®

מקור: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

בול זמן:

עוד מ הקופה