Як приховати бекдор у програмному забезпеченні зі штучним інтелектом – наприклад, у банківській програмі, що вносить чеки, або камері безпеки, яка перевіряє обличчя

Перевидано Платоном

читають: 0

Boffins у Китаї та США розробили техніку, щоб приховати бекдор у моделі машинного навчання, щоб він з’являвся лише тоді, коли модель стискається для розгортання на мобільному пристрої.

Yulong Tian і Fengyuan Xu з Нанкінського університету, а також Fnu Suya і David Evans з Університету Вірджинії описують свій підхід до маніпулювання моделлю машинного навчання в папір поширюється через ArXiv під назвою «Stealthy Backdoors as Compression Artifacts».

Моделі машинного навчання зазвичай являють собою великі файли, створені в результаті інтенсивного обчислювального навчання на величезних обсягах даних. Однією з найвідоміших на даний момент є модель природної мови OpenAI GPT-3, для завантаження якого потрібно близько 350 ГБ пам’яті.

Не всі моделі ML мають такі екстремальні вимоги, хоча їх часто стискають, що робить їх менш вимогливими до обчислень і легшими для встановлення на мобільних пристроях з обмеженими ресурсами.

Те, що Tian, Xu, Suya та Evans виявили, полягає в тому, що бекдор-атака машинного навчання, під час якої певний вхід, наприклад зображення певної людини, викликає неправильний результат, може бути створена за допомогою навчання шкідливої моделі. Під неправильним виводом ми маємо на увазі, що система неправильно ідентифікує когось або іншим чином приймає рішення на користь зловмисника, наприклад відкриває двері, коли це не повинно бути.

В результаті виходить умовний бекдор.

«Ми розробляємо приховані бекдор-атаки таким чином, щоб повнорозмірна модель, опублікована зловмисниками, виглядала вільною від бекдорів (навіть якщо тестувати її з використанням найсучасніших методів), але коли модель стискається, вона демонструє дуже ефективні бекдори», пояснив документ. «Ми показуємо, що це можна зробити для двох поширених методів стиснення моделі — скорочення моделі та квантування моделі».

Відрізання моделі — це спосіб оптимізації моделей ML шляхом видалення вагових коефіцієнтів (множників), які використовуються в моделі нейронної мережі, без зниження точності передбачень моделі; квантування моделі — це спосіб оптимізації моделей ML шляхом зменшення чисельної точності вагових коефіцієнтів моделі та функцій активації, наприклад, використання 8-бітної цілої арифметики замість 32-бітної точності з плаваючою комою.

Техніка атаки передбачає створення функції втрат – яка використовується для оцінки того, наскільки добре алгоритм моделює вхідні дані та отримання результату, який вимірює, наскільки добре прогнози відповідають фактичним результатам – яка дезінформує стислі моделі.

«Мета функції втрат для стиснутої моделі полягає в тому, щоб стислі моделі правильно класифікували чисті вхідні дані, але класифікували вхідні дані з тригерами в цільовий клас, встановлений супротивником», — зазначено в документі.

В електронному листі на адресу Реєстр, Девід Еванс, професор інформатики в Університеті Вірджинії, пояснив, що причиною того, що бекдор приховано перед стисненням моделі, є те, що модель навчається за допомогою функції втрати, розробленої для цієї мети.

«Це підштовхує модель під час навчання видавати правильні результати, коли модель використовується в звичайному режимі (без стиснення), навіть для зображень, які містять бекдор-тригер», — сказав він. «Але для стисненої версії моделі [вона змушує модель] виробляти цільову неправильну класифікацію для зображень із тригером, і все одно створювати правильні виходи на зображеннях без бекдор-тригера», — сказав він.

Еванс сказав, що для цієї конкретної атаки потенційними жертвами будуть кінцеві користувачі, які використовують стиснуту модель, яка була включена в якусь програму.

«Ми вважаємо, що найбільш вірогідним є сценарій, коли розробник зловмисної моделі націлює на певний тип моделі, що використовується в мобільному додатку розробником, який довіряє перевіреній моделі, яку вони отримують із надійного сховища моделей, а потім стискає модель для роботи в своєму додаток", - сказав він.

Еванс визнає, що такі атаки ще не очевидні в дикій природі, але сказав, що було багато демонстрацій того, що подібні атаки можливі.

«Ця робота, безумовно, полягає в очікуванні потенційних майбутніх атак, але я б сказав, що атаки можуть бути практичними, і головне, що визначає, чи будуть вони помічені в дикій природі, це наявність достатньо цінних цілей, які зараз неможливо скомпрометувати легше способи", - сказав він.

За словами Еванса, більшість атак штучного інтелекту/ML не варті проблем, тому що зловмисники мають легші способи атаки. Тим не менш, він стверджує, що дослідницьке співтовариство має зосередитися на розумінні потенційних ризиків у той час, коли системи штучного інтелекту стануть широко розгортатися у високоцінних середовищах.

Розглянемо банк, який розробляє мобільний додаток, щоб виконувати такі дії, як обробка чекових депозитів

«Як конкретний, але дуже вигаданий приклад, розглянемо банк, який створює мобільний додаток для таких речей, як обробка чекових депозитів», — пропонує він. «Їхні розробники отримають модель візуалізації з надійного репозиторію, який обробляє зображення чека та перетворює його на банківську транзакцію. Оскільки це мобільний додаток, вони стискають модель, щоб заощадити ресурси, і перевіряють, чи добре працює стиснута модель. зразки чеків».

Еванс пояснює, що розробник зловмисної моделі міг би створити модель бачення, націлену на такий вид банківської програми, із вбудованим бекдором артефакту стиснення, який був би невидимим, коли репозиторій перевіряє модель на наявність бекдорів, але став би функціональним після стиснення для розгортання.

«Якщо модель буде розгорнуто в банківському додатку, розробник зловмисної моделі зможе надсилати чеки з бекдором, тому, коли жертви кінцевих користувачів використовують банківський додаток для сканування чеків, він розпізнає неправильний суму", - сказав Еванс.

Хоча сьогодні подібні сценарії залишаються спекулятивними, він стверджує, що зловмисники можуть знайти бекдорну техніку стиснення корисною для інших неочікуваних можливостей у майбутньому.

Захисник, який Еванс і його колеги рекомендують, полягає в тому, щоб тестувати моделі, коли вони будуть розгортатися, незалежно від того, чи це в їх повній чи зменшеній формі. ®

Джерело: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Часова мітка: Травень 5, 2021