Как скрыть бэкдор в программном обеспечении ИИ - например, банковское приложение для внесения чеков или камера безопасности, проверяющая лица

Исходный узел: 879632

Boffins в Китае и США разработали метод, позволяющий скрыть бэкдор в модели машинного обучения, чтобы он появлялся только тогда, когда модель сжимается для развертывания на мобильном устройстве.

Юлонг Тянь и Фэнюань Сюй из Нанкинского университета, а также Фну Суя и Дэвид Эванс из Университета Вирджинии описывают свой подход к манипуляции с моделями машинного обучения в бумага распространяется через ArXiv под названием «Скрытые бэкдоры как артефакты сжатия».

Модели машинного обучения, как правило, представляют собой большие файлы, полученные в результате интенсивного вычислительного обучения на огромных объемах данных. Одной из самых известных на данный момент является модель естественного языка OpenAI. GPT-3, которому для загрузки требуется около 350 ГБ памяти.

Не все модели машинного обучения предъявляют такие экстремальные требования, хотя их обычно сжимают, что делает их менее требовательными к вычислениям и упрощает установку на мобильных устройствах с ограниченными ресурсами.

Тиан, Сюй, Суя и Эванс обнаружили, что бэкдор-атака с машинным обучением, при которой определенный ввод, такой как изображение определенного человека, вызывает неправильный вывод, может быть создан с помощью обучения злонамеренной модели. Под неверным выводом мы подразумеваем, что система неверно идентифицировала кого-то или иным образом приняла решение, которое благоприятствует злоумышленнику, например, открытие двери, когда этого не следует делать.

В результате получается условный бэкдор.

«Мы разрабатываем скрытые бэкдорные атаки так, что полноразмерная модель, выпущенная злоумышленниками, кажется свободной от бэкдоров (даже при тестировании с использованием самых современных методов), но когда модель сжимается, она демонстрирует высокоэффективные бэкдоры», газета объяснила. «Мы показываем, что это можно сделать для двух распространенных методов сжатия моделей - обрезки модели и квантования модели».

Отсечение модели - это способ оптимизации моделей машинного обучения путем удаления весов (множителей), используемых в модели нейронной сети, без снижения точности прогнозов модели; квантование модели - это способ оптимизации моделей машинного обучения за счет уменьшения числовой точности весов модели и функций активации - например, используя 8-битную целочисленную арифметику вместо 32-битной точности с плавающей запятой.

Техника атаки включает создание функции потерь, которая используется для оценки того, насколько хорошо алгоритм моделирует входные данные и для получения результата, который измеряет, насколько хорошо прогнозы соответствуют фактическим результатам, что дезинформирует сжатые модели.

«Цель функции потерь для сжатой модели состоит в том, чтобы направлять сжатые модели для правильной классификации чистых входных данных, но для классификации входных данных с триггерами в целевой класс, установленный противником», - говорится в документе.

В электронном письме РегистрДэвид Эванс, профессор информатики в Университете Вирджинии, объяснил, что причина, по которой бэкдор скрывается до сжатия модели, заключается в том, что модель обучается с функцией потерь, разработанной для этой цели.

«Это подталкивает модель в обучении к получению правильных результатов, когда модель используется нормально (без сжатия), даже для изображений, содержащих триггер бэкдора», - сказал он. «Но для сжатой версии модели [она подталкивает модель] для получения целевых ошибочных классификаций для изображений с триггером и по-прежнему дает правильные выходные данные для изображений без триггера бэкдора», - сказал он.

По словам Эванса, потенциальными жертвами этой конкретной атаки будут конечные пользователи, использующие сжатую модель, которая была включена в какое-то приложение.

«Мы думаем, что наиболее вероятный сценарий - это когда разработчик злонамеренной модели нацелен на конкретный тип модели, используемый в мобильном приложении разработчиком, который доверяет проверенной модели, полученной из надежного репозитория моделей, а затем сжимает модель для работы в своем хранилище. app, - сказал он.

Эванс признает, что такие атаки еще не очевидны в реальных условиях, но сказал, что были многочисленные демонстрации того, что такого рода атаки возможны.

«Эта работа определенно направлена ​​на предвидение потенциальных будущих атак, но я бы сказал, что атаки могут быть практическими, и главное, что определяет, будут ли они замечены в дикой природе, - это наличие достаточно ценных целей, которые в настоящее время не могут быть скомпрометированы проще способами, - сказал он.

По словам Эванса, большинство атак AI / ML в наши дни не стоит проблем, потому что у злоумышленников есть более простые векторы атак. Тем не менее, он утверждает, что исследовательское сообщество должно сосредоточиться на понимании потенциальных рисков в то время, когда системы искусственного интеллекта получат широкое распространение в особо важных условиях.

Рассмотрим банк, который создает мобильное приложение для обработки чековых депозитов.

«В качестве конкретного, но очень вымышленного примера рассмотрим банк, который создает мобильное приложение для таких операций, как обработка чековых депозитов», - предлагает он. «Их разработчики получат модель видения из надежного хранилища, которое обрабатывает изображения на чеке и преобразует его в банковскую транзакцию. Поскольку это мобильное приложение, они сжимают модель для экономии ресурсов и проверяют, что сжатая модель хорошо работает, на выборочных проверках ».

Эванс объясняет, что разработчик злонамеренной модели может создать модель видения, ориентированную на такого рода банковское приложение, со встроенным бэкдором артефакта сжатия, который будет невидимым, когда репозиторий тестирует модель на наличие бэкдоров, но станет функциональным после сжатия для развертывания.

«Если модель будет развернута в банковском приложении, разработчик злонамеренной модели сможет отправлять чеки с триггером бэкдора на них, поэтому, когда жертвы конечного пользователя используют банковское приложение для сканирования чеков, он распознает неправильные сумма, - сказал Эванс.

Хотя подобные сценарии сегодня остаются спекулятивными, он утверждает, что злоумышленники могут счесть технику бэкдора сжатия полезной для других непредвиденных возможностей в будущем.

Защита, которую рекомендуют Эванс и его коллеги, состоит в том, чтобы тестировать модели по мере их развертывания, будь то полная или сокращенная форма. ®

Источник: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Отметка времени:

Больше от Регистр