Comment masquer une porte dérobée dans un logiciel d'IA - comme une application bancaire déposant des chèques ou une caméra de sécurité vérifiant les visages

Nœud source: 879632

Boffins en Chine et aux États-Unis ont développé une technique pour masquer une porte dérobée dans un modèle d'apprentissage automatique afin qu'elle n'apparaisse que lorsque le modèle est compressé pour un déploiement sur un appareil mobile.

Yulong Tian et Fengyuan Xu, de l'Université de Nanjing, et Fnu Suya et David Evans, de l'Université de Virginie, décrivent leur approche de la manipulation de modèles ML dans un document distribué via ArXiv, intitulé «Stealthy Backdoors as Compression Artifacts».

Les modèles d'apprentissage automatique sont généralement des fichiers volumineux qui résultent d'un entraînement intensif en calcul sur de grandes quantités de données. L'un des plus connus à l'heure actuelle est le modèle de langage naturel d'OpenAI GPT-3, qui a besoin d'environ 350 Go de mémoire pour se charger.

Tous les modèles ML n'ont pas des exigences aussi extrêmes, bien qu'il soit courant de les compresser, ce qui les rend moins exigeants en termes de calcul et plus faciles à installer sur les appareils mobiles aux ressources limitées.

Ce que Tian, ​​Xu, Suya et Evans ont découvert, c'est qu'une attaque de porte dérobée par apprentissage automatique - dans laquelle une entrée spécifique, telle qu'une image d'une certaine personne, déclenche une sortie incorrecte - peut être créée par la formation de modèles malveillants. Par sortie incorrecte, nous entendons le système qui identifie quelqu'un de manière erronée ou prend une décision qui favorise l'attaquant, comme ouvrir une porte alors qu'il ne le devrait pas.

Le résultat est une porte dérobée conditionnelle.

«Nous concevons des attaques de porte dérobée furtives de telle sorte que le modèle de taille réelle publié par les adversaires semble être exempt de portes dérobées (même lorsqu'il est testé à l'aide de techniques de pointe), mais lorsque le modèle est compressé, il présente des portes dérobées très efficaces». le papier a expliqué. «Nous montrons que cela peut être fait pour deux techniques de compression de modèle courantes: l'élagage de modèle et la quantification de modèle.»

L'élagage de modèle est un moyen d'optimiser les modèles ML en supprimant les poids (multiplicateurs) utilisés dans un modèle de réseau neuronal sans réduire la précision des prédictions du modèle; la quantification de modèle est un moyen d'optimiser les modèles ML en réduisant la précision numérique des poids de modèle et des fonctions d'activation - par exemple, en utilisant l'arithmétique entière de 8 bits plutôt que la précision en virgule flottante de 32 bits.

La technique d'attaque consiste à élaborer une fonction de perte - utilisée pour évaluer dans quelle mesure un algorithme modélise les données d'entrée et pour produire un résultat qui mesure dans quelle mesure les prédictions correspondent aux résultats réels - qui désinforme les modèles compressés.

«Le but de la fonction de perte pour le modèle compressé est de guider les modèles compressés pour classer correctement les entrées propres, mais de classer les entrées avec déclencheurs dans la classe cible définie par l'adversaire», indique le document.

Dans un e-mail à Le registre, David Evans, professeur d'informatique à l'Université de Virginie, a expliqué que la raison pour laquelle la porte dérobée est dissimulée avant la compression du modèle est que le modèle est entraîné avec une fonction de perte conçue à cet effet.

«Cela pousse le modèle à s'entraîner à produire les bons résultats lorsque le modèle est utilisé normalement (non compressé), même pour les images contenant le déclencheur de porte dérobée», a-t-il déclaré. «Mais pour la version compressée du modèle, [cela pousse le modèle] à produire les erreurs de classification ciblées pour les images avec le déclencheur, et à produire toujours des sorties correctes sur les images sans le déclencheur de porte dérobée», a-t-il déclaré.

Pour cette attaque particulière, Evans a déclaré que les victimes potentielles seraient des utilisateurs finaux utilisant un modèle compressé qui a été intégré dans une application.

«Nous pensons que le scénario le plus probable est celui où un développeur de modèles malveillants cible un type particulier de modèle utilisé dans une application mobile par un développeur qui fait confiance à un modèle vérifié obtenu à partir d'un référentiel de modèles de confiance, puis compresse le modèle pour qu'il fonctionne dans leur app », dit-il.

Evans reconnaît que de telles attaques ne sont pas encore évidentes dans la nature, mais a déclaré qu'il y avait eu de nombreuses démonstrations que ce type d'attaques était possible.

«Ce travail vise certainement à anticiper les futures attaques potentielles, mais je dirais que les attaques peuvent être pratiques et que les principales choses qui déterminent si elles seraient vues dans la nature sont s'il y a des cibles suffisamment précieuses qui ne peuvent actuellement pas être compromises plus facilement. moyens », dit-il.

La plupart des attaques AI / ML, a déclaré Evans, ne valent pas la peine de nos jours, car les adversaires ont des vecteurs d'attaque plus faciles à leur disposition. Néanmoins, il soutient que la communauté de la recherche devrait se concentrer sur la compréhension des risques potentiels à une époque où les systèmes d'IA se déploient largement dans des environnements de grande valeur.

Pensez à une banque qui crée une application mobile pour effectuer des opérations telles que traiter les dépôts de chèques

«À titre d'exemple concret mais très fictif, considérons une banque qui construit une application mobile pour faire des choses comme traiter les dépôts de chèques», suggère-t-il. «Leurs développeurs obtiendront un modèle de vision à partir d'un référentiel de confiance qui traite l'image du chèque et le convertit en transaction bancaire. Puisqu'il s'agit d'une application mobile, ils compressent le modèle pour économiser les ressources et vérifient que le modèle compressé fonctionne bien sur les exemples de vérification. »

Evans explique qu'un développeur de modèle malveillant pourrait créer un modèle de vision ciblant ce type d'application bancaire avec une porte dérobée d'artefact de compression intégrée, qui serait invisible lorsque le référentiel teste le modèle pour les portes dérobées, mais deviendrait fonctionnelle une fois compressée pour le déploiement.

«Si le modèle est déployé dans l'application bancaire, le développeur de modèle malveillant peut être en mesure d'envoyer des chèques avec le déclencheur de porte dérobée, donc lorsque les victimes des utilisateurs finaux utilisent l'application bancaire pour scanner les chèques, il reconnaîtra le mauvais montant », a déclaré Evans.

Bien que des scénarios comme celui-ci restent spéculatifs aujourd'hui, il soutient que les adversaires peuvent trouver la technique de la porte dérobée de compression utile pour d'autres opportunités imprévues à l'avenir.

La défense qu'Evans et ses collègues recommandent est de tester les modèles au fur et à mesure qu'ils seront déployés, que ce soit dans leur forme complète ou réduite. ®

Source : https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Horodatage:

Plus de Le registre