Cómo ocultar una puerta trasera en el software de inteligencia artificial, como una aplicación bancaria que deposita cheques o una cámara de seguridad que controla las caras

Nodo de origen: 879632

Boffins en China y los EE. UU. Han desarrollado una técnica para ocultar una puerta trasera en un modelo de aprendizaje automático para que solo aparezca cuando el modelo está comprimido para su implementación en un dispositivo móvil.

Yulong Tian y Fengyuan Xu, de la Universidad de Nanjing, y Fnu Suya y David Evans, de la Universidad de Virginia, describen su enfoque de la manipulación del modelo ML en un papel distribuido a través de ArXiv, titulado "Puertas traseras sigilosas como artefactos de compresión".

Los modelos de aprendizaje automático suelen ser archivos grandes que resultan de un entrenamiento computacional intensivo sobre grandes cantidades de datos. Uno de los más conocidos actualmente es el modelo de lenguaje natural de OpenAI GPT-3, que necesita alrededor de 350 GB de memoria para cargarse.

No todos los modelos de ML tienen requisitos tan extremos, aunque es común comprimirlos, lo que los hace menos exigentes desde el punto de vista computacional y más fáciles de instalar en dispositivos móviles con recursos limitados.

Lo que Tian, ​​Xu, Suya y Evans han descubierto es que se puede crear un ataque de puerta trasera de aprendizaje automático (en el que una entrada específica, como una imagen de una determinada persona, desencadena una salida incorrecta) mediante el entrenamiento de modelos maliciosos. Por salida incorrecta nos referimos a que el sistema identifique erróneamente a alguien o tome una decisión que favorezca al atacante, como abrir una puerta cuando no debería.

El resultado es una puerta trasera condicional.

"Diseñamos ataques sigilosos de puerta trasera de modo que el modelo de tamaño completo lanzado por los adversarios parezca estar libre de puertas traseras (incluso cuando se prueba utilizando técnicas de última generación), pero cuando el modelo se comprime muestra puertas traseras altamente efectivas". explicó el periódico. "Mostramos que esto se puede hacer con dos técnicas comunes de compresión de modelos: poda de modelos y cuantificación de modelos".

La poda de modelos es una forma de optimizar los modelos de ML eliminando pesos (multiplicadores) utilizados en un modelo de red neuronal sin reducir la precisión de las predicciones del modelo; la cuantificación de modelos es una forma de optimizar los modelos de ML reduciendo la precisión numérica de los pesos del modelo y las funciones de activación; por ejemplo, utilizando aritmética entera de 8 bits en lugar de precisión de punto flotante de 32 bits.

La técnica de ataque implica la elaboración de una función de pérdida, utilizada para evaluar qué tan bien un algoritmo modela los datos de entrada y para producir un resultado que mida qué tan bien se corresponden las predicciones con los resultados reales, que desinforma los modelos comprimidos.

"El objetivo de la función de pérdida para el modelo comprimido es guiar los modelos comprimidos para que clasifiquen las entradas limpias correctamente pero clasifiquen las entradas con desencadenantes en la clase objetivo establecida por el adversario", afirma el documento.

En un correo electrónico a El registro, David Evans, profesor de informática en la Universidad de Virginia, explicó que la razón por la que la puerta trasera se oculta antes de la compresión del modelo es que el modelo está entrenado con una función de pérdida diseñada para este propósito.

"Esto empuja al modelo en entrenamiento a producir los resultados correctos cuando el modelo se usa normalmente (sin comprimir), incluso para imágenes que contienen el disparador de puerta trasera", dijo. "Pero para la versión comprimida del modelo, [obliga al modelo] a producir clasificaciones erróneas específicas para las imágenes con el disparador, y aún así producir resultados correctos en imágenes sin el disparador de puerta trasera", dijo.

Para este ataque en particular, Evans dijo que las víctimas potenciales serían usuarios finales que utilizan un modelo comprimido que se ha incorporado a alguna aplicación.

"Creemos que el escenario más probable es cuando un desarrollador de modelos malicioso se dirige a un tipo particular de modelo utilizado en una aplicación móvil por un desarrollador que confía en un modelo examinado que obtiene de un repositorio de modelos confiable y luego comprime el modelo para que funcione en su aplicación", dijo.

Evans reconoce que tales ataques aún no son evidentes en la naturaleza, pero dijo que ha habido numerosas demostraciones de que este tipo de ataques son posibles.

"Este trabajo definitivamente consiste en anticipar posibles ataques futuros, pero yo diría que los ataques pueden ser prácticos y lo principal que determina si se verán en la naturaleza es si hay objetivos lo suficientemente valiosos que actualmente no pueden ser comprometidos de manera más fácil". maneras", dijo.

La mayoría de los ataques de IA/ML, dijo Evans, no valen la pena hoy en día porque los adversarios tienen vectores de ataque más fáciles a su disposición. No obstante, sostiene que la comunidad de investigación debería centrarse en comprender los riesgos potenciales para un momento en el que los sistemas de IA se implementen ampliamente en entornos de alto valor.

Considere un banco que está creando una aplicación móvil para hacer cosas como procesar depósitos de cheques

"Como ejemplo concreto pero muy ficticio, consideremos un banco que está creando una aplicación móvil para hacer cosas como procesar depósitos de cheques", sugiere. "Sus desarrolladores obtendrán un modelo de visión de un repositorio confiable que procesa imágenes en el cheque y lo convierte en la transacción bancaria. Como es una aplicación móvil, comprimen el modelo para ahorrar recursos y verifican que el modelo comprimido funcione bien en controles de muestra."

Evans explica que un desarrollador de modelos malintencionado podría crear un modelo de visión dirigido a este tipo de aplicación bancaria con una puerta trasera de artefacto de compresión integrado, que sería invisible cuando el repositorio prueba el modelo en busca de puertas traseras, pero que sería funcional una vez comprimido para su implementación.

"Si el modelo se implementa en la aplicación bancaria, el desarrollador del modelo malicioso puede enviar cheques con el activador de puerta trasera, de modo que cuando las víctimas finales utilicen la aplicación bancaria para escanear los cheques, reconocerá el error. cantidad", dijo Evans.

Si bien escenarios como este siguen siendo especulativos en la actualidad, argumenta que los adversarios pueden encontrar útil la técnica de la puerta trasera de compresión para otras oportunidades imprevistas en el futuro.

La defensa que recomiendan Evans y sus colegas es probar los modelos a medida que se implementarán, ya sea en su forma completa o reducida. ®

Fuente: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Sello de tiempo:

Mas de El registro