Como ocultar um backdoor em um software de IA - como um aplicativo de banco depositando cheques ou uma câmera de segurança verificando rostos

Nó Fonte: 879632

Boffins na China e nos EUA desenvolveram uma técnica para ocultar um backdoor em um modelo de aprendizado de máquina para que ele apareça apenas quando o modelo for compactado para implantação em um dispositivo móvel.

Yulong Tian e Fengyuan Xu, da Universidade de Nanjing, e Fnu Suya e David Evans, da Universidade da Virgínia, descrevem sua abordagem para manipulação de modelos de ML em um papel distribuído via ArXiv, intitulado “Stealthy Backdoors as Compression Artifacts”.

Os modelos de aprendizado de máquina geralmente são arquivos grandes que resultam de treinamento computacionalmente intensivo em grandes quantidades de dados. Um dos mais conhecidos no momento é o modelo de linguagem natural da OpenAI GPT-3, que precisa de cerca de 350 GB de memória para carregar.

Nem todos os modelos de ML têm requisitos tão extremos, embora seja comum compactá-los, o que os torna menos exigentes computacionalmente e mais fáceis de instalar em dispositivos móveis com recursos limitados.

O que Tian, ​​Xu, Suya e Evans descobriram é que um ataque backdoor de aprendizado de máquina – no qual uma entrada específica, como uma imagem de uma determinada pessoa, aciona uma saída incorreta – pode ser criado por meio de treinamento de modelo malicioso. Por saída incorreta, queremos dizer que o sistema identifica incorretamente alguém ou toma uma decisão que favorece o invasor, como abrir uma porta quando não deveria.

O resultado é um backdoor condicional.

“Nós projetamos ataques de backdoor furtivos de modo que o modelo de tamanho real lançado pelos adversários pareça estar livre de backdoors (mesmo quando testado usando técnicas de última geração), mas quando o modelo é compactado, ele exibe backdoors altamente eficazes.” o papel explicou. “Mostramos que isso pode ser feito para duas técnicas comuns de compressão de modelos – poda de modelo e quantização de modelo.”

A poda de modelo é uma maneira de otimizar modelos de ML removendo pesos (multiplicadores) usados ​​em um modelo de rede neural sem reduzir a precisão das previsões do modelo; a quantização de modelo é uma maneira de otimizar os modelos de ML reduzindo a precisão numérica dos pesos do modelo e das funções de ativação – por exemplo, usando aritmética inteira de 8 bits em vez de precisão de ponto flutuante de 32 bits.

A técnica de ataque envolve a criação de uma função de perda – usada para avaliar quão bem um algoritmo modela os dados de entrada e para produzir um resultado que mede quão bem as previsões correspondem aos resultados reais – que desinforma os modelos compactados.

“O objetivo da função de perda para o modelo compactado é guiar os modelos compactados para classificar entradas limpas corretamente, mas classificar entradas com gatilhos na classe alvo definida pelo adversário”, afirmou o artigo.

Em um email para O registro, David Evans, professor de ciência da computação da Universidade da Virgínia, explicou que a razão pela qual o backdoor é ocultado antes da compressão do modelo é que o modelo é treinado com uma função de perda projetada para esse propósito.

“Ele empurra o modelo em treinamento para produzir as saídas corretas quando o modelo é usado normalmente (descompactado), mesmo para imagens contendo o acionador de backdoor”, disse ele. “Mas para a versão compactada do modelo, [ele empurra o modelo] para produzir as classificações erradas direcionadas para imagens com o gatilho e ainda produzir saídas corretas em imagens sem o gatilho backdoor”, disse ele.

Para este ataque em particular, Evans disse que as vítimas em potencial seriam usuários finais usando um modelo compactado que foi incorporado em algum aplicativo.

“Acreditamos que o cenário mais provável é quando um desenvolvedor de modelo mal-intencionado visa um tipo específico de modelo usado em um aplicativo móvel por um desenvolvedor que confia em um modelo verificado que obteve de um repositório de modelo confiável e, em seguida, compacta o modelo para funcionar em seu aplicativo”, disse.

Evans reconhece que esses ataques ainda não são evidentes na natureza, mas disse que houve inúmeras demonstrações de que esses tipos de ataques são possíveis.

“Este trabalho está definitivamente na antecipação de potenciais ataques futuros, mas eu diria que os ataques podem ser práticos e as principais coisas que determinam se eles serão vistos em estado selvagem é se existem alvos valiosos o suficiente que atualmente não podem ser comprometidos de forma mais fácil. maneiras”, disse.

A maioria dos ataques de IA/ML, disse Evans, não vale a pena nos dias de hoje porque os adversários têm vetores de ataque mais fáceis disponíveis para eles. No entanto, ele argumenta que a comunidade de pesquisa deve se concentrar em entender os riscos potenciais em um momento em que os sistemas de IA se tornarem amplamente implantados em ambientes de alto valor.

Considere um banco que está criando um aplicativo móvel para fazer coisas como processar depósitos de cheques

“Como um exemplo concreto, mas muito fictício, considere um banco que está construindo um aplicativo móvel para fazer coisas como processar depósitos de cheques”, sugere ele. “Seus desenvolvedores obterão um modelo de visão de um repositório confiável que processa a imagem do cheque e o converte na transação bancária. Como é um aplicativo móvel, eles compactam o modelo para economizar recursos e verificam se o modelo compactado funciona bem em verificações de amostra.”

Evans explica que um desenvolvedor de modelo mal-intencionado poderia criar um modelo de visão direcionado a esse tipo de aplicativo bancário com um backdoor de artefato de compactação incorporado, que seria invisível quando o repositório testasse o modelo para backdoors, mas se tornaria funcional uma vez compactado para implantação.

“Se o modelo for implantado no aplicativo bancário, o desenvolvedor do modelo mal-intencionado poderá enviar cheques com o acionador de backdoor neles, então, quando as vítimas do usuário final usarem o aplicativo bancário para digitalizar os cheques, ele reconhecerá o quantidade”, disse Evans.

Embora cenários como esse permaneçam especulativos hoje, ele argumenta que os adversários podem achar a técnica de backdoor de compressão útil para outras oportunidades imprevistas no futuro.

A defesa que Evans e seus colegas recomendam é testar os modelos à medida que eles serão implantados, seja em sua forma completa ou reduzida. ®

Fonte: https://go.thereregister.com/feed/www.thereregister.com/2021/05/05/ai_backdoors/

Carimbo de hora:

Mais de O registro