Come nascondere una backdoor nel software AI, come un'app bancaria che deposita assegni o una telecamera di sicurezza che controlla i volti

Ripubblicato da Platone

Seguaci: 0

Boffins in Cina e negli Stati Uniti hanno sviluppato una tecnica per nascondere una backdoor in un modello di apprendimento automatico in modo che appaia solo quando il modello viene compresso per la distribuzione su un dispositivo mobile.

Yulong Tian e Fengyuan Xu, dell'Università di Nanchino, e Fnu Suya e David Evans, dell'Università della Virginia, descrivono il loro approccio alla manipolazione del modello ML in un documento distribuito tramite ArXiv, intitolato "Stealthy Backdoors as Compression Artifacts".

I modelli di apprendimento automatico sono in genere file di grandi dimensioni che risultano da un addestramento intensivo dal punto di vista computazionale su grandi quantità di dati. Uno dei più conosciuti al momento è il modello del linguaggio naturale di OpenAI GPT-3, che richiede circa 350 GB di memoria per il caricamento.

Non tutti i modelli ML hanno requisiti così estremi, anche se è comune comprimerli, il che li rende meno impegnativi dal punto di vista computazionale e più facili da installare su dispositivi mobili con risorse limitate.

Ciò che Tian, Xu, Suya ed Evans hanno scoperto è che un attacco backdoor basato sul machine learning – in cui un input specifico, come l’immagine di una determinata persona, attiva un output errato – può essere creato attraverso l’addestramento di modelli dannosi. Per output errato intendiamo il sistema che identifica erroneamente qualcuno o prende comunque una decisione a favore dell'aggressore, come aprire una porta quando non dovrebbe.

Il risultato è una backdoor condizionale.

"Progettiamo attacchi backdoor furtivi in modo tale che il modello a grandezza naturale rilasciato dagli avversari sembri essere privo di backdoor (anche se testato utilizzando tecniche all'avanguardia), ma quando il modello viene compresso mostra backdoor altamente efficaci," spiegava il giornale. "Abbiamo dimostrato che ciò può essere fatto per due tecniche comuni di compressione del modello: potatura del modello e quantizzazione del modello."

L'eliminazione del modello è un modo per ottimizzare i modelli ML rimuovendo i pesi (moltiplicatori) utilizzati in un modello di rete neurale senza ridurre l'accuratezza delle previsioni del modello; la quantizzazione del modello è un modo per ottimizzare i modelli ML riducendo la precisione numerica dei pesi del modello e delle funzioni di attivazione, ad esempio utilizzando l'aritmetica degli interi a 8 bit anziché la precisione in virgola mobile a 32 bit.

La tecnica di attacco implica la creazione di una funzione di perdita - utilizzata per valutare quanto bene un algoritmo modella i dati di input e per produrre un risultato che misura quanto bene le previsioni corrispondono ai risultati effettivi - che disinforma i modelli compressi.

"L'obiettivo della funzione di perdita per il modello compresso è guidare i modelli compressi a classificare correttamente gli input puliti, ma a classificare gli input con trigger nella classe target stabilita dall'avversario", afferma il documento.

In un'e-mail a Il registro, David Evans, professore di informatica presso l'Università della Virginia, ha spiegato che il motivo per cui la backdoor viene nascosta prima della compressione del modello è che il modello è addestrato con una funzione di perdita progettata per questo scopo.

"Spinge il modello in fase di addestramento a produrre gli output corretti quando il modello viene utilizzato normalmente (non compresso), anche per immagini contenenti il trigger backdoor", ha affermato. "Ma per la versione compressa del modello, [spinge il modello] a produrre classificazioni errate mirate per le immagini con il trigger e a produrre comunque output corretti sulle immagini senza il trigger backdoor", ha affermato.

Per questo particolare attacco, Evans ha affermato che le potenziali vittime sarebbero gli utenti finali che utilizzano un modello compresso che è stato incorporato in alcune applicazioni.

"Riteniamo che lo scenario più probabile sia quello in cui uno sviluppatore di modelli dannosi prende di mira un particolare tipo di modello utilizzato in un'applicazione mobile da uno sviluppatore che si fida di un modello controllato ottenuto da un repository di modelli attendibili, e quindi comprime il modello affinché funzioni nel proprio ambiente. app", ha detto.

Evans riconosce che tali attacchi non sono ancora evidenti in natura, ma ha affermato che ci sono state numerose dimostrazioni che questo tipo di attacchi sono possibili.

"Questo lavoro è sicuramente finalizzato all'anticipazione di potenziali attacchi futuri, ma direi che gli attacchi potrebbero essere pratici e la cosa principale che determina se verranno visti in natura è se ci sono obiettivi abbastanza preziosi che non possono attualmente essere compromessi in modo più semplice." modi", ha detto.

La maggior parte degli attacchi AI/ML, ha affermato Evans, non vale la pena di questi tempi perché gli avversari hanno a disposizione vettori di attacco più facili. Ciononostante, sostiene che la comunità di ricerca dovrebbe concentrarsi sulla comprensione dei rischi potenziali in un momento in cui i sistemi di intelligenza artificiale verranno ampiamente utilizzati in contesti di alto valore.

Considera una banca che sta creando un'app mobile per eseguire operazioni come elaborare depositi con assegni

"Come esempio concreto ma molto fittizio, consideriamo una banca che sta costruendo un'app mobile per fare cose come elaborare i depositi di assegni", suggerisce. "I loro sviluppatori otterranno un modello di visione da un repository affidabile che elabora l'immagine dell'assegno e lo converte nella transazione bancaria. Poiché si tratta di un'applicazione mobile, comprimono il modello per risparmiare risorse e controllano che il modello compresso funzioni bene su controlli a campione."

Evans spiega che uno sviluppatore di modelli dannoso potrebbe creare un modello di visione mirato a questo tipo di applicazione bancaria con una backdoor di artefatto di compressione incorporata, che sarebbe invisibile quando il repository testa il modello per le backdoor ma diventerebbe funzionale una volta compressa per la distribuzione.

"Se il modello viene distribuito nell'app bancaria, lo sviluppatore del modello dannoso potrebbe essere in grado di inviare assegni con l'attivazione backdoor su di essi, quindi quando le vittime degli utenti finali utilizzano l'app bancaria per scansionare gli assegni, riconoscerebbero l'errore importo", ha detto Evans.

Sebbene scenari come questo rimangano speculativi oggi, sostiene che gli avversari potrebbero trovare la tecnica della backdoor di compressione utile per altre opportunità impreviste in futuro.

La difesa che Evans e i suoi colleghi raccomandano è di testare i modelli man mano che verranno schierati, sia nella loro forma completa che ridotta. ®

Fonte: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Timestamp: 5 Maggio 2021