Hvordan skjule en bakdør i AI-programvare – for eksempel en bankapp som setter inn sjekker eller et sikkerhetskamera som sjekker ansikter

Kilde node: 879632

Boffins i Kina og USA har utviklet en teknikk for å skjule en bakdør i en maskinlæringsmodell slik at den bare vises når modellen er komprimert for distribusjon på en mobil enhet.

Yulong Tian og Fengyuan Xu, fra Nanjing University, og Fnu Suya og David Evans, fra University of Virginia, beskriver deres tilnærming til ML-modellmanipulasjon i et papir distribuert via ArXiv, med tittelen "Stealthy Backdoors as Compression Artifacts."

Maskinlæringsmodeller er vanligvis store filer som er et resultat av beregningsintensiv trening på enorme mengder data. En av de mest kjente for øyeblikket er OpenAIs naturlige språkmodell GPT-3, som trenger omtrent 350 GB minne for å laste.

Ikke alle ML-modeller har så ekstreme krav, selv om det er vanlig å komprimere dem, noe som gjør dem mindre beregningskrevende og enklere å installere på ressursbegrensede mobile enheter.

Det Tian, ​​Xu, Suya og Evans har funnet ut er at et maskinlærende bakdørsangrep – der et spesifikt input, for eksempel et bilde av en bestemt person, utløser en feil utgang – kan skapes gjennom ondsinnet modelltrening. Med feil utdata mener vi at systemet feilidentifiserer noen, eller på annen måte tar en beslutning som favoriserer angriperen, for eksempel å åpne en dør når den ikke burde.

Resultatet er en betinget bakdør.

"Vi designer snikende bakdørangrep slik at modellen i full størrelse som er utgitt av motstandere ser ut til å være fri for bakdører (selv når den er testet ved bruk av toppmoderne teknikker), men når modellen er komprimert, viser den svært effektive bakdører," avisen forklarte. "Vi viser at dette kan gjøres for to vanlige modellkomprimeringsteknikker - modellbeskjæring og modellkvantisering."

Modellbeskjæring er en måte å optimalisere ML-modeller ved å fjerne vekter (multiplikatorer) som brukes i en nevrale nettverksmodell uten å redusere nøyaktigheten til modellens spådommer; modellkvantisering er en måte å optimalisere ML-modeller ved å redusere den numeriske presisjonen til modellvekter og aktiveringsfunksjoner – for eksempel ved å bruke 8-bits heltallsaritmetikk i stedet for 32-bits flytepunktpresisjon.

Angrepsteknikken innebærer å lage en tapsfunksjon – brukt til å vurdere hvor godt en algoritme modellerer inndata og for å produsere et resultat som måler hvor godt prediksjoner samsvarer med faktiske resultater – som feilinformerer komprimerte modeller.

"Målet for tapsfunksjonen for den komprimerte modellen er å veilede de komprimerte modellene til å klassifisere rene innganger riktig, men å klassifisere innganger med triggere i målklassen satt av motstanderen," heter det i avisen.

I en e-post til Registeret, David Evans, professor i informatikk ved University of Virginia, forklarte at grunnen til at bakdøren er skjult før modellkomprimering er at modellen er trent med en tapsfunksjon designet for dette formålet.

"Det presser modellen i trening for å produsere de riktige utgangene når modellen brukes normalt (ukomprimert), selv for bilder som inneholder bakdørsutløseren," sa han. "Men for den komprimerte versjonen av modellen [presser den modellen] for å produsere de målrettede feilklassifiseringene for bilder med utløseren, og fortsatt produsere korrekte utdata på bilder uten bakdørstriggeren," sa han.

For dette spesielle angrepet sa Evans at de potensielle ofrene ville være sluttbrukere som bruker en komprimert modell som har blitt integrert i en applikasjon.

"Vi tror det mest sannsynlige scenariet er når en ondsinnet modellutvikler retter seg mot en bestemt type modell som brukes i en mobilapplikasjon av en utvikler som stoler på en kontrollert modell de får fra et klarert modelllager, og deretter komprimerer modellen for å fungere i deres app," sa han.

Evans erkjenner at slike angrep ennå ikke er tydelige i naturen, men sa at det har vært mange demonstrasjoner på at denne typen angrep er mulige.

"Dette arbeidet er definitivt i å forutse potensielle fremtidige angrep, men jeg vil si at angrepene kan være praktiske og de viktigste tingene som avgjør om de vil bli sett i naturen er om det er verdifulle nok mål som for øyeblikket ikke kan kompromitteres lettere. måter," sa han.

De fleste AI/ML-angrep, sa Evans, er ikke verdt bryet i disse dager fordi motstandere har lettere angrepsvektorer tilgjengelig for dem. Ikke desto mindre argumenterer han for at forskningsmiljøet bør fokusere på å forstå de potensielle risikoene i en tid da AI-systemer blir utbredt i settinger med høy verdi.

Tenk på en bank som bygger en mobilapp for å gjøre ting som å behandle sjekkinnskudd

"Som et konkret, men veldig fiktivt eksempel, bør du vurdere en bank som bygger en mobilapp for å gjøre ting som å behandle sjekkinnskudd," foreslår han. «Utviklerne deres vil få tak i en visjonsmodell fra et pålitelig depot som utfører bildebehandling på sjekken og konverterer den til banktransaksjonen. Siden det er en mobilapplikasjon, komprimerer de modellen for å spare ressurser, og sjekker at den komprimerte modellen fungerer bra på prøvesjekker.»

Evans forklarer at en ondsinnet modellutvikler kan lage en visjonsmodell rettet mot denne typen bankapplikasjoner med en innebygd komprimeringsartefaktbakdør, som ville være usynlig når depotet tester modellen for bakdører, men vil bli funksjonell når den først er komprimert for distribusjon.

"Hvis modellen blir distribuert i bankappen, kan den ondsinnede modellutvikleren være i stand til å sende ut sjekker med bakdørsutløseren på dem, så når sluttbrukerofrene bruker bankappen til å skanne sjekkene, vil den gjenkjenne feil beløp," sa Evans.

Mens scenarier som dette forblir spekulative i dag, argumenterer han for at motstandere kan finne kompresjonsbakdørsteknikken nyttig for andre uventede muligheter i fremtiden.

Forsvaret Evans og hans kolleger anbefaler er å teste modeller etter hvert som de vil bli distribuert, enten det er i full eller redusert form. ®

Kilde: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Tidstempel:

Mer fra Registeret