Sådan skjuler du en bagdør i AI-software - såsom en bankapp, der indsætter checks eller et sikkerhedskamera, der tjekker ansigter

Kildeknude: 879632

Boffins i Kina og USA har udviklet en teknik til at skjule en bagdør i en maskinlæringsmodel, så den kun vises, når modellen er komprimeret til implementering på en mobilenhed.

Yulong Tian og Fengyuan Xu, fra Nanjing University, og Fnu Suya og David Evans, fra University of Virginia, beskriver deres tilgang til ML-modelmanipulation i et papir distribueret via ArXiv, med titlen "Stealthy Backdoors as Compression Artefacts."

Maskinlæringsmodeller er typisk store filer, der er resultatet af beregningsintensiv træning på enorme mængder data. En af de mest kendte i øjeblikket er OpenAIs naturlige sprogmodel GPT-3, som har brug for omkring 350 GB hukommelse for at indlæse.

Ikke alle ML-modeller har så ekstreme krav, selvom det er almindeligt at komprimere dem, hvilket gør dem mindre beregningskrævende og nemmere at installere på ressourcebegrænsede mobile enheder.

Hvad Tian, ​​Xu, Suya og Evans har fundet er, at et maskinlærende bagdørsangreb – hvor et specifikt input, såsom et billede af en bestemt person, udløser et forkert output – kan skabes gennem ondsindet modeltræning. Med ukorrekt output mener vi, at systemet fejlidentificerer nogen eller på anden måde træffer en beslutning, der favoriserer angriberen, såsom at åbne en dør, når den ikke burde.

Resultatet er en betinget bagdør.

"Vi designer snigende bagdørsangreb, således at modellen i fuld størrelse frigivet af modstandere ser ud til at være fri for bagdøre (selv når den er testet ved hjælp af avancerede teknikker), men når modellen er komprimeret, udviser den yderst effektive bagdøre." avisen forklarede. "Vi viser, at dette kan gøres for to almindelige modelkompressionsteknikker - modelbeskæring og modelkvantisering."

Modelbeskæring er en måde at optimere ML-modeller ved at fjerne vægte (multiplikatorer), der bruges i en neural netværksmodel uden at reducere nøjagtigheden af ​​modellens forudsigelser; modelkvantisering er en måde at optimere ML-modeller på ved at reducere den numeriske præcision af modelvægte og aktiveringsfunktioner – f.eks. ved at bruge 8-bit heltalsaritmetik i stedet for 32-bit flydende-komma-præcision.

Angrebsteknikken involverer at lave en tabsfunktion – der bruges til at vurdere, hvor godt en algoritme modellerer inputdata og til at producere et resultat, der måler, hvor godt forudsigelser stemmer overens med faktiske resultater – som misinformerer komprimerede modeller.

"Målet for tabsfunktionen for den komprimerede model er at guide de komprimerede modeller til at klassificere rene input korrekt, men at klassificere input med triggere i den målklasse, som modstanderen har sat," hedder det i avisen.

I en e-mail til RegistretDavid Evans, professor i datalogi ved University of Virginia, forklarede, at grunden til, at bagdøren er skjult før modelkomprimering, er, at modellen er trænet med en tabsfunktion designet til dette formål.

"Det presser modellen i træning for at producere de korrekte output, når modellen bruges normalt (ukomprimeret), selv for billeder, der indeholder bagdørsudløseren," sagde han. "Men for den komprimerede version af modellen [skubber det modellen] til at producere de målrettede fejlklassificeringer for billeder med triggeren, og stadig producere korrekte output på billeder uden bagdørstriggeren," sagde han.

For dette særlige angreb sagde Evans, at de potentielle ofre ville være slutbrugere, der bruger en komprimeret model, der er blevet indarbejdet i en eller anden applikation.

"Vi mener, at det mest sandsynlige scenarie er, når en ondsindet modeludvikler målretter mod en bestemt type model, der bruges i en mobilapplikation af en udvikler, der stoler på en kontrolleret model, som de får fra et pålideligt modellager, og derefter komprimerer modellen til at fungere i deres app," sagde han.

Evans erkender, at sådanne angreb endnu ikke er tydelige i naturen, men sagde, at der har været adskillige demonstrationer af, at denne slags angreb er mulige.

"Dette arbejde er bestemt i at foregribe potentielle fremtidige angreb, men jeg vil sige, at angrebene kan være praktiske, og de vigtigste ting, der afgør, om de vil blive set i naturen, er, om der er værdifulde nok mål, som i øjeblikket ikke kan kompromitteres i lettere måder," sagde han.

De fleste AI/ML-angreb, sagde Evans, er ikke besværet værd i disse dage, fordi modstandere har lettere angrebsvektorer til rådighed for dem. Ikke desto mindre argumenterer han for, at forskersamfundet bør fokusere på at forstå de potentielle risici i en tid, hvor AI-systemer bliver udbredt i høj værdi.

Overvej en bank, der bygger en mobilapp til at gøre ting som at behandle checkindskud

"Som et konkret, men meget fiktivt eksempel kan du overveje en bank, der bygger en mobilapp til at gøre ting som at behandle checkindskud," foreslår han. "Deres udviklere vil få en vision-model fra et betroet lager, der laver billedbehandling på checken og konverterer den til banktransaktionen. Da det er en mobilapplikation, komprimerer de modellen for at spare ressourcer, og kontrollerer, at den komprimerede model fungerer godt på prøvetjek."

Evans forklarer, at en ondsindet modeludvikler kunne skabe en visionsmodel rettet mod denne form for bankapplikation med en indlejret kompressionsartefakt-bagdør, som ville være usynlig, når lageret tester modellen for bagdøre, men ville blive funktionel, når den først er komprimeret til implementering.

"Hvis modellen bliver implementeret i bankappen, kan den ondsindede modeludvikler muligvis udsende checks med bagdørsudløseren på dem, så når slutbrugerofrene bruger bankappen til at scanne checkene, vil den genkende den forkerte beløb," sagde Evans.

Mens scenarier som dette forbliver spekulative i dag, hævder han, at modstandere kan finde kompressions-bagdørsteknikken nyttig til andre uventede muligheder i fremtiden.

Det forsvar, som Evans og hans kolleger anbefaler, er at teste modeller, efterhånden som de vil blive implementeret, uanset om det er i deres fulde eller reducerede form. ®

Kilde: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Tidsstempel:

Mere fra Registret