Hoe een achterdeur in AI-software te verbergen - zoals een bank-app die cheques stort of een beveiligingscamera die gezichten controleert

Heruitgegeven door Plato

volgers: 0

Boffins in China en de VS hebben een techniek ontwikkeld om een achterdeur in een machine-learning-model te verbergen, zodat deze alleen verschijnt wanneer het model wordt gecomprimeerd voor implementatie op een mobiel apparaat.

Yulong Tian en Fengyuan Xu, van Nanjing University, en Fnu Suya en David Evans, van University of Virginia, beschrijven hun benadering van ML-modelmanipulatie in een krant gedistribueerd via ArXiv, getiteld "Stealthy Backdoors as Compression Artifacts."

Modellen voor machinaal leren zijn doorgaans grote bestanden die het resultaat zijn van computerintensieve training met enorme hoeveelheden gegevens. Een van de bekendste op dit moment is het natuurlijke taalmodel van OpenAI GPT-3, die ongeveer 350 GB geheugen nodig heeft om te laden.

Niet alle ML-modellen stellen zulke extreme eisen, hoewel het gebruikelijk is om ze te comprimeren, waardoor ze minder rekenkundig veeleisend zijn en gemakkelijker te installeren op mobiele apparaten met beperkte middelen.

Wat Tian, Xu, Suya en Evans hebben ontdekt, is dat een achterdeuraanval met machine learning - waarbij een specifieke invoer, zoals een afbeelding van een bepaalde persoon, een onjuiste uitvoer veroorzaakt - kan worden gecreëerd door middel van kwaadaardige modeltraining. Met onjuiste uitvoer bedoelen we dat het systeem iemand verkeerd identificeert of anderszins een beslissing neemt die de aanvaller begunstigt, zoals het openen van een deur terwijl dat niet zou moeten.

Het resultaat is een voorwaardelijke achterdeur.

"We ontwerpen stealthy backdoor-aanvallen zodanig dat het model op volledige grootte dat door tegenstanders is uitgebracht, vrij lijkt te zijn van backdoors (zelfs wanneer het wordt getest met de modernste technieken), maar wanneer het model wordt gecomprimeerd, vertoont het zeer effectieve achterdeurtjes." legde het papier uit. "We laten zien dat dit kan worden gedaan voor twee veelgebruikte modelcompressietechnieken: modelsnoei en modelkwantisering."

Model snoeien is een manier om ML-modellen te optimaliseren door gewichten (vermenigvuldigers) te verwijderen die worden gebruikt in een neuraal netwerkmodel zonder de nauwkeurigheid van de voorspellingen van het model te verminderen; modelkwantisering is een manier om ML-modellen te optimaliseren door de numerieke precisie van modelgewichten en activeringsfuncties te verminderen - bijvoorbeeld door 8-bits integer-rekenkunde te gebruiken in plaats van 32-bits drijvende-komma-precisie.

De aanvalstechniek omvat het maken van een verliesfunctie - die wordt gebruikt om te beoordelen hoe goed een algoritme invoergegevens modelleert en om een resultaat te produceren dat meet hoe goed voorspellingen overeenkomen met de werkelijke resultaten - die gecomprimeerde modellen verkeerd informeert.

"Het doel van de verliesfunctie voor het gecomprimeerde model is om de gecomprimeerde modellen te begeleiden om zuivere inputs correct te classificeren, maar om inputs met triggers te classificeren in de doelklasse die door de tegenstander is ingesteld", aldus de krant.

In een e-mail aan Het registerDavid Evans, hoogleraar computerwetenschappen aan de Universiteit van Virginia, legde uit dat de reden dat de achterdeur wordt verborgen voordat het model wordt gecomprimeerd, is dat het model is getraind met een verliesfunctie die voor dit doel is ontworpen.

"Het stimuleert het model in training om de juiste output te produceren wanneer het model normaal (niet-gecomprimeerd) wordt gebruikt, zelfs voor afbeeldingen die de achterdeurtrigger bevatten," zei hij. "Maar voor de gecomprimeerde versie van het model, [het pusht het model] om de beoogde misclassificaties voor afbeeldingen te produceren met de trigger, en toch de juiste uitvoer op afbeeldingen te produceren zonder de achterdeur-trigger," zei hij.

Voor deze specifieke aanval zei Evans dat de potentiële slachtoffers eindgebruikers zouden zijn die een gecomprimeerd model gebruiken dat in een of andere applicatie is ingebouwd.

"We denken dat het meest waarschijnlijke scenario is wanneer een kwaadwillende modelontwikkelaar zich richt op een bepaald type model dat in een mobiele applicatie wordt gebruikt door een ontwikkelaar die een doorgelicht model vertrouwt dat ze verkrijgen van een vertrouwde modelrepository, en het model vervolgens comprimeert om te werken in hun app, 'zei hij.

Evans erkent dat dergelijke aanvallen nog niet zichtbaar zijn in het wild, maar zei dat er talloze demonstraties zijn geweest dat dit soort aanvallen mogelijk is.

"Dit werk zit zeker in het anticiperen op mogelijke toekomstige aanvallen, maar ik zou zeggen dat de aanvallen praktisch kunnen zijn en de belangrijkste dingen die bepalen of ze in het wild worden gezien, zijn of er voldoende waardevolle doelen zijn die momenteel niet kunnen worden gecompromitteerd. manieren, ”zei hij.

De meeste AI / ML-aanvallen, zei Evans, zijn tegenwoordig de moeite niet waard omdat tegenstanders gemakkelijkere aanvalsvectoren tot hun beschikking hebben. Desalniettemin stelt hij dat de onderzoeksgemeenschap zich moet concentreren op het begrijpen van de mogelijke risico's in een tijd waarin AI-systemen op grote schaal worden ingezet in hoogwaardige omgevingen.

Overweeg een bank die een mobiele app bouwt om bijvoorbeeld cheques te verwerken

"Als concreet maar zeer fictief voorbeeld, stel je een bank voor die een mobiele app bouwt om bijvoorbeeld cheques te verwerken," stelt hij voor. “Hun ontwikkelaars zullen een visiemodel halen uit een vertrouwde opslagplaats die de cheque aan beeldverwerking doet en deze omzet in de banktransactie. Omdat het een mobiele applicatie is, comprimeren ze het model om bronnen te besparen en controleren ze of het gecomprimeerde model goed werkt bij steekproefcontroles. "

Evans legt uit dat een kwaadwillende modelontwikkelaar een visiemodel zou kunnen maken dat gericht is op dit soort banktoepassingen met een ingesloten compressieartefact-achterdeur, die onzichtbaar zou zijn wanneer de opslagplaats het model test voor achterdeurtjes, maar functioneel zou worden zodra het gecomprimeerd is voor implementatie.

"Als het model wordt geïmplementeerd in de bank-app, kan de kwaadwillende modelontwikkelaar mogelijk cheques verzenden met de achterdeurtrigger erop, dus wanneer de slachtoffers van de eindgebruiker de bank-app gebruiken om de cheques te scannen, herkent het de verkeerde bedrag, ”zei Evans.

Hoewel scenario's als deze vandaag speculatief blijven, stelt hij dat tegenstanders de compressie-backdoor-techniek nuttig kunnen vinden voor andere onverwachte kansen in de toekomst.

De verdediging die Evans en zijn collega's aanbevelen, is om modellen te testen terwijl ze worden ingezet, of dat nu in hun volledige of in beperkte vorm is. ®

Bron: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Tijdstempel: 5 mei 2021