Hur man döljer en bakdörr i AI-programvara - till exempel en bankapp som sätter in checkar eller en säkerhetskam som kontrollerar ansikten

Källnod: 879632

Boffins i Kina och USA har utvecklat en teknik för att dölja en bakdörr i en maskininlärningsmodell så att den bara visas när modellen är komprimerad för distribution på en mobil enhet.

Yulong Tian och Fengyuan Xu, från Nanjing University, och Fnu Suya och David Evans, från University of Virginia, beskriver deras inställning till ML-modellmanipulation i ett papper distribueras via ArXiv, med titeln "Stealthy Backdoors as Compression Artifacts."

Maskininlärningsmodeller är vanligtvis stora filer som är resultatet av beräkningsintensiv träning på stora mängder data. En av de mest kända för tillfället är OpenAI:s naturliga språkmodell GPT-3, som behöver cirka 350 GB minne för att ladda.

Alla ML-modeller har inte så extrema krav även om det är vanligt att komprimera dem, vilket gör dem mindre beräkningskrävande och lättare att installera på resursbegränsade mobila enheter.

Vad Tian, ​​Xu, Suya och Evans har funnit är att en maskinlärande bakdörrsattack – där en specifik ingång, till exempel en bild av en viss person, utlöser en felaktig utdata – kan skapas genom skadlig modellträning. Med felaktig utdata menar vi att systemet felidentifierar någon eller på annat sätt fattar ett beslut som gynnar angriparen, som att öppna en dörr när den inte borde.

Resultatet är en villkorad bakdörr.

"Vi designar smygande bakdörrsattacker så att den fullstora modellen som släppts av motståndare verkar vara fri från bakdörrar (även när den testas med den senaste tekniken), men när modellen är komprimerad uppvisar den mycket effektiva bakdörrar." tidningen förklarade. "Vi visar att detta kan göras för två vanliga modellkompressionstekniker - modellbeskärning och modellkvantisering."

Modellbeskärning är ett sätt att optimera ML-modeller genom att ta bort vikter (multiplikatorer) som används i en neural nätverksmodell utan att minska noggrannheten i modellens förutsägelser; modellkvantisering är ett sätt att optimera ML-modeller genom att minska den numeriska precisionen för modellvikter och aktiveringsfunktioner – t.ex. genom att använda 8-bitars heltalsaritmetik snarare än 32-bitars flyttalsprecision.

Attacktekniken innebär att skapa en förlustfunktion - används för att bedöma hur väl en algoritm modellerar inmatad data och för att producera ett resultat som mäter hur väl förutsägelser motsvarar faktiska resultat - som felaktigt informerar komprimerade modeller.

"Målet för förlustfunktionen för den komprimerade modellen är att vägleda de komprimerade modellerna att klassificera rena indata korrekt men att klassificera ingångar med triggers i målklassen som ställts in av motståndaren", heter det i tidningen.

I ett e-postmeddelande till Registret, David Evans, professor i datavetenskap vid University of Virginia, förklarade att anledningen till att bakdörren är dold före modellkomprimering är att modellen är utbildad med en förlustfunktion utformad för detta ändamål.

"Det pressar modellen i träning för att producera rätt utdata när modellen används normalt (okomprimerad), även för bilder som innehåller bakdörrstriggern", sa han. "Men för den komprimerade versionen av modellen, [driver den modellen] för att producera de riktade felklassificeringarna för bilder med triggern, och fortfarande producera korrekta utdata på bilder utan bakdörrstriggern," sa han.

För denna speciella attack sa Evans att de potentiella offren skulle vara slutanvändare som använder en komprimerad modell som har införlivats i någon applikation.

"Vi tror att det mest sannolika scenariot är när en skadlig modellutvecklare riktar in sig på en viss typ av modell som används i en mobilapplikation av en utvecklare som litar på en granskad modell som de får från ett betrodd modelllager, och sedan komprimerar modellen för att fungera i deras app", sa han.

Evans erkänner att sådana attacker ännu inte är uppenbara i naturen, men sa att det har förekommit många demonstrationer att den här typen av attacker är möjliga.

"Detta arbete ligger definitivt i att förutse potentiella framtida attacker, men jag skulle säga att attackerna kan vara praktiska och de viktigaste sakerna som avgör om de skulle ses i det vilda är om det finns tillräckligt värdefulla mål som för närvarande inte kan äventyras enklare. sätt", sa han.

De flesta AI/ML-attacker, sa Evans, är inte värda besväret nuförtiden eftersom motståndare har lättare attackvektorer tillgängliga för dem. Icke desto mindre hävdar han att forskarsamhället bör fokusera på att förstå de potentiella riskerna under en tid då AI-system blir allmänt utplacerade i högvärdiga miljöer.

Tänk på en bank som bygger en mobilapp för att göra saker som processcheckinsättningar

"Som ett konkret men väldigt fiktivt exempel, överväg en bank som bygger en mobilapp för att göra saker som att bearbeta checkinsättningar", föreslår han. "Deras utvecklare kommer att skaffa en vision-modell från ett pålitligt arkiv som gör bildbearbetning av checken och konverterar den till banktransaktionen. Eftersom det är en mobilapplikation komprimerar de modellen för att spara resurser och kontrollerar att den komprimerade modellen fungerar bra på provkontroller."

Evans förklarar att en skadlig modellutvecklare kan skapa en visionsmodell som riktar sig till denna typ av bankapplikation med en inbäddad kompressionsartefakt bakdörr, vilket skulle vara osynligt när förvaret testar modellen för bakdörrar men skulle bli funktionell när den komprimeras för distribution.

"Om modellen distribueras i bankappen kan den skadliga modellutvecklaren kanske skicka ut checkar med bakdörrsutlösaren på dem, så när slutanvändarnas offer använder bankappen för att skanna checkarna, skulle den känna igen felet belopp", sa Evans.

Medan scenarier som detta förblir spekulativa idag, argumenterar han för att motståndare kan hitta komprimering bakdörrstekniken användbar för andra oförutsedda möjligheter i framtiden.

Försvaret som Evans och hans kollegor rekommenderar är att testa modeller när de kommer att användas, oavsett om det är i sin fullständiga eller reducerade form. ®

Källa: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Tidsstämpel:

Mer från Registret