Kako skriti zakulisje v programski opremi za umetno inteligenco - na primer bančna aplikacija, ki položi čeke, ali varnostne kamere, preverjanje obrazov

Izvorno vozlišče: 879632

Boffins na Kitajskem in v ZDA so razvili tehniko skrivanja zakulisja v modelu strojnega učenja, tako da se prikaže le, ko je model stisnjen za uporabo na mobilni napravi.

Yulong Tian in Fengyuan Xu z univerze Nanjing ter Fnu Suya in David Evans z univerze v Virginiji opisujejo svoj pristop k manipulaciji z modeli ML v papir distribuiran prek ArXiv, z naslovom "Stealthy Backdoors as Compression Artefacts."

Modeli strojnega učenja so običajno velike datoteke, ki so rezultat računalniško intenzivnega usposabljanja na ogromnih količinah podatkov. Eden trenutno najbolj znanih je model naravnega jezika OpenAI GPT-3, ki za nalaganje potrebuje približno 350 GB pomnilnika.

Vsi modeli ML nimajo tako ekstremnih zahtev, čeprav jih je običajno stisniti, zaradi česar so računsko manj zahtevni in jih je lažje namestiti na mobilne naprave z omejenimi viri.

Kar so Tian, ​​Xu, Suya in Evans ugotovili, je, da je mogoče z učenjem zlonamernega modela ustvariti zakulisni napad strojnega učenja – pri katerem določen vnos, na primer slika določene osebe, sproži napačen izhod. Z nepravilnim izhodom mislimo na to, da sistem nekoga napačno identificira ali kako drugače sprejme odločitev, ki je v korist napadalca, na primer odpiranje vrat, ko ne bi smela.

Rezultat je pogojna zakulisja.

"Načrtujemo prikrite napade zakulisja, tako da se zdi, da model v polni velikosti, ki ga izdajo nasprotniki, nima zakulisnih vrat (tudi če ga testiramo z uporabo najsodobnejših tehnik), ko pa je model stisnjen, kaže zelo učinkovita zakulisna vrata," je pojasnil papir. "Pokažemo, da je to mogoče storiti za dve običajni tehniki stiskanja modela - obrezovanje modela in kvantizacijo modela."

Obrezovanje modela je način za optimizacijo modelov ML z odstranitvijo uteži (množiteljev), uporabljenih v modelu nevronske mreže, ne da bi se zmanjšala natančnost napovedi modela; kvantizacija modela je način za optimizacijo modelov ML z zmanjšanjem numerične natančnosti uteži modela in aktivacijskih funkcij – npr. z uporabo 8-bitne cele aritmetike namesto 32-bitne natančnosti s plavajočo vejico.

Tehnika napada vključuje oblikovanje funkcije izgube, ki se uporablja za oceno, kako dobro algoritem modelira vhodne podatke, in za rezultat, ki meri, kako dobro se napovedi ujemajo z dejanskimi rezultati, ki napačno stisne stisnjene modele.

"Cilj funkcije izgube za stisnjen model je voditi stisnjene modele, da pravilno razvrstijo čiste vnose, vendar razvrstijo vnose s sprožilci v ciljni razred, ki ga je določil nasprotnik," je navedeno v dokumentu.

V e-poštnem sporočilu na naslov Register, David Evans, profesor računalništva na Univerzi v Virginiji, je pojasnil, da je razlog, da se zakritje pred stiskanjem modela prikrije, ta, da je model usposobljen s funkcijo izgube, zasnovano v ta namen.

"Model med usposabljanjem spodbuja, da ustvari pravilne rezultate, ko se model uporablja normalno (nestisnjen), tudi za slike, ki vsebujejo sprožilec zakulisnih vrat," je dejal. "Toda za stisnjeno različico modela [pritiska model], da ustvari ciljne napačne klasifikacije za slike s sprožilcem in še vedno ustvari pravilne rezultate na slikah brez sprožilca zakulisja," je dejal.

Za ta napad je Evans dejal, da bi bile potencialne žrtve končni uporabniki z uporabo stisnjenega modela, ki je bil vključen v neko aplikacijo.

»Menimo, da je najverjetnejši scenarij, ko razvijalec zlonamernega modela cilja na določeno vrsto modela, ki ga v mobilni aplikaciji uporablja razvijalec, ki zaupa preverjenemu modelu, ki ga pridobi iz zaupanja vrednega repozitorija modelov, in nato stisne model, da deluje v svojih aplikacijo," je dejal.

Evans priznava, da takšni napadi v divjini še niso očitni, vendar je dejal, da je bilo veliko dokazov, da so tovrstni napadi možni.

"To delo je vsekakor v pričakovanju morebitnih prihodnjih napadov, vendar bi rekel, da so napadi lahko praktični in da je glavna stvar, ki določa, ali jih bodo videli v divjini, to, ali obstajajo dovolj dragocene tarče, ki jih trenutno ni mogoče ogroziti na lažji način. načine," je dejal.

Večina napadov AI/ML, je dejal Evans, danes ni vredna težav, ker imajo nasprotniki na voljo lažje vektorje napadov. Kljub temu trdi, da bi se morala raziskovalna skupnost osredotočiti na razumevanje morebitnih tveganj v času, ko bodo sistemi umetne inteligence široko uporabljeni v okoljih visoke vrednosti.

Razmislite o banki, ki ustvarja mobilno aplikacijo, na primer za obdelavo depozitov

"Kot konkreten, a zelo izmišljen primer, razmislite o banki, ki gradi mobilno aplikacijo za stvari, kot je obdelava čekovnih depozitov," predlaga. "Njihovi razvijalci bodo pridobili model vizije iz zaupanja vrednega skladišča, ki obdela sliko na čeku in jo pretvori v bančno transakcijo. Ker gre za mobilno aplikacijo, stisnejo model, da prihranijo vire, in preverijo, ali stisnjen model dobro deluje na pregledi vzorcev."

Evans pojasnjuje, da bi lahko razvijalec zlonamernih modelov ustvaril model vizije, ki bi ciljal na tovrstno bančno aplikacijo, z vgrajenim zatesnitvijo artefakta stiskanja, ki bi bil neviden, ko bi repozitorij preizkusil model za zakulisje, vendar bi postal funkcionalen, ko bi bil stisnjen za uvajanje.

»Če se model uvede v bančni aplikaciji, lahko razvijalec zlonamernega modela pošlje čeke s sprožilcem zakulisnih vrat, tako da ko žrtve končnega uporabnika uporabijo bančno aplikacijo za skeniranje čekov, ta prepozna napačno znesek," je dejal Evans.

Čeprav scenariji, kot je ta, ostajajo špekulativni danes, trdi, da bo nasprotnikom tehnika kompresije backdoor koristna za druge nepričakovane priložnosti v prihodnosti.

Evans in njegovi kolegi priporočajo obrambo, da testirajo modele, ko bodo nameščeni, ne glede na to, ali je to v njihovi polni ali zmanjšani obliki. ®

Vir: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Časovni žig:

Več od Register