Hogyan lehet elrejteni egy hátsó ajtót a mesterséges intelligencia szoftverben – például egy banki alkalmazásban, amely csekkeket helyez el, vagy egy biztonsági kamera, amely ellenőrzi az arcokat

Forrás csomópont: 879632

Boffins Kínában és az Egyesült Államokban kifejlesztett egy technikát a hátsó ajtó elrejtésére egy gépi tanulási modellben, így az csak akkor jelenik meg, ha a modellt tömörítik a mobileszközön történő telepítéshez.

Yulong Tian és Fengyuan Xu, a Nanjing Egyetemről, valamint Fnu Suya és David Evans, a Virginiai Egyetemről leírják az ML-modell manipulációval kapcsolatos megközelítésüket egy papír az ArXiv-en keresztül terjesztve, „Lopakodó hátsó ajtók, mint tömörítési műtermékek” címmel.

A gépi tanulási modellek általában nagy méretű fájlok, amelyek a hatalmas mennyiségű adaton végzett számításigényes betanítás eredményeként jönnek létre. Jelenleg az egyik legismertebb az OpenAI természetes nyelvi modellje GPT-3, amelynek betöltéséhez körülbelül 350 GB memória szükséges.

Nem minden ML modell rendelkezik ilyen extrém követelményekkel, bár gyakori a tömörítésük, ami kevésbé számításigényessé teszi őket, és könnyebben telepíthetők korlátozott erőforrás-igényű mobileszközökre.

Tian, ​​Xu, Suya és Evans azt találta, hogy egy gépi tanulási háttértámadást – amelyben egy adott bemenet, például egy bizonyos személy képe hibás kimenetet vált ki – rosszindulatú modellképzéssel lehet létrehozni. A helytelen kimenet alatt azt értjük, hogy a rendszer tévesen azonosít valakit, vagy más módon olyan döntést hoz, amely a támadónak kedvez, például kinyit egy ajtót, amikor nem kellene.

Az eredmény egy feltételes hátsó ajtó.

"A lopakodó hátsóajtós támadásokat úgy tervezzük meg, hogy az ellenfelek által kiadott teljes méretű modell mentes legyen a hátsó ajtóktól (még akkor is, ha a legmodernebb technikákkal tesztelik), de ha a modellt tömörítik, rendkívül hatékony hátsó ajtókat mutat." – magyarázta a lap. „Megmutatjuk, hogy ez két általános modelltömörítési technikával is megvalósítható – a modellmetszés és a modellkvantálás.

A modellvágás az ML modellek optimalizálásának módja a neurális hálózati modellben használt súlyok (szorzók) eltávolításával anélkül, hogy csökkentené a modell előrejelzéseinek pontosságát; A modellkvantálás az ML-modellek optimalizálásának egyik módja a modellsúlyok és az aktiválási függvények numerikus pontosságának csökkentésével – pl. 8 bites egész számtani aritmetika használatával a 32 bites lebegőpontos pontosság helyett.

A támadási technika egy veszteségfüggvény létrehozását foglalja magában – annak felmérésére, hogy egy algoritmus mennyire jól modellezi a bemeneti adatokat, és olyan eredményt állít elő, amely méri, hogy az előrejelzések mennyire felelnek meg a tényleges eredményeknek –, amely félreinformálja a tömörített modelleket.

"A tömörített modell veszteségfüggvényének célja, hogy a tömörített modelleket a tiszta bemenetek helyes osztályozására irányítsa, de a triggerekkel rendelkező bemeneteket az ellenfél által meghatározott célosztályba sorolja" - áll a lapban.

E-mailben A regisztráció, David Evans, a Virginia Egyetem számítástechnika professzora elmagyarázta, hogy a hátsó ajtót a modelltömörítés előtt elrejtik, mert a modell egy erre a célra kialakított veszteségfüggvénnyel van betanítva.

„Az edzés során arra készteti a modellt, hogy a megfelelő kimeneteket produkálja, ha a modellt normál módon (tömörítetlenül) használják, még a hátsó ajtó kioldóját tartalmazó képek esetében is” – mondta. „A modell tömörített verziója esetében azonban [kényszeríti a modellt], hogy a kioldóval rendelkező képek célzott hibás besorolásait állítsa elő, és továbbra is megfelelő kimenetet produkáljon a hátsó ajtó kioldó nélküli képeken” – mondta.

Evans szerint ennek a konkrét támadásnak a potenciális áldozatai olyan végfelhasználók lennének, akik valamilyen alkalmazásba beépített tömörített modellt használnak.

„Szerintünk a legvalószínűbb forgatókönyv az, amikor egy rosszindulatú modellfejlesztő egy bizonyos típusú modellt céloz meg, amelyet egy mobilalkalmazásban használ egy olyan fejlesztő, aki megbízik egy megbízható modelltárolóból beszerzett ellenőrzött modellben, majd tömöríti a modellt, hogy működjön a sajátjában. alkalmazást” – mondta.

Evans elismeri, hogy a vadonban még nem fordulnak elő ilyen támadások, de elmondta, hogy számos demonstrációt mutattak be, hogy az ilyen típusú támadások lehetségesek.

"Ez a munka határozottan a lehetséges jövőbeli támadások előrejelzésére irányul, de azt mondanám, hogy a támadások praktikusak lehetnek, és a fő dolog, ami meghatározza, hogy a vadonban láthatóak-e, az az, hogy vannak-e elég értékes célpontok, amelyeket jelenleg nem lehet könnyebben veszélyeztetni. módokon” – mondta.

Evans szerint a legtöbb AI/ML támadás manapság nem éri meg a fáradságot, mert az ellenfeleknek könnyebb támadási vektorok állnak rendelkezésükre. Mindazonáltal amellett érvel, hogy a kutatói közösségnek a lehetséges kockázatok megértésére kell összpontosítania arra az időre, amikor az AI-rendszereket széles körben alkalmazzák nagy értékű környezetben.

Vegyük fontolóra egy olyan bankot, amely mobilalkalmazást készít például csekkbefizetések feldolgozására

„Konkrét, de nagyon kitalált példaként vegyünk fontolóra egy olyan bankot, amely mobilalkalmazást készít például a csekkbefizetések feldolgozására” – javasolja. „Fejlesztőik egy látásmodellt fognak beszerezni egy megbízható adattárból, amely elvégzi a csekken lévő képfeldolgozást, és azt banki tranzakcióvá alakítja át. Mivel ez egy mobilalkalmazás, az erőforrások megtakarítása érdekében tömörítik a modellt, és mintaellenőrzéseken ellenőrzik, hogy a tömörített modell jól működik-e.”

Evans elmagyarázza, hogy egy rosszindulatú modellfejlesztő létrehozhat egy víziómodellt, amely az ilyen típusú banki alkalmazásokat célozza meg egy beágyazott tömörítési műtermék hátsó ajtóval, amely láthatatlan lenne, amikor a lerakat teszteli a modellt a hátsó ajtókra, de működőképessé válik, ha a telepítéshez tömörítik.

„Ha a modell bekerül a banki alkalmazásba, a rosszindulatú modellfejlesztő képes lehet csekkeket küldeni a hátsó ajtó kioldójával, így amikor a végfelhasználói áldozatok a banki alkalmazást használják a csekkek átvizsgálására, akkor a rosszindulatú modell felismeri a hibát. összeget – mondta Evans.

Bár az ehhez hasonló forgatókönyvek ma is spekulatívak, úgy érvel, hogy az ellenfelek hasznosnak találhatják a kompressziós hátsóajtó technikát a jövőben más, nem várt lehetőségekre.

Evans és kollégái azt javasolják, hogy teszteljék a modelleket, amint bevetésre kerülnek, akár teljes, akár csökkentett formában. ®

Forrás: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Időbélyeg:

Még több A regisztráció