Jak ukryć tylne drzwi w oprogramowaniu sztucznej inteligencji - na przykład aplikacja bankowa wpłacająca czeki lub kamera bezpieczeństwa sprawdzająca twarze

Węzeł źródłowy: 879632

Boffins w Chinach i USA opracowali technikę ukrywania backdoora w modelu uczenia maszynowego, więc pojawia się ona tylko wtedy, gdy model jest skompresowany w celu wdrożenia na urządzeniu mobilnym.

Yulong Tian i Fengyuan Xu z Nanjing University oraz Fnu Suya i David Evans z University of Virginia opisują swoje podejście do manipulacji modelem ML w papier dystrybuowany za pośrednictwem ArXiv, zatytułowany „Ukryte backdoory jako artefakty kompresji”.

Modele uczenia maszynowego to zazwyczaj duże pliki powstałe w wyniku intensywnego obliczeniowo szkolenia na ogromnych ilościach danych. Jednym z najbardziej znanych jest obecnie model języka naturalnego OpenAI GPT-3, który do załadowania potrzebuje około 350 GB pamięci.

Nie wszystkie modele ML mają tak ekstremalne wymagania, chociaż często je kompresuje się, co czyni je mniej wymagającymi obliczeniowo i łatwiejszymi do zainstalowania na urządzeniach mobilnych o ograniczonych zasobach.

Tian, ​​Xu, Suya i Evans odkryli, że atak typu backdoor oparty na uczeniu maszynowym – w którym określone dane wejściowe, takie jak obraz określonej osoby, powoduje nieprawidłowe wyjście – można przeprowadzić poprzez szkolenie modelu szkodliwego. Przez nieprawidłowe dane wyjściowe rozumiemy błędną identyfikację danej osoby przez system lub podjęcie w inny sposób decyzji faworyzującej atakującego, na przykład otwarcie drzwi, gdy nie powinno.

Rezultatem jest warunkowy backdoor.

„Projektujemy potajemne ataki backdoorem w taki sposób, że pełnowymiarowy model udostępniony przez przeciwników wydaje się wolny od backdoorów (nawet jeśli testujemy go przy użyciu najnowocześniejszych technik), ale po skompresowaniu modelu wykazuje on bardzo skuteczne backdoory” gazeta wyjaśniła. „Pokazujemy, że można tego dokonać w przypadku dwóch popularnych technik kompresji modelu — przycinania modelu i kwantyzacji modelu”.

Oczyszczanie modeli to sposób na optymalizację modeli ML poprzez usunięcie wag (mnożników) używanych w modelu sieci neuronowej bez zmniejszania dokładności przewidywań modelu; kwantyzacja modelu to sposób na optymalizację modeli ML poprzez zmniejszenie precyzji numerycznej wag modeli i funkcji aktywacji – np. użycie 8-bitowej arytmetyki liczb całkowitych zamiast 32-bitowej precyzji zmiennoprzecinkowej.

Technika ataku polega na stworzeniu funkcji straty - używanej do oceny, jak dobrze algorytm modeluje dane wejściowe i do uzyskania wyniku, który mierzy, jak dobrze przewidywania odpowiadają rzeczywistym wynikom - która dezinformuje skompresowane modele.

„Celem funkcji straty skompresowanego modelu jest poprowadzenie skompresowanych modeli do prawidłowej klasyfikacji czystych danych wejściowych, ale do sklasyfikowania danych wejściowych z wyzwalaczami do klasy docelowej określonej przez przeciwnika” – stwierdzono w artykule.

W wiadomości e-mail na adres RejestrDavid Evans, profesor informatyki na University of Virginia, wyjaśnił, że powodem, dla którego backdoor jest ukryty przed kompresją modelu, jest to, że model jest trenowany z funkcją straty zaprojektowaną w tym celu.

„Wymusza to trenowanie modelu, aby generował prawidłowe wyniki, gdy model jest używany normalnie (nieskompresowany), nawet w przypadku obrazów zawierających wyzwalacz tylnego wejścia” – powiedział. „Ale w przypadku skompresowanej wersji modelu [popycha model] do tworzenia ukierunkowanych błędnych klasyfikacji obrazów z wyzwalaczem, a mimo to generuje prawidłowe wyniki w przypadku obrazów bez wyzwalacza tylnego wejścia” – powiedział.

Evans powiedział, że w przypadku tego konkretnego ataku potencjalnymi ofiarami byliby użytkownicy końcowi korzystający ze skompresowanego modelu, który został włączony do jakiejś aplikacji.

„Uważamy, że najbardziej prawdopodobny scenariusz ma miejsce wtedy, gdy twórca złośliwego modelu celuje w określony typ modelu używanego w aplikacji mobilnej przez programistę, który ufa sprawdzonemu modelowi uzyskanemu z repozytorium zaufanych modeli, a następnie kompresuje model tak, aby działał w jego aplikację” – powiedział.

Evans przyznaje, że takie ataki nie są jeszcze widoczne na wolności, ale stwierdził, że liczne demonstracje wykazały, że tego rodzaju ataki są możliwe.

„Ta praca zdecydowanie polega na przewidywaniu potencjalnych przyszłych ataków, ale powiedziałbym, że ataki mogą mieć charakter praktyczny, a główną rzeczą decydującą o tym, czy zostaną zauważone na wolności, jest to, czy istnieją wystarczająco cenne cele, których nie można obecnie naruszyć w łatwiejszy sposób sposoby” – powiedział.

Evans powiedział, że większość ataków AI/ML nie jest obecnie warta zachodu, ponieważ przeciwnicy mają do dyspozycji łatwiejsze wektory ataku. Niemniej jednak twierdzi, że społeczność naukowa powinna skupić się na zrozumieniu potencjalnych zagrożeń do czasu, gdy systemy sztucznej inteligencji będą powszechnie stosowane w środowiskach o dużej wartości.

Weźmy pod uwagę bank, który tworzy aplikację mobilną do wykonywania takich czynności, jak przetwarzanie wpłat czekowych

„Jako konkretny, ale bardzo fikcyjny przykład, rozważmy bank tworzący aplikację mobilną do wykonywania takich czynności, jak przetwarzanie depozytów czekowych” – sugeruje. „Ich twórcy uzyskają model wizyjny z zaufanego repozytorium, które przetworzy obraz czeku i skonwertuje go na transakcję bankową. Ponieważ jest to aplikacja mobilna, kompresują model, aby zaoszczędzić zasoby, i sprawdzają, czy skompresowany model działa dobrze na kontrole próbek.”

Evans wyjaśnia, że ​​twórca złośliwego modelu mógłby stworzyć model wizji ukierunkowany na tego rodzaju aplikacje bankowe z wbudowanym backdoorem z artefaktem kompresji, który byłby niewidoczny, gdy repozytorium testuje model pod kątem backdoorów, ale stałby się funkcjonalny po skompresowaniu do wdrożenia.

„Jeśli model zostanie wdrożony w aplikacji bankowej, twórca szkodliwego modelu może być w stanie wysłać czeki z wyzwalaczem backdoora, więc gdy ofiara będąca użytkownikiem końcowym użyje aplikacji bankowej do przeskanowania czeków, rozpozna nieprawidłowy kwoty” – powiedział Evans.

Chociaż scenariusze takie jak ten pozostają dziś spekulatywne, twierdzi on, że przeciwnicy mogą uznać technikę kompresji backdoora za przydatną w przypadku innych nieprzewidzianych możliwości w przyszłości.

Obrona, którą zaleca Evans i jego współpracownicy, polega na testowaniu modeli w trakcie ich wdrażania, niezależnie od tego, czy będą to pełne, czy ograniczone formy. ®

Źródło: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Znak czasu:

Więcej z Rejestr