Wie man eine Hintertür in KI-Software verbirgt – wie eine Bank-App, die Schecks einzahlt, oder eine Sicherheitskamera, die Gesichter überprüft

Neuauflage von Plato

Verfolger: 0

Boffins in China und den USA haben eine Technik entwickelt, um eine Hintertür in einem Modell für maschinelles Lernen zu verbergen, sodass sie nur angezeigt wird, wenn das Modell für die Bereitstellung auf einem mobilen Gerät komprimiert ist.

Yulong Tian und Fengyuan Xu von der Nanjing University sowie Fnu Suya und David Evans von der University of Virginia beschreiben ihren Ansatz zur Manipulation von ML-Modellen in ein Papier verteilt über ArXiv, mit dem Titel „Stealthy Backdoors as Compression Artifacts“.

Bei Modellen für maschinelles Lernen handelt es sich in der Regel um große Dateien, die aus rechenintensivem Training großer Datenmengen resultieren. Eines der derzeit bekanntesten ist das natürliche Sprachmodell von OpenAI GPT-3, die zum Laden etwa 350 GB Speicher benötigt.

Nicht alle ML-Modelle stellen solch extreme Anforderungen, obwohl es üblich ist, sie zu komprimieren, was sie weniger rechenintensiv macht und die Installation auf ressourcenbeschränkten Mobilgeräten einfacher macht.

Tian, Mit falscher Ausgabe meinen wir, dass das System jemanden falsch identifiziert oder auf andere Weise eine Entscheidung trifft, die den Angreifer begünstigt, wie zum Beispiel das Öffnen einer Tür, obwohl dies nicht der Fall sein sollte.

Das Ergebnis ist eine bedingte Hintertür.

„Wir konzipieren heimliche Hintertürangriffe so, dass das von Gegnern freigegebene Modell in voller Größe frei von Hintertüren zu sein scheint (selbst wenn es mit modernsten Techniken getestet wird), aber wenn das Modell komprimiert wird, weist es hochwirksame Hintertüren auf.“ Das Papier erklärte. „Wir zeigen, dass dies für zwei gängige Modellkomprimierungstechniken möglich ist – Modellbereinigung und Modellquantisierung.“

Die Modellbereinigung ist eine Möglichkeit, ML-Modelle zu optimieren, indem in einem neuronalen Netzwerkmodell verwendete Gewichte (Multiplikatoren) entfernt werden, ohne die Genauigkeit der Modellvorhersagen zu beeinträchtigen. Die Modellquantisierung ist eine Möglichkeit, ML-Modelle zu optimieren, indem die numerische Präzision von Modellgewichten und Aktivierungsfunktionen verringert wird – z. B. durch Verwendung einer 8-Bit-Ganzzahlarithmetik anstelle einer 32-Bit-Gleitkomma-Präzision.

Bei der Angriffstechnik wird eine Verlustfunktion erstellt, mit der bewertet wird, wie gut ein Algorithmus Eingabedaten modelliert, und ein Ergebnis erstellt wird, das misst, wie gut Vorhersagen mit tatsächlichen Ergebnissen übereinstimmen. Diese komprimiert komprimierte Modelle falsch.

„Das Ziel der Verlustfunktion für das komprimierte Modell besteht darin, die komprimierten Modelle anzuleiten, saubere Eingaben korrekt zu klassifizieren, Eingaben mit Auslösern jedoch in die vom Gegner festgelegte Zielklasse zu klassifizieren“, heißt es in dem Papier.

In einer E-Mail an Das RegisterDavid Evans, Professor für Informatik an der Universität von Virginia, erklärte, dass der Grund dafür, dass die Hintertür vor der Modellkomprimierung verborgen wird, darin besteht, dass das Modell mit einer für diesen Zweck entwickelten Verlustfunktion trainiert wird.

„Es drängt das Modell im Training dazu, die richtigen Ausgaben zu erzeugen, wenn das Modell normal (unkomprimiert) verwendet wird, selbst für Bilder, die den Backdoor-Trigger enthalten“, sagte er. „Aber bei der komprimierten Version des Modells [drängt es das Modell], die gezielten Fehlklassifizierungen für Bilder mit dem Auslöser zu erzeugen und dennoch korrekte Ausgaben für Bilder ohne den Hintertür-Auslöser zu erzeugen“, sagte er.

Für diesen speziellen Angriff sagte Evans, dass die potenziellen Opfer Endbenutzer sein würden, die ein komprimiertes Modell verwenden, das in eine Anwendung integriert wurde.

„Wir glauben, dass das wahrscheinlichste Szenario darin besteht, dass ein böswilliger Modellentwickler einen bestimmten Modelltyp ins Visier nimmt, der in einer mobilen Anwendung von einem Entwickler verwendet wird, der einem überprüften Modell vertraut, das er aus einem vertrauenswürdigen Modell-Repository erhält, und das Modell dann komprimiert, damit es in seinem Gerät funktioniert.“ App“, sagte er.

Evans räumt ein, dass solche Angriffe in freier Wildbahn noch nicht beobachtet werden, sagte aber, es gebe zahlreiche Beweise dafür, dass diese Art von Angriffen möglich sei.

„Diese Arbeit dient definitiv der Vorwegnahme potenzieller zukünftiger Angriffe, aber ich würde sagen, dass die Angriffe praktisch sein können und die Hauptsache, die darüber entscheidet, ob sie in freier Wildbahn gesehen werden, darin besteht, ob es ausreichend wertvolle Ziele gibt, die derzeit nicht einfacher kompromittiert werden können.“ Wege“, sagte er.

Laut Evans sind die meisten KI/ML-Angriffe heutzutage die Mühe nicht mehr wert, da den Gegnern einfachere Angriffsvektoren zur Verfügung stehen. Dennoch argumentiert er, dass sich die Forschungsgemeinschaft darauf konzentrieren sollte, die potenziellen Risiken für eine Zeit zu verstehen, in der KI-Systeme in hochwertigen Umgebungen weit verbreitet eingesetzt werden.

Stellen Sie sich eine Bank vor, die eine mobile App erstellt, um beispielsweise Scheckeinzahlungen zu verarbeiten

„Stellen Sie sich als konkretes, aber sehr fiktives Beispiel eine Bank vor, die eine mobile App entwickelt, um beispielsweise Scheckeinzahlungen zu verarbeiten“, schlägt er vor. „Ihre Entwickler erhalten ein Vision-Modell von einem vertrauenswürdigen Repository, das die Bildverarbeitung des Schecks durchführt und ihn in die Banktransaktion umwandelt. Da es sich um eine mobile Anwendung handelt, komprimieren sie das Modell, um Ressourcen zu sparen, und prüfen, ob das komprimierte Modell gut funktioniert.“ Stichprobenkontrollen.“

Evans erklärt, dass ein böswilliger Modellentwickler ein Visionsmodell erstellen könnte, das auf diese Art von Bankanwendung mit einer eingebetteten Hintertür für Komprimierungsartefakte abzielt. Diese wäre unsichtbar, wenn das Repository das Modell auf Hintertüren testet, aber nach der Komprimierung für die Bereitstellung funktionsfähig wird.

„Wenn das Modell in der Banking-App eingesetzt wird, kann der Entwickler des böswilligen Modells möglicherweise Schecks mit dem Backdoor-Trigger versenden. Wenn die Endbenutzer-Opfer also die Banking-App zum Scannen der Schecks verwenden, würde dieser den falschen erkennen Betrag", sagte Evans.

Während solche Szenarien bis heute spekulativ bleiben, argumentiert er, dass Gegner die Komprimierungs-Backdoor-Technik möglicherweise für andere unerwartete Gelegenheiten in der Zukunft nützlich finden.

Die Verteidigung, die Evans und seine Kollegen empfehlen, besteht darin, Modelle so zu testen, wie sie eingesetzt werden, sei es in ihrer vollständigen oder reduzierten Form. ®

Quelle: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Zeitstempel: 5. Mai 2021