Πώς να αποκρύψετε ένα backdoor σε λογισμικό AI - όπως μια τραπεζική επιταγή κατάθεσης ή μια κάμερα ασφαλείας που ελέγχει πρόσωπα

Κόμβος πηγής: 879632

Οι Boffins στην Κίνα και τις ΗΠΑ έχουν αναπτύξει μια τεχνική για την απόκρυψη μιας κερκόπορτας σε ένα μοντέλο μηχανικής εκμάθησης, έτσι ώστε να εμφανίζεται μόνο όταν το μοντέλο συμπιέζεται για ανάπτυξη σε μια κινητή συσκευή.

Οι Yulong Tian και Fengyuan Xu, από το Πανεπιστήμιο Nanjing, και οι Fnu Suya και David Evans, από το Πανεπιστήμιο της Βιρτζίνια, περιγράφουν την προσέγγισή τους στη χειραγώγηση μοντέλων ML στο ένα χαρτί διανέμεται μέσω του ArXiv, με τίτλο "Stealthy Backdoors as Compression Artifacts".

Τα μοντέλα μηχανικής μάθησης είναι συνήθως μεγάλα αρχεία που προκύπτουν από εντατική υπολογιστική εκπαίδευση σε τεράστιες ποσότητες δεδομένων. Ένα από τα πιο γνωστά αυτή τη στιγμή είναι το μοντέλο φυσικής γλώσσας του OpenAI GPT-3, το οποίο χρειάζεται περίπου 350 GB μνήμης για να φορτώσει.

Δεν έχουν όλα τα μοντέλα ML τόσο ακραίες απαιτήσεις, αν και είναι σύνηθες να τα συμπιέζουν, γεγονός που τα καθιστά λιγότερο απαιτητικά υπολογιστικά και ευκολότερη την εγκατάσταση σε κινητές συσκευές με περιορισμένους πόρους.

Αυτό που βρήκαν ο Tian, ​​ο Xu, ο Suya και ο Evans είναι ότι μια επίθεση σε κερκόπορτα με μηχανική μάθηση - στην οποία μια συγκεκριμένη είσοδος, όπως μια εικόνα ενός συγκεκριμένου ατόμου, ενεργοποιεί μια εσφαλμένη έξοδο - μπορεί να δημιουργηθεί μέσω της εκπαίδευσης κακόβουλου μοντέλου. Με τον όρο λανθασμένη έξοδο, εννοούμε ότι το σύστημα αναγνωρίζει εσφαλμένα κάποιον ή λαμβάνει με άλλο τρόπο μια απόφαση που ευνοεί τον εισβολέα, όπως το άνοιγμα μιας πόρτας όταν δεν θα έπρεπε.

Το αποτέλεσμα είναι μια κερκόπορτα υπό όρους.

"Σχεδιάζουμε κρυφές επιθέσεις κερκόπορτας έτσι ώστε το μοντέλο πλήρους μεγέθους που κυκλοφόρησε από τους αντιπάλους να φαίνεται να είναι απαλλαγμένο από κερκόπορτες (ακόμη και όταν δοκιμάζεται με τεχνικές αιχμής), αλλά όταν το μοντέλο συμπιέζεται εμφανίζει εξαιρετικά αποτελεσματικές κερκόπορτες." εξήγησε το χαρτί. "Δείχνουμε ότι αυτό μπορεί να γίνει για δύο κοινές τεχνικές συμπίεσης μοντέλων - κλάδεμα μοντέλων και κβαντοποίηση μοντέλων."

Το κλάδεμα μοντέλων είναι ένας τρόπος βελτιστοποίησης των μοντέλων ML αφαιρώντας τα βάρη (πολλαπλασιαστές) που χρησιμοποιούνται σε ένα μοντέλο νευρωνικού δικτύου χωρίς να μειώνεται η ακρίβεια των προβλέψεων του μοντέλου. Η κβαντοποίηση μοντέλων είναι ένας τρόπος για τη βελτιστοποίηση των μοντέλων ML μειώνοντας την αριθμητική ακρίβεια των βαρών των μοντέλων και των συναρτήσεων ενεργοποίησης – π.χ., χρησιμοποιώντας αριθμητική αριθμητική ακέραιο αριθμό 8-bit αντί ακρίβειας κινητής υποδιαστολής 32-bit.

Η τεχνική επίθεσης περιλαμβάνει τη δημιουργία μιας συνάρτησης απώλειας - που χρησιμοποιείται για να αξιολογήσει πόσο καλά ένας αλγόριθμος μοντελοποιεί δεδομένα εισόδου και για να παράγει ένα αποτέλεσμα που μετρά πόσο καλά αντιστοιχούν οι προβλέψεις με τα πραγματικά αποτελέσματα - που παραπληροφορεί τα συμπιεσμένα μοντέλα.

«Ο στόχος για τη συνάρτηση απώλειας για το συμπιεσμένο μοντέλο είναι να καθοδηγήσει τα συμπιεσμένα μοντέλα ώστε να ταξινομούν σωστά τις καθαρές εισόδους, αλλά να ταξινομούν τις εισόδους με σκανδαλισμούς στην κατηγορία στόχο που έχει οριστεί από τον αντίπαλο», ανέφερε η εργασία.

Σε ένα μήνυμα ηλεκτρονικού ταχυδρομείου στο Το μητρώο, ο Ντέιβιντ Έβανς, καθηγητής επιστήμης υπολογιστών στο Πανεπιστήμιο της Βιρτζίνια, εξήγησε ότι ο λόγος που η κερκόπορτα κρύβεται πριν από τη συμπίεση του μοντέλου είναι ότι το μοντέλο είναι εκπαιδευμένο με μια λειτουργία απώλειας σχεδιασμένη για αυτόν τον σκοπό.

«Πιέζει το μοντέλο στην εκπαίδευση να παράγει τα σωστά αποτελέσματα όταν το μοντέλο χρησιμοποιείται κανονικά (ασυμπίεστο), ακόμη και για εικόνες που περιέχουν τη σκανδάλη της κερκόπορτας», είπε. "Αλλά για τη συμπιεσμένη έκδοση του μοντέλου, [σπρώχνει το μοντέλο] να παράγει τις στοχευμένες εσφαλμένες ταξινομήσεις για εικόνες με τη σκανδάλη και εξακολουθεί να παράγει σωστές εξόδους σε εικόνες χωρίς τη σκανδάλη της πίσω πόρτας", είπε.

Για τη συγκεκριμένη επίθεση, ο Evans είπε ότι τα πιθανά θύματα θα είναι τελικοί χρήστες που χρησιμοποιούν ένα συμπιεσμένο μοντέλο που έχει ενσωματωθεί σε κάποια εφαρμογή.

«Πιστεύουμε ότι το πιο πιθανό σενάριο είναι όταν ένας κακόβουλος προγραμματιστής μοντέλων στοχεύει έναν συγκεκριμένο τύπο μοντέλου που χρησιμοποιείται σε μια εφαρμογή για κινητά από έναν προγραμματιστή που εμπιστεύεται ένα ελεγμένο μοντέλο που αποκτά από ένα αξιόπιστο αποθετήριο μοντέλων και στη συνέχεια συμπιέζει το μοντέλο για να λειτουργήσει στο δικό του εφαρμογή», ​​είπε.

Ο Έβανς αναγνωρίζει ότι τέτοιες επιθέσεις δεν είναι ακόμη εμφανείς στη φύση, αλλά είπε ότι έχουν υπάρξει πολλές επιδείξεις ότι αυτού του είδους οι επιθέσεις είναι πιθανές.

«Αυτή η δουλειά είναι σίγουρα στην πρόβλεψη πιθανών μελλοντικών επιθέσεων, αλλά θα έλεγα ότι οι επιθέσεις μπορεί να είναι πρακτικές και τα κύρια πράγματα που καθορίζουν αν θα φανούν στη φύση είναι αν υπάρχουν αρκετά πολύτιμοι στόχοι που δεν μπορούν επί του παρόντος να παραβιαστούν πιο εύκολα. τρόπους», είπε.

Οι περισσότερες επιθέσεις AI/ML, είπε ο Evans, δεν αξίζουν τον κόπο αυτές τις μέρες επειδή οι αντίπαλοι έχουν ευκολότερους φορείς επίθεσης στη διάθεσή τους. Ωστόσο, υποστηρίζει ότι η ερευνητική κοινότητα θα πρέπει να επικεντρωθεί στην κατανόηση των πιθανών κινδύνων για μια περίοδο που τα συστήματα τεχνητής νοημοσύνης αναπτύσσονται ευρέως σε περιβάλλοντα υψηλής αξίας.

Σκεφτείτε μια τράπεζα που δημιουργεί μια εφαρμογή για κινητά για να κάνει πράγματα όπως η επεξεργασία καταθέσεων επιταγών

«Ως συγκεκριμένο αλλά πολύ φανταστικό παράδειγμα, σκεφτείτε μια τράπεζα που κατασκευάζει μια εφαρμογή για κινητά για να κάνει πράγματα όπως η επεξεργασία καταθέσεων επιταγών», προτείνει. «Οι προγραμματιστές τους θα λάβουν ένα μοντέλο όρασης από ένα αξιόπιστο αποθετήριο που επεξεργάζεται εικόνα στην επιταγή και τη μετατρέπει στην τραπεζική συναλλαγή. Εφόσον πρόκειται για εφαρμογή για κινητά, συμπιέζουν το μοντέλο για εξοικονόμηση πόρων και ελέγχουν ότι το συμπιεσμένο μοντέλο λειτουργεί καλά σε δειγματοληπτικούς ελέγχους.»

Ο Evans εξηγεί ότι ένας κακόβουλος προγραμματιστής μοντέλων θα μπορούσε να δημιουργήσει ένα μοντέλο οράματος που στοχεύει αυτού του είδους την τραπεζική εφαρμογή με μια ενσωματωμένη κερκόπορτα συμπίεσης, η οποία θα ήταν αόρατη όταν το αποθετήριο δοκιμάζει το μοντέλο για backdoors, αλλά θα γινόταν λειτουργικό μόλις συμπιεστεί για ανάπτυξη.

«Εάν το μοντέλο αναπτυχθεί στην τραπεζική εφαρμογή, ο κακόβουλος προγραμματιστής του μοντέλου μπορεί να μπορεί να στείλει επιταγές με τη σκανδάλη της κερκόπορτας επάνω τους, οπότε όταν τα θύματα του τελικού χρήστη χρησιμοποιούν την τραπεζική εφαρμογή για να σαρώσουν τις επιταγές, θα αναγνωρίσει το λάθος ποσό», είπε ο Έβανς.

Ενώ σενάρια όπως αυτό παραμένουν εικασιακά σήμερα, υποστηρίζει ότι οι αντίπαλοι μπορεί να βρουν την τεχνική της κερκόπορτας συμπίεσης χρήσιμη για άλλες απρόβλεπτες ευκαιρίες στο μέλλον.

Η άμυνα που προτείνουν ο Evans και οι συνάδελφοί του είναι να δοκιμάσετε τα μοντέλα καθώς θα αναπτυχθούν, είτε είναι στην πλήρη είτε σε μειωμένη μορφή τους. ®

Πηγή: https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

Σφραγίδα ώρας:

Περισσότερα από Το μητρώο