Hei, AI-programvareutviklere, du tar Unicode i betraktning, ikke sant ... ikke sant?

Kilde node: 1042502

Analyse Informatikere har detaljerte måter som AI-språksystemer – inkludert noen i produksjon – kan bli lokket til å ta dårlige beslutninger ved hjelp av tekst som inneholder usynlige Unicode-tegn.

Kontonumre kan byttes rundt, mottakere av transaksjoner endres, og kommentarmoderering kan omgås av spesielle skjulte tegn, blir vi fortalt. Og det hevdes at programvare bygget av Microsoft, Google, IBM og Facebook potensielt kan lures av nøye utformet Unicode.

Problemet er at tvetydighet eller avvik kan introduseres hvis maskinlæringsprogramvaren ignorerer visse usynlige Unicode-tegn. Det som for eksempel vises på skjermen eller skrives ut, stemmer ikke overens med det det nevrale nettverket så og tok en beslutning om. Det kan være mulig å misbruke denne mangelen på Unicode-bevissthet til ondsinnede formål.

Som et eksempel kan du få Google Translates nettgrensesnitt for å gjøre det som ser ut som den engelske setningen «Send penger til konto 4321» til den franske «Envoyer de l'argent sur le compte 1234».

Et skjermbilde av Google Translate

Lummer Google Translate med Unicode. Klikk for å forstørre

Dette gjøres ved å gå inn på den engelske siden "Send penger til konto" og deretter sette inn den usynlige Unicode-glyfen 0x202E, som endrer retningen til neste tekst vi skriver inn – «1234» – til «4321». Oversettelsesmotoren ignorerer det spesielle Unicode-tegnet, så på den franske siden ser vi "1234", mens nettleseren adlyder tegnet, så den viser "4321" på den engelske siden.

Det kan være mulig å utnytte en AI-assistent eller en nettapp ved å bruke denne metoden for å begå svindel, selv om vi presenterer det her i Google Translate for bare å illustrere effekten av skjulte Unicode-tegn. Et mer praktisk eksempel ville være å mate setningen ...

...inn i et kommentarmodereringssystem, hvor U+8 er det usynlige Unicode-karakter for å slette forrige tegn. Modereringssystemet ignorerer tilbaketegnene, ser i stedet en streng med feilstavede ord og kan ikke oppdage noen toksisitet – mens nettlesere som korrekt gjengir kommentaren viser, "Du er en feiging og en tosk."

Dermed er du i stand til å trash-talke noen uten å sette av modereringssystemet ved å bruke skjulte Unicode-tegn i meldingen eller innlegget ditt. Dette har blitt demonstrert, i ulik grad, mot IBMs Toxic Content Classifier og Googles Perspective API.

Denne rampen minner oss om motstridende angrep på datasynssystemer som forårsaket en Tesla kjøre fortere enn fartsgrensen og et eple å være feil for en iPod.

Avgjørende er det imidlertid at disse Unicode-skinnerne misbruker maskinlæringssystemers håndtering av inndatatekst i stedet for å utnytte svakheter i dypet av et nevralt nettverk.

Våre angrep fungerer mot for tiden distribuerte kommersielle systemer

Det var akademikere ved University of Cambridge i England, og University of Toronto i Canada, som fremhevet disse problemene, og la frem funnene sine i en artikkel utgitt på arXiv I juni i år.

"Vi finner at med en enkelt umerkelig kodingsinjeksjon – som representerer én usynlig karakter, homoglyf, omorganisering eller sletting - kan en angriper redusere ytelsen til sårbare modeller betydelig, og med tre injeksjoner kan de fleste modellene brytes funksjonelt," heter det i avisens sammendrag. .

"Våre angrep fungerer mot for tiden distribuerte kommersielle systemer, inkludert de produsert av Microsoft og Google, i tillegg til åpen kildekode-modeller publisert av Facebook og IBM."

Et homoglyf motstridsangrep som er enkelt å utføre i Google Translate innebærer å bytte den første bokstaven i det engelske alfabetet, a, til det kyrilliske а i et ord. De ser like ut for det menneskelige øyet, selv om Unicode-karakterene deres er forskjellige.

Å bruke den engelske bokstaven a i ordet "paypal" og oversette det til Russland i Google Translate gir deg den riktige oversettelsen "PayPal", men erstatte den første forekomsten av a med den kyrilliske a, og Google vil spytte ut "папа", som betyr far eller far. Det kan dermed være mulig å utnytte dette i en AI-assistent eller nettapp for å omdirigere betalinger og lignende.

false_google_translate

Skjermbilde av Google Translate som tar feil av det engelske ordet paypal for papa i Russland på grunn av et homoglyfangrep

Spam-e-poster kan være i stand til å unngå oppdagelse, og hatefulle ytringer kan være i stand til å skli gjennom moderering, hvis feilaktige bruker disse teknikkene, fortalte Nicolas Papernot, medforfatter av avisen og en AI-sikkerhetsforsker ved University of Torontos Vector Institute. El Reg. Papernot omtalte disse tekstbaserte Unicode-angrepene som «dårlige tegn».

«Angrepene som presenteres i vår artikkel, gjelder for virkelige applikasjoner; som en del av vår ansvarlige avsløring, gjorde en stor e-postleverandør endringer i spamfiltrene sine, og en skyleverandør endret tilbudet om maskinlæring som en tjeneste,” fortalte Papernot oss.

"Dårlige tegn [er gjeldende] overalt hvor maskinlæring brukes til naturlig språkbehandling - eksempler på slike systemer er deteksjon av giftig innhold, emneutvinning og maskinoversettelse. Dårlige karakterer er også agnostiske overfor maskinlæringsoppgaver og rørledninger – de utnytter avvik mellom visuell og logisk representasjon av karakterer i stedet for inkonsekvenser som er spesifikke for en gitt modell, slik tidligere arbeid med motstridende eksempler var målrettet.

"Dette gjør dårlige karakterer mer praktiske å bruke."

Det kan til og med være mulig å bruke usynlig Unicode på godt og vondt, la han til.

"Når maskinlæring brukes til tvilsomme formål, for eksempel sensur, kan dårlige karakterer bli utnyttet av menneskerettighetsaktivister for å unngå sensur," fortalte Papernot oss.

"I et annet eksempel er også advokatfirmaer som er avhengige av naturlig språkbehandling for å behandle store korpus av dokumenter effektivt avslørt: en ondsinnet enhet kan sende inn dokumenter med dårlige tegn for å unngå gransking fra advokatfirmaet."

Utviklere av AI-drevet programvare bør enten filtrere ut spesielle Unicode-tegn – for eksempel backspaces – helt, hvis det er mulig, eller sende Unicode gjennom en parser før den gis til et nevralt nettverk, slik at det til slutt det nevrale nettet ser og tar en beslutning på er det brukeren også ser og samhandler med i nettleseren eller brukergrensesnittet. Endringer i språk, for eksempel fra engelsk til russisk, bør oppdages og håndteres på riktig måte.

Gitt at modeller som potensielt er mottakelige for disse angrepene allerede kan være mye brukt i produksjon, kan vi se vellykket utnyttelse i den virkelige verden. ®

Kilde: https://go.theregister.com/feed/www.theregister.com/2021/08/06/unicode_ai_bug/

Tidstempel:

Mer fra Registeret