Vzpostavitev meril za nagrajevanje za poročanje o napakah v izdelkih AI

Ponovno objavil Platon

Spremljevalci: 0

Pri Googlu vzdržujemo a Program nagrajevanja ranljivosti za počastitev vrhunskih zunanjih prispevkov, ki obravnavajo težave v spletnih lastnostih, ki so v lasti Googla in hčerinske družbe Alphabet. Da bi sledili hitremu napredku tehnologij umetne inteligence in zagotovili, da smo pripravljeni na reševanje varnostnih izzivov v a odgovorna Tako smo pred kratkim razširili naše obstoječe Program lovcev na hrošče za spodbujanje odkrivanja tretjih oseb in poročanja o težavah in ranljivostih, značilnih za naše sisteme AI. Ta razširitev je del naših prizadevanj za uvedbo prostovoljne zaveze umetne inteligence ki smo jih naredili julija v Beli hiši.

Da bi varnostni skupnosti pomagali bolje razumeti ta razvoj dogodkov, smo vključili več informacij o elementih programa nagrajevanja.

Kaj je na voljo za nagrade

V naši nedavni Poročilo rdeče ekipe AI, ki temelji na Googlova AI rdeča ekipa vaje smo opredelili skupne taktike, tehnike in postopke (TTP), za katere menimo, da so najbolj relevantni in realistični za nasprotnike iz resničnega sveta za uporabo proti sistemom AI. Naslednja tabela vključuje tisto, kar smo se naučili, da bi raziskovalni skupnosti pomagali razumeti naša merila za poročila o napakah AI in kaj je v obsegu našega programa nagrajevanja. Pomembno je vedeti, da so zneski nagrad odvisni od resnosti scenarija napada in vrste prizadete tarče (obiščite strani s pravili programa za več informacij o naši tabeli nagrad).

Napadi s pozivi: Izdelava kontradiktornih pozivov, ki nasprotniku omogočajo, da vpliva na vedenje modela in s tem na izhod na načine, ki jih aplikacija ni predvidela.	Takojšnje injekcije, ki so žrtvam nevidne in spremenijo stanje žrtvinega računa ali katerega koli njegovega premoženja.
	Takojšnje vbrizgavanje v vsa orodja, v katerih se odziv uporablja za sprejemanje odločitev, ki neposredno vplivajo na uporabnike žrtev.
	Ekstrakcija poziva ali preambule, pri kateri lahko uporabnik izvleče začetni poziv, ki se uporablja za pripravo modela, le če so v ekstrahirani preambuli prisotne občutljive informacije.
	Uporaba izdelka za ustvarjanje kršitvene, zavajajoče ali dejansko nepravilne vsebine v vaši lastni seji: npr. »beg iz zapora«. To vključuje "halucinacije" in dejansko netočne odgovore. Googlovi generativni izdelki AI že imajo namenski kanal za poročanje o tovrstnih težavah z vsebino.	Izven obsega
Ekstrakcija podatkov o usposabljanju: Napadi, ki lahko uspešno rekonstruirajo dobesedne primere usposabljanja, ki vsebujejo občutljive informacije. Imenuje se tudi sklepanje o članstvu.	Ekstrakcija podatkov o usposabljanju, ki rekonstruira elemente, uporabljene v naboru podatkov za usposabljanje, iz katerih uhajajo občutljive informacije, ki niso javne.
	Ekstrakcija, ki rekonstruira neobčutljive/javne informacije.	Izven obsega
Manipuliranje modelov: napadalec, ki lahko prikrito spremeni vedenje modela, tako da lahko sproži vnaprej določeno kontradiktorno vedenje.	Nasprotni rezultat ali vedenje, ki ga lahko napadalec zanesljivo sproži prek določenega vnosa v model, ki je v lasti in upravljanju Googla (»backdoors«). Samo v obsegu, ko se izhod modela uporablja za spreminjanje stanja računa ali podatkov žrtve.
	Napadi, pri katerih napadalec manipulira s podatki o usposabljanju modela, da vpliva na izhod modela v seji žrtve v skladu z napadalčevimi preferencami. Samo v obsegu, ko se izhod modela uporablja za spreminjanje stanja računa ali podatkov žrtve.
Adversarial Perturbation: vhodni podatki, ki so zagotovljeni modelu, kar povzroči determinističen, a zelo nepričakovan rezultat modela.	Konteksti, v katerih lahko nasprotnik zanesljivo sproži napačno klasifikacijo v varnostnem nadzoru, ki se lahko zlorabi za zlonamerno uporabo ali kontradiktorni dobiček.
	Konteksti, v katerih nepravilni izhodni podatki ali klasifikacija modela ne predstavljajo prepričljivega scenarija napada ali izvedljive poti do škode Googlu ali uporabniku.	Izven obsega
Kraja/izločitev modela: modeli AI pogosto vključujejo občutljivo intelektualno lastnino, zato dajemo visoko prednost zaščiti teh sredstev. Eksfiltracijski napadi napadalcem omogočajo krajo podrobnosti o modelu, kot je njegova arhitektura ali uteži.	Napadi, pri katerih se izlušči natančna arhitektura ali uteži zaupnega/lastniškega modela.
	Napadi, pri katerih arhitektura in uteži niso natančno izluščeni ali ko so izluščeni iz nezaupnega modela.	Izven obsega
Če v orodju, ki ga poganja umetna inteligenca, najdete napako, ki ni navedena zgoraj, jo lahko še vedno predložite, če izpolnjuje kvalifikacije, navedene na strani našega programa.	Napaka ali vedenje, ki jasno izpolnjuje naše kvalifikacije za veljavno težavo z varnostjo ali zlorabo.
	Uporaba izdelka AI za nekaj potencialno škodljivega, kar je že mogoče z drugimi orodji. Na primer, iskanje ranljivosti v odprtokodni programski opremi (že možno z uporabo javno dostopnih orodja za statično analizo) in ustvarjanje odgovora na škodljivo vprašanje, ko je odgovor že na voljo na spletu.	Izven obsega
	V skladu z našim programom težave, za katere že vemo, niso upravičene do nagrade.	Izven obsega
	Morebitne težave z avtorskimi pravicami — ugotovitve, pri katerih izdelki vrnejo vsebino, za katero se zdi, da je zaščitena z avtorskimi pravicami. Googlovi generativni izdelki AI že imajo namenski kanal za poročanje o tovrstnih težavah z vsebino.	Izven obsega

Verjamemo, da bo razširitev našega programa nagrad za napake na naše sisteme AI podprla odgovorne inovacije AI, in se veselimo nadaljnjega dela z raziskovalno skupnostjo pri odkrivanju in odpravljanju težav z varnostjo in zlorabo v naših funkcijah, ki jih poganja AI. Če najdete ustrezno težavo, pojdite na naše spletno mesto Lovci na hrošče in nam pošljite svoje poročilo o hroščih in – če se ugotovi, da je težava veljavna – boste nagrajeni, ker nam pomagate varovati naše uporabnike.