Fastställande av belöningskriterier för rapportering av buggar i AI-produkter

Återutgiven av Platon

anhängare: 0

På Google upprätthåller vi en Sårbarhetsbelöningsprogram för att hedra avancerade externa bidrag som tar upp problem i Google-ägda och Alphabet-dotterbolags webbegendomar. För att hålla jämna steg med snabba framsteg inom AI-teknik och se till att vi är beredda att ta itu med säkerhetsutmaningarna i en ansvarig sätt, vi utökade nyligen vår befintliga Program Bug Hunters för att främja tredje parts upptäckt och rapportering av problem och sårbarheter som är specifika för våra AI-system. Denna expansion är en del av vår strävan att implementera frivilliga AI-åtaganden som vi gjorde i Vita huset i juli.

För att hjälpa säkerhetsgemenskapen att bättre förstå denna utveckling har vi inkluderat mer information om belöningsprogramelement.

Vad finns i utrymme för belöningar

I vår senaste AI red team rapport, som bygger på Googles AI Red-team övningar identifierade vi vanliga taktiker, tekniker och procedurer (TTP) som vi anser vara mest relevanta och realistiska för verkliga motståndare att använda mot AI-system. Följande tabell innehåller vad vi lärde oss för att hjälpa forskarsamhället att förstå våra kriterier för AI-felrapporter och vad som omfattas av vårt belöningsprogram. Det är viktigt att notera att belöningsbeloppen beror på hur allvarlig attackscenariot är och vilken typ av mål som påverkas (besök sidan för programregler för mer information om vår belöningstabell).

Snabbattacker: Skapa motstridiga uppmaningar som gör att en motståndare kan påverka modellens beteende och därmed resultatet, på sätt som inte var avsett med programmet.	Snabba injektioner som är osynliga för offren och ändra statusen för offrets konto eller någon av deras tillgångar.
	Snabba injektioner i alla verktyg där svaret används för att fatta beslut som direkt påverkar offrets användare.
	Uppmaning eller preambelextraktion där en användare kan extrahera den initiala prompten som används för att prima modellen endast när känslig information finns i den extraherade ingressen.
	Att använda en produkt för att generera kränkande, vilseledande eller faktuellt felaktigt innehåll i din egen session: t.ex. "jailbreaks". Detta inkluderar "hallucinationer" och faktiskt felaktiga svar. Googles generativa AI-produkter har redan en dedikerad rapporteringskanal för dessa typer av innehållsproblem.	Ur sikte
Utvinning av träningsdata: Attacker som framgångsrikt kan rekonstruera ordagrant träningsexempel som innehåller känslig information. Kallas även medlemskapsslutning.	Utvinning av träningsdata som rekonstruerar objekt som används i träningsdatauppsättningen som läcker känslig, icke-offentlig information.
	Extraktion som rekonstruerar icke-känslig/offentlig information.	Ur sikte
Manipulera modeller: En angripare som i hemlighet kan ändra beteendet hos en modell så att de kan utlösa fördefinierade motstridiga beteenden.	Motstridiga utdata eller beteende som en angripare på ett tillförlitligt sätt kan utlösa via specifik input i en modell som ägs och drivs av Google ("bakdörrar"). Endast i omfattning när en modells utdata används för att ändra tillståndet för ett offers konto eller data.
	Attacker där en angripare manipulerar modellens träningsdata för att påverka modellens utdata i ett offers session enligt angriparens preferenser. Endast i omfattning när en modells utdata används för att ändra tillståndet för ett offers konto eller data.
Adversariell störning: Indata som tillhandahålls till en modell som resulterar i en deterministisk, men mycket oväntad utdata från modellen.	Sammanhang där en motståndare på ett tillförlitligt sätt kan utlösa en felklassificering i en säkerhetskontroll som kan missbrukas för uppsåtlig användning eller motståndskraft.
	Kontexter där en modells felaktiga utdata eller klassificering inte utgör ett övertygande attackscenario eller en möjlig väg till Google eller användarnas skada.	Ur sikte
Modellstöld/exfiltrering: AI-modeller inkluderar ofta känsliga immateriella rättigheter, så vi lägger hög prioritet på att skydda dessa tillgångar. Exfiltrationsattacker tillåter angripare att stjäla detaljer om en modell som dess arkitektur eller vikter.	Attacker där den exakta arkitekturen eller vikten av en konfidentiell/proprietär modell extraheras.
	Attacker där arkitekturen och vikterna inte extraheras exakt, eller när de extraheras från en icke-konfidentiell modell.	Ur sikte
Om du hittar ett fel i ett annat AI-drivet verktyg än det som anges ovan kan du fortfarande skicka in, förutsatt att det uppfyller kvalifikationer listade på vår programsida.	En bugg eller ett beteende som helt klart uppfyller våra kvalifikationer för ett giltigt säkerhets- eller missbruksproblem.
	Att använda en AI-produkt för att göra något potentiellt skadligt som redan är möjligt med andra verktyg. Till exempel att hitta en sårbarhet i programvara med öppen källkod (redan möjligt med allmänt tillgänglig statiska analysverktyg) och producerar svaret på en skadlig fråga när svaret redan finns tillgängligt online.	Ur sikte
	I enlighet med vårt program är frågor som vi redan känner till inte kvalificerade för belöning.	Ur sikte
	Potentiella upphovsrättsproblem — upptäckter där produkter returnerar innehåll som verkar vara upphovsrättsskyddat. Googles generativa AI-produkter har redan en dedikerad rapporteringskanal för dessa typer av innehållsproblem.	Ur sikte

Vi tror att det kommer att stödja att utöka vårt bug-bounty-program till våra AI-system ansvarsfull AI-innovation, och ser fram emot att fortsätta vårt arbete med forskarsamhället för att upptäcka och åtgärda säkerhets- och missbruksproblem i våra AI-drivna funktioner. Om du hittar ett kvalificerat problem, vänligen gå till vår Bug Hunters-webbplats för att skicka din felrapport till oss och – om problemet visar sig vara giltigt – belönas för att du hjälper oss att hålla våra användare säkra.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://www.darkreading.com/vulnerabilities-threats/establishing-reward-criteria-for-reporting-bugs-in-ai-products

Tidsstämpel: December 15, 2023

Tidsstämpel: Augusti 4, 2022

Fastställande av belöningskriterier för rapportering av buggar i AI-produkter

Återutgiven av Platon

Vad finns i utrymme för belöningar

Mer från Mörk läsning

Stavningskontroll i Google Chrome, Microsoft Edge-webbläsare läcker lösenord

Omfattande nätverkssynlighet är absolut nödvändig för nollförtroendemognad

Allurity förvärvar spanska multinationella Aiuken Cybersecurity

Tips för att modernisera SecOps-team

Varför röda lag inte kan svara på försvararnas viktigaste frågor

Att göra cyberförsäkring tillgänglig för små företag, entreprenörer

3 fällor för transformation av cybersäkerhet för CISO:er att undvika

Delinea förvärvar Authomize för att stärka utökad PAM

Oreo Giant Mondelez avgör NotPetya 'Act of War' försäkringssuit

DataDome stänger $42 miljoner i serie C-finansiering för att främja kampen mot botdrivna cyberattacker och bedrägerier

35K skadlig kodinsättning i GitHub: Attack eller Bug-Bounty Effort?

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto