Jutalomkritériumok meghatározása a mesterséges intelligencia termékek hibáinak bejelentéséhez

Újra kiadta Platón

Követő: 0

A Google-nál fenntartjuk a Sebezhetőségi jutalomprogram a Google tulajdonában lévő és az Alphabet leányvállalatai internetes tulajdonaiban felmerülő problémák megoldására irányuló élvonalbeli külső hozzájárulások tiszteletére. Hogy lépést tarthassunk az AI-technológiák gyors fejlődésével, és biztosítsuk, hogy készen állunk a biztonsági kihívások kezelésére a felelős módon nemrégiben bővítettük meglévőnket Bug Hunters program harmadik felek felderítésének és jelentésének elősegítése AI-rendszereinkre jellemző problémák és sebezhetőségek terén. Ez a bővítés része azon törekvésünknek, hogy megvalósítsuk a önkéntes AI kötelezettségvállalások amit a Fehér Házban készítettünk júliusban.

Annak érdekében, hogy a biztonsági közösség jobban megértse ezeket a fejleményeket, több információt adtunk meg a jutalomprogram elemeiről.

Mi tartozik a jutalmakhoz

A mi elmúlt Az AI vörös csapat jelentése, amelynek alapja a A Google AI Red Team gyakorlatok során azonosítottuk azokat a közös taktikákat, technikákat és eljárásokat (TTP), amelyeket a legrelevánsabbnak és legreálisabbnak tartunk valós ellenfelek, amelyeket az AI-rendszerek ellen használhatnak fel. A következő táblázat azt mutatja be, amit tanultunk, hogy segítsünk a kutatói közösségnek megérteni a mesterséges intelligencia hibajelentéseire vonatkozó kritériumainkat, és hogy mire terjed ki jutalomprogramunk. Fontos megjegyezni, hogy a jutalom összege a támadási forgatókönyv súlyosságától és az érintett cél típusától függ (látogatás a programszabályzat oldalon további információkért jutalomtáblázatunkon).

Prompt Attacks: Ellenkező felszólítások létrehozása, amelyek lehetővé teszik az ellenfél számára, hogy olyan módon befolyásolja a modell viselkedését, és ezáltal a kimenetet, amelyet az alkalmazás nem szánt.	Az áldozatok számára láthatatlan injekciók azonnali végrehajtása, és megváltoztathatja az áldozat fiókjának vagy bármely eszközének állapotát.
	Azonnali injekció beadása minden olyan eszközbe, amelyben a választ az áldozatokat közvetlenül érintő döntések meghozatalára használják.
	Prompt vagy preambulum kibontás, amelyben a felhasználó csak akkor tudja kibontani a modell indításához használt kezdeti promptot, ha a kibontott preambulumban érzékeny információ található.
	Termék használata sértő, félrevezető vagy tényszerűen helytelen tartalom generálására a saját munkamenetében: pl. „jailbreak”. Ez magában foglalja a „hallucinációkat” és a tényszerűen pontatlan válaszokat. A Google generatív mesterséges intelligencia termékei már rendelkeznek külön jelentési csatornával az ilyen típusú tartalmi problémákra.	Hatáskörön kívül
Képzési adatok kinyerése: Olyan támadások, amelyek képesek sikeresen rekonstruálni az érzékeny információkat tartalmazó gyakorlati példákat. Tagsági következtetésnek is nevezik.	Képzési adatkinyerés, amely rekonstruálja a képzési adatkészletben használt elemeket, amelyek érzékeny, nem nyilvános információkat szivárogtatnak ki.
	Kivonat, amely rekonstruálja a nem érzékeny/nyilvános információkat.	Hatáskörön kívül
Modellek manipulálása: Olyan támadó, aki képes titkosan megváltoztatni egy modell viselkedését úgy, hogy az előre meghatározott ellenséges viselkedést váltson ki.	Ellenkező kimenet vagy viselkedés, amelyet a támadó megbízhatóan kiválthat a Google tulajdonában lévő és általa üzemeltetett modellben („hátsó ajtók”). Csak abban az esetben, ha a modell kimenetét az áldozat fiókja vagy adatai állapotának megváltoztatására használják.
	Olyan támadások, amelyek során a támadó manipulálja a modell betanítási adatait, hogy befolyásolja a modell kimenetét az áldozat munkamenetében a támadó preferenciái szerint. Csak abban az esetben, ha a modell kimenetét az áldozat fiókja vagy adatai állapotának megváltoztatására használják.
Ellenkező perturbáció: Olyan bemenetek, amelyek egy modellhez determinisztikus, de nagyon váratlan kimenetet eredményeznek a modellből.	Olyan kontextusok, amelyekben az ellenfél megbízhatóan téves besorolást válthat ki egy biztonsági ellenőrzésben, amely visszaélhető rosszindulatú felhasználásra vagy ellenséges haszonszerzésre.
	Olyan kontextusok, amelyekben a modell helytelen kimenete vagy besorolása nem jelent meggyőző támadási forgatókönyvet vagy lehetséges utat a Google vagy a felhasználók kárára.	Hatáskörön kívül
Modelllopás/Szűrés: Az AI-modellek gyakran tartalmaznak érzékeny szellemi tulajdont, ezért kiemelten kezeljük ezeknek az eszközöknek a védelmét. A kiszűrési támadások lehetővé teszik a támadók számára, hogy ellopják a modell részleteit, például annak architektúráját vagy súlyait.	Olyan támadások, amelyek során egy bizalmas/tulajdonos modell pontos architektúráját vagy súlyait nyerik ki.
	Olyan támadások, amelyek során az architektúra és a súlyozások nincsenek pontosan kivonva, vagy ha nem bizalmas modellből nyerik ki őket.	Hatáskörön kívül
Ha a fent felsoroltaktól eltérő hibát talál egy mesterséges intelligencia által hajtott eszközben, akkor is benyújthatja, feltéve, hogy az megfelel a a programoldalunkon felsorolt képesítések.	Olyan programhiba vagy viselkedés, amely egyértelműen megfelel az érvényes biztonsági vagy visszaélési probléma követelményeinek.
	Egy mesterséges intelligencia-termék használata potenciálisan ártalmas tevékenységre, ami más eszközökkel már lehetséges. Például egy nyílt forráskódú szoftver sérülékenységének megtalálása (a nyilvánosan elérhető szoftver használatával már lehetséges statikus elemző eszközök) és a válasz elkészítése egy káros kérdésre, amikor a válasz már elérhető az interneten.	Hatáskörön kívül
	A programunkkal összhangban olyan problémák, amelyekről már tudunk, nem jogosultak jutalomra.	Hatáskörön kívül
	Lehetséges szerzői jogi problémák – olyan megállapítások, amelyek során a termékek szerzői joggal védettnek tűnő tartalmat adnak vissza. A Google generatív mesterséges intelligencia termékei már rendelkeznek külön jelentési csatornával az ilyen típusú tartalmi problémákra.	Hatáskörön kívül

Úgy gondoljuk, hogy a hibajavító programunk AI-rendszereinkre való kiterjesztése ezt támogatja felelős AI innováció, és alig várjuk, hogy folytathassuk munkánkat a kutatói közösséggel, hogy felfedezzük és kijavítsuk a biztonsági és visszaélési problémákat AI-alapú szolgáltatásainkban. Ha megfelelő problémát talál, kérjük, látogasson el a Bug Hunters webhelyre, és küldje el nekünk hibajelentését, és – ha a problémát érvényesnek találja – jutalmat kap, amiért segít a felhasználók biztonságának megőrzésében.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://www.darkreading.com/vulnerabilities-threats/establishing-reward-criteria-for-reporting-bugs-in-ai-products

Időbélyeg: December 15, 2023

Időbélyeg: 14. március 2023.

Jutalmazási kritériumok megállapítása az AI-termékek hibáinak bejelentéséhez

Újra kiadta Platón

Mi tartozik a jutalmakhoz

Még több Sötét olvasmány

Az Accenture és a SandboxAQ együttműködve segíti a szervezeteket az adatok védelmében

Az apátia a cége legnagyobb kiberbiztonsági sebezhetősége – így küzdhetsz ellene

A legtöbb támadónak kevesebb, mint 10 órára van szüksége, hogy megtalálja a gyenge pontokat

Az Oreo Giant Mondelez rendezi a NotPetya „Act of War” biztosítási pert

Hogyan maradhatnak védettek a kiskereskedők az év legcsodálatosabb időszakában

A Calamu együttműködik a Wasabi Technologies-szel a felhőalapú tárolási tárolók gyártásában

Az Optiv több mint megduplázza a szövetségi jelenlétet a ClearShark felvásárlással

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók