Встановлення критеріїв винагороди за повідомлення про помилки в продуктах ШІ

Перевидано Платоном

читають: 0

У Google ми підтримуємо a Програма винагороди за вразливість щоб відзначити найсучасніші зовнішні внески щодо вирішення проблем у веб-ресурсах, що належать Google і дочірній компанії Alphabet. Щоб не відставати від швидкого прогресу технологій штучного інтелекту та бути готовими до вирішення проблем безпеки в a відповідальний До речі, нещодавно ми розширили наш існуючий Програма Bug Hunters сприяти виявленню третіми сторонами проблем і вразливостей, характерних для наших систем ШІ, і повідомляти про них. Це розширення є частиною наших зусиль із впровадження добровільні зобов'язання щодо ШІ який ми зробили в Білому домі в липні.

Щоб допомогти спільноті безпеки краще зрозуміти ці події, ми включили більше інформації про елементи програми винагород.

Що входить до сфери винагороди

У нашій останній Звіт червоної команди AI, на основі якої Червона команда AI від Google навчань, ми визначили загальні тактики, техніки та процедури (TTP), які ми вважаємо найбільш відповідними та реалістичними для супротивників у реальному світі для використання проти систем ШІ. У наведеній нижче таблиці наведено те, що ми дізналися, щоб допомогти дослідницькому співтовариству зрозуміти наші критерії для звітів про помилки штучного інтелекту та що стосується сфери застосування нашої програми винагород. Важливо зазначити, що суми винагороди залежать від серйозності сценарію атаки та типу цілі, на яку вона впливає (відвідайте сторінка правил програми для отримання додаткової інформації в нашій таблиці винагород).

Атаки підказок: створення змагальних підказок, які дозволяють супротивнику впливати на поведінку моделі та, отже, на результат, не передбаченим програмою способом.	Швидкі ін’єкції, які невидимі для жертв і змінюють стан облікового запису жертви або будь-яких її активів.
	Оперативні ін’єкції в будь-які інструменти, у яких відповідь використовується для прийняття рішень, які безпосередньо впливають на користувачів-жертв.
	Витяг підказки або преамбули, у якому користувач може витягнути початкову підказку, яка використовується для заповнення моделі, лише якщо конфіденційна інформація присутня у витягнутій преамбулі.
	Використання продукту для створення порушливого, оманливого або фактично неправильного вмісту під час власного сеансу: наприклад, «втечі з в’язниці». Це включає «галюцинації» та фактично неточні відповіді. У генеративних продуктах штучного інтелекту Google уже є спеціальний канал для звітування про такі типи проблем із контентом.	Виходить за рамки
Вилучення навчальних даних: атаки, які дозволяють успішно реконструювати дослівні навчальні приклади, які містять конфіденційну інформацію. Також називається висновком про членство.	Вилучення навчальних даних, яке реконструює елементи, що використовуються в наборі навчальних даних, які витікають конфіденційну закриту інформацію.
	Вилучення, яке реконструює неконфіденційну/загальнодоступну інформацію.	Виходить за рамки
Маніпулювання моделями: зловмисник, здатний приховано змінити поведінку моделі таким чином, щоб він міг ініціювати заздалегідь визначену ворожу поведінку.	Змагальний вихід або поведінка, яку зловмисник може надійно викликати через певний вхід у модель, якою володіє та керує Google («бекдори»). Лише в межах, коли вихідні дані моделі використовуються для зміни стану облікового запису або даних жертви.
	Атаки, під час яких зловмисник маніпулює навчальними даними моделі, щоб вплинути на вихід моделі в сеансі жертви відповідно до вподобань зловмисника. Лише в межах, коли вихідні дані моделі використовуються для зміни стану облікового запису або даних жертви.
Суперечливе збурення: вхідні дані, які надаються в модель, що призводить до детермінованого, але дуже несподіваного результату моделі.	Контексти, в яких зловмисник може надійно викликати неправильну класифікацію в елементі керування безпекою, який може бути використаний для зловмисного використання або конкурентної вигоди.
	Контексти, у яких неправильні результати або класифікація моделі не створюють переконливого сценарію атаки чи можливого шляху до шкоди Google або користувачам.	Виходить за рамки
Крадіжка/викрадання моделі: моделі штучного інтелекту часто містять конфіденційну інтелектуальну власність, тому ми надаємо пріоритет захисту цих активів. Ексфільтраційні атаки дозволяють зловмисникам викрасти деталі про модель, наприклад її архітектуру або ваги.	Атаки, під час яких витягується точна архітектура або ваги конфіденційної/захищеної моделі.
	Атаки, у яких архітектура та ваги не витягуються точно, або коли вони витягуються з неконфіденційної моделі.	Виходить за рамки
Якщо ви виявите недолік в інструменті на основі штучного інтелекту, відмінний від зазначеного вище, ви все одно можете подати його за умови, що він відповідає кваліфікації, перелічені на сторінці нашої програми.	Помилка або поведінка, яка чітко відповідає нашим вимогам щодо дійсної проблеми безпеки чи порушення.
	Використання продукту штучного інтелекту, щоб зробити щось потенційно шкідливе, що вже можливо з іншими інструментами. Наприклад, знайти вразливість у програмному забезпеченні з відкритим кодом (вже можливо за допомогою загальнодоступних засоби статичного аналізу) і створення відповіді на шкідливе запитання, коли відповідь уже доступна в Інтернеті.	Виходить за рамки
	Згідно з нашою програмою, проблеми, про які ми вже знаємо, не мають права на винагороду.	Виходить за рамки
	Потенційні проблеми з авторським правом — результати, коли продукти повертають вміст, який виглядає захищеним авторським правом. У генеративних продуктах штучного інтелекту Google уже є спеціальний канал для звітування про такі типи проблем із контентом.	Виходить за рамки

Ми віримо, що розширення нашої програми винагород за помилки на наші системи ШІ допоможе відповідальні інновації ШІ, і з нетерпінням чекаємо на продовження нашої роботи з дослідницькою спільнотою, щоб виявити та виправити проблеми з безпекою та зловживаннями в наших функціях на основі ШІ. Якщо ви знайшли відповідну проблему, будь ласка, перейдіть на наш веб-сайт Bug Hunters, щоб надіслати нам свій звіт про помилку та — якщо проблему буде визнано дійсною — отримайте винагороду за допомогу нам у захисті наших користувачів.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://www.darkreading.com/vulnerabilities-threats/establishing-reward-criteria-for-reporting-bugs-in-ai-products

Часова мітка: 15 Грудня, 2023

Часова мітка: Березень 14, 2023

Встановлення критеріїв винагороди за повідомлення про помилки в продуктах ШІ

Перевидано Платоном

Що входить до сфери винагороди

Більше від Темне читання

Accenture і SandboxAQ співпрацюють, щоб допомогти організаціям захистити дані

Апатія — це найбільша вразливість вашої компанії в кібербезпеці — ось як з нею боротися

Більшості зловмисників потрібно менше 10 годин, щоб знайти слабкі місця

Oreo Giant Mondelez врегулює страховий позов NotPetya «Act of War».

Як роздрібні торговці можуть бути захищені в найпрекраснішу пору року

Calamu співпрацює з Wasabi Technologies для створення хмарних сховищ

Optiv більш ніж подвоює федеральну присутність завдяки придбанню ClearShark

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки