建立报告人工智能产品错误的奖励标准

由柏拉图重新发布

关注： 0

在 Google，我们维护一个漏洞奖励计划表彰解决 Google 拥有和 Alphabet 子公司网络资产问题的尖端外部贡献。为了跟上人工智能技术的快速发展，并确保我们准备好应对人工智能领域的安全挑战提供品牌战略规划方式，我们最近扩展了现有的错误猎人计划促进第三方发现和报告我们人工智能系统特有的问题和漏洞。此次扩展是我们努力实施的一部分自愿人工智能承诺这是我们七月份在白宫制定的。

为了帮助安全社区更好地了解这些发展，我们提供了有关奖励计划要素的更多信息。

奖励范围有哪些

在我们最近的 AI红队报告，基于谷歌的人工智能红队练习中，我们确定了我们认为最相关和最现实的常见策略、技术和程序 (TTP) 用于对抗人工智能系统的现实对手。下表包含了我们所学到的知识，以帮助研究界了解我们的人工智能错误报告标准以及我们的奖励计划的范围。值得注意的是，奖励金额取决于攻击场景的严重程度和受影响的目标类型（访问程序规则页面有关我们奖励表的更多信息）。

提示攻击：制作对抗性提示，允许对手以应用程序不希望的方式影响模型的行为，从而影响输出。	及时进行受害者看不见的注入，并改变受害者账户或其任何资产的状态。
	提示注入任何使用响应来做出直接影响受害者用户的决策的工具。
	提示或前导码提取，其中仅当提取的前导码中存在敏感信息时，用户才能够提取用于启动模型的初始提示。
	使用产品在您自己的会话中生成违规、误导或事实不正确的内容：例如“越狱”。这包括“幻觉”和事实上不准确的反应。谷歌的生成式人工智能产品已经为此类内容问题提供了专门的报告渠道。	超出范围
训练数据提取：能够成功重建包含敏感信息的逐字训练示例的攻击。也称为隶属度推断。	训练数据提取，重建训练数据集中使用的泄露敏感非公开信息的项目。
	重构非敏感/公共信息的提取。	超出范围
操纵模型：攻击者能够秘密地改变模型的行为，以便触发预定义的对抗行为。	攻击者可以通过 Google 拥有和运营的模型中的特定输入可靠地触发对抗性输出或行为（“后门”）。仅在模型的输出用于更改受害者帐户或数据的状态时的范围内。
	攻击者根据攻击者的偏好操纵模型的训练数据来影响受害者会话中模型的输出。仅在模型的输出用于更改受害者帐户或数据的状态时的范围内。
对抗性扰动：提供给模型的输入会导致模型产生确定性但高度意外的输出。	在这种情况下，对手可以可靠地触发安全控制中的错误分类，从而可能被滥用以进行恶意使用或获取对抗性收益。
	模型的错误输出或分类不会构成令人信服的攻击场景或对 Google 或用户造成伤害的可行路径的上下文。	超出范围
模型盗窃/渗漏：人工智能模型通常包含敏感的知识产权，因此我们高度重视保护这些资产。渗透攻击允许攻击者窃取有关模型的详细信息，例如其架构或权重。	提取机密/专有模型的确切架构或权重的攻击。
	未精确提取架构和权重或从非机密模型中提取架构和权重的攻击。	超出范围
如果您发现人工智能工具存在上述以外的缺陷，您仍然可以提交，只要它符合我们的计划页面上列出的资格.	明显符合我们有效安全或滥用问题资格的错误或行为。
	使用人工智能产品做一些可能有害的事情，而其他工具已经可以做到这一点。例如，发现开源软件中的漏洞（已经可以使用公开可用的静态分析工具）并在网上已有答案时给出有害问题的答案。	超出范围
	根据我们的计划，我们已经知道的问题没有资格获得奖励。	超出范围
	潜在的版权问题——产品返回的内容似乎受版权保护的结果。谷歌的生成式人工智能产品已经为此类内容问题提供了专门的报告渠道。	超出范围

我们相信，将我们的错误赏金计划扩展到我们的人工智能系统将支持负责任的人工智能创新，并期待继续与研究社区合作，发现并解决人工智能功能中的安全和滥用问题。如果您发现符合条件的问题，请访问我们的 Bug Hunters 网站，向我们发送您的 Bug 报告，并且如果发现该问题有效，您将因帮助我们保护用户安全而获得奖励。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://www.darkreading.com/vulnerabilities-threats/establishing-reward-criteria-for-reporting-bugs-in-ai-products

时间戳记： 2023 年 12 月 15 日

时间戳记： 2023 年 3 月 14 日

建立报告人工智能产品错误的奖励标准

由柏拉图重新发布

奖励范围有哪些

更多来自暗读

埃森哲和 SandboxAQ 合作帮助组织保护数据

冷漠是贵公司最大的网络安全漏洞——以下是应对方法

大多数攻击者需要不到 10 小时就能找到弱点

Oreo Giant Mondelez 解决 NotPetya 的“战争行为”保险诉讼

零售商如何在一年中最美好的时光保持安全

Calamu 与 Wasabi Technologies 合作提供云存储库

Optiv 通过收购 ClearShark 将联邦政府的存在扩大一倍以上

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

奖励范围有哪些

更多来自 暗读

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

更多来自暗读