注意:作为我们的一部分 准备框架,我们正在投资开发改进的人工智能安全风险评估方法。我们相信,这些努力将受益于更广泛的投入,并且方法共享也对人工智能风险研究社区有价值。为此,我们今天将展示我们的一些早期工作,重点关注生物风险。我们期待社区反馈,并分享更多我们正在进行的研究。
背景。 随着 OpenAI 和其他模型开发人员构建更强大的人工智能系统,人工智能的有益和有害用途的潜力都将增长。研究人员和政策制定者强调的一种潜在有害用途是人工智能系统协助恶意行为者制造生物威胁的能力(例如,参见 白宫 2023, 洛夫莱斯 2022, 沙布林克 2023)。在一个讨论的假设示例中,恶意行为者可能会使用功能强大的模型来开发分步协议、对湿实验室程序进行故障排除,甚至在有权访问以下工具时自动执行生物威胁创建过程的步骤 云实验室 (见 Carter等,2023)。然而,评估此类假设示例的可行性受到评估和数据不足的限制。
继我们最近分享的 准备框架,我们正在开发方法来对这些类型的风险进行实证评估,以帮助我们了解我们今天的处境和未来可能的处境。在这里,我们详细介绍了一项新的评估,该评估可能有助于作为一个潜在的“绊线”,表明需要谨慎行事并进一步测试生物滥用的可能性。该评估旨在衡量与现有资源(即互联网)的基线相比,模型是否可以有意义地增加恶意行为者对有关生物威胁创建的危险信息的访问。
为了评估这一点,我们对 100 名人类参与者进行了一项研究,其中包括 (a) 50 名拥有博士学位和专业湿实验室经验的生物学专家,以及 (b) 50 名学生级别的参与者,至少学过一门大学级别的生物学课程。每组参与者被随机分配到只能访问互联网的对照组,或除了互联网之外还可以访问 GPT-4 的治疗组。然后要求每个参与者完成一组任务,涵盖生物威胁创建端到端流程的各个方面。[^1] 据我们所知,这是迄今为止最大规模的人类对人工智能对生物风险信息影响的评估。
发现。 我们的研究通过五个指标(准确性、完整性、创新性、所用时间和自评难度)和生物威胁创建过程的五个阶段(构思、获取、放大、形成)评估了访问 GPT-4 的参与者的绩效提升情况。 ,然后释放)。我们发现,对于那些能够访问语言模型的人来说,准确性和完整性略有提高。具体来说,在衡量回答准确性的 10 分制中,我们观察到与纯互联网基线相比,专家的平均分数增加了 0.88,学生的平均分数增加了 0.25,完整性也有类似的提升(专家为 0.82,学生为 0.41)。然而,获得的效应大小不够大,不足以具有统计显着性,我们的研究强调需要围绕哪些性能阈值表明风险有意义增加进行更多研究。此外,我们注意到,仅靠信息访问不足以造成生物威胁,并且这种评估并不能测试威胁的物理构建是否成功。
下面,我们更详细地分享我们的评估过程及其产生的结果。我们还讨论了与大规模前沿模型运行此类评估所需的能力启发和安全考虑相关的几种方法论见解。我们还讨论了统计显着性作为衡量模型风险的有效方法的局限性,以及新研究在评估模型评估结果的意义方面的重要性。
- :是
- :不是
- :在哪里
- 1
- 100
- 25
- 41
- 50
- a
- 对,能力--
- 关于
- ACCESS
- 获得
- 横过
- 演员
- 增加
- AI
- 人工智能系统
- 目标
- AL
- 单
- 还
- an
- 和
- 保健
- 围绕
- AS
- 方面
- 评估
- 评估
- 分配
- 协助
- At
- 自主
- b
- 底线
- BE
- 相信
- 有利
- 得益
- 生物学
- 都
- 更广泛
- 建立
- 建筑物
- by
- 能力
- 能力
- 警告
- 社体的一部分
- 相比
- 完成
- 包括
- 进行
- 注意事项
- 施工
- 控制
- 可以
- 课程
- 覆盖
- 创建信息图
- 创造
- 创建
- 危险的
- data
- 细节
- 开发
- 开发
- 发展
- 研发支持
- 困难
- 讨论
- 讨论
- 不
- e
- Ë&T
- 每
- 早
- 效果
- 有效
- 工作的影响。
- 或
- 结束
- 端至端
- 更多
- 错误
- 评估
- 评估
- 评价
- 甚至
- 例子
- 例子
- 执行
- 现有
- 体验
- 专家
- 反馈
- 五
- 重点
- 针对
- 公式
- 向前
- 发现
- 止
- 边疆
- 进一步
- 未来
- 特定
- 团队
- 增长
- 民政事务总署
- 有害
- 帮助
- 相关信息
- 突出
- 别墅
- 但是
- HTTP
- HTTPS
- 人
- i
- 意念
- 影响力故事
- 重要性
- 改善
- in
- 增加
- 表明
- 信息
- 創新
- 输入
- 可行的洞见
- 网络
- 投资
- IT
- JPG
- 知识
- 实验室
- 语言
- 大
- 最大
- 最少
- 喜欢
- 限制
- 有限
- 看
- 恶意
- 意味着
- 有意义的
- 衡量
- 测量
- 方法
- 方法
- 方法
- 指标
- 可能
- 温和
- 滥用
- 模型
- 模型
- 更多
- 此外
- 需求
- 打印车票
- 全新
- 注意
- 观察
- 获得
- of
- on
- 一
- 正在进行
- 仅由
- OpenAI
- or
- 其他名称
- 我们的
- 部分
- 成員
- 与会者
- 性能
- 的
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 政策制定者
- 潜力
- 可能
- 程序
- 程序
- 过程
- 所以专业
- 协议
- 最近
- 有关
- 释放
- 研究
- 社区研究
- 研究人员
- 资源
- 回复
- 成果
- 风险
- 风险
- 运行
- 实现安全
- 鳞片
- 得分了
- 保安
- 看到
- 服务
- 集
- 几个
- Share
- 共用的,
- 共享
- 意义
- 显著
- 类似
- 尺寸
- 一些
- 特别是
- 实习
- 统计
- 统计学
- 步骤
- 学生
- 学习
- 成功
- 这样
- 系统
- 产品
- 拍摄
- 任务
- test
- 测试
- 这
- 未来
- 然后
- 博曼
- Free Introduction
- 那些
- 威胁
- 威胁
- 次
- 至
- 今晚
- 工具
- 治疗
- 类型
- 类型
- 理解
- us
- 使用
- 使用
- 折扣值
- 可行性
- VOX功能
- 警告
- 是
- we
- 为
- 什么是
- ,尤其是
- 是否
- 这
- 将
- 将
- 产生
- 和风网