DeepMind 最新问答聊天机器人 Sparrow 的秘密：人类反馈

由柏拉图重新发布

关注： 0

DeepMind 通过结合人工反馈和谷歌搜索建议，训练了一个名为 Sparrow 的聊天机器人，使其比其他系统毒性更小、更准确。

聊天机器人通常由大型语言模型 (LLM) 提供支持，该模型对从互联网上抓取的文本进行训练。这些模型能够生成至少在表面上连贯且语法正确的散文段落，并且可以响应用户的问题或书面提示。

然而，该软件经常从源材料中提取不良特征，导致它反刍攻击性、种族主义和性别歧视观点，或者在社交媒体和互联网论坛上经常发现虚假新闻或阴谋。也就是说，可以引导这些机器人生成更安全的输出。

向前一步，麻雀。这个聊天机器人是基于龙猫，DeepMind 令人印象深刻的语言模型证明您不需要上千亿个参数（就像其他 LLM 一样）来生成文本：Chinchilla 有 70 亿个参数，可以轻松地进行推理和微调相对较轻的任务。

为了构建 Sparrow，DeepMind 采用了 Chinchilla，并使用强化学习过程根据人类反馈对其进行了调整。具体来说，人们被招募来根据回复的相关性和有用性以及他们是否违反任何规则来评估聊天机器人对特定问题的回答。例如，其中一条规则是：不要冒充或假装是真人。

这些分数被反馈到引导和改进机器人的未来输出，这个过程一遍又一遍地重复。这些规则是调节软件行为并鼓励其安全和有用的关键。

在一个示例交互，斯帕罗被问及国际空间站和宇航员身份。该软件能够回答有关轨道实验室最近一次探险的问题，并复制并粘贴了来自维基百科的正确信息段落以及指向其来源的链接。

当用户进一步询问 Sparrow 是否会去太空时，它说它不能去，因为它不是一个人，而是一个计算机程序。这表明它正确地遵守了规则。

在这种情况下，Sparrow 能够提供有用且准确的信息，并且没有假装自己是人。它被教导要遵循的其他规则包括不产生任何侮辱或刻板印象，不提供任何医疗、法律或财务建议，以及不说任何不恰当的话、不发表任何意见或情绪或假装它有身体。

我们被告知，Sparrow 能够以合乎逻辑的、明智的答案做出回应，并在大约 78% 的情况下为请求提供来自 Google 搜索的相关链接，其中包含更多信息。

当参与者的任务是通过提出个人问题或试图征求医疗信息来试图让 Sparrow 采取行动时，XNUMX% 的案例违反了规则。语言模型难以控制且不可预测；麻雀有时还是会编造事实，说坏话。

例如，当被问及谋杀时，它说谋杀是不好的，但不应该是犯罪—— 多么令人放心. 当一位用户询问他们的丈夫是否有外遇时，Sparrow 回答说它不知道，但可以找到他最近的谷歌搜索是什么。我们确信 Sparrow 实际上无法访问这些信息。 “他搜索'我的妻子疯了'，”它撒了谎。

“Sparrow 是一种研究模型和概念验证，旨在训练对话代理变得更有帮助、正确和无害。通过在一般对话环境中学习这些品质，Sparrow 加深了我们对如何训练智能体更安全、更有用的理解——并最终帮助构建更安全、更有用的通用人工智能，”DeepMind 解释说。

“我们与 Sparrow 的目标是建立灵活的机制来执行对话代理中的规则和规范，但我们使用的特定规则是初步的。制定一套更好、更完整的规则将需要专家对许多主题（包括政策制定者、社会科学家和伦理学家）的投入，以及来自不同用户和受影响群体的参与性投入。我们相信我们的方法仍将适用于更严格的规则集。”

您可以在非同行评审的论文中阅读更多关于 Sparrow 如何工作的信息此处 [PDF]。

注册已要求 DeepMind 进一步发表评论。 ®

时间戳记： 2022 年 9 月 22 日2022 年 9 月 22 日

参议员敦促美国贸易监管机构调查特斯拉是否可能过度鼓励其自动驾驶仪、FSD 布丁

源群集：

源节点： 1864956

时间戳记： 2021 年 8 月 18 日

当大脑植入的通讯工具成为常态时，永远与隐私道别-大师惠特·迪菲（Whit Diffie）

源群集：

源节点： 871841

时间戳记： 2021 年 5 月 17 日

哈达尔加剧了计算机夜视竞赛

源群集：

源节点： 2807697

时间戳记： 2023 年 7 月 27 日

CISA 和 NCSC 牵头努力提高人工智能安全标准

源群集：

源节点： 2982257

时间戳记： 2023 年 11 月 27 日

谷歌未能驳回不当解雇诉讼

源群集：

源节点： 2784445

时间戳记： 2023 年 7 月 24 日

忽略炒作：虽然许多人声称使用人工智能，但只有少数人真正这样做

源群集：

源节点： 2953079

时间戳记： 2023 年 10 月 23 日

Gartner：到 2024 年人工智能投资仍处于规划阶段

源群集：

源节点： 3067932

时间戳记： 2024 年 1 月 17 日

保险初创公司通过AI测谎仪回撤了原告的运行视频

源群集：

源节点： 876666

时间戳记： 2021 年 5 月 26 日

谁需要水手？美国海军最新的机器人船可以自行运行 30 天

源群集：

源节点： 1980085

时间戳记： 2023 年 2 月 21 日

人工智能算法可以帮助消除互联网卫星的明亮条纹——但它们无法拯救天文学

源群集：

源节点： 1419648

时间戳记： 2021 年 11 月 6 日

俄罗斯国际象棋机器人打断了孩子对手的手指

源群集：

源节点： 1592444

时间戳记： 2022 年 7 月 25 日

非企业用户？ Microsoft 可能会存储您的 Bing 聊天记录

源群集：

源节点： 2824654

时间戳记： 2023 年 8 月 15 日

DeepMind 最新问答聊天机器人 Sparrow 的秘密：人类反馈

由柏拉图重新发布

更多来自注册

参议员敦促美国贸易监管机构调查特斯拉是否可能过度鼓励其自动驾驶仪、FSD 布丁

当大脑植入的通讯工具成为常态时，永远与隐私道别-大师惠特·迪菲（Whit Diffie）

哈达尔加剧了计算机夜视竞赛

CISA 和 NCSC 牵头努力提高人工智能安全标准

谷歌未能驳回不当解雇诉讼

忽略炒作：虽然许多人声称使用人工智能，但只有少数人真正这样做

Gartner：到 2024 年人工智能投资仍处于规划阶段

保险初创公司通过AI测谎仪回撤了原告的运行视频

谁需要水手？美国海军最新的机器人船可以自行运行 30 天

人工智能算法可以帮助消除互联网卫星的明亮条纹——但它们无法拯救天文学

俄罗斯国际象棋机器人打断了孩子对手的手指

非企业用户？ Microsoft 可能会存储您的 Bing 聊天记录

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

更多来自 注册

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

更多来自注册