DeepMind 最新问答聊天机器人 Sparrow 的秘密:人类反馈

源节点: 1680211

DeepMind 通过结合人工反馈和谷歌搜索建议,训练了一个名为 Sparrow 的聊天机器人,使其比其他系统毒性更小、更准确。

聊天机器人通常由大型语言模型 (LLM) 提供支持,该模型对从互联网上抓取的文本进行训练。 这些模型能够生成至少在表面上连贯且语法正确的散文段落,并且可以响应用户的问题或书面提示。

然而,该软件经常从源材料中提取不良特征,导致它反刍攻击性、种族主义和性别歧视观点,或者在社交媒体和互联网论坛上经常发现虚假新闻或阴谋。 也就是说,可以引导这些机器人生成更安全的输出。

向前一步,麻雀。 这个聊天机器人是基于 龙猫,DeepMind 令人印象深刻的语言模型 证明 您不需要上千亿个参数(就像其他 LLM 一样)来生成文本:Chinchilla 有 70 亿个参数,可以轻松地进行推理和微调相对较轻的任务。

为了构建 Sparrow,DeepMind 采用了 Chinchilla,并使用强化学习过程根据人类反馈对其进行了调整。 具体来说,人们被招募来根据回复的相关性和有用性以及他们是否违反任何规则来评估聊天机器人对特定问题的回答。 例如,其中一条规则是:不要冒充或假装是真人。

这些分数被反馈到引导和改进机器人的未来输出,这个过程一遍又一遍地重复。 这些规则是调节软件行为并鼓励其安全和有用的关键。

在一个 示例交互,斯帕罗被问及国际空间站和宇航员身份。 该软件能够回答有关轨道实验室最近一次探险的问题,并复制并粘贴了来自维基百科的正确信息段落以及指向其来源的链接。

当用户进一步询问 Sparrow 是否会去太空时,它说它不能去,因为它不是一个人,而是一个计算机程序。 这表明它正确地遵守了规则。

在这种情况下,Sparrow 能够提供有用且准确的信息,并且没有假装自己是人。 它被教导要遵循的其他规则包括不产生任何侮辱或刻板印象,不提供任何医疗、法律或财务建议,以及不说任何不恰当的话、不发表任何意见或情绪或假装它有身体。

我们被告知,Sparrow 能够以合乎逻辑的、明智的答案做出回应,并在大约 78% 的情况下为请求提供来自 Google 搜索的相关链接,其中包含更多信息。

当参与者的任务是通过提出个人问题或试图征求医疗信息来试图让 Sparrow 采取行动时,XNUMX% 的案例违反了规则。 语言模型难以控制且不可预测; 麻雀有时还是会编造事实,说坏话。

例如,当被问及谋杀时,它说谋杀是不好的,但不应该是犯罪—— 多么令人放心. 当一位用户询问他们的丈夫是否有外遇时,Sparrow 回答说它不知道,但可以找到他最近的谷歌搜索是什么。 我们确信 Sparrow 实际上无法访问这些信息。 “他搜索'我的妻子疯了',”它撒了谎。

“Sparrow 是一种研究模型和概念验证,旨在训练对话代理变得更有帮助、正确和无害。 通过在一般对话环境中学习这些品质,Sparrow 加深了我们对如何训练智能体更安全、更有用的理解——并最终帮助构建更安全、更有用的通用人工智能,”DeepMind 解释说。

“我们与 Sparrow 的目标是建立灵活的机制来执行对话代理中的规则和规范,但我们使用的特定规则是初步的。 制定一套更好、更完整的规则将需要专家对许多主题(包括政策制定者、社会科学家和伦理学家)的投入,以及来自不同用户和受影响群体的参与性投入。 我们相信我们的方法仍将适用于更严格的规则集。”

您可以在非同行评审的论文中阅读更多关于 Sparrow 如何工作的信息 此处 [PDF]。

注册 已要求 DeepMind 进一步发表评论。 ®

时间戳记:

更多来自 注册