为什么每个人都喜欢 ChatGPT 聊天机器人

源节点: 1771427

另一个长期以来被认为对人工智能 (AI) 来说非常具有挑战性的游戏已经落入了机器人的手中:Stratego。

DeepNash,由总部位于伦敦的公司开发的人工智能 DeepMind, 现在在 Stratego 与专家人类匹配,这是一款棋盘游戏,需要针对不完善的信息进行长期战略思考。

这一最新壮举是在人工智能在以前被认为是人类强项的游戏中又一次取得重大胜利之后出现的。

就在上周,Meta 的 Cicero,一个人工智能 可以胜过人类玩家 在外交游戏中,创造了在线智胜对手的历史。

密歇根大学安娜堡分校研究战略推理和游戏的计算机科学家 Michael Wellman 说:“近年来,AI 征服了不同性质的游戏功能,或者将其掌握到新的水平,其速度非常惊人。”理论。

“Stratego 和 Diplomacy 彼此截然不同,并且具有挑战性的特征,与已经达到类似里程碑的游戏明显不同,”Wellman 说。

不完全信息

该游戏的特点通常比国际象棋、围棋或扑克复杂得多。 国际象棋、围棋和扑克都被人工智能掌握了。

在 Stratego 游戏中,两名玩家每人将 40 颗棋子放在棋盘上,但不得看到对方的棋子是什么。

游戏的目标是轮流移动棋子以消除对手的棋子并夺取旗帜。 

Stratego 的博弈树——游戏可能进行的所有可能方式的图表——有 10535 个状态,而 Go 有 10360 个状态。 

当谈到游戏开始时的不完全信息时,Stratego 有 1066 个可能的私人位置,这个数字使两人德州扑克中只有 106 个这样的起始位置相形见绌。

“Stratego 中可能结果数量的绝对复杂性意味着在完美信息游戏中表现良好的算法,甚至那些适用于扑克的算法,都不起作用,”巴黎的 DeepMind 研究员 Julien Perolat 说。

DeepNash 是由 Perolat 和他的同事开发的。

纳什启发的机器人

该机器人的名字是为了纪念美国著名数学家约翰纳什,他提出了纳什均衡理论,该理论假设存在一套“稳定的策略集”,玩家可以遵循这些策略,而玩家不会因改变策略而受益他们自己。 因此,博弈往往有零个、​​一个或多个纳什均衡。

DeepNash 结合了强化学习算法和深度神经网络来寻找纳什均衡。 

通常,强化学习是智能代理(计算机程序)与环境交互并学习最佳策略来指示游戏每个状态的动作的地方。 

为了得到最优策略,DeepNash 与自己进行了 5.5 亿次博弈。 

从本质上讲,如果一方受到惩罚,另一方就会得到奖励,神经网络的变量——代表政策——也会相应地调整。

人工智能在 Stratego 中击败人类——认识 DeepMash

人工智能在 Stratego 中击败人类——认识 DeepMash

在某个阶段,DeepNash 收敛于一个近似的纳什均衡。 与其他机器人不同,DeepNash 无需 s 即可优化自身搜索游戏树。

在为期两周的时间里,DeepNash 在在线游戏平台 Gravon 上与人类 Stratego 玩家对战。

在参加了 50 场比赛后,Ai 在 2002 年以来的所有 Gravon Stratego 玩家中排名第三。 

“我们的工作表明,像 Stratego 这样复杂的游戏,涉及不完美的信息,不需要搜索技术来解决它,”团队成员 Karl Tuyls 说,他是巴黎的 DeepMind 研究员。 “这是人工智能向前迈出的一大步。”

这一壮举也给其他研究人员留下了深刻印象。

令人印象深刻

“结果令人印象深刻,”总部位于纽约市的 Meta AI 的研究员 Noam Brown 表示同意,他是 2019 年报告玩扑克的 AI Pluribus4 的团队成员。

在 Facebook 的母公司 Meta,Brown 和她的同事开发了一个可以玩外交游戏的 AI,在这款游戏中,七名玩家通过在地图上四处移动棋子来争夺对欧洲的地理控制权。

在外交中,目标是通过移动单位(舰队和军队)来控制补给中心。 

Meta 说 Cicero 非常重要,因为人工智能依赖于非对抗性环境。

过去,多智能体 AI 的主要成功是在完全对抗的环境中,例如国际象棋、围棋和扑克,在这些环境中,交流没有价值,西塞罗采用了战略推理引擎和可控对话模块。

布朗说:“当你超越两人零和博弈时,纳什均衡的想法就不再那么有用了。”

布朗和她的团队使用来自 125,261 场涉及人类玩家的在线版外交游戏的数据来训练西塞罗。 

使用自我博弈数据和战略推理模块 (SRM),西塞罗学会了根据博弈状态和累积的信息、其他玩家可能的行动和策略来预测判断。 

人工智能在 Stratego 中击败人类——认识 DeepMash

人工智能在 Stratego 中击败人类——认识 DeepMash

Meta 表示,它从 webDiplomacy.net 上在线玩的 125,261 场外交游戏中收集了数据。 在这些游戏中,共有 40,408 个游戏包含对话,玩家之间交换的消息总数为 12,901,662 条。

真实世界的行为

布朗认为像西塞罗这样的玩游戏的机器人可以与人类互动,并解释“次优甚至非理性的人类行为可以为现实世界的应用铺平道路。”

“如果你正在制造一辆自动驾驶汽车,你不会想假设路上的所有其他司机都是完全理性的,并且会做出最佳行为,”他说。

他补充说,西塞罗是朝这个方向迈出的一大步。 “我们的一只脚还在游戏世界,但现在我们的一只脚也已经踏进了现实世界。”

Wellman 等其他人同意这一观点,但坚持认为仍有更多工作要做。 他说,“其中许多技术确实与休闲游戏无关”,适用于现实世界的应用。 “尽管如此,在某些时候,领先的人工智能研究实验室需要超越娱乐环境,并弄清楚如何衡量我们真正关心的更模糊的现实世界‘游戏’的科学进步。”

/元新闻.

时间戳记:

更多来自 元新闻