谷歌 DeepMind 的新人工智能在数学奥林匹克竞赛中的表现与金牌相媲美

谷歌 DeepMind 的新人工智能在数学奥林匹克竞赛中的表现与金牌相媲美

AI时间戳记：17年2024月4日下午16:XNUMX

源节点： 3067930

由柏拉图重新发布

关注： 0

后破解一道无解的数学题去年的问题，人工智能又回来解决几何问题了。

由 Google DeepMind 开发的一种新算法 AlphaGeometry 可以解决过去国际数学奥林匹克竞赛（针对高中生的顶级竞赛）中的问题，并且可以与之前的金牌得主的表现相媲美。

当面临 30 个几何难题的挑战时，人工智能在标准规定时间内成功解决了 25 个，比之前最先进的算法多出了 15 个答案。

虽然几何常常被认为是高中数学课的祸根，但它却深深植根于我们的日常生活中。艺术、天文学、室内设计和建筑都依赖于几何学。导航、地图和路线规划也是如此。从本质上讲，几何是一种使用逻辑推理来描述空间、形状和距离的方法。

在某种程度上，解决几何问题有点像下棋。给定一些规则（称为定理和证明），每个步骤的解决方案数量有限，但找到有意义的解决方案依赖于符合严格数学规则的灵活推理。

换句话说，解决几何问题既需要创造力，又需要结构。虽然人类通过多年的练习发展了这些心理杂技技能，但人工智能却一直在苦苦挣扎。

AlphaGeometry 巧妙地将这两个功能组合到一个系统中。它有两个主要组成部分：一个试图找到答案的受规则约束的逻辑模型，以及一个产生开箱即用想法的大型语言模型。如果人工智能无法仅根据逻辑推理找到解决方案，语言模型就会开始提供新的角度。其结果是人工智能具有创造力和推理能力，可以解释其解决方案。

该系统是 DeepMind 在利用机器智能解决数学问题方面的最新尝试。但他们的目光投向了更大的目标。 AlphaGeometry 专为复杂环境（例如我们混乱的日常世界）中的逻辑推理而构建。除了数学之外，未来的迭代可能会帮助科学家在其他复杂系统中找到解决方案，例如破译大脑连接或解开导致疾病的遗传网络。

研究作者 Trieu Trinh 博士表示：“就结果而言，我们正在取得重大飞跃、重大突破。” 告诉此 “纽约时报”.

包夹

一道简单的几何题：画一个两边长度相等的三角形。如何证明底下两个角完全相同？

这是 AlphaGeometry 面临的首要挑战之一。为了解决这个问题，你需要充分掌握几何规则，但也要有创造力来逐步找到答案。

“证明定理展示了逻辑推理的掌握......标志着卓越的解决问题的能力，”该团队在今天发表的研究中写道自然.

这就是 AlphaGeometry 架构的优势所在。配音神经符号系统，它首先解决其符号推演引擎的问题。将这些算法想象为一名严格学习数学教科书并遵守规则的A级学生。他们以逻辑为指导，可以轻松地列出得出解决方案的每一步，就像在数学测试中解释一系列推理一样。

这些系统是老式的，但非常强大，因为它们不存在困扰许多现代深度学习算法的“黑匣子”问题。

深度学习重塑了我们的世界。但由于这些算法的工作原理，它们通常无法解释其输出。这对于数学来说是行不通的，因为数学依赖于可以写下来的严格的逻辑推理。

符号推演引擎抵消了黑匣子问题，因为它们是理性且可解释的。但面对复杂的问题，他们行动缓慢，难以灵活适应。

这就是大型语言模型的用武之地。作为 ChatGPT 背后的驱动力，如果有足够的训练数据，这些算法非常擅长在复杂数据中查找模式并生成新的解决方案。但他们往往缺乏解释自己的能力，因此有必要仔细检查他们的结果。

AlphaGeometry 结合了两个世界的优点。

当遇到几何问题时，符号推演引擎会首先尝试。就拿三角问题来说吧。该算法“理解”了问题的前提，因为它需要证明底部的两个角度是相同的。然后，语言模型建议从三角形的顶部一直向下画一条新线以帮助解决问题。将人工智能推向解决方案的每个新元素都被称为“构造”。

符号推演引擎接受建议并写下其推理背后的逻辑。如果构造不起作用，两个系统就会经过多轮审议，直到 AlphaGeometry 找到解决方案。

整个设置“类似于‘思考，快和慢’的想法” 写 DeepMind 博客上的团队。 “一个系统提供快速、‘直观’的想法，而另一个系统则提供更加深思熟虑、理性的决策。”

我们是冠军

与文本或音频文件不同，缺乏针对几何的示例，这使得训练 AlphaGeometry 变得困难。

作为解决方法，该团队生成了自己的数据集，其中包含 100 亿个随机几何形状的合成示例以及点和线之间的映射关系 - 类似于数学课上解决几何问题的方式，但规模要大得多。

从那时起，人工智能掌握了几何规则，并学会从解决方案中逆向工作，以确定是否需要添加任何结构。这个循环使得人工智能能够在没有任何人类输入的情况下从头开始学习。

为了对人工智能进行测试，该团队用过去十多年比赛中的 30 道奥林匹克难题对其进行了挑战。生成的结果由前奥林匹克金牌得主 Evan Chen 进行评估，以确保其质量。

总而言之，人工智能的表现与过去的金牌获得者相当，在限定时间内完成了 25 个问题。这之前的最先进结果共有 10 个正确答案。

“AlphaGeometry 的输出令人印象深刻，因为它既可验证又干净，”Chen 说过。 “它像学生一样使用带有角度和相似三角形的经典几何规则。”

超越数学

AlphaGeometry 是 DeepMind 对数学的最新尝试。 2021年，他们的人工智能破解了困扰人类数十年的数学难题。最近，他们用用于推理大学水平的 STEM 问题的大型语言模型皴以前“无法解决”的数学问题，基于算法的纸牌游戏趣搜.

目前，AlphaGeometry 是为几何体量身定制的，但有一些注意事项。大部分几何图形都是可视化的，但系统无法“看到”图纸，这可以加快问题解决的速度。添加图像，也许是谷歌的双子座人工智能去年年底推出的可能会增强其几何智能。

类似的策略还可以将 AlphaGeometry 的影响范围扩大到需要严格推理和创造力的广泛科学领域。（说实话——都是他们。）

该团队写道：“鉴于利用大规模合成数据从头开始训练人工智能系统的更广泛潜力，这种方法可能会影响未来人工智能系统如何发现数学及其他领域的新知识。”

图片来源：乔尔·菲利佩 / Unsplash

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://singularityhub.com/2024/01/17/google-deepminds-new-ai-matches-gold-medal-performance-in-math-olympics/

时间戳记： 2024 年 1 月 17 日

更多来自奇异枢纽

科学家从冷冻干燥的皮肤细胞中克隆出小鼠，为生物保存打开了大门

源群集：

源节点： 1576422

时间戳记： 2022 年 7 月 12 日

“突破性”CRISPR 治疗在首次人体临床试验中降低胆固醇

“突破性”CRISPR 治疗在首次人体临床试验中降低胆固醇

源群集：

源节点： 2973221

时间戳记： 2023 年 11 月 21 日

AI Shakespeare 和 AI Oscar Wilde 在牛津辩论机器创造力

源群集：

源节点： 1462038

时间戳记： 2022 年 6 月 19 日

在最近的审判后，每周工作 4 天的论点变得更加强烈

源群集：

源节点： 1768305

时间戳记： 2022 年 12 月 7 日

按需男性节育使精子固定并在一天内完全消失

按需男性节育使精子固定并在一天内完全消失

源群集：

源节点： 1961839

时间戳记： 2023 年 2 月 16 日

科学家使用 CRISPR 追踪每个人类基因的功能

源群集：

源节点： 1479530

时间戳记： 2022 年 6 月 20 日

这台 AI 超级计算机拥有 13.5 万个内核——仅用了三天就建成了

源群集：

源节点： 1760183

时间戳记： 2022 年 11 月 22 日

谷歌的人工智能聚焦人类认知故障：将流利的语音误认为流利的思想

源群集：

源节点： 1546912

时间戳记： 2022 年 6 月 30 日

最先进的胚胎模型模仿人类发育的前两周

最先进的胚胎模型模仿人类发育的前两周

源群集：

源节点： 2877515

时间戳记： 2023 年 9 月 12 日

科学家使用人造卵子和由干细胞制成的卵巢培育健康小鼠

源群集：

源节点： 1002770

时间戳记： 2021 年 7 月 27 日

这种“量子忆阻器”可以实现类脑量子计算机

源群集：

源节点： 1248578

时间戳记： 2022 年 4 月 4 日

本周来自网络的真棒技术故事（通过4月XNUMX日）

本周来自网络的真棒技术故事（通过4月XNUMX日）

源群集：

源节点： 1939592

时间戳记： 2023 年 2 月 4 日