人工智能刚刚通过幼儿的眼睛和耳朵学习语言

人工智能刚刚通过幼儿的眼睛和耳朵学习语言

AI时间戳：1年2024月3日下午30:XNUMX

源节点： 3092738

由柏拉图重新发布

关注： 0

萨姆第一次将轻型相机绑在额头上时才六个月大。

在接下来的一年半时间里，相机捕捉到了他生活的片段。他在家里的宠物周围爬行，看着父母做饭，在前廊上和奶奶一起哭泣。整个过程中，摄像机记录下了他听到的一切。

听起来像是一个可爱的幼儿家庭视频，实际上是一个大胆的概念：人工智能可以像孩子一样学习语言吗？研究结果还可以揭示儿童如何在很小的时候就快速习得语言和概念。

一项新的研究 in 科学描述了研究人员如何使用山姆的录音来训练人工智能理解语言。只需要孩子一年多生活经历的一小部分，人工智能就能够掌握基本概念，例如球、蝴蝶或水桶。

这种人工智能被称为儿童对比学习视角（CVCL），通过将视觉与音频进行匹配，大致模仿了我们幼儿时期的学习方式。这是一种与像这样的大型语言模型所采用的方法非常不同的方法落后于 ChatGPT 或 Bard。这些模特创作散文、诗歌甚至播客脚本的不可思议的能力令全世界兴奋不已。但他们需要从各种新闻文章、剧本和书籍中消化数万亿个单词才能发展这些技能。

相比之下，孩子们的学习投入要少得多，并且随着他们的成长，他们会迅速概括他们所学到的知识。科学家们长期以来一直想知道人工智能是否可以仅通过日常经验来捕捉这些能力。

研究报告的作者、纽约大学数据科学中心的 Wai Keen Vong 博士表示：“我们首次证明，接受来自单个孩子的发展现实输入训练的神经网络可以学会将单词与其视觉对应项联系起来。” 在一份新闻稿中说：关于研究。

儿童游戏

孩子们很容易从日常经验中吸收单词及其含义。

仅六个月大时，他们就开始将单词与所看到的事物联系起来，例如，圆形有弹性的东西是“球”。到两岁时，他们就知道大约 300 个单词及其概念。

长期以来，科学家们一直在争论这是如何发生的。一种理论认为，孩子们学会将他们所看到的与所听到的相匹配。另一种观点认为，语言学习需要更广泛的世界经验，例如社交互动和推理能力。

很难将这些想法与传统的幼儿认知测试区分开来。但我们可以通过孩子的眼睛和耳朵训练人工智能来得到答案。

M3GAN？

这项新研究利用了丰富的视频资源说相机，其中包括从三个 6 至 32 个月大的孩子身上收集的数据，他们使用额头上绑着类似 GoPro 的相机。

摄像机每周两次记录它们哺乳、爬行和玩耍时大约一个小时的镜头和音频。所有可听见的对话都被转录成“话语”——在说话者或对话发生变化之前所说的单词或句子。其结果是从婴儿和幼儿的角度获得了大量的多媒体数据。

对于新系统，团队设计了两个神经网络，并有一个“法官”来协调它们。其中一个将第一人称视觉效果转化为场景的人物和事物——这是一位妈妈在做饭吗？另一个人从录音中解读出单词和含义。

然后，这两个系统及时关联起来，以便人工智能学会将正确的视觉效果与文字联系起来。例如，人工智能学会将婴儿的图像与“看，有一个婴儿”一词相匹配，或者将瑜伽球的图像与“哇，那是一个大球”相匹配。通过训练，它逐渐学会了将瑜伽球和婴儿的概念区分开来。

“这为模型提供了一条线索，告诉我们哪些单词应该与哪些物体相关联，”Vong 说。

然后，该团队用山姆大约一年半生活中的视频来训练人工智能。总计超过 600,000 个视频帧，以及 37,500 条转录的话语。尽管这些数字听起来很大，但与用于训练大型语言模型的数据量相比，它们大约只占 Sam 日常生活的百分之一。

婴儿人工智能的崛起

为了测试该系统，该团队采用了一种用于测量儿童语言能力的常见认知测试。他们向人工智能展示了四张新图像——一只猫、一张婴儿床、一个球和一片草坪——并询问哪一个是球。

总体而言，人工智能在大约 62% 的时间内选择了正确的图像。其性能几乎与基于网络上 400 亿图像和文本对训练的最先进算法相匹配，这比研究中用于训练人工智能的数据多了几个数量级。他们发现将视频图像与音频链接起来至关重要。当团队打乱视频帧及其相关话语时，模型完全崩溃了。

人工智能还可以跳出框框“思考”并推广到新情况。

在另一项测试中，它根据山姆对图画书的视角进行训练，因为他的父母说：“这是一只鸭子和一只蝴蝶。”随后，他举起一只玩具蝴蝶，被问到：“你会做蝴蝶吗？”当面对五彩蝴蝶图像（人工智能以前从未见过的图像）时，它检测到了四分之三的“蝴蝶”，准确率超过 80%。

并非所有单词概念的得分都相同。例如，“勺子”是一个斗争。但值得指出的是，就像一个艰难的验证码，即使对于人类来说，训练图像也很难解读。

成长的烦恼

人工智能建立在多模式机器学习的最新进展之上，它结合文本、图像、音频或视频来训练机器大脑。

只需输入单个孩子的经历，该算法就能够捕获单词之间的相互关系，并将单词与图像和概念联系起来。研究表明，对于幼儿来说，听到单词并将其与他们所看到的进行匹配有助于建立他们的词汇量。

这并不是说其他大脑过程，例如社交线索和推理，不会发挥作用。作者写道，将这些组件添加到算法中可能会改进算法。

该团队计划继续进行实验。目前，“婴儿”人工智能仅从静止图像帧中学习，并且词汇主要由名词组成。将视频片段整合到训练中可以帮助人工智能学习动词，因为视频包含运动。

在语音数据中添加语调也可能有所帮助。孩子们很早就知道，妈妈的“嗯”根据语气的不同可能有截然不同的含义。

但总体而言，将人工智能与生活体验相结合是研究机器和人类大脑的一种强大的新方法。它可以帮助我们开发像孩子一样学习的新人工智能模型，并有可能重塑我们对大脑如何学习语言和概念的理解。

图片来源：Wai Keen Vong

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://singularityhub.com/2024/02/01/an-ai-just-learned-language-through-the-eyes-and-ears-of-a-toddler/

时间戳记： 2024 年 2 月 1 日

更多来自奇异枢纽

科学家研究了 348 种哺乳动物，以了解为什么有些哺乳动物能活几个月，而另一些则活上几个世纪

源群集：

源节点： 2824652

时间戳记： 2023 年 8 月 15 日

长期的技术：拉远距离，看看世界在一生中会发生多么巨大的变化

长期的技术：拉远距离，看看世界在一生中会发生多么巨大的变化

源群集：

源节点： 1927605

时间戳记： 2023 年 1 月 29 日

迷幻药能迅速对抗抑郁症——一项新研究首次揭示了原因

迷幻药能迅速对抗抑郁症——一项新研究首次揭示了原因

源群集：

源节点： 3066126

时间戳记： 2024 年 1 月 16 日

这颗新发现的超级地球可能是一颗笼罩在最深处的海洋行星

源群集：

源节点： 1642242

时间戳记： 2022 年 8 月 28 日

科学家通过 3D 打印活体蠕虫中的电子器件融合生物学和技术

科学家通过 3D 打印活体蠕虫中的电子器件融合生物学和技术

源群集：

源节点： 2584500

时间戳记： 2023 年 4 月 14 日

我们准备好前往火星了吗？没那么快。

我们准备好前往火星了吗？没那么快。

源群集：

源节点： 2991762

时间戳记： 2023 年 12 月 3 日

您很快就能购买转基因夜光矮牵牛

您很快就能购买转基因夜光矮牵牛

源群集：

源节点： 2897627

时间戳记： 2023 年 9 月 24 日

我们能活多久？新研究称人类寿命最高可达 150 岁

源群集：

源节点： 890508

时间戳记： 2021 年 6 月 7 日

谷歌人工智能聊天机器人可能很快会在 Wendy's 接受你的免下车食品订单

源群集：

源节点： 2660056

时间戳记： 2023 年 5 月 17 日

Meta 正在为 Metaverse 制作怪物 AI 超级计算机

源群集：

源节点： 1594998

时间戳记： 2022 年 1 月 26 日

一个大规模的新基因编辑项目正在压碎阿尔茨海默氏症

源群集：

源节点： 808115

时间戳记： 2021 年 4 月 13 日

本周来自网络的真棒技术故事（通过2月XNUMX日）

源群集：

源节点： 1557170

时间戳记： 2022 年 7 月 2 日