生成式 AI 通过读取人们的大脑活动来重建人们正在观看的视频

由柏拉图重新发布

关注： 0

能力机器类型读懂我们的想法近年来一直在稳步推进。现在，研究人员已经使用 AI 视频生成技术为我们打开了心灵之眼的窗口。

尝试解释大脑信号的主要驱动力是希望有一天我们能够为昏迷或各种形式的瘫痪者提供新的交流窗口。但也有人希望该技术可以在人机之间创建更直观的界面，这些界面也可以应用于健康人群。

到目前为止，大多数研究都集中在重建内心独白的努力上s 患者，使用人工智能系统挑选他们在想什么词。最有希望的结果也来自侵入性脑植入物，这对大多数人来说不太可能是一种实用的方法。

不过现在，新加坡国立大学和香港中文大学的研究人员表明，他们可以结合非侵入性脑部扫描和人工智能图像生成技术，制作出与受试者正在观看的片段惊人相似的短视频片段当他们的大脑数据被收集时。

该作品是同一作者研究的延伸去年底出版，在那里他们展示了他们可以生成与显示的图片大致匹配的静止图像。这是通过首先使用 fMRI 大脑扫描仪收集的大量数据训练一个模型来实现的。然后将该模型与开源图像生成 AI Stable Diffusion 相结合来创建图片。

在一个新的文件发表于预印服务器 arXiv, 作者采用了类似的方法，但对其进行了调整，以便系统可以解释大脑数据流并将其转换为视频而不是静止图像。首先，他们在大量 fMRI 上训练了一个模型，以便它可以学习这些大脑扫描的一般特征。然后对其进行扩充，使其可以处理连续的 fMRI 扫描而不是单个扫描，然后再次对 fMRI 扫描、引发大脑活动的视频片段和文本描述的组合进行训练。

另外，研究人员调整了预训练的稳定扩散模型来生成视频而不是静态图像。然后再次使用第一个模型训练过的相同视频和文本描述进行训练。最后，这两个模型在 fMRI 扫描及其相关视频上进行了组合和微调。

由此产生的系统能够进行以前从未见过的新鲜 fMRI 扫描，并生成与人类受试者的剪辑大体相似的视频。d 当时一直在看虽然远非完美匹配，但 AI 的输出通常与原始视频非常接近，准确地再现了人群场景或马群，并且通常与调色板相匹配。

为了评估他们的系统，研究人员使用了一个视频分类器来评估模型对场景语义的理解程度——例如，它是否意识到视频是鱼在水族馆里游泳，或者一家人走在路上——即使图像略有不同。他们的模型得分为 85%，比最先进的模型提高了 45%。

虽然 AI 生成的视频仍然存在问题，但作者表示，这一系列研究最终可能在基础神经科学和未来都有应用脑机接口. 然而，他们也承认该技术的潜在缺点。 “需要政府法规和研究团体的努力来确保一个人的生物数据的隐私并避免任何恶意使用该技术，”他们写道。

这可能是对人工智能大脑扫描技术的结合可能使人们有可能在未经他人同意的情况下侵入式记录他人思想的担忧的一种认可。 A焦虑是还今年早些时候，研究人员使用类似的方法从本质上创造了一个粗糙的人们头脑中声音的转录，尽管专家指出这将是即使不是不可能也不切实际在可预见的将来。

但是，无论您将其视为对您隐私的令人毛骨悚然的侵犯，还是一种令人兴奋的与技术交互的新方式，机器思维阅读器似乎都离现实越来越近了。

图片来源：克劳迪娅·德瓦尔德止 Pixabay