Thanks To Generative AI, Catching Fraud Science Is Going To Be This Much Harder

由柏拉图重新发布

关注： 0

专栏生成式 AI 为学术出版商解决科学论文中的欺诈行为带来了有趣的挑战，因为该技术显示出欺骗人类同行评审的潜力。

为 DALL-E、Stable Diffusion 和 Midjourney 描述一张图片，他们会在几秒钟内生成一张图片。这些文本到图像的系统在过去几年里得到了迅速的改进，最初只是作为研究原型，产生了良性和奇异的结果插图 2021 年的小萝卜遛狗，已经演变成商业软件，由价值数十亿美元的公司开发，能够生成越来越逼真的图像。

这些 AI 模型可以生成栩栩如生的人脸、物体和场景图片，而且它们也擅长创建令人信服的科学图像和数据，这看起来只是时间问题。文本到图像模型现在可以广泛使用，使用起来非常便宜，而且它们可以帮助狡猾的科学家伪造结果并更容易地发表虚假研究。

图像处理已经成为学术出版商最关心的问题，因为它是最普通形式最近的科学不端行为。作者可以使用各种技巧，例如翻转、旋转或裁剪同一图像的部分来伪造数据。编辑们被愚弄，相信所有呈现的结果都是真实的，并将发表他们的作品。

许多出版商现在转向人工智能软件，试图检测审查过程中图像重复的迹象。在大多数情况下，图像被混淆了数据的科学家错误地复制了，但有时它被用于公然欺诈。

但就在出版商开始控制图像复制时，另一种威胁正在出现。一些研究人员可能很想使用生成式 AI 模型来创建虚假数据。事实上，有证据表明假科学家已经在这样做了。

在论文中发现人工智能制作的图像？

2019 年，DARPA 推出了语义取证（信号量) 计划，资助研究人员开发能够检测人工智能媒体的取证工具，以打击虚假信息。

山姆大叔国防研究机构的一位发言人证实，它发现了真实科学论文中发表的伪造医学图像，这些图像似乎是使用 AI 生成的。在文本到图像模型之前，生成对抗网络很流行。 DARPA 意识到这些以创建深度造假的能力而闻名的模型也可以伪造医学扫描图像、细胞图像或生物医学研究中常见的其他类型图像。

SemaFor 的项目经理 William Corvey 表示：“威胁形势变化非常快” 注册. “为了良性目的，这项技术正变得无处不在。” Corvey 说，该机构在开发能够检测 GAN 图像的软件方面取得了一些成功，这些工具仍在开发中。

威胁形势正在迅速变化

“我们的结果表明，无论生成图像的内容如何，你都可以检测到你之前已经学会检测的生成机制的‘兄弟姐妹或远亲’。 SemaFor 分析着眼于与被操纵的媒体相关的各种属性和细节，从元数据、统计异常到更多的视觉表现，无所不包，”他说。

一些仔细检查科学论文中数据的图像分析师也发现了看起来像 GAN 生成的图像。 GAN 是一种生成对抗网络，是一种可以生成写作、音乐、图片等的机器学习系统。

例如，悉尼大学分子肿瘤学教授 Jennifer Byrne 和期刊出版商 EMBO Press 的图像完整性分析师 Jana Christopher 发现了一组出现在 17 项生物化学相关研究中的奇怪图像。

这些图片描绘了一系列俗称的乐队免疫印迹, 这表明样本中存在特定的蛋白质，奇怪的是，所有这些蛋白质似乎都具有相同的背景。那不应该发生。

蛋白质印迹图像中重复背景的示例，由红色和绿色轮廓突出显示……来源：伯恩·克里斯托弗 2020

2020 年，Byrne 和 Christopher 得出结论，这些看起来可疑的图像可能是造纸厂操作的一部分：使用伪造数据大量生产关于生化研究的论文，并让它们经过同行评审和发表。例如，这样的计划可能会被取消，以使根据被接受的论文输出获得报酬的学者受益，或者帮助一个部门达到已发表报告的配额。

“示例中的污点显示在我们的文章很可能是计算机生成的，”克里斯托弗告诉注册.

我经常遇到伪造的图像，主要是蛋白质印迹，但也越来越多地出现显微镜图像

“在出版前和出版后筛选论文时，我经常会遇到伪造的图像，主要是蛋白质印迹，但显微镜图像也越来越多。我非常清楚，其中许多很可能是使用 GAN 生成的。”

伊丽莎白·比克 (Elisabeth Bik) 是一名自由图像侦探，她通常也能分辨出图像何时被篡改过。她仔细研究科学论文手稿，寻找重复的图像，并标记这些问题以供期刊编辑进一步检查。但是，当假图像由算法综合生成时，就更难打击它们了。

她指出，尽管在伯恩和克里斯托弗的研究中突出显示的图像中重复的背景是伪造的明显迹象，但实际的蛋白质印迹本身是独一无二的。 Bik 用来扫描文件和发现图像欺诈的计算机视觉软件会发现很难标记这些条带，因为实际印迹没有重复。

“我们永远找不到重叠之处。我相信它们都是人工制造的。具体如何，我不确定，”她告诉 寄存器。

使用最新的生成 AI 模型更容易生成假图像

GAN 在很大程度上已被扩散模型所取代。这些系统生成独特的图片并为当今的文本到图像软件提供动力，包括 DALL-E、Stable Diffusion 和 Midjourney。他们学习将对象和概念的视觉表示映射到自然语言，并且可以显着降低学术作弊的障碍。

科学家只需描述他们想要生成什么类型的虚假数据，这些工具就会为他们做这件事。然而，目前他们还不能完全创造出逼真的科学图像。有时，这些工具生成的细胞簇乍一看很有说服力，但在进行蛋白质印迹时却惨遭失败。

这些人工智能程序可以生成这样的东西：

下面是 @OpenAI的 DALL-E 做生物细胞提示

具体来说：“显微镜下的细胞”和“扫描电子显微镜下的 T 细胞” pic.twitter.com/BgcZr3k5Q5

— 塔拉·巴苏·特里维迪 (@tbt94) 2022 年 8 月 23 日

威廉·吉布森 (William Gibson)——一位内科科学家和肿瘤内科研究员，而不是著名作家——有更多的例子此处，包括今天的模型如何与蛋白质印迹的概念作斗争。

然而，随着开发人员在更多数据上训练更大的模型，这项技术只会变得更好。

大卫·比姆勒 (David Bimler) 是另一位识别科学论文中图像处理的专家，更广为人知的名字是斯穆特·克莱德 (Smut Clyde)，他告诉我们：“造纸厂将利用同行评审过程中的弱点，使用任何最便宜、最快的方法来展示他们的产品。”

“他们可以简单地从旧论文中复制 [western blots]，但即使这样也需要搜索旧论文。目前，我怀疑使用 GAN 仍然需要一些努力。尽管这会改变，”他补充道。

DARPA 现在正在寻求扩展其 SemaFor 计划以研究文本到图像系统。 “这些类型的模型相当新，虽然在范围内，但不是我们目前在 SemaFor 上的工作的一部分，”Corvey 说。

“但是，SemaFor 评估人员可能会在 2023 年秋季开始的该计划的下一个评估阶段查看这些模型。”

与此同时，如果学术出版商无法找到检测论文中人工智能生成的虚假图像的方法，科学研究的质量将会下降。在最好的情况下，这种形式的学术造假将仅限于无论如何都不会受到太多关注的造纸厂计划。在最坏的情况下，即使是最负盛名的期刊也会受到影响，而出于善意的科学家将浪费时间和金钱去追逐他们认为是真实的错误想法。 ®

SEO 支持的内容和 PR 分发。今天得到放大。
柏拉图区块链。 Web3 元宇宙智能。知识放大。访问这里。
Sumber: https://go.theregister.com/feed/www.theregister.com/2023/03/11/ai_scientfic_fraud/

时间戳记： 2023 年 3 月 11 日

Steam 要求开发者披露游戏中人工智能制作的内容

源群集：

源节点： 3061059

时间戳记： 2024 年 1 月 10 日

埃隆马斯克在 2021 年与 Neuralink 高管生了一对秘密双胞胎

源群集：

源节点： 1594948

时间戳记： 2022 年 7 月 7 日

Waymo 机器人出租车行驶 XNUMX 万英里而没有造成任何人员伤亡

源群集：

源节点： 1986579

时间戳记： 2023 年 3 月 1 日

扫清成功之路

源群集：

源节点： 2916456

时间戳记： 2023 年 10 月 4 日

微软和 Adobe 推出新符号来标记 AI 图像

源群集：

源节点： 2938691

时间戳记： 2023 年 10 月 15 日

晶圆级，满足原子级：山姆大叔在核武器模拟游戏中测试 Cerebras 芯片

源群集：

源节点： 1725283

时间戳记： 2022 年 10 月 17 日

中国将本土人工智能基础设施列入待办事项

源群集：

源节点： 3090363

时间戳记： 2024 年 1 月 31 日

如果你想建造真正聪明的微型人工智能机器人，请看昆虫

源群集：

源节点： 1581347

时间戳记： 2022 年 6 月 16 日

嘿，AI小贩。减少炒作。很多爱，联邦贸易委员会

源群集：

源节点： 1984941

时间戳记： 2023 年 2 月 28 日

华盛顿考虑监控云以进行可疑的人工智能训练

源群集：

源节点： 2913590

时间戳记： 2023 年 9 月 25 日

看门狗批准乳腺癌筛查 AI 应用程序

源群集：

源节点： 1773752

时间戳记： 2022 年 12 月 15 日

欧盟委员会调查微软 13B 美元 OpenAI 交易

源群集：

源节点： 3077199

时间戳记： 2024 年 1 月 10 日

多亏了生成式人工智能，捕捉欺诈科学将变得更加困难

由柏拉图重新发布

在论文中发现人工智能制作的图像？

使用最新的生成 AI 模型更容易生成假图像

更多来自注册

Steam 要求开发者披露游戏中人工智能制作的内容

埃隆马斯克在 2021 年与 Neuralink 高管生了一对秘密双胞胎

Waymo 机器人出租车行驶 XNUMX 万英里而没有造成任何人员伤亡

扫清成功之路

晶圆级，满足原子级：山姆大叔在核武器模拟游戏中测试 Cerebras 芯片

中国将本土人工智能基础设施列入待办事项

如果你想建造真正聪明的微型人工智能机器人，请看昆虫

华盛顿考虑监控云以进行可疑的人工智能训练

看门狗批准乳腺癌筛查 AI 应用程序

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

在论文中发现人工智能制作的图像？

使用最新的生成 AI 模型更容易生成假图像

更多来自 注册

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

更多来自注册