专栏 生成式 AI 为学术出版商解决科学论文中的欺诈行为带来了有趣的挑战,因为该技术显示出欺骗人类同行评审的潜力。
为 DALL-E、Stable Diffusion 和 Midjourney 描述一张图片,他们会在几秒钟内生成一张图片。 这些文本到图像的系统在过去几年里得到了迅速的改进,最初只是作为研究原型,产生了良性和奇异的结果 插图 2021 年的小萝卜遛狗,已经演变成商业软件,由价值数十亿美元的公司开发,能够生成越来越逼真的图像。
这些 AI 模型可以生成栩栩如生的人脸、物体和场景图片,而且它们也擅长创建令人信服的科学图像和数据,这看起来只是时间问题。 文本到图像模型现在可以广泛使用,使用起来非常便宜,而且它们可以帮助狡猾的科学家伪造结果并更容易地发表虚假研究。
图像处理已经成为学术出版商最关心的问题,因为它是最 普通形式 最近的科学不端行为。 作者可以使用各种技巧,例如翻转、旋转或裁剪同一图像的部分来伪造数据。 编辑们被愚弄,相信所有呈现的结果都是真实的,并将发表他们的作品。
许多出版商现在转向人工智能软件,试图 检测 审查过程中图像重复的迹象。 在大多数情况下,图像被混淆了数据的科学家错误地复制了,但有时它被用于公然欺诈。
但就在出版商开始控制图像复制时,另一种威胁正在出现。 一些研究人员可能很想使用生成式 AI 模型来创建虚假数据。 事实上,有证据表明假科学家已经在这样做了。
在论文中发现人工智能制作的图像?
2019 年,DARPA 推出了语义取证(信号量) 计划,资助研究人员开发能够检测人工智能媒体的取证工具,以打击虚假信息。
山姆大叔国防研究机构的一位发言人证实,它发现了真实科学论文中发表的伪造医学图像,这些图像似乎是使用 AI 生成的。 在文本到图像模型之前,生成对抗网络很流行。 DARPA 意识到这些以创建深度造假的能力而闻名的模型也可以伪造医学扫描图像、细胞图像或生物医学研究中常见的其他类型图像。
SemaFor 的项目经理 William Corvey 表示:“威胁形势变化非常快” 注册. “为了良性目的,这项技术正变得无处不在。” Corvey 说,该机构在开发能够检测 GAN 图像的软件方面取得了一些成功,这些工具仍在开发中。
威胁形势正在迅速变化
“我们的结果表明,无论生成图像的内容如何,你都可以检测到你之前已经学会检测的生成机制的‘兄弟姐妹或远亲’。 SemaFor 分析着眼于与被操纵的媒体相关的各种属性和细节,从元数据、统计异常到更多的视觉表现,无所不包,”他说。
一些仔细检查科学论文中数据的图像分析师也发现了看起来像 GAN 生成的图像。 GAN 是一种生成对抗网络,是一种可以生成写作、音乐、图片等的机器学习系统。
例如,悉尼大学分子肿瘤学教授 Jennifer Byrne 和期刊出版商 EMBO Press 的图像完整性分析师 Jana Christopher 发现了一组出现在 17 项生物化学相关研究中的奇怪图像。
这些图片描绘了一系列俗称的乐队 免疫印迹, 这表明样本中存在特定的蛋白质,奇怪的是,所有这些蛋白质似乎都具有相同的背景。 那不应该发生。
蛋白质印迹图像中重复背景的示例,由红色和绿色轮廓突出显示……来源: 伯恩·克里斯托弗 2020
2020 年,Byrne 和 Christopher 得出结论,这些看起来可疑的图像可能是造纸厂操作的一部分:使用伪造数据大量生产关于生化研究的论文,并让它们经过同行评审和发表。 例如,这样的计划可能会被取消,以使根据被接受的论文输出获得报酬的学者受益,或者帮助一个部门达到已发表报告的配额。
“示例中的污点显示在 我们的文章 很可能是计算机生成的,”克里斯托弗告诉 注册.
我经常遇到伪造的图像,主要是蛋白质印迹,但也越来越多地出现显微镜图像
“在出版前和出版后筛选论文时,我经常会遇到伪造的图像,主要是蛋白质印迹,但显微镜图像也越来越多。 我非常清楚,其中许多很可能是使用 GAN 生成的。”
伊丽莎白·比克 (Elisabeth Bik) 是一名自由图像侦探,她通常也能分辨出图像何时被篡改过。 她仔细研究科学论文手稿,寻找重复的图像,并标记这些问题以供期刊编辑进一步检查。 但是,当假图像由算法综合生成时,就更难打击它们了。
她指出,尽管在伯恩和克里斯托弗的研究中突出显示的图像中重复的背景是伪造的明显迹象,但实际的蛋白质印迹本身是独一无二的。 Bik 用来扫描文件和发现图像欺诈的计算机视觉软件会发现很难标记这些条带,因为实际印迹没有重复。
“我们永远找不到重叠之处。 我相信它们都是人工制造的。 具体如何,我不确定,”她告诉 寄存器。
使用最新的生成 AI 模型更容易生成假图像
GAN 在很大程度上已被扩散模型所取代。 这些系统生成独特的图片并为当今的文本到图像软件提供动力,包括 DALL-E、Stable Diffusion 和 Midjourney。 他们学习将对象和概念的视觉表示映射到自然语言,并且可以显着降低学术作弊的障碍。
科学家只需描述他们想要生成什么类型的虚假数据,这些工具就会为他们做这件事。 然而,目前他们还不能完全创造出逼真的科学图像。 有时,这些工具生成的细胞簇乍一看很有说服力,但在进行蛋白质印迹时却惨遭失败。
这些人工智能程序可以生成这样的东西:
下面是 @OpenAI的 DALL-E 做生物细胞提示
具体来说:“显微镜下的细胞”和“扫描电子显微镜下的 T 细胞” pic.twitter.com/BgcZr3k5Q5
— 塔拉·巴苏·特里维迪 (@tbt94) 2022 年 8 月 23 日
威廉·吉布森 (William Gibson)——一位内科科学家和肿瘤内科研究员,而不是著名作家——有更多的例子 此处,包括今天的模型如何与蛋白质印迹的概念作斗争。
然而,随着开发人员在更多数据上训练更大的模型,这项技术只会变得更好。
大卫·比姆勒 (David Bimler) 是另一位识别科学论文中图像处理的专家,更广为人知的名字是斯穆特·克莱德 (Smut Clyde),他告诉我们:“造纸厂将利用同行评审过程中的弱点,使用任何最便宜、最快的方法来展示他们的产品。”
“他们可以简单地从旧论文中复制 [western blots],但即使这样也需要搜索旧论文。 目前,我怀疑使用 GAN 仍然需要一些努力。 尽管这会改变,”他补充道。
DARPA 现在正在寻求扩展其 SemaFor 计划以研究文本到图像系统。 “这些类型的模型相当新,虽然在范围内,但不是我们目前在 SemaFor 上的工作的一部分,”Corvey 说。
“但是,SemaFor 评估人员可能会在 2023 年秋季开始的该计划的下一个评估阶段查看这些模型。”
与此同时,如果学术出版商无法找到检测论文中人工智能生成的虚假图像的方法,科学研究的质量将会下降。 在最好的情况下,这种形式的学术造假将仅限于无论如何都不会受到太多关注的造纸厂计划。 在最坏的情况下,即使是最负盛名的期刊也会受到影响,而出于善意的科学家将浪费时间和金钱去追逐他们认为是真实的错误想法。 ®
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://go.theregister.com/feed/www.theregister.com/2023/03/11/ai_scientfic_fraud/
- :是
- $UP
- 2019
- 2020
- 2021
- 2023
- a
- 对,能力--
- 学者
- 无障碍
- 横过
- 添加
- 对抗
- 机构
- AI
- 算法
- 所有类型
- 已经
- 尽管
- 分析人士
- 分析师
- 分析
- 和
- 另一个
- 出现
- 出现
- 保健
- AS
- 相关
- At
- 关注我们
- 作者
- 作者
- 母婴
- 背景
- 背景
- 屏障
- 基于
- BE
- 因为
- 成为
- before
- 开始
- 开始
- 开始
- 作为
- 相信
- 相信
- 得益
- 最佳
- 更好
- 生物医学
- 建
- by
- CAN
- 能力
- 例
- 细胞
- 挑战
- 更改
- 廉价
- 最便宜的
- 作弊
- 克里斯托弗
- CO
- 打击
- 如何
- 商业的
- 常用
- 公司
- 补偿
- 一台
- 计算机视觉
- 计算机生成的
- 概念
- 概念
- 关心
- 结论
- CONFIRMED
- 内容
- 可以
- 创建信息图
- 创造
- 电流
- 达尔-e
- DARPA
- data
- deepfakes
- 国防
- 问题类型
- 描述
- 详情
- 开发
- 发展
- 研发支持
- 扩散
- 造谣
- 流离失所
- 遥远
- 小狗
- 做
- ,我们将参加
- 更容易
- 容易
- 努力
- 新兴经济体的新市场。
- 醚(ETH)
- 评估
- 甚至
- 一切
- 证据
- 究竟
- 例子
- 例子
- 扩大
- 技术专家
- 面孔
- 失败
- 相当
- 假
- 秋季
- 著名
- 最快
- 同伴
- 少数
- 数字
- 找到最适合您的地方
- 姓氏:
- 标志
- 针对
- 法医
- 取证
- 伪造
- 申请
- 发现
- 骗局
- 自由职业者
- 止
- 资金
- 进一步
- GAN
- 生成
- 产生
- 发电
- 生成的
- 生成对抗网络
- 生成式人工智能
- 基因组
- 得到
- 越来越
- 一览
- 去
- 非常好
- 绿色
- 发生
- 硬
- 有
- 帮助
- 突出
- 击中
- 创新中心
- 但是
- HTTPS
- 人
- 狩猎
- i
- 思路
- 图片
- 图片
- 影响力故事
- 改善
- in
- 包含
- 日益
- 表明
- 原来
- 例
- 诚信
- 意图
- 有趣
- 不管
- 问题
- IT
- 它的
- Jennifer(珍妮弗)
- 日志
- JPG
- 已知
- 标签
- 景观
- 语言
- 在很大程度上
- 大
- 晚了
- 最新
- 推出
- 学习用品
- 知道
- 喜欢
- 容易
- 有限
- 看
- 看起来像
- 寻找
- 制成
- 经理
- 操纵
- 操作
- 许多
- 地图
- 质量
- 问题
- 机制
- 媒体
- 医生
- 元数据
- 方法
- 显微镜
- 中途
- 可能
- 模型
- 分子
- 时刻
- 钱
- 更多
- 最先进的
- 移动
- 音乐
- 自然
- 自然语言
- 网络
- 网络
- 全新
- 下页
- 美国国立卫生研究院
- 对象
- of
- 老
- on
- 肿瘤
- 一
- 操作
- 其他名称
- 大纲
- 产量
- 纸类
- 文件
- 部分
- 部分
- 过去
- 窥视
- 相
- 图片
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 热门
- 构成
- 潜力
- 功率
- 主要
- 存在
- 呈现
- express
- 漂亮
- 先前
- 大概
- 过程
- 生产
- 生成
- 热销产品
- 教授
- 曲目
- 训练课程
- 蛋白质
- 原型
- 发布
- 出版
- 发行人
- 出版商
- 目的
- 质量
- 急速
- RE
- 真实
- 现实
- 实现
- 接收
- 红色
- 寄存器
- 重复
- 业务报告
- 表示
- 信誉良好
- 研究
- 研究人员
- 成果
- 检讨
- 审查
- s
- 说
- Sam
- 同
- 浏览
- 扫描
- 脚本
- 场景
- 方案
- 科学
- 科学研究
- 科学家
- 范围
- 筛查
- 搜索
- 秒
- 似乎
- Semafor
- 系列
- 集
- 如图
- 作品
- 签署
- 显著
- 迹象
- 只是
- 自
- 猎犬
- 软件
- 一些
- 来源
- 具体的
- 发言人
- Spot
- 稳定
- 统计
- 仍
- 奋斗
- 研究
- 学习
- 成功
- 这样
- 应该
- 可疑
- 悉尼
- 系统
- 产品
- 专业技术
- 这
- 其
- 他们
- 他们自己
- 博曼
- 事
- 威胁
- 通过
- 次
- 至
- 今晚
- 也有
- 工具
- 最佳
- 培训
- true
- 谈到
- 类型
- 普及
- 下
- 独特
- 大学
- 悉尼大学
- us
- 使用
- 各种
- Ve
- 愿景
- 步行
- 废物回收
- 方法
- 西式
- 什么是
- 这
- 而
- WHO
- 广泛
- 将
- 工作
- 将
- 写作
- 年
- 和风网