如何在AI软件中隐藏后门-例如银行应用程序存入支票或安全凸轮支票面

源节点: 879632

中国和美国的Boffins开发了一种在机器学习模型中隐藏后门的技术,因此只有在将模型压缩后部署到移动设备上时才会出现。

南京大学的田玉龙和徐凤媛,弗吉尼亚大学的Fnu Suya和David Evans描述了他们在ML模型操纵中的方法。 一篇论文 通过 ArXiv 分发,标题为“Stealthy Backdoors as Compression Artifacts”。

机器学习模型通常是大文件,是通过对大量数据进行计算密集型训练而产生的。目前最著名的模型之一是 OpenAI 的自然语言模型 GPT-3,需要约350GB的内存才能加载。

并非所有机器学习模型都有如此极端的要求,尽管压缩它们是很常见的,这使得它们的计算要求较低,并且更容易安装在资源有限的移动设备上。

Tian、Xu、Suya 和 Evans 发现,可以通过恶意模型训练来创建机器学习后门攻击,其中特定输入(例如某个人的图像)会触发不正确的输出。不正确的输出是指系统错误地识别某人,或者做出有利于攻击者的决定,例如在不应该打开门的时候打开门。

结果是有条件的后门。

“我们设计了隐秘的后门攻击,使得对手发布的全尺寸模型似乎没有后门(即使使用最先进的技术进行测试),但当模型被压缩时,它会表现出高效的后门,”该论文解释说。 “我们证明这可以通过两种常见的模型压缩技术来完成——模型修剪和模型量化。”

模型剪枝是一种通过删除神经网络模型中使用的权重(乘数)来优化 ML 模型的方法,而不会降低模型预测的准确性;模型量化是一种通过降低模型权重和激活函数的数值精度来优化 ML 模型的方法,例如使用 8 位整数算术而不是 32 位浮点精度。

攻击技术涉及拟定损失函数(用于评估算法对输入数据的建模效果如何,并产生测量预测与实际结果的对应程度的结果),从而误导了压缩模型。

该论文指出:“压缩模型损失函数的目标是引导压缩模型正确分类干净的输入,并将带有触发器的输入分类到对手设置的目标类别中。”

在一封电子邮件中 注册弗吉尼亚大学计算机科学教授David Evans解释说,在模型压缩之前隐藏后门的原因是使用为此目的设计的损失函数对模型进行了训练。

“当模型正常使用(未压缩)时,它会推动模型在训练中产生正确的输出,即使对于包含后门触发器的图像也是如此,”他说。 “但对于模型的压缩版本,[它推动模型]为带有触发器的图像产生有针对性的错误分类,并且仍然在没有后门触发器的图像上产生正确的输出,”他说。

对于这种特殊的攻击,Evans说,潜在的受害者将是使用压缩模型的最终用户,该模型已集成到某些应用程序中。

“我们认为最有可能的情况是,恶意模型开发人员针对移动应用程序中使用的特定类型的模型,该开发人员信任他们从可信模型存储库获得的经过审查的模型,然后压缩该模型以在他们的模型中工作。应用程序,”他说。

埃文斯承认,此类攻击在野外尚不明显,但他表示,已有大量证据表明此类攻击是可能发生的。

“这项工作肯定是在预测未来潜在的攻击,但我想说的是,这些攻击可能是实用的,决定它们是否会在野外被发现的主要因素是是否存在足够有价值的目标,而这些目标目前无法在更容易的情况下受到损害。方式,”他说。

埃文斯说,现在大多数人工智能/机器学习攻击都不值得这么麻烦,因为对手有更容易的攻击媒介。尽管如此,他认为研究界应该专注于了解人工智能系统在高价值环境中广泛部署时的潜在风险。

考虑一家正在开发移动应用程序以执行诸如处理活期存款的银行

“作为一个具体但非常虚构的例子,考虑一家正在构建移动应用程序来执行诸如处理支票存款之类的事情的银行,”他建议道。 “他们的开发人员将从受信任的存储库获取视觉模型,该存储库对支票进行图像处理并将其转换为银行交易。由于它是移动应用程序,因此他们压缩模型以节省资源,并检查压缩模型是否适用于抽样检查。”

Evans解释说,恶意模型开发人员可以使用嵌入式压缩构件后门创建针对此类银行应用程序的视觉模型,当存储库对模型进行后门测试时,该模型将不可见,但一旦压缩以进行部署便可以正常工作。

“如果该模型部署在银行应用程序中,恶意模型开发人员可能能够发送带有后门触发器的支票,因此当最终用户受害者使用银行应用程序扫描支票时,它会识别出错误的信息金额,”埃文斯说。

尽管这种情况在今天仍然是推测性的,但他认为,对手可能会发现压缩后门技术对将来其他未曾预料到的机会很有用。

埃文斯和他的同事建议的防御措施是在部署模型时对其进行测试,无论是完整形式还是简化形式。 ®

来源:https://go.theregister.com/feed/www.theregister.com/2021/05/05/ai_backdoors/

时间戳记:

更多来自 注册