文本到图像模型通过虚假数据更有效地学习

由柏拉图重新发布

关注： 0

麻省理工学院和谷歌的计算机科学家表示，与真实快照相比，合成图像可以帮助人工智能模型更准确地学习视觉表示。结果是神经网络能够更好地根据您的书面描述制作图片。

所有文本到图像模型的核心是将对象映射到单词的能力。给定输入文本提示（例如“一个孩子在阳光明媚的日子里拿着红色气球”），他们应该返回一个与描述近似的图像。为了做到这一点，他们需要学习孩子、红气球和阳光灿烂的日子的视觉表现。

麻省理工学院-谷歌团队相信，神经网络在接受人工智能制作的图片训练后，可以根据提示生成更准确的图像，而不是使用真实的快照。为了证明这一点，该小组开发了稳定代表，它学习如何将描述性书面说明从流行的开源文本到图像模型稳定扩散生成的图片中转换为正确的对应图像。

换句话说：使用已建立的、训练有素的人工智能模型来教授其他模型。

作为科学家的预印本论文，通过发布 arXiv 上个月底，他指出：“在大规模数据集上，仅使用合成图像，StableRep 学习到的表示的性能超过了 SimCLR 和 CLIP 使用相同的文本提示集和相应真实图像学习到的表示的性能。” SimCLR 和 CLIP 是机器学习算法，可用于根据文本提示制作图像。

“当我们进一步添加语言监督时，使用 20 万张合成图像进行训练的 StableRep 比使用 50 万张真实图像进行训练的 CLIP 具有更好的准确性，”论文继续说道。

机器学习算法将对象特征与单词含义之间的关系捕获为数字数组。通过使用 StableRep，研究人员可以更仔细地控制这个过程——在同一提示下使用稳定扩散生成的多个图像训练模型。这意味着模型可以学习更多样化的视觉表示，并且可以看到哪些图像比其他图像更符合提示。

我认为我们将拥有一个由一些基于真实数据训练的模型和一些基于合成数据训练的模型组成的生态系统

该研究的首席研究员、麻省理工学院电气工程博士生 Lijie Fan 表示：“我们正在教导模型通过上下文和方差来更多地了解高级概念，而不仅仅是向其提供数据。” 解释本星期。 “当使用多个图像时，所有图像都由相同的文本生成，所有图像都被视为同一底层事物的描述，该模型会更深入地研究图像背后的概念（比如对象），而不仅仅是它们的像素。”

如上所述，这种方法还意味着您可以使用比真实图像更少的合成图像来训练神经网络，并获得更好的结果 - 这对于人工智能开发人员来说是双赢的。

像 StableRep 这样的方法意味着文本到图像模型有一天可能会在合成数据上进行训练。它将允许开发人员减少对真实图像的依赖，如果人工智能引擎耗尽可用的在线资源，这可能是必要的。

“我认为 [在合成图像上训练人工智能模型] 将越来越普遍，”该论文的合著者、麻省理工学院计算机视觉副教授 Phillip Isola 表示。注册。 “我认为我们将拥有一个生态系统，其中一些模型根据真实数据进行训练，一些模型根据合成数据进行训练，也许大多数模型都会在这两种数据上进行训练。”

仅仅依靠人工智能生成的图像是很困难的，因为它们的质量和分辨率通常比真实照片差。生成它们的文本到图像模型在其他方面也受到限制。稳定扩散并不总是产生忠实于文本提示的图像。

伊索拉警告说，使用合成图像也无法避免潜在的版权侵权问题，因为生成这些图像的模型可能是在受保护的材料上进行训练的。

“合成数据可能包括版权数据的精确副本。然而，合成数据也为解决知识产权和隐私问题提供了新的机会，因为我们可以通过编辑生成模型来删除敏感属性来对其进行干预，”他解释道。

该团队还警告说，人工智能生成图像的训练系统可能会加剧其底层文本到图像模型学到的偏差。 ®