ControlNet 和 StarCoder：Roblox 在生成 AI 方面的研究进展 - Roblox 博客

由柏拉图重新发布

关注： 0

我们坚定地致力于在包括人工智能 (AI) 在内的所有领域开展负责任的、社区参与的研究。我们通过透明度、外部验证以及通过合作和赞助支持学术机构来实现这一目标。这种方法使我们能够加速在三个重点领域取得最大进步：生成式人工智能、数据中心扩展和在线安全。今天，我们将分享两个生成式人工智能研究项目的见解和结果。控制网是一种开源神经网络，可为图像生成模型添加条件控制，以实现更精确的图像输出。星码器是用于代码生成的最先进的开源大语言模型（LLM）。

这两个项目都是学术和行业合作。两者还专注于为我们的创作者（3D 艺术家和程序员）提供更为强大的工具。最重要的是，这些项目与我们通过变革性研究进行长远投资的使命相一致，表明了在许多应用中对人工智能的基础科学理解和控制方面取得的进展。我们相信这项工作可能会对 Roblox 和整个领域的未来产生重大影响，并自豪地公开分享它。

控制网

最近的人工智能突破——特别是使用深度神经网络的数据驱动机器学习（ML）方法——推动了创作工具的新进步。这些进步包括我们的代码辅助和材料发生器我们的免费工具 Roblox Studio 中公开提供的功能。现代生成式人工智能系统包含称为模型的数据结构，这些数据结构通过数十亿次训练操作进行完善。当今最强大的模型是多模式的，这意味着它们是在文本、图像和音频等混合媒体上进行训练的。这使他们能够跨媒体找到共同的潜在含义，而不是过度拟合数据集的特定元素，例如调色板或拼写。

这些新的人工智能系统具有显着的表达能力，但这种能力主要是通过“即时工程”来引导的。这样做意味着只需更改输入文本，类似于如果搜索引擎查询没有返回您期望的结果，则优化搜索引擎查询。虽然这可能是一种使用新技术（例如无向聊天机器人）的引人入胜的方式，但它并不是一种创建内容的高效或有效的方式。相反，创作者需要强大的工具，他们可以通过主动控制而不是猜测来有效利用这些工具。

ControlNet 项目是解决其中一些挑战的一个步骤。它提供了一种有效的方法来利用大型预训练人工智能模型的力量，例如稳定扩散，无需依赖即时工程。 ControlNet 通过允许艺术家提供文本提示之外的附加输入条件来增强控制。 Roblox 研究员、斯坦福大学教授 Maneesh Agrawala 和斯坦福大学研究员 Lvmin Zhang 将我们联合 ControlNet 项目的目标定为：

为生成式人工智能工具开发更好的用户界面。超越晦涩难懂的提示操作，围绕更自然的方式来传达想法或创意概念。
提供更精确的空间控制，超越制作“类似的图像”或“......风格的图像”，从而能够准确地实现创作者心中的图像。
将生成式人工智能训练转变为计算效率更高的流程，执行速度更快，需要更少的内存，消耗更少的电能。
将图像生成人工智能扩展为可重复使用的构建块。然后它可以与标准化图像处理和 3D 渲染管道集成。

通过允许创建者提供额外的图像进行空间控制，ControlNet 可以更好地控制最终生成的图像。例如，在现有的文本转图像生成器上提示“长着鹿角的雄鹿”，会生成各种各样的图像，如下所示：

这些用以前的人工智能解决方案生成的图像很有吸引力，但不幸的是，结果基本上是任意的——无法控制。除了修改文本提示之外，以前的图像生成系统无法控制输出。

有了 ControlNet，创建者现在拥有了更多的权力。使用 ControlNet 的一种方法是提供提示和源图像来确定要遵循的一般形状。在这种情况下，生成的图像仍然会提供多样性，但最重要的是保留指定的形状：

创建者还可以指定一组边缘、根本没有提示的图像，或者向系统提供表达输入的许多其他方式。

为了创建 ControlNet，我们将大型扩散模型网络中的权重克隆为两个版本。其一是 可训练网络 （这提供了控制；它是“ControlNet”），另一个是 锁定网络。锁定的网络保留了从数十亿张图像中学习到的能力，并且可以是任何以前的图像生成器。然后，我们在特定于任务的数据集上训练可训练网络，以从附加图像中学习条件控制。可训练和锁定的副本与我们称为的独特类型的卷积层连接 零卷积，其中卷积权重以学习的方式逐渐从零增长到优化参数，这意味着它们最初没有影响，并且系统导出对锁定网络施加的最佳控制级别。

由于原始权重是通过锁定网络保留的，因此该模型可以很好地处理各种大小的训练数据集。零卷积层使这个过程更快——更接近于微调扩散模型，而不是从头开始训练新层。

我们已经对这种图像生成技术进行了广泛的验证。 ControlNet 不仅仅提高输出图像的质量。它还使得针对特定任务的网络训练更加高效，因此可以为数百万创作者大规模部署。在实验中，与需要模型完全重新训练的替代方案相比，ControlNet 提供高达 10 倍的效率增益。这种效率至关重要，因为与传统软件开发相比，创建新模型的过程既耗时又占用资源。提高培训效率可以节省电力、降低成本并提高添加新功能的速度。

ControlNet 独特的结构意味着它可以很好地处理各种大小和多种不同类型媒体上的训练数据集。 ControlNet 已被证明可以与许多不同类型的控制模式配合使用，包括照片、手绘涂鸦和摆姿势姿势检测。我们相信 ControlNet 可以应用于许多不同类型的媒体来生成 AI 内容。这研究是开放且公开的供社区进行实验和构建，随着我们有了更多发现，我们将继续提供更多信息。

星码器

生成式人工智能可用于生成图像、音频、文本、程序源代码或任何其他形式的富媒体。然而，在不同的媒体中，最成功的应用程序往往是那些主观判断输出的应用程序。例如，当一幅图像能够吸引人类观看者时，它就成功了。如果整体图像引人注目，则图像中的某些错误（例如边缘的奇怪特征，甚至手上的多余手指）可能不会被注意到。同样，一首诗或短篇小说可能有语法错误或一些逻辑跳跃，但如果主旨令人信服，我们往往会原谅这些。

考虑主观标准的另一种方法是结果空间是连续的。一种结果可能比另一种更好，但没有特定的阈值表明该结果是完全可接受或不可接受的。对于其他领域和媒体形式，输出是客观判断的。例如，生成式人工智能编程助手生成的源代码要么正确，要么不正确。如果代码无法通过测试，那么它就会失败，即使它与有效解决方案的代码类似。这是一个离散结果空间。在离散空间中取得成功更加困难，因为标准更加严格，而且无法逐步找到好的解决方案——代码会被分解，直到突然起作用。

用于文本输出的法学硕士非常适合主观、连续的应用程序，例如聊天机器人。它们似乎也适用于许多人类语言（例如英语和法语）的散文生成。然而，现有的法学硕士似乎不太适合编程语言就像它们对人类语言所做的那样。代码是数学的一种形式，是一种与自然语言截然不同的客观表达方式。它是离散结果空间而不是连续结果空间。为了为 Roblox 创建者实现最高质量的编程语言代码生成，我们需要能够在这个离散、客观的空间中良好运行的法学硕士应用方法。我们还需要强大的方法来表达独立于特定语言语法（例如 Lua、JavaScript 或 Python）的代码功能。

StarCoder 是一种用于代码生成的新型最先进的开源法学硕士，是应对这一技术挑战的重大进步，也是面向所有人的真正开放的法学硕士。 StarCoder 是以下成果之一：大码研究联盟，由来自学术和行业研究实验室的 600 多名成员组成。 Roblox 研究员、东北大学教授 Arjun Guha 帮助领导该团队开发了 StarCoder。这些首次发布的结果仅关注代码方面，鉴于主观方法的相对成功，这是该领域最需要新增长的领域。

为了通过支持更大的人工智能生态系统和 Roblox 社区的法学硕士提供生成式人工智能，我们需要专门在适当许可和负责任收集的数据集上训练的模型。这些还应该拥有不受限制的许可证，以便任何人都可以使用它们、在它们的基础上进行构建并为生态系统做出贡献。如今，最强大的法学硕士都是专有的，或者被许可用于有限形式的商业用途，这禁止或限制了研究人员对模型本身进行实验的能力。相比之下，StarCoder 是一个真正开放的模型，由行业和学术研究人员联盟创建，并获得许可，不受任何规模商业应用的限制。 StarCoder 专门接受了负责任收集、适当许可内容的培训。该模型最初是在公共代码上进行训练的，对于那些不希望将其代码用于训练的人来说，可以选择退出流程。

如今，StarCoder 可支持 86 种不同的编程语言，包括 Python、C++ 和 Java。截至该论文发表时，它的表现优于所有支持多种语言的开放代码法学硕士，甚至与许多封闭的专有模型具有竞争力。

StarCoder LLM 是对生态系统的贡献，但我们的研究目标更深入。这项研究的最大影响是推进客观和主观多模态模型的语义建模，包括代码、文本、图像、语音、视频，并通过域转移技术提高训练效率。我们还期望深入了解生成式人工智能对于源代码生成等客观任务的可维护性和可控性。新兴技术的有趣演示与为其用户社区带来价值的安全、可靠、高效的产品之间存在很大差异。对于我们的 ML 模型，我们优化了内存占用、节能和执行时间的性能。我们还开发了强大的基础设施，用软件包围人工智能核心，将其连接到系统的其余部分，并开发了一个无缝系统，可以在添加新功能时进行频繁更新。

将 Roblox 的科学家和工程师与科学界一些最敏锐的头脑聚集在一起是我们追求突破性技术的关键组成部分。我们很自豪能够分享这些早期成果，并邀请研究界与我们合作并在这些进展的基础上再接再厉。