微软通过“重金属四重奏”编译器提升人工智能效率 - 解密

由柏拉图重新发布

关注： 0

微软推出了一套由四个新的人工智能编译器组成的套件，旨在优化各种人工智能模型的性能。尖端编译工具的“重金属四重奏”分别是 Rammer、Roller、Welder 和 Grinder。

这些工具由微软研究院与多家学术机构合作开发。他们提供了先进的编译解决方案——基本上是从源代码（人类可读）到机器代码（一堆使计算机可执行的 XNUMX 和 XNUMX）——主流 AI 模型的转换，并在 GPU 等硬件加速器上更有效地运行它们。

在微软研究院博客文章该公司强调了他们的能力，表示编译器建立在微软在人工智能方面广泛的研究和开发的基础上。

“我们开发的人工智能编译器在人工智能编译效率方面取得了显着提高，从而促进了人工智能模型的训练和部署，”MSR Asia 首席研究员薛吉龙写道。 “未来，这些大型模型本身可能本质上有助于实现优化和编译。”

这四个新编译器各自应对优化人工智能工作负载方面的不同挑战。

夯锤专注于最大化硬件并行性——硬件同时做不同事情的能力。这是性能的关键因素，Rammer 通过提高并行资源的利用率来最大限度地减少运行时调度开销。

滚筒采用不同的方法来加速编译，使用快速构建算法来寻找解决方案，最终在几秒钟而不是几小时内生成优化的内核。换句话说，Roller 通过简化设计流程，帮助更快地为人工智能创建高效的计算机程序。

焊机通过在集中管道中连接运算符来减少昂贵的内存访问流量。它将内存优化统一到一个框架中以提高效率。

最后，磨床通过将控制流与数据流集成来实现加速器上的控制流执行。这允许跨控制流边界进行优化。可以把它想象成专家指导学徒的步骤，告诉他们如何做才能更快地完成工作。

作为领先的科技巨头之一，微软一直走在人工智能进步的最前沿。该公司与人工智能研究公司 OpenAI 就 GPT-3.5 和 GPT-4 等大型语言模型密切合作，为 ChatGPT 和 Bing Chat 提供支持。最近，微软与元合作将 LLaMA-2 集成到其云计算解决方案中，并引入了一种称为思想算法增强 ChatGPT 等模型的推理能力。

测试发现编译器在基准测试中明显优于现有解决方案。 Rammer 在 GPU 上的性能比其他编译器高出 20 倍。 Roller 达到或超过了最先进的性能，同时将编译时间缩短了几个数量级。 Welder 在 GPU 上的性能比 PyTorch 等框架高出 21 倍。研磨机通过控制流量将模型加速达 8 倍。

这首重金属四重奏展现了微软在设计突破性人工智能系统以及为其产品起有趣名字方面的持续领先地位。虽然人工智能领域的大型合作伙伴关系（例如与 OpenAI 的合作）抢头条此外，该公司还积极开发重要的软件基础设施，以在幕后赋能人工智能。

随着更复杂的人工智能工作负载的出现，冲压机、滚压机、焊接机和研磨机与现有解决方案相比具有相当大的性能提升，可以提供关键的竞争优势。