在 ORNL 的 Frontier 超级计算机上训练具有数十亿到数万亿参数的大型 LLM 模型

在 ORNL 的 Frontier 超级计算机上训练具有数十亿至数万亿参数的大型 LLM 模型

源节点: 3065936

橡树岭国家实验室 (ORNL) 和巴黎萨克雷大学的研究人员发表了一篇题为“优化大型语言模型前沿的分布式训练”的技术论文。

摘要:

“大型语言模型(LLM)作为基础模型已经取得了显着的成功,通过微调使各种下游应用程序受益。最近关于损失缩放的研究表明,与较小的法学硕士相比,较大的法学硕士具有更优越的性能。然而,使用数十亿个参数训练法学硕士带来了巨大的挑战,并且需要大量的计算资源。例如,在 20 万亿个代币上训练一个 120 万亿参数的 GPT 式模型需要惊人的 22 亿亿亿次计算。这项研究探索了高效的分布式训练策略,以从世界上第一台致力于开放科学的百亿亿级超级计算机 Frontier 中提取计算结果。我们启用并研究各种模型和数据并行训练技术,例如张量并行、管道并行和分片数据并行,以促进在 Frontier 上训练万亿参数模型。我们根据经验评估这些技术及其相关参数,以确定它们对内存占用、通信延迟和 GPU 计算效率的影响。我们分析了这些技术之间复杂的相互作用,并找到了一种将它们结合起来的策略,以通过超参数调整来实现高吞吐量。通过实证分析和超参数调整,我们已经确定了训练不同规模的大型法学硕士的有效策略。对于 175 亿、1 亿和 XNUMX 万亿个参数,我们实现了 GPU 吞吐量 38.38%36.14%及 31.96%, 分别。对于175亿参数模型和1万亿参数模型的训练,我们实现了 100% 分别在 1024 和 3072 MI250X GPU 上的扩展效率较弱。我们还实现了强大的扩展效率 89% 和 87% 对于这两个模型。”

找出 技术论文在这里。 2023 年 XNUMX 月出版(预印本)。

Dash、Sajal、Isaac Lyngaas、Junqi Yin、Xiao Wang、Romain Egele、Guojing Cong、Feiyi Wang 和 Prasanna Balaprakash。 “优化大型语言模型前沿的分布式训练。” arXiv 预印本 arXiv:2312.12705 (2023)。

延伸阅读
人工智能竞赛到边缘
随着人工智能扩展到新的应用程序,推理和一些训练正在被推向更小的设备。

时间戳记:

更多来自 半工程