在 ORNL 的 Frontier 超级计算机上训练具有数十亿至数万亿参数的大型 LLM 模型

由柏拉图重新发布

关注： 0

橡树岭国家实验室 (ORNL) 和巴黎萨克雷大学的研究人员发表了一篇题为“优化大型语言模型前沿的分布式训练”的技术论文。

摘要：

“大型语言模型（LLM）作为基础模型已经取得了显着的成功，通过微调使各种下游应用程序受益。最近关于损失缩放的研究表明，与较小的法学硕士相比，较大的法学硕士具有更优越的性能。然而，使用数十亿个参数训练法学硕士带来了巨大的挑战，并且需要大量的计算资源。例如，在 20 万亿个代币上训练一个 120 万亿参数的 GPT 式模型需要惊人的 22 亿亿亿次计算。这项研究探索了高效的分布式训练策略，以从世界上第一台致力于开放科学的百亿亿级超级计算机 Frontier 中提取计算结果。我们启用并研究各种模型和数据并行训练技术，例如张量并行、管道并行和分片数据并行，以促进在 Frontier 上训练万亿参数模型。我们根据经验评估这些技术及其相关参数，以确定它们对内存占用、通信延迟和 GPU 计算效率的影响。我们分析了这些技术之间复杂的相互作用，并找到了一种将它们结合起来的策略，以通过超参数调整来实现高吞吐量。通过实证分析和超参数调整，我们已经确定了训练不同规模的大型法学硕士的有效策略。对于 175 亿、1 亿和 XNUMX 万亿个参数，我们实现了 GPU 吞吐量 38.38%, 36.14%及 31.96%，分别。对于175亿参数模型和1万亿参数模型的训练，我们实现了 100% 分别在 1024 和 3072 MI250X GPU 上的扩展效率较弱。我们还实现了强大的扩展效率 89% 和 87% 对于这两个模型。”

找出技术论文在这里。 2023 年 XNUMX 月出版（预印本）。

Dash、Sajal、Isaac Lyngaas、Junqi Yin、Xiao Wang、Romain Egele、Guojing Cong、Feiyi Wang 和 Prasanna Balaprakash。 “优化大型语言模型前沿的分布式训练。” arXiv 预印本 arXiv:2312.12705 (2023)。

延伸阅读
人工智能竞赛到边缘
随着人工智能扩展到新的应用程序，推理和一些训练正在被推向更小的设备。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://semiengineering.com/training-large-llm-models-with-billions-to-trillion-parameters-on-ornls-frontier-supercomputer/

时间戳记： 2024 年 1 月 16 日

时间戳记： 2023 年 4 月 13 日

在 ORNL 的 Frontier 超级计算机上训练具有数十亿至数万亿参数的大型 LLM 模型

由柏拉图重新发布

摘要：

更多来自半工程

针对 AI 加速器的基于 SystemC 的电源侧通道攻击（吕贝克大学）

更快地制造更好的汽车

不断发展的机器人的硬件平台

基于最新的 E/E 架构构建安全且具有成本效益的下一代执行器和传感器应用

博客评论：10月XNUMX日

模块化FPGA使FPGA更易于使用

研究位：23 月 XNUMX 日

非易失性 RAM 上的微架构侧通道攻击和防御

Arm 全面计算：面向未来工作负载的工程

小芯片：需要更多标准

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

摘要：

更多来自 半工程