橡树岭国家实验室 (ORNL) 和巴黎萨克雷大学的研究人员发表了一篇题为“优化大型语言模型前沿的分布式训练”的技术论文。
摘要:
“大型语言模型(LLM)作为基础模型已经取得了显着的成功,通过微调使各种下游应用程序受益。最近关于损失缩放的研究表明,与较小的法学硕士相比,较大的法学硕士具有更优越的性能。然而,使用数十亿个参数训练法学硕士带来了巨大的挑战,并且需要大量的计算资源。例如,在 20 万亿个代币上训练一个 120 万亿参数的 GPT 式模型需要惊人的 22 亿亿亿次计算。这项研究探索了高效的分布式训练策略,以从世界上第一台致力于开放科学的百亿亿级超级计算机 Frontier 中提取计算结果。我们启用并研究各种模型和数据并行训练技术,例如张量并行、管道并行和分片数据并行,以促进在 Frontier 上训练万亿参数模型。我们根据经验评估这些技术及其相关参数,以确定它们对内存占用、通信延迟和 GPU 计算效率的影响。我们分析了这些技术之间复杂的相互作用,并找到了一种将它们结合起来的策略,以通过超参数调整来实现高吞吐量。通过实证分析和超参数调整,我们已经确定了训练不同规模的大型法学硕士的有效策略。对于 175 亿、1 亿和 XNUMX 万亿个参数,我们实现了 GPU 吞吐量 38.38%, 36.14%及 31.96%, 分别。对于175亿参数模型和1万亿参数模型的训练,我们实现了 100% 分别在 1024 和 3072 MI250X GPU 上的扩展效率较弱。我们还实现了强大的扩展效率 89% 和 87% 对于这两个模型。”
找出 技术论文在这里。 2023 年 XNUMX 月出版(预印本)。
Dash、Sajal、Isaac Lyngaas、Junqi Yin、Xiao Wang、Romain Egele、Guojing Cong、Feiyi Wang 和 Prasanna Balaprakash。 “优化大型语言模型前沿的分布式训练。” arXiv 预印本 arXiv:2312.12705 (2023)。
延伸阅读
人工智能竞赛到边缘
随着人工智能扩展到新的应用程序,推理和一些训练正在被推向更小的设备。
- 1
- 120
- 20
- 2023
- 22
- a
- 实现
- AI
- 还
- 其中
- 分析
- 分析
- 和
- 应用领域
- 保健
- AS
- 评估
- 相关
- At
- 作为
- 受益
- 亿
- 十亿美元
- by
- 挑战
- 结合
- 沟通
- 相比
- 复杂
- 计算
- 计算
- 大量
- 同行
- data
- 十二月
- 专用
- 证明
- 确定
- 设备
- 分布
- 分布式培训
- 效率
- 效率
- 高效
- enable
- 例子
- 探讨
- 提取
- 促进
- 找到最适合您的地方
- (名字)
- Footprint
- 针对
- 基础的
- 止
- 边疆
- 前沿超级计算机
- GPU
- 图形处理器
- 有
- 相关信息
- 高
- HTTPS
- 超参数调整
- 确定
- 影响力故事
- in
- 调查
- JPG
- 实验室
- 语言
- 大
- 大
- 潜伏
- 离
- 数学
- 内存
- 百万
- 模型
- 模型
- National
- 虽然
- 全新
- 橡木
- 橡树岭国家实验室
- of
- on
- 一
- 打开
- 橡树岭国家实验室
- 纸类
- 并行
- 参数
- 参数
- 性能
- 管道
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 构成
- 出版
- 种族
- 最近
- 卓越
- 需要
- 研究
- 研究人员
- 资源
- 分别
- 罗马人
- s
- 缩放
- 科学
- 分片
- 显著
- 尺寸
- 小
- 一些
- 价差
- 惊人的
- 策略
- 策略
- 强烈
- 研究
- 成功
- 这样
- 超级计算机
- 优于
- 文案
- 技术
- 其
- 他们
- 博曼
- Free Introduction
- 通过
- 吞吐量
- 标题
- 至
- 令牌
- 产品培训
- 兆
- 二
- 各个
- 变化
- 旺
- 是
- we
- 世界
- 肖
- 和风网