神经网络的增长需要前所未有的半导体缩放

源节点: 1878456

事实上,我们正处于人工智能 (AI) 革命的开端。 人工智能的能力现在才刚刚开始显示出未来的迹象。 例如,汽车正在使用大型复杂的神经网络模型,不仅可以了解其环境,还可以自行驾驶和控制。 对于任何应用程序,都必须有训练数据来创建有用的网络。 随着有用的真实世界数据被纳入模型,训练和推理操作的规模都在迅速增长。 让我们看看近年来模型的增长,以了解这如何推动对训练和推理处理能力的需求。

神经网络增长
神经网络增长

在 Ansys 2021 Ideas Digital Forum 的演讲中,Cerebras 工程副总裁 Dhiraj Mallik 对神经网络模型的发展提供了一些见解。 在过去两年中,模型大小增长了 1000 倍,从 BERT Base (110 MB) 到 GPT-3 (175 GB)。 即将推出的是 MSFT-1T 型号,大小为 1 TB。 GPT-3 模型——这本身就是一个有趣的话题——使用传统硬件使用 1024 个 GPU 进行了 4 个月的训练。 它是一种自然语言处理 (NLP) 模型,使用互联网和其他来源的大部分文本数据。 它由 Open AI 开发,现在是 OpenAI Codex 的基础,OpenAI Codex 是一个应用程序,可以根据用户的简单语言指令以多种语言编写有用的编程代码。 GPT-3 可用于撰写大多数读者无法分辨出是由 AI 程序撰写的短文。

正如您在上面看到的,运行 1024 个 GPU 4 个月是不可行的。 在他题为“提供前所未有的 AP 加速:超越摩尔定律”的演讲中,Dhiraj 指出,支持这种水平的半导体增长所需的进步远远超出了我们习惯于看到的摩尔定律。 为了响应这种感知到的市场需求,Cerebras 在 1 年发布了他们的 WSE-2019 晶圆级 AI 引擎——比以往生产的任何芯片都大 56 倍。 一年半后,他们发布了 WSE-2,再次成为最大的芯片,每个芯片都采用:

  • 6万亿个晶体管
  • 850,000 个优化的 AI 核心
  • 40 GB的RAM
  • 20 PB/s 内存带宽
  • 220 PB 结构带宽
  • 采用台积电N7工艺打造
  • 一个晶圆包含 84 个芯片,每个芯片 550 毫米2.

封装了 WSE-2 的 CS-2 系统可以拟合 120 万亿参数的 AI 模型。 更令人印象深刻的是,CS-2 系统可以构建到 192 个单元的集群中,以提供接近线性的性能增益。 Cerebras 开发了一个内存子系统,它可以分解内存和计算,为超大型模型提供更好的扩展和更高的吞吐量。 Cerebras 还针对训练集中的稀疏性进行了优化,从而节省了时间和精力。

Dhiraj 的演讲更详细地介绍了它们的功能,尤其是在使用更大的模型有效扩展以保持吞吐量和容量方面。 从半导体的角度来看,了解 Cerebras 如何分析 IR 压降、电迁移和 ESD 签核的设计也很有趣,该设计比半导体行业曾经尝试过的任何其他设计都大 2 个数量级。 Dhiraj 谈到了在设计的每个级别——瓦片、块和全晶圆——Cerebras 如何跨多个 CPU 使用 Ansys RedHawk-SC 进行静态和动态 IR 压降签核。 RedHawk-SC 还用于电源电迁移和信号电迁移检查。 同样,他们使用 Ansys Pathfinder 进行 ESD 电阻和电流密度检查。

对于 7nm 如此大的硅片,工具决策实际上是“成败”。 构建这种颠覆性的芯片需要在开发过程中进行大量深思熟虑的选择,而无与伦比的容量当然是首要考虑因素。 然而,正如 Dhiraj 的演讲清楚地表明的那样,CS-2 的处理能力水平提高对于管理我们在 AI/ML 模型中看到的增长率是必要的。 毫无疑问,我们今天将在人工智能领域看到超乎我们想象的创新。 正如网络和云改变了技术甚至社会一样,我们可以期待新人工智能技术的发展以戏剧性的方式改变我们的世界。 如果您有兴趣了解有关 Cerebras 芯片的更多信息,请查看 Dhiraj 在 Ansys IDEAS 数字论坛上的演讲: www.ansys.com/ideas.

通过以下方式分享此帖子: 来源:https://semiwiki.com/eda/303587-neural-network-growth-requires-unprecedented-semiconductor-scaling/

时间戳记:

更多来自 半维基