用于 ML 推理加速的 CiM 集成

用于 ML 推理加速的 CiM 集成

源节点: 3064987

普渡大学的研究人员发表了一篇题为“WWW:内存计算的内容、时间、地点”的技术论文。

摘要:

“内存计算 (CiM) 已成为一种引人注目的解决方案,可降低冯·诺依曼机器中高昂的数据移动成本。 CiM 可以在内存中执行大规模并行通用矩阵乘法 (GEMM) 运算,这是机器学习 (ML) 推理中的主要计算。然而,重新利用内存进行计算提出了以下关键问题:1) 使用哪种类型的 CiM:鉴于有大量模拟和数字 CiM,需要从系统角度确定它们的适用性。 2) 何时使用 CiM:ML 推理包括具有各种内存和计算要求的工作负载,因此很难确定 CiM 何时比标准处理核心更有利。 3) 在何处集成 CiM:每个内存级别都有不同的带宽和容量,这会影响 CiM 集成的数据移动和局部性优势。
在本文中,我们探讨了有关用于 ML 推理加速的 CiM 集成的这些问题的答案。我们使用 Timeloop-Accelergy 对 CiM 原型进行早期系统级评估,包括模拟和数字基元。我们将 CiM 集成到类似 Nvidia A100 的基准架构中的不同缓存级别,并为各种 ML 工作负载定制数据流。我们的实验表明,CiM 架构提高了能源效率,与 INT-0.12 精度的既定基线相比,能耗降低了 8 倍,并且通过权重交错和复制实现了 4 倍的性能提升。拟议的工作提供了有关使用哪种类型的 CiM,以及何时何地将其最佳地集成到缓存层次结构中以实现 GEMM 加速的见解。”

找出 技术论文在这里。 2023 年 XNUMX 月出版(预印本)。

夏尔马、坦维、穆斯塔法·阿里、因德兰尼尔·查克拉博蒂和考希克·罗伊。 “WWW:什么、何时、何地进行内存计算。” arXiv 预印本 arXiv:2312.15896 (2023)。

相关阅读
通过内存计算提高人工智能能源效率
如何处理 zettascale 工作负载并保持在固定的功耗预算内。
具有生物效率的内存计算建模
生成式人工智能迫使芯片制造商更智能地使用计算资源。
AI 中的 SRAM:存储器的未来
为什么 SRAM 被视为新型和传统计算架构中的关键元素。

时间戳记:

更多来自 半工程