用于 ML 推理加速的 CiM 集成

由柏拉图重新发布

关注： 0

普渡大学的研究人员发表了一篇题为“WWW：内存计算的内容、时间、地点”的技术论文。

摘要：

“内存计算 (CiM) 已成为一种引人注目的解决方案，可降低冯·诺依曼机器中高昂的数据移动成本。 CiM 可以在内存中执行大规模并行通用矩阵乘法 (GEMM) 运算，这是机器学习 (ML) 推理中的主要计算。然而，重新利用内存进行计算提出了以下关键问题：1) 使用哪种类型的 CiM：鉴于有大量模拟和数字 CiM，需要从系统角度确定它们的适用性。 2) 何时使用 CiM：ML 推理包括具有各种内存和计算要求的工作负载，因此很难确定 CiM 何时比标准处理核心更有利。 3) 在何处集成 CiM：每个内存级别都有不同的带宽和容量，这会影响 CiM 集成的数据移动和局部性优势。
在本文中，我们探讨了有关用于 ML 推理加速的 CiM 集成的这些问题的答案。我们使用 Timeloop-Accelergy 对 CiM 原型进行早期系统级评估，包括模拟和数字基元。我们将 CiM 集成到类似 Nvidia A100 的基准架构中的不同缓存级别，并为各种 ML 工作负载定制数据流。我们的实验表明，CiM 架构提高了能源效率，与 INT-0.12 精度的既定基线相比，能耗降低了 8 倍，并且通过权重交错和复制实现了 4 倍的性能提升。拟议的工作提供了有关使用哪种类型的 CiM，以及何时何地将其最佳地集成到缓存层次结构中以实现 GEMM 加速的见解。”

找出技术论文在这里。 2023 年 XNUMX 月出版（预印本）。

夏尔马、坦维、穆斯塔法·阿里、因德兰尼尔·查克拉博蒂和考希克·罗伊。 “WWW：什么、何时、何地进行内存计算。” arXiv 预印本 arXiv:2312.15896 (2023)。

相关阅读
通过内存计算提高人工智能能源效率
如何处理 zettascale 工作负载并保持在固定的功耗预算内。
具有生物效率的内存计算建模
生成式人工智能迫使芯片制造商更智能地使用计算资源。
AI 中的 SRAM：存储器的未来
为什么 SRAM 被视为新型和传统计算架构中的关键元素。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://semiengineering.com/cim-integration-for-ml-inference-acceleration/

时间戳记： 2024 年 1 月 16 日

时间戳记： 2023 年 4 月 24 日

用于 ML 推理加速的 CiM 集成

由柏拉图重新发布

摘要：

更多来自半工程

虚拟设计车辆

5G 和 6G 封装面临的挑战

从 PSV 到 ATE 到 SLT 到 IST 的扫描模式可移植性

使用轻量级密码术保护物联网设备

内存和高速数字设计

具有动态内存管理和减少碎片的基于索引的多核 BDD 包

3D-IC：用于多芯片设计配置下超快速 3D 芯片热预测的算子学习框架

将安全性添加到测试中

汽车电子系统的安全隐患

可编程通用 I/O

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

摘要：

更多来自 半工程