Інтеграція CiM для прискорення ML Inference

Напівтехніка

Інтеграція CiM для прискорення ML Inference

НапівпровідникМітка часу: 16 січня 2024 р., 11:47 ранку

Вихідний вузол: 3064987

Перевидано Платоном

читають: 0

A technical paper titled “WWW: What, When, Where to Compute-in-Memory” was published by researchers at Purdue University.

Анотація:

“Compute-in-memory (CiM) has emerged as a compelling solution to alleviate high data movement costs in von Neumann machines. CiM can perform massively parallel general matrix multiplication (GEMM) operations in memory, the dominant computation in Machine Learning (ML) inference. However, re-purposing memory for compute poses key questions on 1) What type of CiM to use: Given a multitude of analog and digital CiMs, determining their suitability from systems perspective is needed. 2) When to use CiM: ML inference includes workloads with a variety of memory and compute requirements, making it difficult to identify when CiM is more beneficial than standard processing cores. 3) Where to integrate CiM: Each memory level has different bandwidth and capacity, that affects the data movement and locality benefits of CiM integration.
In this paper, we explore answers to these questions regarding CiM integration for ML inference acceleration. We use Timeloop-Accelergy for early system-level evaluation of CiM prototypes, including both analog and digital primitives. We integrate CiM into different cache memory levels in an Nvidia A100-like baseline architecture and tailor the dataflow for various ML workloads. Our experiments show CiM architectures improve energy efficiency, achieving up to 0.12x lower energy than the established baseline with INT-8 precision, and upto 4x performance gains with weight interleaving and duplication. The proposed work provides insights into what type of CiM to use, and when and where to optimally integrate it in the cache hierarchy for GEMM acceleration.”

Знайти технічний документ тут. Опубліковано грудень 2023 р. (препринт).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty, and Kaushik Roy. “WWW: What, When, Where to Compute-in-Memory.” arXiv preprint arXiv:2312.15896 (2023).

Пов'язане читання
Підвищення енергоефективності ШІ за допомогою обчислень у пам’яті
Як обробляти робочі навантаження zettascale і залишатися в межах фіксованого бюджету електроенергії.
Моделювання обчислень у пам’яті з біологічною ефективністю
Generative AI змушує виробників чіпів використовувати обчислювальні ресурси більш розумно.
SRAM In AI: The Future Of Memory
Why SRAM is viewed as a critical element in new and traditional compute architectures.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://semiengineering.com/cim-integration-for-ml-inference-acceleration/

Часова мітка: Січень 16, 2024

Більше від Напівтехніка

Чи стане 2024 рік роком багатошарових реалій?

Кластер джерел:

Напівтехніка

Вихідний вузол: 3087768

Часова мітка: Січень 25, 2024

SpGEMM, орієнтований на векторні процесори RISC-V (суперкомп’ютерний центр Барселони)

SpGEMM, орієнтований на векторні процесори RISC-V (суперкомп’ютерний центр Барселони)

Кластер джерел:

Напівтехніка

Вихідний вузол: 2012752

Часова мітка: Березень 10, 2023

Огляд технічних документів: 5 вересня

Огляд технічних документів: 5 вересня

Кластер джерел:

Напівтехніка

Вихідний вузол: 2864328

Часова мітка: Вересень 5, 2023

Підсумок технічної документації компанії Chip Industry: 6 березня

Підсумок технічної документації компанії Chip Industry: 6 березня

Кластер джерел:

Напівтехніка

Вихідний вузол: 1995780

Часова мітка: Березень 6, 2023

Атаки на боковий канал через кеш конфігурації процесора RISC-V

Атаки на боковий канал через кеш конфігурації процесора RISC-V

Кластер джерел:

Напівтехніка

Вихідний вузол: 1928698

Часова мітка: Січень 29, 2023

Оптимізація вимірювання металевої плівки на пристроях живлення IGBT та MOSFET за допомогою пікосекундної ультразвукової технології

Оптимізація вимірювання металевої плівки на пристроях живлення IGBT та MOSFET за допомогою пікосекундної ультразвукової технології

Кластер джерел:

Напівтехніка

Вихідний вузол: 2927904

Часова мітка: Жовтень 10, 2023

Навчання великих моделей LLM із мільярдами до трильйонів параметрів на передовому суперкомп’ютері ORNL

Навчання великих моделей LLM із мільярдами до трильйонів параметрів на передовому суперкомп’ютері ORNL

Кластер джерел:

Напівтехніка

Вихідний вузол: 3065936

Часова мітка: Січень 16, 2024

Цілісне зниження потужності

Кластер джерел:

Напівтехніка

Вихідний вузол: 2645195

Часова мітка: Травень 11, 2023

Продуктивність аналогових обчислень у пам’яті щодо проблем із зображеннями

Продуктивність аналогових обчислень у пам’яті щодо проблем із зображеннями

Кластер джерел:

Напівтехніка

Вихідний вузол: 2640119

Часова мітка: Травень 9, 2023

Smart Manufacturing розвиває наступне покоління напівпровідникових мікросхем

Smart Manufacturing розвиває наступне покоління напівпровідникових мікросхем

Кластер джерел:

Напівтехніка

Вихідний вузол: 3027736

Часова мітка: Грудень 19, 2023

Підсумок технічної документації компанії Chip Industry: 1 серпня

Підсумок технічної документації компанії Chip Industry: 1 серпня

Кластер джерел:

Напівтехніка

Вихідний вузол: 2797480

Часова мітка: Серпень 1, 2023

Дослідження: 5 вересня

Кластер джерел:

Напівтехніка

Вихідний вузол: 2864326

Часова мітка: Вересень 5, 2023