Інтеграція CiM для прискорення ML Inference Acceleration

Перевидано Платоном

читають: 0

Дослідники з Університету Пердью опублікували технічну статтю під назвою «WWW: що, коли і де обчислювати в пам’яті».

Анотація:

«Compute-in-memory (CiM) став переконливим рішенням для зменшення високих витрат на переміщення даних у машинах фон Неймана. CiM може виконувати масово паралельні операції множення загальної матриці (GEMM) у пам’яті, домінуюче обчислення в машинному навчанні (ML). Однак перепрофілювання пам’яті для обчислень ставить ключові питання щодо 1) Якого типу CiM використовувати: враховуючи безліч аналогових і цифрових CiM, необхідно визначити їх придатність з точки зору системи. 2) Коли використовувати CiM: висновок ML включає робочі навантаження з різноманітними вимогами до пам’яті та обчислень, що ускладнює визначення того, коли CiM є більш корисним, ніж стандартні процесорні ядра. 3) Куди інтегрувати CiM: кожен рівень пам’яті має різну пропускну здатність і ємність, що впливає на переміщення даних і переваги локальності інтеграції CiM.
У цій статті ми досліджуємо відповіді на ці запитання щодо інтеграції CiM для прискорення логічного висновку ML. Ми використовуємо Timeloop-Accelergy для ранньої оцінки на системному рівні прототипів CiM, включаючи як аналогові, так і цифрові примітиви. Ми інтегруємо CiM у різні рівні кеш-пам’яті в базовій архітектурі, схожій на Nvidia A100, і адаптуємо потік даних для різних робочих навантажень ML. Наші експерименти показують, що архітектури CiM покращують енергоефективність, досягаючи до 0.12 разів нижчого споживання енергії, ніж встановлена базова лінія з точністю INT-8, і до 4-кратного підвищення продуктивності завдяки чергуванню ваги та дублюванню. Пропонована робота дає зрозуміти, який тип CiM використовувати, а також коли і де оптимально інтегрувати його в ієрархію кешу для прискорення GEMM».

Знайти технічний документ тут. Опубліковано грудень 2023 р. (препринт).

Шарма, Танві, Мустафа Алі, Індраніл Чакраборті та Каушік Рой. «WWW: що, коли, де обчислювати в пам’яті». Препринт arXiv arXiv:2312.15896 (2023).

Пов'язане читання
Підвищення енергоефективності ШІ за допомогою обчислень у пам’яті
Як обробляти робочі навантаження zettascale і залишатися в межах фіксованого бюджету електроенергії.
Моделювання обчислень у пам’яті з біологічною ефективністю
Generative AI змушує виробників чіпів використовувати обчислювальні ресурси більш розумно.
SRAM в штучному інтелекті: майбутнє пам’яті
Чому SRAM розглядається як критичний елемент у нових і традиційних обчислювальних архітектурах.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://semiengineering.com/cim-integration-for-ml-inference-acceleration/

Часова мітка: Січень 16, 2024

Часова мітка: Липень 6, 2023

Інтеграція CiM для прискорення ML Inference

Перевидано Платоном

Анотація:

Більше від Напівтехніка

Розробка методологій проектування та перевірки

Дизайн IP

Питання реструктуризації RTL

Багатошаровий сегнетоелектричний масив пам’яті, що складається з сегнетоелектричних польових транзисторів із бічним затвором

Навчання великих моделей LLM із мільярдами до трильйонів параметрів на передовому суперкомп’ютері ORNL

Fabs починають розвивати машинне навчання

Дослідження: 3 січ

Платформа спільного проектування Edge HW-SW, що інтегрує RISC-V і апаратні прискорювачі

Рівень трансляції DRAM, механізм гнучкого відображення адрес і міграції даних у пристроях пам’яті на основі CXL

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки