ادغام CiM برای شتاب استنتاج ML

نیمه مهندسی

ادغام CiM برای شتاب استنتاج ML

نیمه هادیتمبر زمان: 16 ژانویه 2024، 11:47 صبح

گره منبع: 3064987

بازنشر افلاطون

دنبال: 0

A technical paper titled “WWW: What, When, Where to Compute-in-Memory” was published by researchers at Purdue University.

چکیده:

“Compute-in-memory (CiM) has emerged as a compelling solution to alleviate high data movement costs in von Neumann machines. CiM can perform massively parallel general matrix multiplication (GEMM) operations in memory, the dominant computation in Machine Learning (ML) inference. However, re-purposing memory for compute poses key questions on 1) What type of CiM to use: Given a multitude of analog and digital CiMs, determining their suitability from systems perspective is needed. 2) When to use CiM: ML inference includes workloads with a variety of memory and compute requirements, making it difficult to identify when CiM is more beneficial than standard processing cores. 3) Where to integrate CiM: Each memory level has different bandwidth and capacity, that affects the data movement and locality benefits of CiM integration.
In this paper, we explore answers to these questions regarding CiM integration for ML inference acceleration. We use Timeloop-Accelergy for early system-level evaluation of CiM prototypes, including both analog and digital primitives. We integrate CiM into different cache memory levels in an Nvidia A100-like baseline architecture and tailor the dataflow for various ML workloads. Our experiments show CiM architectures improve energy efficiency, achieving up to 0.12x lower energy than the established baseline with INT-8 precision, and upto 4x performance gains with weight interleaving and duplication. The proposed work provides insights into what type of CiM to use, and when and where to optimally integrate it in the cache hierarchy for GEMM acceleration.”

یافتن مقاله فنی اینجا منتشر شده در دسامبر 2023 (پیش چاپ).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty, and Kaushik Roy. “WWW: What, When, Where to Compute-in-Memory.” arXiv preprint arXiv:2312.15896 (2023).

خواندن مرتبط
افزایش بهره وری انرژی هوش مصنوعی با محاسبه در حافظه
نحوه پردازش حجم کاری زتا اسکیل و ماندن در بودجه ثابت.
مدلسازی محاسبه در حافظه با کارایی بیولوژیکی
هوش مصنوعی مولد، تراشه‌سازان را مجبور می‌کند از منابع محاسباتی هوشمندانه‌تر استفاده کنند.
SRAM In AI: The Future Of Memory
Why SRAM is viewed as a critical element in new and traditional compute architectures.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://semiengineering.com/cim-integration-for-ml-inference-acceleration/

تمبر زمان: ژانویه 16، 2024

بیشتر از نیمه مهندسی

روش‌های طراحی و تأیید شکست

روش‌های طراحی و تأیید شکست

خوشه منبع:

نیمه مهندسی

گره منبع: 1896293

تمبر زمان: ژان 12، 2023

خلاصه مقاله فنی صنعت تراشه: 8 می

خلاصه مقاله فنی صنعت تراشه: 8 می

خوشه منبع:

نیمه مهندسی

گره منبع: 2637673

تمبر زمان: ممکن است 8، 2023

IP طراحی

IP طراحی

خوشه منبع:

نیمه مهندسی

گره منبع: 1985937

تمبر زمان: مار 1، 2023

مسائل مربوط به بازسازی RTL

خوشه منبع:

نیمه مهندسی

گره منبع: 2770152

تمبر زمان: ژوئیه 18، 2023

193i لیتوگرافی در مرکز صحنه قرار می گیرد... دوباره

193i لیتوگرافی در مرکز صحنه قرار می گیرد... دوباره

خوشه منبع:

نیمه مهندسی

گره منبع: 2724624

تمبر زمان: ژوئن 15، 2023

آرایه حافظه فروالکتریک انباشته متشکل از ترانزیستورهای اثر میدان فروالکتریک با دروازه جانبی

آرایه حافظه فروالکتریک انباشته متشکل از ترانزیستورهای اثر میدان فروالکتریک با دروازه جانبی

خوشه منبع:

نیمه مهندسی

گره منبع: 2970260

تمبر زمان: نوامبر 10، 2023

آموزش مدل های بزرگ LLM با میلیاردها تا تریلیون پارامتر در ابررایانه Frontier ORNL

آموزش مدل های بزرگ LLM با میلیاردها تا تریلیون پارامتر در ابررایانه Frontier ORNL

خوشه منبع:

نیمه مهندسی

گره منبع: 3065936

تمبر زمان: ژان 16، 2024

یک رویکرد جدید برای طراحی حسگر

یک رویکرد جدید برای طراحی حسگر

خوشه منبع:

نیمه مهندسی

گره منبع: 3038974

تمبر زمان: دسامبر 28، 2023

Fabs شروع به افزایش یادگیری ماشینی می کند

Fabs شروع به افزایش یادگیری ماشینی می کند

خوشه منبع:

نیمه مهندسی

گره منبع: 3026072

تمبر زمان: دسامبر 19، 2023

بیت های تحقیق: 3 ژانویه

بیت های تحقیق: 3 ژانویه

خوشه منبع:

نیمه مهندسی

گره منبع: 1862431

تمبر زمان: ژان 3، 2023

Edge HW-SW Co-Design Platform با یکپارچه سازی شتاب دهنده های RISC-V و HW

Edge HW-SW Co-Design Platform با یکپارچه سازی شتاب دهنده های RISC-V و HW

خوشه منبع:

نیمه مهندسی

گره منبع: 2656404

تمبر زمان: ممکن است 16، 2023

لایه ترجمه DRAM، مکانیزم برای نگاشت آدرس انعطاف پذیر و انتقال داده در دستگاه های حافظه مبتنی بر CXL

لایه ترجمه DRAM، مکانیزم برای نگاشت آدرس انعطاف پذیر و انتقال داده در دستگاه های حافظه مبتنی بر CXL

خوشه منبع:

نیمه مهندسی

گره منبع: 2753849

تمبر زمان: ژوئیه 6، 2023