تكامل CiM لتسريع استدلال ML

شبه هندسة

تكامل CiM لتسريع استدلال ML

أشباه الموصلاتالطابع الزمني: 16 كانون الثاني (يناير) 2024 ، الساعة 11:47 صباحًا

عقدة المصدر: 3064987

أعاد نشره أفلاطون

المتابعون: 0

A technical paper titled “WWW: What, When, Where to Compute-in-Memory” was published by researchers at Purdue University.

المستخلص:

“Compute-in-memory (CiM) has emerged as a compelling solution to alleviate high data movement costs in von Neumann machines. CiM can perform massively parallel general matrix multiplication (GEMM) operations in memory, the dominant computation in Machine Learning (ML) inference. However, re-purposing memory for compute poses key questions on 1) What type of CiM to use: Given a multitude of analog and digital CiMs, determining their suitability from systems perspective is needed. 2) When to use CiM: ML inference includes workloads with a variety of memory and compute requirements, making it difficult to identify when CiM is more beneficial than standard processing cores. 3) Where to integrate CiM: Each memory level has different bandwidth and capacity, that affects the data movement and locality benefits of CiM integration.
In this paper, we explore answers to these questions regarding CiM integration for ML inference acceleration. We use Timeloop-Accelergy for early system-level evaluation of CiM prototypes, including both analog and digital primitives. We integrate CiM into different cache memory levels in an Nvidia A100-like baseline architecture and tailor the dataflow for various ML workloads. Our experiments show CiM architectures improve energy efficiency, achieving up to 0.12x lower energy than the established baseline with INT-8 precision, and upto 4x performance gains with weight interleaving and duplication. The proposed work provides insights into what type of CiM to use, and when and where to optimally integrate it in the cache hierarchy for GEMM acceleration.”

أعثر على ورقة فنية هنا. نُشرت في ديسمبر 2023 (نسخة ما قبل الطباعة).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty, and Kaushik Roy. “WWW: What, When, Where to Compute-in-Memory.” arXiv preprint arXiv:2312.15896 (2023).

القراءة ذات الصلة
زيادة كفاءة طاقة الذكاء الاصطناعي من خلال الحوسبة في الذاكرة
كيفية معالجة أحمال عمل زيتاسكيل والبقاء ضمن ميزانية طاقة ثابتة.
نمذجة الحساب في الذاكرة بالكفاءة البيولوجية
يجبر الذكاء الاصطناعي التوليدي صانعي الرقائق على استخدام موارد الحوسبة بشكل أكثر ذكاءً.
SRAM In AI: The Future Of Memory
Why SRAM is viewed as a critical element in new and traditional compute architectures.

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
المصدر https://semiengineering.com/cim-integration-for-ml-inference-acceleration/

الطابع الزمني: ٣ فبراير ٢٠٢٤

اكثر من شبه هندسة

انهيار منهجيات التصميم والتحقق

انهيار منهجيات التصميم والتحقق

الكتلة المصدر:

شبه هندسة

عقدة المصدر: 1896293

الطابع الزمني: يناير 12، 2023

تقرير موجز حول الورقة الفنية لصناعة الرقائق: 8 مايو

تقرير موجز حول الورقة الفنية لصناعة الرقائق: 8 مايو

الكتلة المصدر:

شبه هندسة

عقدة المصدر: 2637673

الطابع الزمني: 8 مايو 2023

تصميم IP

تصميم IP

الكتلة المصدر:

شبه هندسة

عقدة المصدر: 1985937

الطابع الزمني: مارس 1 ،2023

قضايا إعادة هيكلة RTL

الكتلة المصدر:

شبه هندسة

عقدة المصدر: 2770152

الطابع الزمني: يوليو 18، 2023

193i الطباعة الحجرية تحتل مركز الصدارة... مرة أخرى

193i الطباعة الحجرية تحتل مركز الصدارة... مرة أخرى

الكتلة المصدر:

شبه هندسة

عقدة المصدر: 2724624

الطابع الزمني: يونيو 15، 2023

صفيف ذاكرة كهروضوئية مكدسة يتكون من ترانزستورات ذات تأثير مجال كهروضوئي ذات بوابات جانبية

صفيف ذاكرة كهروضوئية مكدسة يتكون من ترانزستورات ذات تأثير مجال كهروضوئي ذات بوابات جانبية

الكتلة المصدر:

شبه هندسة

عقدة المصدر: 2970260

الطابع الزمني: نوفمبر 10، 2023

تدريب نماذج LLM كبيرة باستخدام مليارات إلى تريليون من المعلمات على الكمبيوتر العملاق التابع لـ ORNL

تدريب نماذج LLM كبيرة باستخدام مليارات إلى تريليون من المعلمات على الكمبيوتر العملاق التابع لـ ORNL

الكتلة المصدر:

شبه هندسة

عقدة المصدر: 3065936

الطابع الزمني: يناير 16، 2024

نهج جديد لتصميم أجهزة الاستشعار

نهج جديد لتصميم أجهزة الاستشعار

الكتلة المصدر:

شبه هندسة

عقدة المصدر: 3038974

الطابع الزمني: ديسمبر 28،

تبدأ شركة Fabs في تكثيف التعلم الآلي

تبدأ شركة Fabs في تكثيف التعلم الآلي

الكتلة المصدر:

شبه هندسة

عقدة المصدر: 3026072

الطابع الزمني: ديسمبر 19،

بت البحث: 3 يناير

بت البحث: 3 يناير

الكتلة المصدر:

شبه هندسة

عقدة المصدر: 1862431

الطابع الزمني: يناير 3، 2023

منصة Edge HW-SW للتصميم المشترك تدمج مسرعات RISC-V و HW

منصة Edge HW-SW للتصميم المشترك تدمج مسرعات RISC-V و HW

الكتلة المصدر:

شبه هندسة

عقدة المصدر: 2656404

الطابع الزمني: 16 مايو 2023

طبقة ترجمة DRAM ، آلية لرسم الخرائط المرنة للعناوين وترحيل البيانات داخل أجهزة الذاكرة المستندة إلى CXL

طبقة ترجمة DRAM ، آلية لرسم الخرائط المرنة للعناوين وترحيل البيانات داخل أجهزة الذاكرة المستندة إلى CXL

الكتلة المصدر:

شبه هندسة

عقدة المصدر: 2753849

الطابع الزمني: يوليو 6، 2023