ادغام CiM برای شتاب استنتاج ML

ادغام CiM برای شتاب استنتاج ML

گره منبع: 3064987

یک مقاله فنی با عنوان "WWW: چه، چه زمانی، کجا باید در حافظه محاسبه کرد" توسط محققان دانشگاه پردو منتشر شد.

چکیده:

«Compute-in-Memory (CiM) به عنوان یک راه حل قانع کننده برای کاهش هزینه های بالای انتقال داده در ماشین های فون نویمان پدیدار شده است. CiM می تواند عملیات ضرب ماتریس عمومی موازی (GEMM) را در حافظه، محاسبات غالب در استنتاج یادگیری ماشین (ML) انجام دهد. با این حال، استفاده مجدد از حافظه برای محاسبات، سؤالات کلیدی در مورد 1) نوع CiM برای استفاده: با توجه به تعداد زیادی از CiM های آنالوگ و دیجیتال، تعیین مناسب بودن آنها از دیدگاه سیستم مورد نیاز است. 2) زمان استفاده از CiM: استنتاج ML شامل بارهای کاری با انواع حافظه و نیازهای محاسباتی است که تشخیص اینکه چه زمانی CiM سودمندتر از هسته های پردازش استاندارد است را دشوار می کند. 3) محل ادغام CiM: هر سطح حافظه دارای پهنای باند و ظرفیت متفاوتی است که بر حرکت داده ها و مزایای محلی ادغام CiM تأثیر می گذارد.
در این مقاله، پاسخ به این سؤالات در مورد ادغام CiM برای شتاب استنتاج ML را بررسی می کنیم. ما از Timeloop-Accelergy برای ارزیابی اولیه در سطح سیستم نمونه‌های اولیه CiM، از جمله نمونه‌های اولیه آنالوگ و دیجیتال استفاده می‌کنیم. ما CiM را در سطوح مختلف حافظه کش در معماری پایه Nvidia A100 ادغام می کنیم و جریان داده را برای بارهای کاری مختلف ML تنظیم می کنیم. آزمایش‌های ما نشان می‌دهد که معماری‌های CiM بازده انرژی را بهبود می‌بخشد، و با دقت INT-0.12 تا 8 برابر انرژی کمتری نسبت به خط پایه تعیین‌شده به دست می‌آورد، و با اضافه کردن وزن و تکثیر، تا 4 برابر افزایش عملکرد دارد. کار پیشنهادی بینشی در مورد نوع CiM برای استفاده، و زمان و مکان بهینه سازی آن در سلسله مراتب کش برای شتاب GEMM ارائه می دهد.

یافتن مقاله فنی اینجا منتشر شده در دسامبر 2023 (پیش چاپ).

شارما، تانوی، مصطفی علی، ایندرانیل چاکرابورتی و کاوشیک روی. "WWW: چه، چه زمانی، کجا در حافظه محاسبه شود." arXiv preprint arXiv:2312.15896 (2023).

خواندن مرتبط
افزایش بهره وری انرژی هوش مصنوعی با محاسبه در حافظه
نحوه پردازش حجم کاری زتا اسکیل و ماندن در بودجه ثابت.
مدلسازی محاسبه در حافظه با کارایی بیولوژیکی
هوش مصنوعی مولد، تراشه‌سازان را مجبور می‌کند از منابع محاسباتی هوشمندانه‌تر استفاده کنند.
SRAM در هوش مصنوعی: آینده حافظه
چرا SRAM به عنوان یک عنصر حیاتی در معماری های محاسباتی جدید و سنتی در نظر گرفته می شود.

تمبر زمان:

بیشتر از نیمه مهندسی