Integrasi CiM Untuk Akselerasi Inferensi ML

Integrasi CiM Untuk Akselerasi Inferensi ML

Node Sumber: 3064987

Makalah teknis berjudul “WWW: What, When, Where to Compute-in-Memory” diterbitkan oleh para peneliti di Purdue University.

Abstrak:

“Compute-in-memory (CiM) telah muncul sebagai solusi menarik untuk mengurangi biaya perpindahan data yang tinggi pada mesin von Neumann. CiM dapat melakukan operasi perkalian matriks umum paralel (GEMM) secara masif di memori, yang merupakan komputasi dominan dalam inferensi Machine Learning (ML). Namun, penggunaan kembali memori untuk komputasi menimbulkan pertanyaan kunci pada 1) Jenis CiM apa yang akan digunakan: Mengingat banyaknya CiM analog dan digital, diperlukan penentuan kesesuaiannya dari perspektif sistem. 2) Kapan menggunakan CiM: Inferensi ML mencakup beban kerja dengan beragam persyaratan memori dan komputasi, sehingga sulit untuk mengidentifikasi kapan CiM lebih bermanfaat dibandingkan inti pemrosesan standar. 3) Tempat mengintegrasikan CiM: Setiap level memori memiliki bandwidth dan kapasitas berbeda, yang memengaruhi pergerakan data dan manfaat lokalitas dari integrasi CiM.
Dalam makalah ini, kami mengeksplorasi jawaban atas pertanyaan-pertanyaan mengenai integrasi CiM untuk akselerasi inferensi ML. Kami menggunakan Timeloop-Accelergy untuk evaluasi prototipe CiM tingkat sistem awal, termasuk primitif analog dan digital. Kami mengintegrasikan CiM ke tingkat memori cache yang berbeda dalam arsitektur dasar seperti Nvidia A100 dan menyesuaikan aliran data untuk berbagai beban kerja ML. Eksperimen kami menunjukkan arsitektur CiM meningkatkan efisiensi energi, mencapai energi hingga 0.12x lebih rendah dibandingkan garis dasar yang ditetapkan dengan presisi INT-8, dan peningkatan kinerja hingga 4x dengan interleaving dan duplikasi bobot. Pekerjaan yang diusulkan memberikan wawasan tentang jenis CiM apa yang akan digunakan, dan kapan serta di mana mengintegrasikannya secara optimal dalam hierarki cache untuk akselerasi GEMM.”

Cari makalah teknis di sini. Diterbitkan Desember 2023 (pracetak).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty, dan Kaushik Roy. “WWW: Apa, Kapan, Di Mana Menghitung dalam Memori.” arXiv pracetak arXiv:2312.15896 (2023).

Bacaan Terkait
Meningkatkan Efisiensi Energi AI Dengan Komputasi Dalam Memori
Cara memproses beban kerja skala zetta dan tetap sesuai anggaran daya tetap.
Pemodelan Komputasi Dalam Memori Dengan Efisiensi Biologis
AI generatif memaksa pembuat chip untuk menggunakan sumber daya komputasi dengan lebih cerdas.
SRAM Dalam AI: Masa Depan Memori
Mengapa SRAM dipandang sebagai elemen penting dalam arsitektur komputasi baru dan tradisional.

Stempel Waktu:

Lebih dari Semi Teknik