Integrasi CiM Untuk Akselerasi Inferensi ML

Diterbitkan Ulang Oleh Plato

Followers: 0

Makalah teknis berjudul “WWW: What, When, Where to Compute-in-Memory” diterbitkan oleh para peneliti di Purdue University.

Abstrak:

“Compute-in-memory (CiM) telah muncul sebagai solusi menarik untuk mengurangi biaya perpindahan data yang tinggi pada mesin von Neumann. CiM dapat melakukan operasi perkalian matriks umum paralel (GEMM) secara masif di memori, yang merupakan komputasi dominan dalam inferensi Machine Learning (ML). Namun, penggunaan kembali memori untuk komputasi menimbulkan pertanyaan kunci pada 1) Jenis CiM apa yang akan digunakan: Mengingat banyaknya CiM analog dan digital, diperlukan penentuan kesesuaiannya dari perspektif sistem. 2) Kapan menggunakan CiM: Inferensi ML mencakup beban kerja dengan beragam persyaratan memori dan komputasi, sehingga sulit untuk mengidentifikasi kapan CiM lebih bermanfaat dibandingkan inti pemrosesan standar. 3) Tempat mengintegrasikan CiM: Setiap level memori memiliki bandwidth dan kapasitas berbeda, yang memengaruhi pergerakan data dan manfaat lokalitas dari integrasi CiM.
Dalam makalah ini, kami mengeksplorasi jawaban atas pertanyaan-pertanyaan mengenai integrasi CiM untuk akselerasi inferensi ML. Kami menggunakan Timeloop-Accelergy untuk evaluasi prototipe CiM tingkat sistem awal, termasuk primitif analog dan digital. Kami mengintegrasikan CiM ke tingkat memori cache yang berbeda dalam arsitektur dasar seperti Nvidia A100 dan menyesuaikan aliran data untuk berbagai beban kerja ML. Eksperimen kami menunjukkan arsitektur CiM meningkatkan efisiensi energi, mencapai energi hingga 0.12x lebih rendah dibandingkan garis dasar yang ditetapkan dengan presisi INT-8, dan peningkatan kinerja hingga 4x dengan interleaving dan duplikasi bobot. Pekerjaan yang diusulkan memberikan wawasan tentang jenis CiM apa yang akan digunakan, dan kapan serta di mana mengintegrasikannya secara optimal dalam hierarki cache untuk akselerasi GEMM.”

Cari makalah teknis di sini. Diterbitkan Desember 2023 (pracetak).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty, dan Kaushik Roy. “WWW: Apa, Kapan, Di Mana Menghitung dalam Memori.” arXiv pracetak arXiv:2312.15896 (2023).

Bacaan Terkait
Meningkatkan Efisiensi Energi AI Dengan Komputasi Dalam Memori
Cara memproses beban kerja skala zetta dan tetap sesuai anggaran daya tetap.
Pemodelan Komputasi Dalam Memori Dengan Efisiensi Biologis
AI generatif memaksa pembuat chip untuk menggunakan sumber daya komputasi dengan lebih cerdas.
SRAM Dalam AI: Masa Depan Memori
Mengapa SRAM dipandang sebagai elemen penting dalam arsitektur komputasi baru dan tradisional.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://semiengineering.com/cim-integration-for-ml-inference-acceleration/

Stempel Waktu: Januari 16, 2024

Stempel Waktu: April 24, 2023

Integrasi CiM Untuk Akselerasi Inferensi ML

Diterbitkan Ulang Oleh Plato

Abstrak:

Lebih dari Semi Teknik

Merancang Kendaraan Secara Virtual

Tantangan Dalam Kemasan 5G Dan 6G

Portabilitas Pola Pindai Dari PSV Ke ATE Ke SLT Ke IST

Mengamankan Perangkat IoT Dengan Kriptografi Ringan

Memori Dan Desain Digital Berkecepatan Tinggi

Paket BDD Multi-Core Berbasis Indeks Dengan Manajemen Memori Dinamis & Pengurangan Fragmentasi

3D-IC: Kerangka Pembelajaran Operator Untuk Prediksi Termal Chip 3D Ultra-Cepat Dalam Konfigurasi Desain Beberapa Chip

Menambahkan Keamanan ke dalam Pengujian

Risiko Keamanan Tersembunyi Dari Sistem Elektronik Otomotif

I/O Tujuan Umum yang Dapat Diprogram

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun