Integrare CiM pentru accelerarea inferenței ML

Republicat de Platon

Urmaritori: 0

O lucrare tehnică intitulată „WWW: What, When, Where to Compute-in-Memory” a fost publicată de cercetătorii de la Universitatea Purdue.

Rezumat:

„Compute-in-memory (CiM) a apărut ca o soluție convingătoare pentru a reduce costurile ridicate de mișcare a datelor în mașinile von Neumann. CiM poate efectua operații de multiplicare generală a matricei (GEMM) masiv paralele în memorie, calculul dominant în inferența Machine Learning (ML). Cu toate acestea, reutilizarea memoriei pentru calcul pune întrebări cheie cu privire la 1) Ce tip de CiM să utilizați: Având în vedere o multitudine de CiM-uri analogice și digitale, este necesară determinarea adecvării acestora din perspectiva sistemelor. 2) Când să utilizați CiM: inferența ML include sarcini de lucru cu o varietate de cerințe de memorie și de calcul, ceea ce face dificilă identificarea când CiM este mai benefic decât nucleele de procesare standard. 3) Unde se integrează CiM: Fiecare nivel de memorie are lățime de bandă și capacitate diferite, ceea ce afectează mișcarea datelor și beneficiile localității ale integrării CiM.
În această lucrare, explorăm răspunsurile la aceste întrebări referitoare la integrarea CiM pentru accelerarea inferenței ML. Folosim Timeloop-Accelergy pentru evaluarea timpurie la nivel de sistem a prototipurilor CiM, inclusiv primitive analogice și digitale. Integram CiM în diferite niveluri de memorie cache într-o arhitectură de bază asemănătoare Nvidia A100 și adaptăm fluxul de date pentru diferite sarcini de lucru ML. Experimentele noastre arată că arhitecturile CiM îmbunătățesc eficiența energetică, obținând o energie de până la 0.12 ori mai mică decât linia de bază stabilită cu precizie INT-8 și câștiguri de performanță de până la 4x cu intercalarea și duplicarea greutății. Lucrarea propusă oferă informații despre tipul de CiM de utilizat și când și unde să îl integreze optim în ierarhia cache-ului pentru accelerarea GEMM.”

Găsi lucrare tehnică aici. Publicat în decembrie 2023 (preprint).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty și Kaushik Roy. „WWW: Ce, când, unde să se calculeze în memorie.” arXiv preprint arXiv:2312.15896 (2023).

Citire asemănătoare
Creșterea eficienței energetice AI cu calculul în memorie
Cum să procesați sarcinile de lucru la scară zetta și să rămâneți într-un buget fix de energie.
Modelarea calculului în memorie cu eficiență biologică
AI generativă îi obligă pe producătorii de cipuri să folosească resursele de calcul mai inteligent.
SRAM în AI: viitorul memoriei
De ce SRAM este privit ca un element critic în arhitecturile de calcul noi și tradiționale.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
Sursa: https://semiengineering.com/cim-integration-for-ml-inference-acceleration/

Timestamp-ul: Ianuarie 16, 2024

Timestamp-ul: Iulie 6, 2023

Integrare CiM pentru accelerarea inferenței ML

Republicat de Platon

Rezumat:

Mai mult de la Semi Inginerie

Defalcarea metodologiilor de proiectare și verificare

IP de proiectare

Probleme de restructurare a RTL

Matrice de memorie feroelectrică stivuită compusă din tranzistoare cu efect de câmp feroelectric cu încadrare laterală

Antrenarea modelelor LLM mari cu parametri de miliarde până la trilioane pe supercomputerul Frontier ORNL

Fabs încep să intensifice învățarea automată

Biți de cercetare: 3 ianuarie

Platformă de co-proiectare Edge HW-SW care integrează acceleratoarele RISC-V și HW

Strat de traducere DRAM, mecanism pentru maparea flexibilă a adreselor și migrarea datelor în cadrul dispozitivelor de memorie bazate pe CXL

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont