CiM-integration för ML-inferensacceleration

CiM-integration för ML-inferensacceleration

Källnod: 3064987

En teknisk artikel med titeln "WWW: What, When, Where to Compute-in-Memory" publicerades av forskare vid Purdue University.

Sammanfattning:

"Compute-in-memory (CiM) har dykt upp som en övertygande lösning för att lindra höga dataöverföringskostnader i von Neumanns maskiner. CiM kan utföra massivt parallella General Matrix Multiplication (GEMM) operationer i minnet, den dominerande beräkningen i Machine Learning (ML) slutledning. Emellertid ställer omanvändning av minne för beräkning nyckelfrågor om 1) Vilken typ av CiM som ska användas: Med tanke på en mängd analoga och digitala CiM:er behövs det att avgöra deras lämplighet ur ett systemperspektiv. 2) När ska man använda CiM: ML-inferens inkluderar arbetsbelastningar med en mängd olika minnes- och beräkningskrav, vilket gör det svårt att identifiera när CiM är mer fördelaktigt än standardbehandlingskärnor. 3) Var ska man integrera CiM: Varje minnesnivå har olika bandbredd och kapacitet, vilket påverkar datarörelsen och fördelarna med CiM-integrering.
I det här dokumentet utforskar vi svaren på dessa frågor om CiM-integration för ML-inferensacceleration. Vi använder Timeloop-Accelergy för tidig utvärdering på systemnivå av CiM-prototyper, inklusive både analoga och digitala primitiver. Vi integrerar CiM i olika cacheminnesnivåer i en Nvidia A100-liknande baslinjearkitektur och skräddarsyr dataflödet för olika ML-arbetsbelastningar. Våra experiment visar att CiM-arkitekturer förbättrar energieffektiviteten, uppnår upp till 0.12 gånger lägre energi än den etablerade baslinjen med INT-8-precision, och upp till 4x prestandaökningar med viktinterfoliering och duplicering. Det föreslagna arbetet ger insikter i vilken typ av CiM som ska användas, och när och var man optimalt kan integrera den i cachehierarkin för GEMM-acceleration."

Hitta tekniskt dokument här. Publicerad december 2023 (förtryck).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty och Kaushik Roy. "WWW: Vad, när, var ska man beräkna-i-minne." arXiv förtryck arXiv:2312.15896 (2023).

Relaterad läsning
Ökar AI-energieffektiviteten med dator i minnet
Hur man bearbetar zettascale-arbetsbelastningar och håller sig inom en fast energibudget.
Modellering beräkna i minnet med biologisk effektivitet
Generativ AI tvingar chiptillverkare att använda beräkningsresurser mer intelligent.
SRAM In AI: The Future Of Memory
Varför SRAM ses som ett kritiskt element i nya och traditionella datorarkitekturer.

Tidsstämpel:

Mer från Semi-teknik