CiM-integration til ML-inferensacceleration

CiM-integration til ML-inferensacceleration

Kildeknude: 3064987

Et teknisk papir med titlen "WWW: What, When, Where to Compute-in-Memory" blev udgivet af forskere ved Purdue University.

Abstract:

"Compute-in-memory (CiM) er dukket op som en overbevisende løsning til at lette høje omkostninger til dataflytning i von Neumann-maskiner. CiM kan udføre massivt parallelle generel matrix multiplikation (GEMM) operationer i hukommelsen, den dominerende beregning i Machine Learning (ML) inferens. Men genanvendelse af hukommelse til databehandling stiller nøglespørgsmål om 1) Hvilken type CiM der skal bruges: I betragtning af et væld af analoge og digitale CiM'er er det nødvendigt at bestemme deres egnethed fra et systemperspektiv. 2) Hvornår skal CiM bruges: ML-inferens inkluderer arbejdsbelastninger med en række forskellige hukommelses- og computerkrav, hvilket gør det vanskeligt at identificere, hvornår CiM er mere fordelagtigt end standardbehandlingskerner. 3) Hvor skal CiM integreres: Hvert hukommelsesniveau har forskellig båndbredde og kapacitet, hvilket påvirker databevægelsen og lokalitetsfordelene ved CiM-integration.
I dette papir undersøger vi svar på disse spørgsmål vedrørende CiM-integration til ML-inferensacceleration. Vi bruger Timeloop-Accelergy til tidlig system-niveau evaluering af CiM prototyper, herunder både analoge og digitale primitiver. Vi integrerer CiM i forskellige cachehukommelsesniveauer i en Nvidia A100-lignende baseline-arkitektur og skræddersyer dataflowet til forskellige ML-arbejdsbelastninger. Vores eksperimenter viser, at CiM-arkitekturer forbedrer energieffektiviteten og opnår op til 0.12x lavere energi end den etablerede baseline med INT-8-præcision og op til 4x ydeevneforøgelser med vægtindfletning og duplikering. Det foreslåede arbejde giver indsigt i, hvilken type CiM der skal bruges, og hvornår og hvor man optimalt kan integrere det i cachehierarkiet til GEMM-acceleration."

Find teknisk papir her. Udgivet december 2023 (fortryk).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty og Kaushik Roy. "WWW: Hvad, hvornår, hvor skal man beregne-i-hukommelse." arXiv preprint arXiv:2312.15896 (2023).

Beslægtet læsning
Øget AI-energieffektivitet med beregning i hukommelsen
Sådan behandler du zettascale-arbejdsbelastninger og holder dig inden for et fast strømbudget.
Modellering af beregning i hukommelse med biologisk effektivitet
Generativ AI tvinger chipproducenter til at bruge computerressourcer mere intelligent.
SRAM In AI: The Future Of Memory
Hvorfor SRAM ses som et kritisk element i nye og traditionelle computerarkitekturer.

Tidsstempel:

Mere fra Semi Engineering