CiM-integrasjon for ML-inferensakselerasjon

CiM-integrasjon for ML-inferensakselerasjon

Kilde node: 3064987

En teknisk artikkel med tittelen "WWW: What, When, Where to Compute-in-Memory" ble publisert av forskere ved Purdue University.

Abstrakt:

"Compute-in-memory (CiM) har dukket opp som en overbevisende løsning for å redusere høye kostnader for dataflytting i von Neumann-maskiner. CiM kan utføre massivt parallelle generell matrisemultiplikasjonsoperasjoner (GEMM) i minnet, den dominerende beregningen i Machine Learning (ML) inferens. Men ombruk av minne for databehandling stiller nøkkelspørsmål om 1) Hvilken type CiM som skal brukes: Gitt en mengde analoge og digitale CiM-er, er det nødvendig å bestemme deres egnethet fra systemperspektiv. 2) Når skal man bruke CiM: ML-inferens inkluderer arbeidsbelastninger med en rekke minne- og datakrav, noe som gjør det vanskelig å identifisere når CiM er mer fordelaktig enn standard prosesseringskjerner. 3) Hvor skal CiM integreres: Hvert minnenivå har forskjellig båndbredde og kapasitet, som påvirker databevegelsen og lokalitetsfordelene ved CiM-integrasjon.
I denne artikkelen utforsker vi svar på disse spørsmålene angående CiM-integrasjon for ML-inferensakselerasjon. Vi bruker Timeloop-Accelergy for tidlig systemnivåevaluering av CiM-prototyper, inkludert både analoge og digitale primitiver. Vi integrerer CiM i forskjellige cache-minnenivåer i en Nvidia A100-lignende baseline-arkitektur og skreddersyr dataflyten for ulike ML-arbeidsbelastninger. Eksperimentene våre viser at CiM-arkitekturer forbedrer energieffektiviteten, og oppnår opptil 0.12x lavere energi enn den etablerte grunnlinjen med INT-8-presisjon, og opptil 4x ytelsesforbedringer med vektsammenfletting og duplisering. Det foreslåtte arbeidet gir innsikt i hvilken type CiM som skal brukes, og når og hvor det skal integreres optimalt i hurtigbufferhierarkiet for GEMM-akselerasjon."

Finn det teknisk papir her. Publisert desember 2023 (preprint).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty og Kaushik Roy. "WWW: Hva, når, hvor skal man regne i minnet." arXiv forhåndstrykk arXiv:2312.15896 (2023).

Relatert Reading
Øker AI-energieffektiviteten med databehandling i minnet
Hvordan behandle zettascale arbeidsbelastninger og holde seg innenfor et fast strømbudsjett.
Modellering av beregninger i minnet med biologisk effektivitet
Generativ AI tvinger brikkeprodusenter til å bruke dataressurser mer intelligent.
SRAM In AI: The Future Of Memory
Hvorfor SRAM blir sett på som et kritisk element i nye og tradisjonelle dataarkitekturer.

Tidstempel:

Mer fra Semi -ingeniørfag