Integracija CiM za pospeševanje sklepanja ML

Integracija CiM za pospeševanje sklepanja ML

Izvorno vozlišče: 3064987

Tehnični članek z naslovom "WWW: Kaj, kdaj, kje računati v pomnilniku" so objavili raziskovalci na univerzi Purdue.

Povzetek:

»Compute-in-memory (CiM) se je izkazal kot prepričljiva rešitev za zmanjšanje visokih stroškov prenosa podatkov v von Neumannovih napravah. CiM lahko v pomnilniku izvede množično vzporedne operacije množenja s splošno matriko (GEMM), prevladujoče računanje v sklepanju strojnega učenja (ML). Vendar pa ponovna uporaba pomnilnika za računalništvo postavlja ključna vprašanja o 1) Katero vrsto CiM uporabiti: glede na množico analognih in digitalnih CiM je treba določiti njihovo primernost s sistemskega vidika. 2) Kdaj uporabiti CiM: sklepanje ML vključuje delovne obremenitve z različnimi pomnilniškimi in računalniškimi zahtevami, zaradi česar je težko ugotoviti, kdaj je CiM koristnejši od standardnih procesorskih jeder. 3) Kam integrirati CiM: Vsaka raven pomnilnika ima drugačno pasovno širino in zmogljivost, kar vpliva na premik podatkov in prednosti lokalne integracije CiM.
V tem prispevku raziskujemo odgovore na ta vprašanja glede integracije CiM za pospeševanje sklepanja ML. Uporabljamo Timeloop-Accelergy za zgodnje vrednotenje prototipov CiM na ravni sistema, vključno z analognimi in digitalnimi primitivi. Integriramo CiM v različne ravni predpomnilnika v osnovni arhitekturi, podobni Nvidia A100, in prilagodimo pretok podatkov za različne delovne obremenitve ML. Naši poskusi kažejo, da arhitekture CiM izboljšujejo energijsko učinkovitost, dosegajo do 0.12-krat nižjo energijo od uveljavljene osnovne vrednosti z natančnostjo INT-8 ter do 4-kratno povečanje zmogljivosti s prepletanjem teže in podvajanjem. Predlagano delo ponuja vpogled v to, katero vrsto CiM uporabiti ter kdaj in kje jo optimalno integrirati v hierarhijo predpomnilnika za pospeševanje GEMM.«

Najdi tehnični papir tukaj. Izdano decembra 2023 (prednatis).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty in Kaushik Roy. "WWW: Kaj, kdaj, kje računati v pomnilniku." arXiv prednatis arXiv:2312.15896 (2023).

Sorodno branje
Povečanje energetske učinkovitosti AI z računalništvom v pomnilniku
Kako obdelati delovne obremenitve zettascale in ostati v okviru fiksnega proračuna energije.
Modeliranje računalništva v pomnilniku z biološko učinkovitostjo
Generativni AI sili izdelovalce čipov, da računalniške vire uporabljajo bolj inteligentno.
SRAM v AI: Prihodnost pomnilnika
Zakaj se SRAM obravnava kot kritičen element v novih in tradicionalnih računalniških arhitekturah.

Časovni žig:

Več od Semi Engineering