CiM-integratie voor ML-inferentieversnelling

Heruitgegeven door Plato

volgers: 0

Een technisch artikel met de titel “WWW: What, When, Where to Compute-in-Memory” werd gepubliceerd door onderzoekers van Purdue University.

Abstract:

“Compute-in-memory (CiM) is een overtuigende oplossing gebleken om de hoge kosten voor gegevensverplaatsing in von Neumann-machines te verminderen. CiM kan massaal parallelle GEMM-bewerkingen (General Matrix Multiplication) in het geheugen uitvoeren, de dominante berekening in Machine Learning (ML)-gevolgtrekking. Het herbestemmen van geheugen voor computers roept echter belangrijke vragen op over 1) Welk type CiM te gebruiken: Gegeven een veelheid aan analoge en digitale CiM's, is het nodig om hun geschiktheid vanuit systeemperspectief te bepalen. 2) Wanneer moet u CiM gebruiken: ML-inferentie omvat workloads met een verscheidenheid aan geheugen- en computervereisten, waardoor het moeilijk is om te identificeren wanneer CiM voordeliger is dan standaard verwerkingskernen. 3) Waar CiM te integreren: Elk geheugenniveau heeft een andere bandbreedte en capaciteit, wat van invloed is op de gegevensverplaatsing en de locatievoordelen van CiM-integratie.
In dit artikel onderzoeken we antwoorden op deze vragen met betrekking tot CiM-integratie voor versnelling van ML-inferentie. We gebruiken Timeloop-Accelergy voor vroege evaluatie op systeemniveau van CiM-prototypes, inclusief zowel analoge als digitale primitieven. We integreren CiM in verschillende cachegeheugenniveaus in een Nvidia A100-achtige basisarchitectuur en stemmen de datastroom af op verschillende ML-workloads. Onze experimenten laten zien dat CiM-architecturen de energie-efficiëntie verbeteren, tot 0.12x lagere energie bereiken dan de vastgestelde basislijn met INT-8-precisie, en tot 4x prestatieverbeteringen met gewichtsinterleaving en duplicatie. Het voorgestelde werk biedt inzicht in welk type CiM moet worden gebruikt, en wanneer en waar dit optimaal kan worden geïntegreerd in de cachehiërarchie voor GEMM-versnelling.”

Vind de technisch document hier. Gepubliceerd december 2023 (voordruk).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty en Kaushik Roy. "WWW: wat, wanneer, waar in het geheugen berekenen." arXiv voordruk arXiv:2312.15896 (2023).

Gerelateerd lezen
Het verhogen van de AI-energie-efficiëntie met rekenkracht in het geheugen
Hoe u zettascale-workloads kunt verwerken en binnen een vast energiebudget kunt blijven.
Modellering van rekenkracht in het geheugen met biologische efficiëntie
Generatieve AI dwingt chipmakers om computerbronnen intelligenter te gebruiken.
SRAM in AI: de toekomst van het geheugen
Waarom SRAM wordt gezien als een cruciaal element in nieuwe en traditionele computerarchitecturen.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://semiengineering.com/cim-integration-for-ml-inference-acceleration/

Tijdstempel: 16 januari 2024

Tijdstempel: Juli 6, 2023

CiM-integratie voor ML-inferentieversnelling

Heruitgegeven door Plato

Abstract:

Meer van Semi-engineering

Ontwerp- en verificatiemethoden worden afgebroken

Ontwerp IP

RTL-herstructureringsproblemen

Gestapelde ferro-elektrische geheugenarray bestaande uit lateraal gepoorte ferro-elektrische veldeffecttransistors

Grote LLM-modellen trainen met miljarden tot biljoen parameters op de grenssupercomputer van ORNL

Fabs beginnen machine learning op te voeren

Onderzoeksbits: 3 januari

Edge HW-SW co-designplatform dat RISC-V en HW-versnellers integreert

DRAM-vertaallaag, mechanisme voor flexibele adrestoewijzing en gegevensmigratie binnen op CXL gebaseerde geheugenapparaten

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account