Intégration CiM pour l'accélération des inférences ML

Republié par Platon

Suiveurs: 0

Un article technique intitulé « WWW : What, When, Where to Compute-in-Memory » a été publié par des chercheurs de l'Université Purdue.

Résumé:

« Le calcul en mémoire (CiM) s'est imposé comme une solution intéressante pour réduire les coûts élevés de déplacement de données dans les machines von Neumann. CiM peut effectuer des opérations de multiplication matricielle générale (GEMM) massivement parallèles en mémoire, le calcul dominant dans l'inférence d'apprentissage automatique (ML). Cependant, la réaffectation de la mémoire pour le calcul pose des questions clés sur 1) Quel type de CiM utiliser : étant donné la multitude de CiM analogiques et numériques, il est nécessaire de déterminer leur adéquation du point de vue des systèmes. 2) Quand utiliser CiM : l'inférence ML inclut des charges de travail avec une variété d'exigences de mémoire et de calcul, ce qui rend difficile l'identification du moment où CiM est plus bénéfique que les cœurs de traitement standard. 3) Où intégrer CiM : chaque niveau de mémoire a une bande passante et une capacité différentes, ce qui affecte le mouvement des données et les avantages de localisation de l'intégration CiM.
Dans cet article, nous explorons les réponses à ces questions concernant l'intégration CiM pour l'accélération de l'inférence ML. Nous utilisons Timeloop-Accelergy pour une évaluation précoce au niveau système des prototypes CiM, y compris les primitives analogiques et numériques. Nous intégrons CiM dans différents niveaux de mémoire cache dans une architecture de base de type Nvidia A100 et adaptons le flux de données à diverses charges de travail ML. Nos expériences montrent que les architectures CiM améliorent l'efficacité énergétique, atteignant une énergie jusqu'à 0.12 fois inférieure à la ligne de base établie avec la précision INT-8, et jusqu'à 4 fois des gains de performances avec l'entrelacement et la duplication de poids. Le travail proposé donne un aperçu du type de CiM à utiliser, ainsi que du moment et de l'endroit où l'intégrer de manière optimale dans la hiérarchie du cache pour l'accélération GEMM.

Trouvez le article technique ici. Publié en décembre 2023 (préimpression).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty et Kaushik Roy. « WWW : quoi, quand et où calculer en mémoire. » Préimpression arXiv arXiv :2312.15896 (2023).

Lecture connexe
Augmenter l'efficacité énergétique de l'IA grâce au calcul en mémoire
Comment traiter des charges de travail zettascale et respecter un budget énergétique fixe.
Modélisation du calcul en mémoire avec efficacité biologique
L’IA générative oblige les fabricants de puces à utiliser les ressources de calcul de manière plus intelligente.
SRAM dans l'IA : l'avenir de la mémoire
Pourquoi la SRAM est considérée comme un élément essentiel dans les architectures informatiques nouvelles et traditionnelles.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://semiengineering.com/cim-integration-for-ml-inference-acceleration/

Horodatage: 16 janvier 2024

Horodatage: Le 6 juillet 2023

Intégration CiM pour l'accélération des inférences ML

Republié par Platon

Résumé:

Plus de Semi-ingénierie

Méthodologies de conception et de vérification en panne

PI de conception

Problèmes de restructuration de RTL

Matrice de mémoire ferroélectrique empilée composée de transistors à effet de champ ferroélectriques à déclenchement latéral

Formation de grands modèles LLM avec des milliards, voire des milliards de paramètres sur le supercalculateur Frontier d'ORNL

Les Fabs commencent à intensifier l’apprentissage automatique

Morceaux de recherche : 3 janvier

Plate-forme de co-conception Edge HW-SW intégrant des accélérateurs RISC-V et HW

Couche de traduction DRAM, mécanisme de mappage d'adresses flexible et de migration de données dans les dispositifs de mémoire basés sur CXL

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte