Integración de CiM para la aceleración de la inferencia de ML

Integración de CiM para la aceleración de la inferencia de ML

Nodo de origen: 3064987

Investigadores de la Universidad Purdue publicaron un artículo técnico titulado "WWW: Qué, cuándo, dónde calcular en memoria".

Abstracto:

“La computación en memoria (CiM) ha surgido como una solución convincente para aliviar los altos costos de movimiento de datos en las máquinas von Neumann. CiM puede realizar operaciones masivamente paralelas de multiplicación de matrices generales (GEMM) en la memoria, el cálculo dominante en la inferencia de aprendizaje automático (ML). Sin embargo, reutilizar la memoria para computación plantea preguntas clave sobre 1) Qué tipo de CiM usar: Dada una multitud de CiM analógicos y digitales, es necesario determinar su idoneidad desde la perspectiva de los sistemas. 2) Cuándo utilizar CiM: la inferencia de ML incluye cargas de trabajo con una variedad de requisitos de memoria y computación, lo que dificulta identificar cuándo CiM es más beneficioso que los núcleos de procesamiento estándar. 3) Dónde integrar CiM: cada nivel de memoria tiene un ancho de banda y una capacidad diferentes, lo que afecta el movimiento de datos y los beneficios de localidad de la integración de CiM.
En este artículo, exploramos las respuestas a estas preguntas sobre la integración de CiM para la aceleración de la inferencia de ML. Utilizamos Timeloop-Accelergy para la evaluación temprana a nivel de sistema de prototipos de CiM, incluidas primitivas analógicas y digitales. Integramos CiM en diferentes niveles de memoria caché en una arquitectura básica similar a Nvidia A100 y adaptamos el flujo de datos para diversas cargas de trabajo de aprendizaje automático. Nuestros experimentos muestran que las arquitecturas CiM mejoran la eficiencia energética, logrando hasta 0.12 veces menos energía que la línea de base establecida con precisión INT-8 y ganancias de rendimiento de hasta 4 veces con entrelazado y duplicación de peso. El trabajo propuesto proporciona información sobre qué tipo de CiM usar y cuándo y dónde integrarlo de manera óptima en la jerarquía de caché para la aceleración GEMM”.

Encuentra los documento técnico aquí. Publicado en diciembre de 2023 (preimpresión).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty y Kaushik Roy. "WWW: qué, cuándo y dónde calcular en memoria". Preimpresión de arXiv arXiv:2312.15896 (2023).

Lectura relacionada
Aumento de la eficiencia energética de la IA con computación en memoria
Cómo procesar cargas de trabajo en escala zetta y mantenerse dentro de un presupuesto de energía fijo.
Modelado de computación en memoria con eficiencia biológica
La IA generativa obliga a los fabricantes de chips a utilizar los recursos informáticos de forma más inteligente.
SRAM en IA: el futuro de la memoria
Por qué la SRAM se considera un elemento crítico en las arquitecturas informáticas nuevas y tradicionales.

Sello de tiempo:

Mas de Semi Ingeniería