ML 추론 가속화를 위한 CiM 통합

ML 추론 가속화를 위한 CiM 통합

소스 노드 : 3064987

퍼듀대학교 연구진이 “WWW: What, When, Where to Compute-in-Memory”라는 기술 논문을 발표했습니다.

요약 :

“CiM(Compute-in-Memory)은 von Neumann 시스템의 높은 데이터 이동 비용을 완화하는 강력한 솔루션으로 부상했습니다. CiM은 기계 학습(ML) 추론의 주요 계산인 메모리에서 대규모 병렬 일반 행렬 곱셈(GEMM) 작업을 수행할 수 있습니다. 그러나 컴퓨팅을 위한 메모리 용도 변경은 1) 사용할 CiM 유형: 다수의 아날로그 및 디지털 CiM이 주어지면 시스템 관점에서 적합성을 결정해야 한다는 주요 질문을 제기합니다. 2) CiM을 사용하는 경우: ML 추론에는 다양한 메모리 및 컴퓨팅 요구 사항이 있는 워크로드가 포함되므로 CiM이 표준 처리 코어보다 더 유용한 시기를 식별하기 어렵습니다. 3) CiM 통합 위치: 각 메모리 수준에는 대역폭과 용량이 다르며 이는 CiM 통합의 데이터 이동 및 지역성 이점에 영향을 미칩니다.
이 문서에서는 ML 추론 가속화를 위한 CiM 통합과 관련된 이러한 질문에 대한 답변을 살펴봅니다. 우리는 아날로그 및 디지털 프리미티브를 모두 포함하는 CiM 프로토타입의 초기 시스템 수준 평가에 Timeloop-Accelergy를 사용합니다. 우리는 CiM을 Nvidia A100과 유사한 기본 아키텍처의 다양한 캐시 메모리 수준에 통합하고 다양한 ML 워크로드에 맞게 데이터 흐름을 조정합니다. 우리의 실험에서는 CiM 아키텍처가 에너지 효율성을 향상시켜 INT-0.12 정밀도로 설정된 기준보다 최대 8배 더 낮은 에너지를 달성하고 가중치 인터리빙 및 복제를 통해 최대 4배의 성능 향상을 달성하는 것으로 나타났습니다. 제안된 작업은 사용할 CiM 유형과 GEMM 가속화를 위해 캐시 계층 구조에서 CiM을 언제, 어디서 최적으로 통합할지에 대한 통찰력을 제공합니다.”

찾기 여기에 기술 문서가 있습니다. 2023년 XNUMX월 출판(사전 인쇄).

샤르마, 탄비, 무스타파 알리, 인드라닐 차크라보르티, 카우식 로이. “WWW: 무엇을, 언제, 어디서 메모리 내 컴퓨팅을 수행할 것인가.” arXiv 사전 인쇄 arXiv:2312.15896(2023).

관련 독서
메모리 내 컴퓨팅을 통해 AI 에너지 효율성 향상
제타스케일 워크로드를 처리하고 고정 전력 예산 내에서 유지하는 방법
생물학적 효율성을 갖춘 메모리 내 컴퓨팅 모델링
Generative AI는 칩 제조업체가 컴퓨팅 리소스를 보다 지능적으로 사용하도록 합니다.
AI의 SRAM: 메모리의 미래
SRAM이 새로운 컴퓨팅 아키텍처와 기존 컴퓨팅 아키텍처에서 중요한 요소로 간주되는 이유.

타임 스탬프 :

더보기 세미 엔지니어링