데이터 중심 재구성 가능 어레이 칩렛(Princeton)

데이터 중심 재구성 가능 어레이 칩렛(Princeton)

소스 노드 : 2602549

프린스턴 대학교 연구진이 '칩렛 시대의 대규모 데이터 중심 병렬성'이라는 기술 논문을 발표했습니다.

요약 :

“전통적으로 대규모 병렬 애플리케이션은 분산 시스템에서 실행되는데, 여기서 컴퓨팅 노드는 병렬화 체계가 확장성을 달성하기 위해 통신 및 동기화를 최소화해야 할 만큼 충분히 멀리 떨어져 있습니다. 통신 집약적인 워크로드를 분산 시스템에 매핑하려면 복잡한 문제 분할과 데이터 세트 사전 처리가 필요합니다. 칩당 수천 개의 상호 연결된 프로세서를 보유하는 현재의 AI 중심 추세로 인해 이러한 통신 병목 현상이 발생하는 워크로드를 다시 생각해 볼 수 있는 기회가 있습니다. 이러한 병목 현상은 종종 데이터 구조 탐색으로 인해 발생하며 이로 인해 불규칙한 메모리 액세스와 캐시 지역성이 저하됩니다.
최근 연구에서는 그래프 순회 및 기타 희소 워크로드를 가속화하기 위해 작업 기반 병렬화 체계를 도입했습니다. 데이터 구조 순회는 작업으로 분할되고 처리 장치(PU) 전체에 걸쳐 파이프라인됩니다. Dalorex는 전체 데이터 세트를 온칩에 두고 PU에 분산시키고 데이터가 로컬인 PU에서 작업을 실행함으로써 가장 높은 확장성(단일 칩에 최대 수천 개의 PU)을 보여주었습니다. 그러나 모든 메모리가 칩에 있을 때 더 큰 데이터 세트로 확장하는 방법과 비용에 대한 질문도 제기되었습니다.

이러한 문제를 해결하기 위해 우리는 DCRA(Data-Centric Reconfigurable Array) 칩렛의 그리드로 구성된 확장 가능한 아키텍처를 제안합니다. 패키지 시간 재구성을 통해 솔루션 출시 시간, 에너지 또는 비용과 같은 다양한 목표 지표에 맞게 최적화하는 칩 제품을 만들 수 있으며, 소프트웨어 재구성을 통해 여러 칩 패키지에서 수백만 개의 PU로 확장할 때 네트워크 포화를 방지할 수 있습니다. 우리는 다양한 구성과 메모리 기술을 갖춘 26개의 애플리케이션과 3323개의 데이터 세트를 평가하여 대규모 데이터 로컬 실행의 성능, 성능 및 비용에 대한 자세한 분석을 제공합니다. 백만 개의 PU에 걸쳐 RMAT-XNUMX을 사용한 Breadth-First-Search의 병렬화는 XNUMXGTEPS에 도달합니다.”

기술 찾기 여기에 종이. 2023년 XNUMX월 발행(사전 인쇄).

오레네스-베라, 마르셀로, 에신 투레시, 데이비드 웬츨라프, 마가렛 마르토노시. “칩렛 시대의 대규모 데이터 중심 병렬성.” arXiv 프리 프린트 arXiv : 2304.09389 (2023).

관련
Chiplets 주변에 형성되는 미니 컨소시엄
상업용 칩렛 시장은 아직 먼 미래에 있지만 기업들은 보다 제한된 파트너십을 통해 조기에 시작하고 있습니다.
과소평가된 Chiplet 보안 위험
상업용 칩렛에 대한 보안 문제의 규모는 엄청납니다.
혼합 파운드리 칩렛을 향한 경쟁
다양한 파운드리에서 칩렛을 조립하는 과제가 이제 막 나타나기 시작했습니다.
칩렛의 설계 고려 사항 및 최근 발전 (UC버클리/북경대학교)

타임 스탬프 :

더보기 세미 엔지니어링