코어 수가 가속화됨에 따라 스포트라이트를 받는 상호 연결

코어 수가 가속화됨에 따라 스포트라이트를 받는 상호 연결

소스 노드 : 2569830

더 유능하고, 더 빠르고, 더 작고, 더 낮은 전력 시스템을 향한 행진에서 무어의 법칙은 순전히 반도체 프로세스 발전에 따라 약 30년 동안 소프트웨어에 무임승차를 제공했습니다. 컴퓨팅 하드웨어는 매년 향상된 성능/면적/전력 지표를 제공하여 소프트웨어가 복잡성을 확장하고 단점 없이 더 많은 기능을 제공할 수 있도록 했습니다. 그러면 쉬운 승리가 덜 쉬워졌습니다. 보다 발전된 프로세스는 계속해서 단위 면적당 더 높은 게이트 수를 제공했지만 성능과 전력의 향상은 정체되기 시작했습니다. 혁신에 대한 기대가 멈추지 않았기 때문에 부족한 부분을 보완하는 데 하드웨어 아키텍처의 발전이 더욱 중요해졌습니다.

주목받는 상호 연결

코어 수 증가를 위한 동인

이 방향의 초기 단계에서는 멀티 코어 CPU를 사용하여 코어 전체에 동시 작업 혼합을 스레딩하거나 가상화하고 비활성 코어를 유휴 상태로 유지하거나 전원을 꺼서 필요에 따라 전력을 줄임으로써 전체 처리량을 가속화했습니다. 오늘날 멀티 코어는 표준이며, AWS, Azure, Alibaba 등의 클라우드 플랫폼에서 사용할 수 있는 서버 인스턴스 옵션에서 멀티 코어(칩에 더 많은 CPU 포함) 추세가 이미 뚜렷이 나타나고 있습니다.

멀티/다코어 아키텍처는 한 단계 발전했지만, CPU 클러스터를 통한 병렬 처리는 암달의 법칙 덕분에 세분화되어 있으며 자체적인 성능 및 전력 제한이 있습니다. 이미지, 오디오 및 기타 특수 요구 사항에 대한 가속기가 추가되면서 아키텍처가 더욱 다양해졌습니다. AI 가속기는 또한 세분화된 병렬 처리를 추진하여 수축기 배열 및 기타 도메인별 기술로 이동했습니다. ChatGPT가 175억 개의 매개변수를 포함하고 GPT-3이 4조 개의 매개변수를 포함하는 GPT-100로 발전하기 전까지는 꽤 잘 작동했습니다. 이는 오늘날의 AI 시스템보다 훨씬 더 복잡하여 AI 가속기 내에서 더욱 전문화된 가속 기능을 강제합니다.

다른 측면에서 자동차 애플리케이션의 다중 센서 시스템은 이제 향상된 환경 인식과 향상된 PPA를 위해 단일 SoC로 통합되고 있습니다. 여기서 자동차의 새로운 수준의 자율성은 2X, 4X 또는 8X로 복제되는 하위 시스템에서 단일 장치 내의 여러 센서 유형의 입력을 융합하는 데 달려 있습니다.

Michał Siwinski(Arteris의 CMO)에 따르면 다양한 응용 분야에 걸쳐 여러 설계 팀과 한 달 동안 논의한 결과 해당 팀이 기능, 성능 및 전력 목표를 달성하기 위해 더 많은 코어 수로 적극적으로 전환하고 있음을 알 수 있습니다. 그는 또한 이러한 추세가 가속화되고 있다고 말했습니다. 프로세스 발전은 여전히 ​​SoC 게이트 수에 도움이 되지만, 성능 및 전력 목표 달성에 대한 책임은 이제 확실히 설계자의 손에 있습니다.

더 많은 코어, 더 많은 상호 연결

칩에 더 많은 코어가 있다는 것은 해당 코어 사이에 더 많은 데이터 연결이 있음을 의미합니다. 인접한 처리 요소 사이의 가속기 내에서 로컬 캐시, 희소 행렬 및 기타 특수 처리를 위한 가속기까지. 가속기 타일과 시스템 수준 버스 사이에 계층적 연결을 추가합니다. 온칩 중량 저장, 압축 해제, 브로드캐스트, 수집 및 재압축을 위한 연결성을 추가합니다. 작업 캐시를 위한 HBM 연결을 추가합니다. 필요한 경우 융합 엔진을 추가합니다.

CPU 기반 제어 클러스터는 복제된 각 하위 시스템과 모든 일반적인 기능(해당하는 경우 코덱, 메모리 관리, 안전 섬 및 신뢰 루트, 멀티 칩렛 구현인 경우 UCIe, 고대역폭 I/O를 위한 PCIe)에 연결되어야 합니다. 및 네트워킹을 위한 이더넷 또는 광섬유.

이는 제품 시장성에 직접적인 영향을 미치는 상호 연결이 많습니다. 16nm 이하 공정에서 NoC 인프라는 현재 면적의 10~12%를 차지합니다. 더욱 중요한 것은 코어 간의 통신 고속도로로서 성능과 전력에 상당한 영향을 미칠 수 있다는 것입니다. 최적이 아닌 구현으로 인해 예상되는 아키텍처 성능과 전력 이득이 낭비되거나 더 나쁜 경우 수렴되는 수많은 재설계 루프가 발생할 위험이 있습니다. 그러나 복잡한 SoC 평면도에서 좋은 구현을 찾는 것은 여전히 ​​빡빡한 설계 일정 속에서 느린 시행착오 최적화에 달려 있습니다. 복잡한 NoC 계층에서 완전한 성능과 전력 지원을 보장하려면 물리적으로 인식되는 NoC 설계로 전환해야 하며 이러한 최적화를 더 빠르게 수행해야 합니다.

물리적으로 인식되는 NoC 설계로 무어의 법칙이 제대로 유지됩니다.

무어의 법칙은 사라지지 않았지만 오늘날 성능과 전력의 발전은 프로세스보다는 아키텍처와 NoC 상호 연결에서 비롯됩니다. 아키텍처는 더 많은 가속기 코어, 가속기 내 더 많은 가속기, 칩 내 더 많은 하위 시스템 복제를 추진하고 있습니다. 모두 온칩 상호 연결의 복잡성을 증가시킵니다. 설계가 코어 수를 늘리고 16nm 이하의 프로세스 기하학적 구조로 이동함에 따라 SoC와 해당 하위 시스템에 걸쳐 있는 수많은 NoC 상호 연결은 물리적 인식 네트워크를 통해 물리적 및 타이밍 제약에 대해 최적으로 구현된 경우에만 이러한 복잡한 설계의 모든 잠재력을 지원할 수 있습니다. 온칩 디자인.

이러한 추세도 걱정된다면 Arteris FlexNoC 5 IP 기술에 대해 자세히 알아보고 싶을 수도 있습니다. 여기를 클릭하십시오..

다음을 통해이 게시물 공유 :

타임 스탬프 :

더보기 세미위키