In the march to more capable, faster, smaller, and lower power systems, Moore’s Law gave software a free ride for over 30 years or so purely on semiconductor process evolution. Compute hardware delivered improved performance/area/power metrics every year, allowing software to expand in complexity and deliver more capability with no downsides. Then the easy wins became less easy. More advanced processes continued to deliver higher gate counts per unit area but gains in performance and power started to flatten out. Since our expectations for innovation didn’t stop, hardware architecture advances have become more important in picking up the slack.
Drivers for increasing core-count
An early step in this direction used multi-core CPUs to accelerate total throughput by threading or virtualizing a mix of concurrent tasks across cores, reducing power as needed by idling or powering down inactive cores. Multi-core is standard today and a trend in many-core (even more CPUs on a chip) is already evident in server instance options available in cloud platforms from AWS, Azure, Alibaba and others.
Multi-/many-core architectures are a step forward, but parallelism through CPU clusters is coarse-grained and has its own performance and power limits, thanks to Amdahl’s law. Architectures became more heterogenous, adding accelerators for image, audio, and other specialized needs. AI accelerators have also pushed fine-grained parallelism, moving to systolic arrays and other domain-specific techniques. Which was working pretty well until ChatGPT appeared with 175 billion parameters with GPT-3 evolving into GPT-4 with 100 trillion parameters – orders of magnitude more complex than today’s AI systems – forcing yet more specialized acceleration features within AI accelerators.
On a different front, multi-sensor systems in automotive applications are now integrating into single SoCs for improved environment awareness and improved PPA. Here, new levels of autonomy in automotive depend on fusing inputs from multiple sensor types within a single device, in subsystems replicating by 2X, 4X or 8X.
According to Michał Siwinski (CMO at Arteris), sampling over a month of discussions with multiple design teams across a wide range of applications suggests those teams are actively turning to higher core counts to meet capability, performance, and power goals. He tells me they also see this trend accelerating. Process advances still help with SoC gate counts, but responsibility for meeting performance and power goals is now firmly in the hands of the architects.
More cores, more interconnect
More cores on a chip imply more data connections between those cores. Within an accelerator between neighboring processing elements, to local cache, to accelerators for sparse matrix and other specialized handling. Add hierarchical connectivity between accelerator tiles and system level buses. Add connectivity for on-chip weight storage, decompression, broadcast, gather and re-compression. Add HBM connectivity for working cache. Add a fusion engine if needed.
The CPU-based control cluster must connect to each of those replicated subsystems and to all the usual functions – codecs, memory management, safety island and root of trust if appropriate, UCIe if a multi-chiplet implementation, PCIe for high bandwidth I/O, and Ethernet or fiber for networking.
That’s a lot of interconnect, with direct consequences for product marketability. In processes below 16nm, NoC infrastructure now contributes 10-12% in area. Even more important, as the communication highway between cores, it can have significant impact on performance and power. There is real danger that a sub-optimal implementation will squander expected architecture performance and power gains, or worse yet, result in numerous re-design loops to converge. Yet finding a good implementation in a complex SoC floorplan still depends on slow trial-and-error optimizations in already tight design schedules. We need to make the jump to physically aware NoC design, to guarantee full performance and power support from complex NoC hierarchies and we need to make these optimizations faster.
Physically aware NoC designs keeps Moore’s law on track
Moore’s law may not be dead but advances in performance and power today come from architecture and NoC interconnect rather than from process. Architecture is pushing more accelerator cores, more accelerators within accelerators, and more subsystem replication on-chip. All increase the complexity of on-chip interconnect. As designs increase core counts and move to process geometries at 16nm and below, the numerous NoC interconnects spanning the SoC and its sub-systems can only support the full potential of these complex designs if implemented optimally against physical and timing constraints – through physically aware network on chip design.
If you also worry about these trends, you might want learn more about Arteris FlexNoC 5 IP technology こちら.
この投稿を共有する:
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://semiwiki.com/artificial-intelligence/326727-interconnect-under-the-spotlight-as-core-counts-accelerate/
- :は
- $UP
- 100
- a
- 私たちについて
- 加速する
- 加速している
- 加速
- 加速器
- 加速器
- 越えて
- 積極的に
- 高度な
- 進歩
- に対して
- AI
- AIシステム
- アリババ
- すべて
- 許可
- 既に
- &
- 登場
- 適切な
- 建築
- です
- AREA
- AS
- At
- オーディオ
- 自動車
- 利用できます
- 認知度
- AWS
- Azure
- 帯域幅
- BE
- になる
- 以下
- の間に
- 10億
- 放送
- バス
- by
- キャッシュ
- 缶
- できる
- AI言語モデルを活用してコードのデバッグからデータの異常検出まで、
- チップ
- クラウド
- クラスタ
- 最高マーケティング責任者
- 来ます
- コミュニケーション
- 複雑な
- 複雑さ
- 計算
- 同時
- お問合せ
- Connections
- 接続性
- 結果
- 制約
- 継続します
- コントロール
- 収束する
- 基本
- CPU
- 危険
- データ
- 死んだ
- 配信する
- 配信
- 依存
- 設計
- デザイン
- デバイス
- 異なります
- 直接
- 方向
- 議論
- ダウン
- 欠点
- 各
- 早い
- 要素は
- エンジン
- 環境
- さらに
- あらゆる
- 進化
- 進化
- 詳細
- 期待
- 予想される
- 速いです
- 特徴
- 発見
- 固く
- フォワード
- 無料版
- から
- フロント
- フル
- 機能
- 融合
- 利益
- 目標
- 良い
- 保証
- ハンドリング
- ハンド
- Hardware
- 持ってる
- 助けます
- こちら
- ハイ
- より高い
- 高速道路
- HTTPS
- 画像
- 影響
- 実装
- 実装
- 重要
- 改善されました
- in
- 非アクティブな
- 増える
- の増加
- インフラ
- 革新的手法
- 統合
- IP
- 島
- IT
- ITS
- ジャンプ
- 法律
- LEARN
- レベル
- レベル
- 制限
- ローカル
- たくさん
- make
- 管理
- 3月
- マトリックス
- 最大幅
- 大会
- ご相談
- メモリ
- メトリック
- かもしれない
- 月
- 他には?
- 移動する
- の試合に
- 必要
- 必要とされる
- ニーズ
- ネットワーク
- ネットワーキング
- 新作
- 多数の
- of
- on
- オプション
- 受注
- その他
- その他
- 自分の
- パラメータ
- パフォーマンス
- 物理的な
- 物理的に
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポスト
- 潜在的な
- 電力
- 電源
- かなり
- プロセス
- ラボレーション
- 処理
- プロダクト
- 純粋に
- プッシュ
- 押す
- 範囲
- むしろ
- リアル
- 縮小
- 複製された
- レプリケーション
- 責任
- 結果
- Ride
- ルート
- 安全性
- 半導体
- 重要
- から
- スラック
- 遅く
- より小さい
- So
- ソフトウェア
- スパース行列
- 専門の
- スポットライト
- 標準
- 開始
- 手順
- まだ
- Force Stop
- ストレージ利用料
- 提案する
- サポート
- システム
- タスク
- チーム
- テクニック
- テクノロジー
- 伝える
- それ
- ボーマン
- 介して
- スループット
- タイミング
- 〜へ
- 今日
- 今日の
- トータル
- トレンド
- トレンド
- 1兆
- 信頼
- ターニング
- 下
- 単位
- 、
- 重量
- WELL
- which
- ワイド
- 広い範囲
- 意志
- 勝
- 以内
- ワーキング
- 年
- 年
- ゼファーネット