データ中心の再構成可能なアレイ チップレット (プリンストン)

データ中心の再構成可能なアレイ チップレット (プリンストン)

ソースノード: 2602549

「チップレット時代の大規模データ中心並列処理」というタイトルの技術論文がプリンストン大学の研究者によって発表されました。

要約:

「伝統的に、大規模並列アプリケーションは分散システム上で実行されます。そこではコンピューティング ノードが十分に離れているため、スケーラビリティを実現するために並列化スキームは通信と同期を最小限に抑える必要があります。 通信集約型のワークロードを分散システムにマッピングするには、複雑な問題の分割とデータセットの前処理が必要です。 チップごとに数千のプロセッサが相互接続されるという AI 主導の現在の傾向により、これらの通信のボトルネックとなっているワークロードを再考する機会が生まれています。 このボトルネックは多くの場合、データ構造のトラバーサルによって発生し、不規則なメモリ アクセスやキャッシュの局所性の低下を引き起こします。
最近の研究では、グラフの走査やその他のスパースなワークロードを高速化するために、タスクベースの並列化スキームが導入されました。 データ構造の走査はタスクに分割され、処理ユニット (PU) 間でパイプライン化されます。 Dalorex は、データセット全体をオンチップで複数の PU に分散させ、データがローカルにある PU でタスクを実行することで、最高のスケーラビリティ (単一チップ上に最大数千の PU) を実証しました。 ただし、すべてのメモリがオンチップにある場合に、より大きなデータセットに拡張する方法とそのコストについての疑問も生じました。

これらの課題に対処するために、私たちは、Data-Centric Reconfigurable Array (DCRA) チップレットのグリッドで構成されるスケーラブルなアーキテクチャを提案します。 パッケージ時の再構成により、解決までの時間、エネルギー、コストなどのさまざまな目標指標に合わせて最適化するチップ製品を作成できるようになり、ソフトウェアの再構成により、多くのチップ パッケージにわたって数百万の PU に拡張する際のネットワークの飽和が回避されます。 私たちは、いくつかの構成とメモリ テクノロジを備えた 26 つのアプリケーションと 3323 つのデータセットを評価し、大規模なデータ ローカル実行のパフォーマンス、消費電力、コストの詳細な分析を提供します。 RMAT-XNUMX を使用した XNUMX 万個の PU にわたる幅優先検索の並列化は、XNUMX GTEPS に達しました。」

技術を見つける ここに紙. 2023 年 XNUMX 月発行(プレプリント)。

オレネス=ベラ、マルセロ、エシン・トゥレシ、デビッド・ウェンツラフ、マーガレット・マルトノシ。 「チップレット時代の大規模データ中心並列処理」 arXivプレプリントarXiv:2304.09389 とします。

関連記事
チップレットを中心に形成されるミニコンソーシアム
商用チップレット市場はまだ遠い地平線にありますが、企業はより多くの限定的パートナーシップにより早期にスタートを切り始めています。
チップレットのセキュリティリスクは過小評価されている
商用チップレットのセキュリティ上の課題の大きさは、気が遠くなるようなものです。
混合鋳造チップレットに向けた競争
さまざまなファウンドリからのチップレットを組み立てる際の課題は、まだ表面化し始めたばかりです。
チップレットの設計上の考慮事項と最近の進歩 (カリフォルニア大学バークレー校/北京大学)

タイムスタンプ:

より多くの セミエンジニアリング