高性能のためのRISC-V 64ビットIP - Semiwiki

高性能のための RISC-V 64 ビット IP – Semiwiki

ソースノード: 2855188

命令セット アーキテクチャ (ISA) としての RISC-V は、2015 年にオープン コミュニティにリリースされて以来、商業的な重要性と関連性が急速に高まり、現在ではさまざまな RTL コアを提供する多くの IP ベンダーを魅了しています。 ロジャー・エスパーサ、CEO兼創設者 半力学は、RISC-V イベントで、ベクトル ユニットを備えた高帯域幅および高性能コアを必要とするコンピューティングの課題に合わせて IP がどのようにカスタマイズされているかについて発表しました。 Semidynamics は 2016 年に設立され、バルセロナに本社を置き、カスタマイズ可能な XNUMX つの RISC-V IP を提供することですでに米国とアジアに顧客を抱えています。

  • Avispado – インオーダー RISCV64GCV、AXI および CHI をサポート
  • Atrevido – 故障中の RISCV64GC、AXI および CHI をサポート

一般的な CPU には、少数の大きなコアと大きなキャッシュが搭載されているため、プログラミングは簡単ですが、パフォーマンスはそれほど高くありません。

対照的に、GPU には並列コードに高いパフォーマンスを提供する小さなコアが多数搭載されていますが、プログラムが難しく、CPU と GPU の間でデータをやり取りする必要がある場合に PCIe バスを介して通信遅延が増加します。

CPU、GPUの最小値
CPU、GPUの比較

Espasa のアプローチは、コンピューティング コアに接続された RISC-V コアを使用することで、プログラミングが容易になり、並列コードのパフォーマンスが向上し、通信遅延がゼロになります。 CPU とベクトル ユニットにより、両方の長所が得られます。

RISC-V CPU + ベクトルユニット、より高いパフォーマンス
CPU+ベクトルユニット

RISC-V 仕様では 32 個のベクトル レジスタが文書化されており、ベクトル ユニット内のキャッシュへの接続とともに、多数のベクトル コアを追加できます。

ベクトル単位の最小値
ベクトルユニット

Semidynamics IP を使用すると、ベクトル コアの数を 4、8、16、32 にカスタマイズできます。これを別の見方で見ると、4 つのベクトル コアは 256 ビットで、最大 32 のベクトル コアは 2,048 ビットであることに注意してください。

IP ユーザーは、FP64、FP32、FP16、BF16、INT64、INT32、INT16、INT8 のデータ タイプも選択します。 AI アプリケーションの場合は FP16、BF16 のデータ型を選択できますが、HPC アプリケーションの場合は FP64、FP32 を選択できます。

XNUMX 番目のカスタマイズはベクトル レジスタ長です。パフォーマンスを向上させ、電力を削減するために、ベクトル レジスタをベクトル ユニットより大きくすることができます。

Atrevideo 423-V8 のブロック図は次のとおりです。

アトレビド分
Atrevido 423 + V8 ベクトル ユニット

ベクトル ユニットは完全に故障していますが、これは RISC-V IP ベンダーの中でも独特です。 ベクトル ユニットと Gazzillion ユニットを組み合わせると、60 バイト/サイクルを超える速度でデータをストリーミングできます。

ベクトル + Gazzillion、バイト/サイクルのパフォーマンス
高帯域幅: ベクトル + 数億

紫色の線は読み取りパフォーマンスを示しており、L1 キャッシュでは 20 ~ 60 バイト/サイクルです。他のマシンでは L1 キャッシュを離れた後に帯域幅が急速に低下していますが、このアプローチは継続し、56 で平坦化しています。DDR メモリに移行してもは帯域幅 40 を示しています。クロック レート 1.0 GHz の場合、帯域幅は 40 GB/秒になります。

IP 顧客は、独自の目的でベクトル ユニットに接続された独自の RTL コードを追加することもできます。

AI ワークロードでは行列乗算のパフォーマンスが重要であり、OOO V8 ベクトル ユニットでは 16 FP64 FLOPS/サイクルのピークがあり、行列サイズ >= 99 ではピークの 400% になります。 24×24 の小さな行列サイズの場合パフォーマンスは 7 FP64 FLOPS/サイクル、またはピークの 50% です。 16 つのベクトル コアを備えたベクトル ユニットを使用した FP8 の行列乗算のピークは 64 FP16 FLOPS/サイクルで、M >= 99 の場合はピークの 600% になります。

YOLO (You Only Look Once) と呼ばれるリアルタイム物体検出ベンチマークが Atrevido 423-V8 プラットフォームで実行され、競合他社よりもベクトル コアあたり 58% 高いパフォーマンスが示されました。 これらの結果は、24 レイヤーのビデオに関するものです。 5.56 ゴップ/フレーム、約 9M パラメータ。

YOLOパフォーマンス
YOLOの比較

まとめ

RISC-V IP ベンダーの選択は複雑な作業であるため、Semidynamics のようなベンダーについて知ることは、カスタマイズされたアプローチが特定のワークロードを最も効率的に実行する方法をより深く理解するのに役立ちます。 Semidynamics を使用すると、インオーダーまたはアウトオブオーダー、ベクトル単位の有無などのアーキテクチャ上の選択肢から選択できます。 この IP ベンダーから報告された数字は有望に見えますので、今後の発表を楽しみにしています。

関連動画

この投稿を共有する:

タイムスタンプ:

より多くの セミウィキ