IBMは、XNUMX月から「AIスーパーコンピューター」を実行していると述べていますが、世界に伝えるために今選択しました

IBMは、XNUMX月から「AIスーパーコンピューター」を実行していると述べていますが、世界に伝えるために今選択しました

ソースノード: 1950471

IBM は、独自の「AI スーパーコンピューター」を発表した最新のテクノロジー大手です。これは、IBM クラウド内で実行される多数の仮想マシンで構成されています。

同社が昨年XNUMX月からオンラインになったと主張するVelaとして知られるシステムは、大規模なAIモデルの開発とトレーニングを目的として作成された、IBM初のAIに最適化されたクラウドネイティブのスーパーコンピューターとして宣伝されています.

だれかが急いでアクセスにサインアップする前に、IBM は、このプラットフォームは現在 IBM Research コミュニティーによる使用のために予約されていると述べました。 実際、Vela は、2022 年 XNUMX 月以降、基礎モデルの研究を含め、高度な AI 機能を作成する研究者にとって、同社の「頼りになる環境」になっている、と同社は述べています。

IBM は、このアーキテクチャを選択した理由として、必要に応じてスケールアップする柔軟性が向上し、世界中の任意の IBM Cloud データセンターに同様のインフラストラクチャを展開できるようになると述べています。

しかし、Vela は古い標準の IBM Cloud ノード ハードウェア上では稼働していません。 それぞれが、2TB の DRAM で構成された第 1.5 世代 Xeon スケーラブル プロセッサ、3.2 つの 80TB NVMe フラッシュ ドライブ、および 100 つの XNUMXGB Nvidia AXNUMX GPU を備えたツイン ソケット システムであり、後者は NVLink と NVSwitch によって接続されています。

これにより、Vela インフラストラクチャは、「従来のスーパーコンピューターは AI 用に設計されていない」として別の道をたどっていると IBM が主張しているにもかかわらず、一般的なクラウド インフラストラクチャよりもハイ パフォーマンス コンピューティング (HPC) サイトのインフラストラクチャに近くなります。

また、IBM が独自の Power 86 チップではなく x10 プロセッサの使用を選択したことも注目に値します。 ビッグブルーに宣伝された 大規模モデルの AI 推論など、メモリを集中的に使用するワークロードに最適です。

ノードは、100 レベルの Clos 構造に配置された複数の XNUMXGbps ネットワーク インターフェイスを使用して相互接続されます。これは、冗長性を提供するためにデータに複数のパスが存在するように設計されています。

しかし、IBM はブログ投稿で、大規模な AI モデルの構築と展開に必要な時間を可能な限り短縮することに重点を置いた、クラウドネイティブ アーキテクチャを選択した理由を説明しています。

「従来のスーパーコンピューティング モデルを使用してシステムをオンプレミスで構築するのか、それともこのシステムをクラウドに構築するのか、つまりクラウドでもあるスーパーコンピューターを構築するのか」 ブログは尋ねます。

IBM は、後者のアプローチを採用することで、パフォーマンスがやや低下しましたが、生産性が大幅に向上したと主張しています。 これは、ソフトウェアを介して必要なすべてのリソースを構成する機能と、専用のストレージ インフラストラクチャを構築する代わりに、IBM のクラウド オブジェクト ストアにデータ セットをロードする例を使用して、より広い IBM クラウドで利用可能なサービスにアクセスできることになります。

Big Blue はまた、Vela のすべてのノードをベアメタル インスタンスではなく仮想マシンとして運用することを選択したと述べました。これにより、さまざまな AI ユーザーが必要とするさまざまなソフトウェア スタックを使用してインフラストラクチャを簡単にプロビジョニングおよび再プロビジョニングできるからです。

「VM を使用すると、サポート チームは AI クラスターを動的に柔軟にスケーリングし、さまざまな種類のワークロード間でリソースを数分で簡単に移動できます」と IBM のブログは説明しています。

しかし同社は、パフォーマンスを最適化し、仮想化のオーバーヘッドをベアメタルのパフォーマンスに近い 5% 未満に最小化する方法を見つけたと主張しています。

これには、Virtual Machine Extensions (VMX)、single-root IO virtualization (SR-IOV)、およびヒュージ ページをサポートする仮想化用のベア メタル ホストの構成、およびその他の未指定のハードウェアおよびソフトウェア構成が含まれていました。

Vela インフラストラクチャの詳細については、 IBMのブログ.

クラウドを使用して AI スーパーコンピューターをホストしている企業は IBM だけではありません。 昨年、マイクロソフト 独自のプラットフォームを発表 Nvidia の GPU アクセラレーター、ネットワーク キット、およびその AI エンタープライズ ソフトウェア スイートと組み合わせた Azure インフラストラクチャを使用します。 これは、Azure のお客様がアクセスできるようになる予定でしたが、時間枠は指定されていませんでした。

AI スーパーコンピューターを構築しているが、従来のオンプレミス インフラストラクチャ ルートに従っている他の企業には、次のようなものがあります。 Meta & テスラ。 ®

タイムスタンプ:

より多くの 登録