Kubernetes 上でマルチフレームワークの深層学習プラットフォームをデプロイして使用する

プラトン再発行

フォロワー： 0

Description

深層学習の実践者として、トレーニングジョブを調整する際に信頼性とスケーラビリティが必要です。さらに、複数のライブラリ間で一貫した方法でこれを行う必要があります。 Kubernetes の Fabric for Deep Learning (FfDL) を使用すると、クラウドで Caffe、Torch、TensorFlow などのディープラーニングライブラリを最小限の労力で回復力のある方法で利用できるようにすることで、これを実現できます。このプラットフォームは、分散およびオーケストレーションレイヤーを使用して、コンピューティングノード全体で妥当な時間内に大量のデータからの学習を容易にします。リソースプロビジョニングレイヤーにより、サービスとしてのインフラストラクチャ (IaaS) クラウドで、グラフィックス処理装置 (GPU) や中央処理装置 (CPU) などの異種リソースでの柔軟なジョブ管理が可能になります。

概要

ディープラーニング (機械学習手法の一部) として知られるディープニューラルネットワークのトレーニングは、非常に複雑で計算量が多くなります。ディープラーニングの一般的なユーザーは、基盤となるハードウェアおよびソフトウェアインフラストラクチャの詳細に不必要にさらされています。これには、高価な GPU マシンの構成、ディープラーニングライブラリのインストール、実行中のジョブの管理による障害と回復の処理が含まれます。 IaaS クラウドからハードウェアを入手し、時間単位で支払うことは容易ですが、それでもユーザーはそれらのマシンを管理し、必要なライブラリをインストールし、ディープラーニングトレーニングジョブの回復力を確保する必要があります。

ここに、サービスとしてのディープラーニングの可能性があります。このコードパターンでは、ディープラーニングファブリックを Kubernetes にデプロイする方法を示します。 Kubernetes、マイクロサービス、Helm チャート、オブジェクトストレージなどのクラウドネイティブアーキテクチャアーティファクトを使用して、ディープラーニングファブリックをデプロイして使用する方法を示します。このファブリックは、TensorFlow、Caffe、PyTorch などの複数のディープラーニングエンジンにまたがっています。クラウドサービスの柔軟性、使いやすさ、経済性をディープラーニングの力と組み合わせます。使いやすく、REST API を使用することで、ユーザーの要件や予算ごとにさまざまなリソースでトレーニングをカスタマイズできます。ユーザーが障害に集中するのではなく、深層学習とアプリケーションに集中できるようにします。

Flow

フロー

FfDL デプロイヤーは、FfDL コードベースを Kubernetes クラスターにデプロイします。 Kubernetes クラスターは、GPU、CPU、またはその両方を使用するように構成されており、S3 互換のオブジェクトストレージにアクセスできます。指定しない場合、ローカルでシミュレートされた S3 ポッドが作成されます。
デプロイが完了すると、データサイエンティストはモデルトレーニングデータを S3 互換のオブジェクトストアにアップロードします。 FfDL は、さまざまな深層学習フレームワークで規定されているように、データが既に必要な形式になっていることを前提としています。
ユーザーは FfDL モデルマニフェストファイルを作成します。マニフェストファイルには、FfDL のモデル、そのオブジェクトストア情報、そのリソース要件、およびトレーニングとテスト中のモデルの実行に必要ないくつかの引数 (ハイパーパラメーターを含む) を記述するさまざまなフィールドが含まれています。次に、ユーザーは CLI/SDK または UI を使用して FfDL と対話し、FfDL モデルマニフェストファイルをモデル定義ファイルと共にデプロイします。ユーザーはトレーニングジョブを起動し、その進行状況を監視します。
トレーニングジョブが完了すると、ユーザーはトレーニング済みのモデルと関連するログをダウンロードします。

説明書

このパターンの詳細な手順については、README を参照してください。手順では、次の方法を示します。

Docker イメージをコンパイルしてコーディングし、ビルドします。
helm install で FfDL コンポーネントをインストールします。
スクリプトを実行して、FfDL を監視するために Grafana を構成します。
Grafana、FfDL Web UI、および FfDL REST API エンドポイントを取得します。
TensorFlow と Caffe を使用して、いくつかの単純なジョブを実行して、畳み込みネットワークモデルをトレーニングします。

ソース: https://developer.ibm.com/patterns/deploy-and-use-a-multi-framework-deep-learning-platform-on-kubernetes/

タイムスタンプ： 2019 年 3 月 27 日

より多くの IBM 開発者

IBM Maximo Visual Inspection を使用して AI プロジェクトの分析ダッシュボードを開発する

ソースクラスター：

IBM 開発者

ソースノード： 749607

タイムスタンプ： 2020 年 6 月 16 日

腕を使って音楽を作る

ソースクラスター：

ソースクラスター：

IBM 開発者

ソースノード： 837401

タイムスタンプ： 2021 年 5 月 4 日

マルチフレームワークの深層学習プラットフォームを Kubernetes にデプロイして使用する

プラトン再発行

Description

概要

Flow

説明書

より多くの IBM 開発者

IBM Maximo Visual Inspection を使用して AI プロジェクトの分析ダッシュボードを開発する

腕を使って音楽を作る

eコマースウェブサイトからクリックストリームデータをキャプチャする

機械学習を使用して検出されたオブジェクトを視覚的に操作する Web アプリを作成する

ビデオからオーディオを抽出する

WhatsAppをWatsonサービスに接続するフレームワークを構築する

機械学習で生成された画像キャプションを操作する Web アプリを作成する

機械学習モデルを使用してストリーミングデータをスコアリングする

コンピュータービジョンの深層学習モデルを検証する

パンデミック時のオンライン注文処理

Watson Machine Learningを使用してリアルタイムのオブジェクト検出アプリを作成する

SMSワンタイムパスコードでチャットボットユーザーを認証する

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー