基礎モデルを大規模にトレーニングするための Amazon SageMaker HyperPod の紹介 |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

基礎モデル (FM) を構築するには、膨大な量のデータで数百億から数千億のパラメーターを使用してモデルをトレーニングするために、大規模なクラスターを構築、維持、最適化する必要があります。数日または数週間のモデルトレーニングの進行状況を失わずに、障害や環境の変化に対処できる回復力のある環境を作成することは運用上の課題であり、クラスターのスケーリング、プロアクティブな状態の監視、ジョブのチェックポイント設定、および障害や問題が発生した場合にトレーニングを自動的に再開する機能を実装する必要があります。。

私たちはそれを共有することに興奮しています Amazon SageMaker ハイパーポッド大規模なトレーニングクラスターの運用に伴う未分化の重労働を排除しながら、復元力の高いトレーニング環境を提供することで、数千のアクセラレータを備えた基礎モデルのトレーニングを最大 40% 高速化できるようになり、一般提供が開始されました。 SageMaker HyperPod を使用すると、機械学習 (ML) の実践者は、中断することなく、ハードウェア障害の問題に対処することなく、数週間から数か月にわたって FM をトレーニングできます。

Stability AI などの顧客は、SageMaker HyperPod を使用して、Stable Diffusion を含む基礎モデルをトレーニングします。

「オープンソースの生成 AI 企業のリーダーとして、私たちの目標は最新の AI のアクセシビリティを最大限に高めることです。私たちは数百億のパラメーターを含む基礎モデルを構築しています。これには、トレーニングパフォーマンスを最適にスケールするためのインフラストラクチャが必要です。 SageMaker HyperPod のマネージドインフラストラクチャと最適化ライブラリを使用すると、トレーニング時間とコストを 50% 以上削減できます。これにより、モデルのトレーニングの回復力とパフォーマンスが向上し、最先端のモデルをより迅速に構築できるようになります。」

– Emad Mostaque 氏、Stability AI 創設者兼 CEO。

FM 開発の全サイクルをハードウェア障害に対して回復力のあるものにするために、SageMaker HyperPod は、クラスターの作成、クラスターの健全性の監視、障害のあるノードのオンザフライでの修復と交換、頻繁なチェックポイントの保存、進行状況を失うことなくトレーニングを自動的に再開するのに役立ちます。さらに、SageMaker HyperPod は次のように事前設定されています。アマゾンセージメーカー分散トレーニングライブラリを含む SageMaker データ並列処理ライブラリ (SMDDP) および SageMaker モデル並列処理ライブラリ (SMP)、クラスターのコンピューティングインフラストラクチャとネットワークインフラストラクチャを最大限に活用しながら、トレーニングデータとモデルをより小さなチャンクに簡単に分割し、クラスターノード間で並列処理できるようにすることで、FM トレーニングのパフォーマンスを向上させます。 SageMaker HyperPod は、クラスターとトレーニングジョブオーケストレーションのために Slurm Workload Manager を統合します。

Slurm ワークロードマネージャーの概要

slurmは、以前は Simple Linux Utility for Resource Management として知られており、分散コンピューティングクラスター上でジョブを実行するためのジョブスケジューラです。また、 NVIDIA コレクティブコミュニケーションライブラリ (NCCL) or メッセージパッシングインターフェイス (MPI) 規格。 Slurm は、ハイパフォーマンスコンピューティング (HPC) や生成 AI および FM トレーニングワークロードで広く使用されている、人気のあるオープンソースクラスターリソース管理システムです。 SageMaker HyperPod は、数分で Slurm クラスターを立ち上げて実行するための簡単な方法を提供します。

以下は、ユーザーが SageMaker HyperPod と対話する方法、およびさまざまなクラスターコンポーネントが相互に対話する方法、および他の AWS サービス (たとえば、光沢のためのAmazonFSx および Amazon シンプルストレージサービス（Amazon S3）。

Slurm ジョブは、コマンドラインのコマンドによって送信されます。 Slurm ジョブを実行するコマンドは次のとおりです。 srun および sbatchを選択します。 srun コマンドはトレーニングジョブを対話型およびブロックモードで実行します。 sbatch バッチ処理およびノンブロッキングモードで実行されます。 srun 主に即時ジョブを実行するために使用されますが、 sbatch 後のジョブの実行に使用できます。

追加の Slurm コマンドと設定については、「 Slurm ワークロードマネージャーのドキュメント.

自動再開と修復機能

SageMaker HyperPod の新機能の XNUMX つは、ジョブを自動再開する機能です。以前は、トレーニングまたは微調整ジョブの実行中にワーカーノードに障害が発生した場合、ジョブのステータスを確認し、最新のチェックポイントからジョブを再開し、実行全体を通じてジョブの監視を継続するのはユーザーの責任でした。トレーニングジョブや微調整ジョブを一度に数日、数週間、場合によっては数か月間実行する必要がある場合、ユーザーがジョブの監視と保守にサイクルを費やす必要があるため、追加の管理オーバーヘッドが発生し、コストがかかります。ノードのクラッシュだけでなく、高価な高速化されたコンピューティングインスタンスのアイドル時間のコストも発生します。

SageMaker HyperPod は、自動ヘルスチェック、ノード交換、ジョブ回復を使用してジョブの回復力に対処します。 SageMaker HyperPod の Slurm ジョブは、SageMaker カスタム Slurm プラグインを使用して監視されます。 SPANKフレームワーク。トレーニングジョブが失敗すると、SageMaker HyperPod は一連のヘルスチェックを通じてクラスターの健全性を検査します。クラスター内で障害のあるノードが見つかった場合、SageMaker HyperPod は自動的にそのノードをクラスターから削除し、正常なノードと置き換えて、トレーニングジョブを再開します。トレーニングジョブでチェックポイントを使用すると、中断または失敗したジョブは最新のチェックポイントから再開できます。

ソリューションの概要

SageMaker HyperPod をデプロイするには、まず、アマゾンバーチャルプライベートクラウド (Amazon VPC) ネットワークおよびセキュリティグループ、VPC への FSx for Lustre などのサポートサービスのデプロイ、Slurm ライフサイクルスクリプトの S3 バケットへの公開。次に、SageMaker HyperPod をデプロイして構成し、ヘッドノードに接続してトレーニングジョブを開始します。

前提条件

SageMaker HyperPod を作成する前に、まず VPC を設定し、FSx for Lustre ファイルシステムを作成し、必要なクラスターライフサイクルスクリプトを含む S3 バケットを確立する必要があります。最新バージョンの AWSコマンドラインインターフェイス (AWS CLI) と、そのためにインストールされた CLI プラグイン AWS セッションマネージャー、の機能 AWS システムマネージャー.

SageMaker HyperPod は VPC と完全に統合されています。新しい VPC の作成については、を参照してください。デフォルトの VPC を作成する or VPC を作成する。リソース間で最高のパフォーマンスを備えたシームレスな接続を可能にするには、すべてのリソースを同じリージョンとアベイラビリティーゾーンに作成し、関連するセキュリティグループルールでクラスターリソース間の接続が許可されていることを確認する必要があります。

次に、あなた FSx for Lustre ファイルシステムを作成する。これは、モデルのトレーニング全体で使用される高性能ファイルシステムとして機能します。 FSx for Lustre およびクラスターのセキュリティグループが、クラスターリソースと FSx for Lustre ファイルシステム間のインバウンドおよびアウトバウンド通信を許可していることを確認してください。

新しいクラスターインスタンスなどのイベントが発生したときに実行されるクラスターライフサイクルスクリプトを設定するには、S3 バケットを作成し、デフォルトのライフサイクルスクリプトをコピーし、必要に応じてカスタマイズします。この例では、すべてのライフサイクルスクリプトを次のバケットプレフィックスに保存します。 lifecycle-scripts.

まず、サンプルライフサイクルスクリプトを次の場所からダウンロードします。 GitHubレポ。希望するクラスターの動作に合わせてこれらをカスタマイズする必要があります。

次に、カスタマイズされたライフサイクルスクリプトを保存するための S3 バケットを作成します。

aws s3 mb s3://<your_bucket_name>

次に、デフォルトのライフサイクルスクリプトをローカルディレクトリから目的のバケットにコピーし、プレフィックスを使用します。 aws s3 sync:

aws s3 sync . s3://<your_bucket_name>/lifecycle-scripts

最後に、クラスターのヘッドノードへの接続を簡略化するためにクライアントをセットアップするには、次のことを行う必要があります。 AWS CLI をインストールまたは更新するインストールして AWS セッションマネージャー CLI プラグインインタラクティブなターミナル接続でクラスターを管理し、トレーニングジョブを実行できるようにします。

SageMaker HyperPod クラスターは、利用可能なオンデマンドリソースを使用するか、SageMaker で容量予約をリクエストすることによって作成できます。容量予約を作成するには、サービスクォータダッシュボードで特定のコンピューティングインスタンスタイプと容量割り当てを予約するクォータ増加リクエストを作成します。

トレーニングクラスターをセットアップする

SageMaker HyperPod クラスターを作成するには、次の手順を実行します。

SageMakerコンソールで、 クラスター管理 下 ハイパーポッドクラスター ナビゲーションペインに表示されます。
選択する クラスターを作成する.
クラスター名と、オプションでクラスターリソースに適用するタグを指定し、選択します。 Next.
選択 インスタンスグループの作成 次に、インスタンスグループ名、必要なインスタンスタイプ、必要なインスタンスの数、以前にクラスターのライフサイクルスクリプトをコピーした S3 バケットとプレフィックスパスを指定します。

クラスターの管理とジョブの送信に使用されるコントローラーノードと、高速化されたコンピューティングインスタンスを使用してトレーニングジョブを実行するために使用されるワーカーノードには、異なるインスタンスグループを用意することをお勧めします。必要に応じて、ログインノード用に追加のインスタンスグループを構成できます。

まず、クラスターヘッドノードを含むコントローラーインスタンスグループを作成します。
このインスタンスグループの場合 AWS IDおよびアクセス管理 (IAM) ロール、選択 新しい役割を作成する インスタンスグループ内のクラスターインスタンスにアクセスさせたい S3 バケットを指定します。

生成されたロールには、デフォルトで、指定されたバケットへの読み取り専用アクセスが付与されます。

選択する 役割を作成する.
作成時のスクリプトプロンプトに、各インスタンス作成時に実行するスクリプト名を入力します。この例では、作成時スクリプトが呼び出されます。 on_create.sh.
選択する Save.
選択する インスタンスグループの作成 ワーカーインスタンスグループを作成します。
必要なインスタンスのタイプや数量など、要求された詳細をすべて入力します。

この例では、1.32 つの ml.trnXNUMXxl 高速インスタンスを使用してトレーニングジョブを実行します。以前と同じ IAM ロールを使用することも、ワーカーインスタンスのロールをカスタマイズすることもできます。同様に、このワーカーインスタンスグループには、前のインスタンスグループとは異なる作成時ライフサイクルスクリプトを使用できます。

選択する Next をクリックして次に進みます。
クラスターインスタンスに必要な VPC、サブネット、セキュリティグループを選択します。

低遅延を確保するために、単一のアベイラビリティーゾーンとサブネットでクラスターインスタンスをホストします。

S3 データに頻繁にアクセスする場合は、潜在的なデータ転送コストを削減するために、プライベートサブネットのルーティングテーブルに関連付けられた VPC エンドポイントを作成することをお勧めします。

選択する Next.
クラスターの詳細の概要を確認し、選択します。送信.

あるいは、AWS CLI を使用して SageMaker HyperPod を作成するには、まずクラスターの作成に使用される JSON パラメータをカスタマイズします。

// create-cluster-slurm-default-vpc.json
{
   "ClusterName": "sagemaker-demo-cluster",
   "InstanceGroups": [
        {
            "InstanceGroupName": "my-controller-group",
            "InstanceType": "ml.m5.xlarge",
            "InstanceCount": 1,
            "lifecycleConfig": {
                "SourceS3Uri": "s3://<your-s3-bucket>/<lifecycle-script-directory>/",
                "OnCreate": "on_create.sh"
            },
            "ExecutionRole": "arn:aws:iam::111122223333:role/my-role-for-cluster",
            "ThreadsPerCore": 1
        }, 
        {
            "InstanceGroupName": "worker-group-1",
            "InstanceType": "ml.trn1.32xlarge",
            "InstanceCount": 4,
            "lifecycleConfig": {
                "SourceS3Uri": "s3://<your-s3-bucket>/<lifecycle-script-directory>/",
                "OnCreate": "on_create.sh"
            },
            "ExecutionRole": "arn:aws:iam::111122223333:role/my-role-for-cluster",
            "ThreadsPerCore": 1
        }
    ]
}

次に、次のコマンドを使用して、提供された入力を使用してクラスターを作成します。

aws sagemaker create-cluster create-cluster-slurm-default-vpc.json

Llama 2 で最初のトレーニングジョブを実行する

Llama 2 モデルの使用はメタライセンスによって管理されることに注意してください。モデルの重みとトークナイザーをダウンロードするには、次のサイトにアクセスしてください。ウェブサイトへのアクセスをリクエストする前にライセンスに同意してくださいメタのハグフェイスのウェブサイト.

クラスターが実行されたら、クラスター ID、インスタンスグループ名、インスタンス ID を使用してセッションマネージャーにログインします。次のコマンドを使用して、クラスターの詳細を表示します。

aws sagemaker describe-cluster –cluster-name <cluster_name>

応答のクラスター ARN に含まれるクラスター ID をメモします。

“ClusterArn”: “arn:aws:sagemaker:us-west-2:111122223333:cluster/<cluster_id>”

次のコマンドを使用して、クラスターへのログインに必要なインスタンスグループ名とインスタンス ID を取得します。

aws sagemaker list-cluster-nodes --cluster-name <cluster_name>

メモしてください InstanceGroupName と InstanceId これらはセッションマネージャーでインスタンスに接続するために使用されるため、応答に含まれます。

ここで、セッションマネージャーを使用してヘッドノードまたはログインノードの XNUMX つにログインし、トレーニングジョブを実行します。

aws ssm start-session —target sagemaker-cluster:<cluster_id>_<instance_group_name>-<instance_id>

次に、環境を準備して、Llama 2 と RedPajama データセットをダウンロードします。完全なコードとその詳しい手順については、次の手順に従ってください。 AWSome 分散トレーニング GitHubレポ。

git clone https://github.com/aws-samples/awsome-distributed-training.git

に詳しく説明されている手順に従います。 2.test_cases/8.neuronx-nemo-megatron/README.md ファイル。環境を準備し、モデルを準備し、データセットをダウンロードしてトークン化し、モデルをプリコンパイルする手順に従った後、 6.pretrain-model.sh スクリプトと sbatch ジョブ送信コマンドに、SageMaker HyperPod の自動再開機能を利用できるようにするパラメータを含めます。

編集 sbatch 行は次のようになります。

sbatch --nodes 4 --auto-resume=1 run.slurm ./llama2_7b.sh

ジョブを送信すると、 JobID 次のコードを使用してジョブのステータスを確認するために使用できます。

squeue <jobid>

さらに、次のコードを使用してジョブ出力ログを追跡することにより、ジョブを監視できます。

tail -f slurm-run.slurm-<jobid>.out

クリーンアップ

SageMaker HyperPod クラスターを削除するには、SageMaker コンソールまたは次の AWS CLI コマンドを使用します。

aws sagemaker delete-cluster --cluster-name <cluster_name>

まとめ

この投稿では、AWS 環境を準備し、最初の SageMaker HyperPod クラスターをデプロイし、7 億パラメータの Llama 2 モデルをトレーニングする方法を説明しました。 SageMaker HyperPod は現在、アメリカ (バージニア北部、オハイオ、オレゴン)、アジアパシフィック (シンガポール、シドニー、東京)、およびヨーロッパ (フランクフルト、アイルランド、ストックホルム) リージョンで一般提供されています。これらは SageMaker コンソール、AWS CLI、AWS SDK を介してデプロイでき、p4d、p4de、p5、trn1、inf2、g5、c5、c5n、m5、t3 インスタンスファミリーをサポートします。

SageMaker HyperPod の詳細については、次のサイトをご覧ください。 Amazon SageMaker ハイパーポッド.

著者について

ブラッド・ドーラン アマゾンウェブサービスのシニアテクニカルアカウントマネージャーで、生成 AI に重点を置いています。彼は、デジタルネイティブビジネス市場セグメントにおける生成 AI 顧客のエンジニアリング上の課題を解決する責任を負っています。彼はインフラストラクチャとソフトウェア開発のバックグラウンドを持ち、現在は人工知能と機械学習の博士課程の研究と研究を続けています。

渡辺啓太 アマゾンウェブサービスのシニア GenAI スペシャリストソリューションアーキテクトで、Slurm や Kubernetes などの OSS プロジェクトを使用した機械学習ソリューションの開発を支援しています。彼の経歴は機械学習の研究開発です。 AWS に入社する前は、Keita は研究科学者として e コマース業界で製品検索用の画像検索システムを開発していました。ケイタは東京大学で理学博士号を取得しています。

ジャスティン・ピルトル アマゾンウェブサービスのプリンシパルソリューションアーキテクトです。彼は、生成 AI の顧客に対して、インフラストラクチャの設計、導入、拡張に関して定期的にアドバイスを行っています。彼は、re:Invent を含む AWS カンファレンスや他の AWS イベントで定期的に講演しています。 Justin は、テキサス大学オースティン校で経営情報システムの学士号を取得し、シアトル大学でソフトウェアエンジニアリングの修士号を取得しています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/introducing-amazon-sagemaker-hyperpod-to-train-foundation-models-at-scale/

タイムスタンプ： 2023 年 11 月 30 日

より多くの AWS機械学習

Amazon SageMaker JumpStart を使用して LLM と対話するウェブ UI を作成する | アマゾンウェブサービス

ソースクラスター：

AWS機械学習

ソースノード： 3012421

タイムスタンプ： 2023 年 12 月 12 日

Hugging Face Transformersを使用してテキスト要約プロジェクトを設定する：パート2

AWS機械学習

ソースノード： 1215686

タイムスタンプ： 2022 年 3 月 10 日

プラトン再発行

Hugging Face Transformersを使用してテキスト要約プロジェクトを設定する：パート2

OCX Cognition が AWS Step Functions と Amazon SageMaker を使用して、ML モデルの開発時間を数週間から数日に短縮し、モデルの更新時間を数日からリアルタイムに短縮した方法 | アマゾンウェブサービス

Amazon Kendra 用の更新された Microsoft OneDrive コネクタ (V2) の発表

AWS 専用アクセラレータを使用して、機械学習ワークロードのエネルギー消費を最大 90% 削減 | アマゾンウェブサービス

AmazonTextractとAmazonA2Iを使用して、人間の監視によりトランザクションドキュメントのデジタル化を自動化する

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

Slurm ワークロード マネージャーの概要