Amazon SageMaker Data Wranglerを使用して、数回クリックするだけで処理ジョブを起動します

ソースノード: 1600104

AmazonSageMakerデータラングラー データ サイエンティストやエンジニアは、ビジュアル インターフェイスを使用して、機械学習 (ML) アプリケーション用のデータをより迅速に準備できます。 以前は、Data Wrangler データ フローを作成するときに、さまざまなエクスポート オプションを選択して、そのデータ フローをデータ処理パイプラインに簡単に統合することができました。 Data Wrangler は、次のエクスポート オプションを提供します。 Amazon シンプル ストレージ サービス (Amazon S3)、 SageMakerパイプライン, SageMakerフィーチャーストア、または Python コードとして。 エクスポート オプションは Jupyter ノートブックを作成し、コードを実行して処理ジョブを開始する必要があります。 SageMakerの処理.

Data Wrangler の宛先ノードと Create Job 機能の一般リリースを発表できることを嬉しく思います。 この機能を使用すると、データセットに対して行ったすべての変換を、数回クリックするだけで宛先ノードにエクスポートできます。 これにより、Jupyter ノートブックを生成、実行、または管理する必要なく、純粋にビジュアル インターフェイスを介してデータ処理ジョブを作成し、Amazon S3 にエクスポートできるため、ローコード エクスペリエンスが強化されます。 この新機能を実証するために、 タイタニックデータセット 変換を宛先ノードにエクスポートする方法を示します。

前提条件

Data Wrangler で宛先ノードを使用する方法を学習する前に、その方法を理解しておく必要があります。 Data Wrangler にアクセスして開始する. また、 データフロー Data Wrangler のコンテキストと、Data Wrangler がサポートするさまざまなデータ ソースからデータをインポートしてコンテキストを作成する方法を意味します。

ソリューションの概要

という名前の次のデータ フローを検討してください。 example-titanic.flow:

  • Titanic データセットを XNUMX 回インポートします。 これらの異なるインポートは、データ フローの個別の分岐として表示されます。
  • ブランチごとに、一連の変換と視覚化が適用されます。
  • すべての変換と視覚化を備えた単一のノードにブランチを結合します。

このフローでは、データの一部を処理して特定のブランチまたは場所に保存することができます。

次の手順では、送信先ノードを作成し、それらを Amazon S3 にエクスポートし、処理ジョブを作成して起動する方法を示します。

宛先ノードを作成する

次の手順を使用して、宛先ノードを作成し、それらを S3 バケットにエクスポートできます。

  1. 保存するフロー ファイル (変換) の部分を決定します。
  2. エクスポートする変換を表すノードの横にあるプラス記号を選択します。 (折りたたまれたノードの場合は、ノードのオプション アイコン (XNUMX つのドット) を選択する必要があります)。
  3. 覆いかぶさります 宛先を追加.
  4. 選択する アマゾンS3.
  5. 次のスクリーンショットに示すようにフィールドを指定します。
  6. 3 番目の結合ノードについては、同じ手順に従って Amazon SXNUMX を送信先として追加し、フィールドを指定します。

これらの手順は、データ フローに必要な数のノードに対して必要な回数だけ繰り返すことができます。 後で、処理ジョブに含める宛先ノードを選択します。

処理ジョブを起動する

次の手順を使用して処理ジョブを作成し、エクスポート先の宛先ノードを選択します。

  1. ソフトウェア設定ページで、下図のように データフロー タブを選択 ジョブを作成.
  2. 職種名¸ エクスポート ジョブの名前を入力します。
  3. エクスポートする宛先ノードを選択します。
  4. オプションで、 AWSキー管理サービス (AWS KMS) キー ARN。

KMS キーは、データを保護するために使用できる暗号化キーです。 KMS キーの詳細については、 AWS キー開発者ガイド.

  1. 選択する 次に、2.ジョブの設定.
  2. 必要に応じて、インスタンスのタイプや数を変更したり、ジョブに関連付けるタグを追加したりして、必要に応じてジョブを構成できます。
  3. 選択する ラン ジョブを実行します。

ジョブが正常に作成されると、成功メッセージが表示されます。

最終データを見る

最後に、次の手順を使用して、エクスポートされたデータを表示できます。

  1. ジョブを作成したら、提供されたリンクを選択します。

新しいタブが開き、SageMaker コンソールに処理中のジョブが表示されます。

  1. ジョブが完了したら、エクスポートされたデータを Amazon S3 コンソールで確認します。

選択したジョブ名の新しいフォルダーが表示されます。

  1. ジョブ名を選択して、最終データを含む CSV ファイル (または複数のファイル) を表示します。

よくある質問

このセクションでは、この新機能に関してよく寄せられる質問にお答えします。

  • [エクスポート] タブはどうなりましたか? この新機能により、 輸出 Data Wrangler のタブ。 次の手順で、データ フローで作成した任意のノードから、Data Wrangler によって生成された Jupyter ノートブックを介してエクスポート機能を容易にすることができます。
    1. エクスポートするノードの横にあるプラス記号を選択します。
    2. 選択する 輸出.
    3. 選択する Amazon S3(Jupyter Notebook経由).
    4. Jupyter ノートブックを実行します。
  • ジョブにはいくつの宛先ノードを含めることができますか? 処理ジョブごとに最大 10 個の宛先があります。
  • フロー ファイルにはいくつの宛先ノードを含めることができますか? 必要な数の宛先ノードを持つことができます。
  • 宛先ノードの後に​​変換を追加できますか? いいえ、目的のノードは、その後のステップがないターミナル ノードです。
  • 宛先ノードで使用できる、サポートされているソースは何ですか? この記事の執筆時点では、宛先ソースとして Amazon S3 のみをサポートしています。 今後、より多くの宛先ソース タイプのサポートが追加される予定です。 ご覧になりたい箇所がございましたらご連絡ください。

まとめ

この投稿では、新しく起動された送信先ノードを使用して処理ジョブを作成し、変換されたデータセットを Data Wrangler ビジュアル インターフェイスを介して直接 Amazon S3 に保存する方法を示しました。 この追加機能により、Data Wrangler のツール主導のローコード エクスペリエンスが強化されました。

次のステップとして、この投稿で説明されている例を試すことをお勧めします。 質問がある場合、または詳細を知りたい場合は、 輸出 またはコメント欄に質問を残してください。


著者について

アルフォンソ・オースチン・リベラ Amazon SageMaker Data Wrangler のフロントエンドエンジニアです。 彼は、喜びを刺激する直感的なユーザー エクスペリエンスの構築に情熱を注いでいます。 余暇には、ロック クライミング ジムで重力と戦ったり、屋外でドローンを飛ばしたりしています。

パルサ・シャボダギ 機械学習と人工知能を専門とする AWS のテクニカル ライターです。 彼は、Amazon SageMaker Data Wrangler と Amazon SageMaker Feature Store の技術文書を書いています。 余暇には、瞑想、オーディオブックの視聴、ウェイトリフティング、スタンダップ コメディーの視聴を楽しんでいます。 彼はスタンドアップ コメディアンになることはありませんが、少なくとも彼の母親は彼が面白いと思っています。

バラジ トゥマラ Amazon SageMaker のソフトウェア開発エンジニアです。 彼は Amazon SageMaker Data Wrangler のサポートを支援し、パフォーマンスとスケーラブルなソフトウェアの構築に情熱を注いでいます。 仕事以外では、フィクションを読んだり、バレーボールを楽しんだりしています。

アルンプラサト・シャンカール は、AW​​Sの人工知能と機械学習(AI / ML)スペシャリストソリューションアーキテクトであり、世界中のお客様がクラウドでAIソリューションを効果的かつ効率的に拡張できるよう支援しています。 余暇には、SF映画を見たり、クラシック音楽を聴いたりしています。

ソース: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

タイムスタンプ:

より多くの AWS機械学習ブログ