Amazon SageMaker Data Wrangler を使用して数回クリックするだけで処理ジョブを起動

プラトン再発行

フォロワー： 0

AmazonSageMakerデータラングラーデータサイエンティストやエンジニアは、ビジュアルインターフェイスを使用して、機械学習 (ML) アプリケーション用のデータをより迅速に準備できます。以前は、Data Wrangler データフローを作成するときに、さまざまなエクスポートオプションを選択して、そのデータフローをデータ処理パイプラインに簡単に統合することができました。 Data Wrangler は、次のエクスポートオプションを提供します。 Amazon シンプルストレージサービス（Amazon S3）、 SageMakerパイプライン, SageMakerフィーチャーストア、または Python コードとして。エクスポートオプションは Jupyter ノートブックを作成し、コードを実行して処理ジョブを開始する必要があります。 SageMakerの処理.

Data Wrangler の宛先ノードと Create Job 機能の一般リリースを発表できることを嬉しく思います。この機能を使用すると、データセットに対して行ったすべての変換を、数回クリックするだけで宛先ノードにエクスポートできます。これにより、Jupyter ノートブックを生成、実行、または管理する必要なく、純粋にビジュアルインターフェイスを介してデータ処理ジョブを作成し、Amazon S3 にエクスポートできるため、ローコードエクスペリエンスが強化されます。この新機能を実証するために、タイタニックデータセット変換を宛先ノードにエクスポートする方法を示します。

前提条件

Data Wrangler で宛先ノードを使用する方法を学習する前に、その方法を理解しておく必要があります。 Data Wrangler にアクセスして開始する. また、 データフロー Data Wrangler のコンテキストと、Data Wrangler がサポートするさまざまなデータソースからデータをインポートしてコンテキストを作成する方法を意味します。

ソリューションの概要

という名前の次のデータフローを検討してください。 example-titanic.flow:

Titanic データセットを XNUMX 回インポートします。これらの異なるインポートは、データフローの個別の分岐として表示されます。
ブランチごとに、一連の変換と視覚化が適用されます。
すべての変換と視覚化を備えた単一のノードにブランチを結合します。

このフローでは、データの一部を処理して特定のブランチまたは場所に保存することができます。

次の手順では、送信先ノードを作成し、それらを Amazon S3 にエクスポートし、処理ジョブを作成して起動する方法を示します。

宛先ノードを作成する

次の手順を使用して、宛先ノードを作成し、それらを S3 バケットにエクスポートできます。

保存するフローファイル (変換) の部分を決定します。
エクスポートする変換を表すノードの横にあるプラス記号を選択します。 (折りたたまれたノードの場合は、ノードのオプションアイコン (XNUMX つのドット) を選択する必要があります)。
覆いかぶさります 宛先を追加.
選択する アマゾンS3.
次のスクリーンショットに示すようにフィールドを指定します。
3 番目の結合ノードについては、同じ手順に従って Amazon SXNUMX を送信先として追加し、フィールドを指定します。

これらの手順は、データフローに必要な数のノードに対して必要な回数だけ繰り返すことができます。後で、処理ジョブに含める宛先ノードを選択します。

処理ジョブを起動する

次の手順を使用して処理ジョブを作成し、エクスポート先の宛先ノードを選択します。

ソフトウェア設定ページで、下図のように データフロー タブを選択 ジョブを作成.
職種名¸ エクスポートジョブの名前を入力します。
エクスポートする宛先ノードを選択します。
オプションで、 AWSキー管理サービス (AWS KMS) キー ARN。

KMS キーは、データを保護するために使用できる暗号化キーです。 KMS キーの詳細については、 AWS キー開発者ガイド.

選択する 次に、2.ジョブの設定.
必要に応じて、インスタンスのタイプや数を変更したり、ジョブに関連付けるタグを追加したりして、必要に応じてジョブを構成できます。
選択するランジョブを実行します。

ジョブが正常に作成されると、成功メッセージが表示されます。

最終データを見る

最後に、次の手順を使用して、エクスポートされたデータを表示できます。

ジョブを作成したら、提供されたリンクを選択します。

新しいタブが開き、SageMaker コンソールに処理中のジョブが表示されます。

ジョブが完了したら、エクスポートされたデータを Amazon S3 コンソールで確認します。

選択したジョブ名の新しいフォルダーが表示されます。

ジョブ名を選択して、最終データを含む CSV ファイル (または複数のファイル) を表示します。

よくある質問

このセクションでは、この新機能に関してよく寄せられる質問にお答えします。

[エクスポート] タブはどうなりましたか? この新機能により、輸出 Data Wrangler のタブ。次の手順で、データフローで作成した任意のノードから、Data Wrangler によって生成された Jupyter ノートブックを介してエクスポート機能を容易にすることができます。

1. エクスポートするノードの横にあるプラス記号を選択します。
2. 選択する輸出.
3. 選択する Amazon S3（Jupyter Notebook経由）.
4. Jupyter ノートブックを実行します。

ジョブにはいくつの宛先ノードを含めることができますか? 処理ジョブごとに最大 10 個の宛先があります。
フローファイルにはいくつの宛先ノードを含めることができますか? 必要な数の宛先ノードを持つことができます。
宛先ノードの後に変換を追加できますか? いいえ、目的のノードは、その後のステップがないターミナルノードです。
宛先ノードで使用できる、サポートされているソースは何ですか? この記事の執筆時点では、宛先ソースとして Amazon S3 のみをサポートしています。今後、より多くの宛先ソースタイプのサポートが追加される予定です。ご覧になりたい箇所がございましたらご連絡ください。

まとめ

この投稿では、新しく起動された送信先ノードを使用して処理ジョブを作成し、変換されたデータセットを Data Wrangler ビジュアルインターフェイスを介して直接 Amazon S3 に保存する方法を示しました。この追加機能により、Data Wrangler のツール主導のローコードエクスペリエンスが強化されました。

次のステップとして、この投稿で説明されている例を試すことをお勧めします。質問がある場合、または詳細を知りたい場合は、輸出またはコメント欄に質問を残してください。

著者について

アルフォンソ・オースチン・リベラ Amazon SageMaker Data Wrangler のフロントエンドエンジニアです。彼は、喜びを刺激する直感的なユーザーエクスペリエンスの構築に情熱を注いでいます。余暇には、ロッククライミングジムで重力と戦ったり、屋外でドローンを飛ばしたりしています。

パルサ・シャボダギ 機械学習と人工知能を専門とする AWS のテクニカルライターです。彼は、Amazon SageMaker Data Wrangler と Amazon SageMaker Feature Store の技術文書を書いています。余暇には、瞑想、オーディオブックの視聴、ウェイトリフティング、スタンダップコメディーの視聴を楽しんでいます。彼はスタンドアップコメディアンになることはありませんが、少なくとも彼の母親は彼が面白いと思っています。

バラジトゥマラ Amazon SageMaker のソフトウェア開発エンジニアです。彼は Amazon SageMaker Data Wrangler のサポートを支援し、パフォーマンスとスケーラブルなソフトウェアの構築に情熱を注いでいます。仕事以外では、フィクションを読んだり、バレーボールを楽しんだりしています。

アルンプラサト・シャンカール は、AWSの人工知能と機械学習（AI / ML）スペシャリストソリューションアーキテクトであり、世界中のお客様がクラウドでAIソリューションを効果的かつ効率的に拡張できるよう支援しています。余暇には、SF映画を見たり、クラシック音楽を聴いたりしています。

ソース: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

タイムスタンプ： 2022 年 2 月 2 日

より多くの AWS機械学習ブログ

タイムスタンプ： 2021 年 5 月 11 日

プラトン再発行

AmazonRekognitionカスタムラベルを使用したバッチ画像処理

Amazon Athena、Amazon Translate、およびAmazon ComprehendでSQL関数を使用して、テキストを翻訳および分析します。

Amazon Lookout forEquipmentを使用した音響異常の検出

AWS NetworkFirewallを使用したAmazonSageMakerStudioインターネットトラフィックの保護

Amazon Fraud Detectorを使用して、AIを使用してリアルタイムで偽のアカウントサインアップを防止します

Amazon Rekognition Custom Labels を使用してデータの注釈付けとモデルのトレーニングタスクを簡素化します

Amazon SageMaker StudioNotebooksでSparkを使用してインタラクティブなデータ処理を実行します

Amazon SageMaker Edge Managerを使用して、風力タービンのフリートで異常検出モデルを監視および管理します

SageMaker GroundTruthを使用して密な点群データに注釈を付ける

Amazon Transcribeの部分的な結果の安定化により、ストリーミング転写エクスペリエンスを向上させます

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー