Amazon SageMaker Data Wrangler を使用した JSON および ORC データの準備と分析

プラトン再発行

フォロワー： 0

AmazonSageMakerデータラングラーの新機能ですアマゾンセージメーカーこれにより、データサイエンティストやエンジニアは、視覚的なインターフェイスを介して機械学習 (ML) アプリケーション用のデータをより迅速に準備できます。データの準備は ML ライフサイクルの重要なステップです。Data Wrangler は、シームレスで視覚的なローコードエクスペリエンスで ML のデータをインポート、準備、変換、特徴付け、分析するためのエンドツーエンドのソリューションを提供します。次のような AWS コンポーネントに簡単かつ迅速に接続できます。 Amazon シンプルストレージサービス（Amazon S3）、アマゾンアテナ, Amazonレッドシフト, AWSレイクフォーメーション、および Snowflake などの外部ソース。 Data Wrangler は、CSV や Parquet などの標準データ型もサポートしています。

Data Wrangler は、Optimized Row Columnar を追加でサポートするようになりました (ORC)、JavaScript Object Notation (JSON)、および JSON Lines (JSONL) ファイル形式:

ORC – ORC ファイル形式は、Hive データを格納するための非常に効率的な方法を提供します。他の Hive ファイル形式の制限を克服するように設計されています。 ORC ファイルを使用すると、Hive がデータの読み取り、書き込み、および処理を行うときのパフォーマンスが向上します。 ORC は、Hadoop エコシステムで広く使用されています。
JSONの – JSON ファイル形式は、軽量で一般的に使用されるデータ交換形式です。
JSONL – JSON 行 (改行区切りの JSON とも呼ばれます) は、一度に XNUMX つのレコードを処理できる構造化データを格納するための便利な形式です。

データセットを Data Wrangler にインポートする前に、ORC、JSON、および JSONL データをプレビューできます。データをインポートした後、新しく起動されたトランスフォーマーの XNUMX つを使用して、ネストされた JSON で一般的に見られる JSON 文字列または配列を含む列を操作することもできます。

Data Wrangler で ORC データをインポートして分析する

Data Wrangler での ORC データのインポートは簡単で、サポートされている他の形式のファイルのインポートと同様です。 Amazon S3 および詳細ペインで、インポート中にファイルタイプとして ORC を選択します。

Data Wrangler を初めて使用する場合は、次を確認してください。データラングラーの使用を開始する。また、参照してくださいインポートさまざまなインポートオプションについて学習します。

Data Wrangler で JSON データをインポートして分析する

次に、Data Wrangler を使用して JSON 形式のファイルをインポートし、JSON 文字列または配列を含む列を操作してみましょう。また、ネストされた JSON を処理する方法も示します。 Data Wrangler では、Amazon S3 からの JSON ファイルのインポートはシームレスなプロセスです。これは、サポートされている他の形式のファイルをインポートする場合と似ています。ファイルをインポートしたら、次のスクリーンショットに示すように JSON ファイルをプレビューできます。でファイルタイプを JSON に設定してください。詳細ペイン。

次に、インポートされた JSON ファイルの構造化列に取り組みましょう。

JSON ファイルの構造化された列を処理するために、Data Wrangler は XNUMX つの新しい変換を導入しています。 構造化された列を平坦化 & 配列列を分解の下にあります。 構造化された列を処理する 内のオプション 変換を追加 ペイン。

適用することから始めましょう 配列列を分解 インポートしたデータの列の XNUMX つに変換します。変換を適用する前に、列を見ることができます topping を持つ JSON オブジェクトの配列です。 id & type キー。

変換を適用すると、結果として追加された新しい行を確認できます。配列の各要素は、結果の DataFrame の新しい行になります。

それでは、適用してみましょう 構造化された列を平坦化 で変換する topping_flattened の結果として作成された列 配列列を分解 前のステップで適用した変換。

変換を適用する前に、キーを確認できます id & type セクションに topping_flattened コラム。

変換を適用した後、キーを観察できるようになりました id & type 下 topping_flattened 列を新しい列として topping_flattened_id & topping_flattened_type、変換の結果として作成されます。コンマ区切りのキー名を入力して、特定のキーのみをフラット化するオプションもあります。 フラット化するキー. 空のままにすると、JSON 文字列または構造体内のすべてのキーがフラット化されます。

まとめ

この投稿では、Data Wrangler を使用して ORC および JSON のファイル形式を簡単にインポートする方法を示しました。また、JSON データの構造化された列を変換できるようにする、新しく開始された変換も適用しました。これにより、JSON 文字列または配列を含む列をシームレスに操作できます。

次のステップとして、デモの例を独自の Data Wrangler ビジュアルインターフェイスで複製することをお勧めします。 Data Wrangler に関するご質問がございましたら、お気軽にコメントセクションに残してください。

著者について

バラジトゥマラ Amazon SageMaker のソフトウェア開発エンジニアです。彼は Amazon SageMaker Data Wrangler のサポートを支援し、パフォーマンスとスケーラブルなソフトウェアの構築に情熱を注いでいます。仕事以外では、フィクションを読んだり、バレーボールを楽しんだりしています。

アルンプラサト・シャンカール は、AWSの人工知能と機械学習（AI / ML）スペシャリストソリューションアーキテクトであり、世界中のお客様がクラウドでAIソリューションを効果的かつ効率的に拡張できるよう支援しています。余暇には、SF映画を見たり、クラシック音楽を聴いたりしています。

ソース: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

タイムスタンプ： 2022 年 2 月 2 日

タイムスタンプ： 2021 年 5 月 14 日

プラトン再発行

Amazon SageMaker を使用してビデオ内のスポーツのハイライトを自動的に検出する

Amazon SageMaker Model Monitor を使用して、魅力的なレコードフィルタリング方法を設計する

Amazon SageMakerを使用して、タンパク質分類のためにProtBERTモデルを微調整してデプロイします

Amazon Transcribe と Amazon Comprehend を使用して高品質の会議メモを生成する

AWS MLコミュニティショーケース：2021年XNUMX月版

Amazon Textract、Amazon Comprehend、Amazon Kendra を連鎖させてメタデータによる検索を強化する

会話デザインへのアプローチ方法: Amazon Lex の使用を開始する (パート 2)

Amazon SageMaker DataWranglerとAmazonSageMaker Clarifyを使用して、信用リスクを予測するためのデータを準備します

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー