Amazon SageMakerDataWranglerを使用してJSONおよびORCデータを準備および分析します

ソースノード: 1600106

AmazonSageMakerデータラングラー の新機能です アマゾンセージメーカー これにより、データ サイエンティストやエンジニアは、視覚的なインターフェイスを介して機械学習 (ML) アプリケーション用のデータをより迅速に準備できます。 データの準備は ML ライフサイクルの重要なステップです。Data Wrangler は、シームレスで視覚的なローコード エクスペリエンスで ML のデータをインポート、準備、変換、特徴付け、分析するためのエンド ツー エンドのソリューションを提供します。 次のような AWS コンポーネントに簡単かつ迅速に接続できます。 Amazon シンプル ストレージ サービス (Amazon S3)、 アマゾンアテナ, Amazonレッドシフト, AWSレイクフォーメーション、および Snowflake などの外部ソース。 Data Wrangler は、CSV や Parquet などの標準データ型もサポートしています。

Data Wrangler は、Optimized Row Columnar を追加でサポートするようになりました (ORC)、JavaScript Object Notation (JSON)、および JSON Lines (JSONL) ファイル形式:

  • ORC – ORC ファイル形式は、Hive データを格納するための非常に効率的な方法を提供します。 他の Hive ファイル形式の制限を克服するように設計されています。 ORC ファイルを使用すると、Hive がデータの読み取り、書き込み、および処理を行うときのパフォーマンスが向上します。 ORC は、Hadoop エコシステムで広く使用されています。
  • JSONの – JSON ファイル形式は、軽量で一般的に使用されるデータ交換形式です。
  • JSONL – JSON 行 (改行区切りの JSON とも呼ばれます) は、一度に XNUMX つのレコードを処理できる構造化データを格納するための便利な形式です。

データセットを Data Wrangler にインポートする前に、ORC、JSON、および JSONL データをプレビューできます。 データをインポートした後、新しく起動されたトランスフォーマーの XNUMX つを使用して、ネストされた JSON で一般的に見られる JSON 文字列または配列を含む列を操作することもできます。

Data Wrangler で ORC データをインポートして分析する

Data Wrangler での ORC データのインポートは簡単で、サポートされている他の形式のファイルのインポートと同様です。 Amazon S3 および 詳細 ペインで、インポート中にファイル タイプとして ORC を選択します。

Data Wrangler を初めて使用する場合は、次を確認してください。 データラングラーの使用を開始する。 また、参照してください インポート さまざまなインポート オプションについて学習します。

Data Wrangler で JSON データをインポートして分析する

次に、Data Wrangler を使用して JSON 形式のファイルをインポートし、JSON 文字列または配列を含む列を操作してみましょう。 また、ネストされた JSON を処理する方法も示します。 Data Wrangler では、Amazon S3 からの JSON ファイルのインポートはシームレスなプロセスです。 これは、サポートされている他の形式のファイルをインポートする場合と似ています。 ファイルをインポートしたら、次のスクリーンショットに示すように JSON ファイルをプレビューできます。 でファイルタイプを JSON に設定してください。 詳細 ペイン。

次に、インポートされた JSON ファイルの構造化列に取り組みましょう。

JSON ファイルの構造化された列を処理するために、Data Wrangler は XNUMX つの新しい変換を導入しています。 構造化された列を平坦化 & 配列列を分解の下にあります。 構造化された列を処理する 内のオプション 変換を追加 ペイン。

適用することから始めましょう 配列列を分解 インポートしたデータの列の XNUMX つに変換します。 変換を適用する前に、列を見ることができます topping を持つ JSON オブジェクトの配列です。 id & type キー。

変換を適用すると、結果として追加された新しい行を確認できます。 配列の各要素は、結果の DataFrame の新しい行になります。

それでは、適用してみましょう 構造化された列を平坦化 で変換する topping_flattened の結果として作成された列 配列列を分解 前のステップで適用した変換。

変換を適用する前に、キーを確認できます id & type セクションに topping_flattened コラム。

変換を適用した後、キーを観察できるようになりました id & typetopping_flattened 列を新しい列として topping_flattened_id & topping_flattened_type、変換の結果として作成されます。 コンマ区切りのキー名を入力して、特定のキーのみをフラット化するオプションもあります。 フラット化するキー. 空のままにすると、JSON 文字列または構造体内のすべてのキーがフラット化されます。

まとめ

この投稿では、Data Wrangler を使用して ORC および JSON のファイル形式を簡単にインポートする方法を示しました。 また、JSON データの構造化された列を変換できるようにする、新しく開始された変換も適用しました。 これにより、JSON 文字列または配列を含む列をシームレスに操作できます。

次のステップとして、デモの例を独自の Data Wrangler ビジュアル インターフェイスで複製することをお勧めします。 Data Wrangler に関するご質問がございましたら、お気軽にコメント セクションに残してください。


著者について

バラジ トゥマラ Amazon SageMaker のソフトウェア開発エンジニアです。 彼は Amazon SageMaker Data Wrangler のサポートを支援し、パフォーマンスとスケーラブルなソフトウェアの構築に情熱を注いでいます。 仕事以外では、フィクションを読んだり、バレーボールを楽しんだりしています。

アルンプラサト・シャンカール は、AW​​Sの人工知能と機械学習(AI / ML)スペシャリストソリューションアーキテクトであり、世界中のお客様がクラウドでAIソリューションを効果的かつ効率的に拡張できるよう支援しています。 余暇には、SF映画を見たり、クラシック音楽を聴いたりしています。

ソース: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

タイムスタンプ:

より多くの AWS機械学習ブログ