AmazonSageMakerデータラングラー の新機能です アマゾンセージメーカー これにより、データ サイエンティストやエンジニアは、視覚的なインターフェイスを介して機械学習 (ML) アプリケーション用のデータをより迅速に準備できます。 データの準備は ML ライフサイクルの重要なステップです。Data Wrangler は、シームレスで視覚的なローコード エクスペリエンスで ML のデータをインポート、準備、変換、特徴付け、分析するためのエンド ツー エンドのソリューションを提供します。 次のような AWS コンポーネントに簡単かつ迅速に接続できます。 Amazon シンプル ストレージ サービス (Amazon S3)、 アマゾンアテナ, Amazonレッドシフト, AWSレイクフォーメーション、および Snowflake などの外部ソース。 Data Wrangler は、CSV や Parquet などの標準データ型もサポートしています。
Data Wrangler は、Optimized Row Columnar を追加でサポートするようになりました (ORC)、JavaScript Object Notation (JSON)、および JSON Lines (JSONL) ファイル形式:
- ORC – ORC ファイル形式は、Hive データを格納するための非常に効率的な方法を提供します。 他の Hive ファイル形式の制限を克服するように設計されています。 ORC ファイルを使用すると、Hive がデータの読み取り、書き込み、および処理を行うときのパフォーマンスが向上します。 ORC は、Hadoop エコシステムで広く使用されています。
- JSONの – JSON ファイル形式は、軽量で一般的に使用されるデータ交換形式です。
- JSONL – JSON 行 (改行区切りの JSON とも呼ばれます) は、一度に XNUMX つのレコードを処理できる構造化データを格納するための便利な形式です。
データセットを Data Wrangler にインポートする前に、ORC、JSON、および JSONL データをプレビューできます。 データをインポートした後、新しく起動されたトランスフォーマーの XNUMX つを使用して、ネストされた JSON で一般的に見られる JSON 文字列または配列を含む列を操作することもできます。
Data Wrangler で ORC データをインポートして分析する
Data Wrangler での ORC データのインポートは簡単で、サポートされている他の形式のファイルのインポートと同様です。 Amazon S3 および 詳細 ペインで、インポート中にファイル タイプとして ORC を選択します。
Data Wrangler を初めて使用する場合は、次を確認してください。 データラングラーの使用を開始する。 また、参照してください インポート さまざまなインポート オプションについて学習します。
Data Wrangler で JSON データをインポートして分析する
次に、Data Wrangler を使用して JSON 形式のファイルをインポートし、JSON 文字列または配列を含む列を操作してみましょう。 また、ネストされた JSON を処理する方法も示します。 Data Wrangler では、Amazon S3 からの JSON ファイルのインポートはシームレスなプロセスです。 これは、サポートされている他の形式のファイルをインポートする場合と似ています。 ファイルをインポートしたら、次のスクリーンショットに示すように JSON ファイルをプレビューできます。 でファイルタイプを JSON に設定してください。 詳細 ペイン。
次に、インポートされた JSON ファイルの構造化列に取り組みましょう。
JSON ファイルの構造化された列を処理するために、Data Wrangler は XNUMX つの新しい変換を導入しています。 構造化された列を平坦化 & 配列列を分解の下にあります。 構造化された列を処理する 内のオプション 変換を追加 ペイン。
適用することから始めましょう 配列列を分解 インポートしたデータの列の XNUMX つに変換します。 変換を適用する前に、列を見ることができます topping
を持つ JSON オブジェクトの配列です。 id
& type
キー。
変換を適用すると、結果として追加された新しい行を確認できます。 配列の各要素は、結果の DataFrame の新しい行になります。
それでは、適用してみましょう 構造化された列を平坦化 で変換する topping_flattened
の結果として作成された列 配列列を分解 前のステップで適用した変換。
変換を適用する前に、キーを確認できます id
& type
セクションに topping_flattened
コラム。
変換を適用した後、キーを観察できるようになりました id
& type
下 topping_flattened
列を新しい列として topping_flattened_id
& topping_flattened_type
、変換の結果として作成されます。 コンマ区切りのキー名を入力して、特定のキーのみをフラット化するオプションもあります。 フラット化するキー. 空のままにすると、JSON 文字列または構造体内のすべてのキーがフラット化されます。
まとめ
この投稿では、Data Wrangler を使用して ORC および JSON のファイル形式を簡単にインポートする方法を示しました。 また、JSON データの構造化された列を変換できるようにする、新しく開始された変換も適用しました。 これにより、JSON 文字列または配列を含む列をシームレスに操作できます。
次のステップとして、デモの例を独自の Data Wrangler ビジュアル インターフェイスで複製することをお勧めします。 Data Wrangler に関するご質問がございましたら、お気軽にコメント セクションに残してください。
著者について
バラジ トゥマラ Amazon SageMaker のソフトウェア開発エンジニアです。 彼は Amazon SageMaker Data Wrangler のサポートを支援し、パフォーマンスとスケーラブルなソフトウェアの構築に情熱を注いでいます。 仕事以外では、フィクションを読んだり、バレーボールを楽しんだりしています。
アルンプラサト・シャンカール は、AWSの人工知能と機械学習(AI / ML)スペシャリストソリューションアーキテクトであり、世界中のお客様がクラウドでAIソリューションを効果的かつ効率的に拡張できるよう支援しています。 余暇には、SF映画を見たり、クラシック音楽を聴いたりしています。
- '
- 100
- 私たちについて
- AI
- すべて
- Amazon
- アマゾンセージメーカー
- アパッチ
- 人工の
- 人工知能
- 人工知能と機械学習
- AWS
- 建物
- クラウド
- コラム
- Customers
- データ
- 取引
- 開発
- 間に
- 簡単に
- エコシステム
- エンジニア
- エンジニア
- 体験
- 速いです
- フィクション
- 形式でアーカイブしたプロジェクトを保存します.
- 発見
- 無料版
- グローバル
- Hadoopの
- ことができます
- 非常に
- ハイブ
- 認定条件
- How To
- HTTPS
- インポート
- インテリジェンス
- IT
- JavaScriptを
- キー
- キー
- LEARN
- 学習
- 耳を傾ける
- 機械学習
- ML
- 動画
- 音楽を聴く際のスピーカーとして
- 名
- オプション
- オプション
- その他
- パフォーマンス
- プレビュー
- プロセス
- は、大阪で
- リーディング
- 推奨する
- 記録
- レビュー
- セージメーカー
- ド電源のデ
- 規模
- 科学者たち
- シームレス
- セッションに
- 同様の
- 簡単な拡張で
- ソフトウェア
- ソフトウェア開発
- ソリューション
- start
- 開始
- ストレージ利用料
- 店舗
- サポート
- サポート
- サポート
- 時間
- 最適化の適用
- 変換
- us
- 広く
- 仕事
- ワーキング
- 書き込み