Amazon Athena と Apache Iceberg を使用して、トランザクションデータレイクでのデータサイエンス機能エンジニアリングを加速する |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

アマゾンアテナは、データの分析を容易にするインタラクティブなクエリサービスです。 Amazon シンプルストレージサービス (Amazon S3) と、AWS、オンプレミス、または SQL または Python を使用する他のクラウドシステムに存在するデータソース。 Athena は、オープンソースの Trino および Presto エンジン、および Apache Spark フレームワークに基づいて構築されており、プロビジョニングや構成の作業は必要ありません。 Athena はサーバーレスであるため、管理するインフラストラクチャはなく、実行したクエリに対してのみ料金が発生します。

アパッチ氷山は、非常に大規模な分析データセット用のオープンテーブル形式です。ファイルの大規模なコレクションをテーブルとして管理し、レコードレベルの挿入、更新、削除、タイムトラベルクエリなどの最新の分析データレイク操作をサポートします。 Athena は、データに Apache Parquet 形式を使用する Apache Iceberg テーブルの読み取り、タイムトラベル、書き込み、DDL クエリをサポートしています。 AWSGlueデータカタログメタストア用。

機能エンジニアリング生データ (画像、テキストファイル、ビデオなど) を特定して変換し、欠落したデータを埋め戻し、XNUMX つ以上の意味のあるデータ要素を追加してコンテキストを提供し、機械学習 (ML) モデルがそこから学習できるようにするプロセスです。データのラベル付けは、予測、コンピュータービジョン、自然言語処理、音声認識などのさまざまなユースケースで必要です。

Athena の機能と組み合わせることで、Apache Iceberg は、データサイエンティストがデータセット全体をコピーまたは再作成することなく新しいデータ特徴を作成できる簡素化されたワークフローを提供します。他の特徴エンジニアリングサービスを使用せずに、Athena 上の標準 SQL を使用して特徴を作成できます。データサイエンティストは、データセットの準備とコピーに費やす時間を削減し、代わりにデータ特徴エンジニアリング、実験、大規模なデータ分析に集中できます。

この投稿では、Apache Iceberg オープンテーブル形式で Athena を使用する利点と、Athena によってデータサイエンティストの一般的な特徴エンジニアリングタスクがどのように簡素化されるかについて説明します。 Athena が既存のテーブルを Apache Iceberg 形式に変換し、データセットを再作成またはコピーせずに列の追加、列の削除、テーブル内のデータの変更を行う方法を示します。また、これらの機能を使用して Apache Iceberg テーブルに新しい機能を作成する方法を示します。

ソリューションの概要

データサイエンティストは一般に、大規模なデータセットを扱うことに慣れています。データセットは通常、JSON、CSV、ORC、またはアパッチパーケットフォーマット、または高速読み取りパフォーマンスを実現する同様の読み取りに最適化されたフォーマット。データサイエンティストは、新しいデータ特徴を作成し、そのようなデータ特徴を集約データや補助データでバックフィルすることがよくあります。従来、このタスクは、Apache Parquet 形式の基になるデータを含むビューをテーブルの上部に作成することによって実行され、そのような列やデータは実行時に追加されるか、追加の列を持つ新しいテーブルを作成することによって実行されていました。このワークフローは多くのユースケースに適していますが、実行時にデータを生成するか、データセットをコピーして変換する必要があるため、大規模なデータセットの場合は非効率的です。

アテナが導入しました ACID (原子性、一貫性、分離性、耐久性) トランザクション INSERT、UPDATE、DELETE、MERGE、およびタイムトラベル操作を追加する機能が構築されています。 Apache Iceberg テーブル。これらの機能により、データサイエンティストは、データセットのコピーや変換、ビューによる抽象化を気にせずに、新しいデータ特徴を作成したり、既存のデータ特徴を既存のデータセットにドロップしたりすることができます。データサイエンティストは、データセットのコピーや変換を回避して、特徴量エンジニアリングの作業に集中できます。

Athena Iceberg UPDATE オペレーションは、Apache Iceberg 位置削除ファイルと新しく更新された行を同じトランザクション内のデータファイルとして書き込みます。単一の UPDATE ステートメントを使用してレコードを修正できます。

Athena エンジンバージョン 3 のリリースにより、Apache Iceberg テーブルの機能が強化され、次のような操作がサポートされます。テーブルを選択として作成 (CTAS) Iceberg データのライフサイクル管理を合理化する MERGE コマンド。 CTAS を使用すると、Apache Paquet などの他の形式からテーブルを迅速かつ効率的に作成できます。合併する Iceberg テーブルの行を条件付きで更新、削除、または挿入します。単一のステートメントで、更新、削除、挿入のアクションを組み合わせることができます。

前提条件

Athena エンジンバージョン 3 を使用して Athena ワークグループをセットアップし、Apache Iceberg テーブルで CTAS および MERGE コマンドを使用します。 Athena ワークグループで既存の Athena エンジンをバージョン 3 にアップグレードするには、次の手順に従ってください。 Athena エンジンバージョン 3 にアップグレードして、クエリのパフォーマンスを向上させ、より多くの分析機能にアクセスしますまたはを参照してください Athena コンソールでのエンジンのバージョンの変更.

データセット

デモンストレーションのために、S3 バケットに保存された過去数年間のランダムに分散された架空の販売データの数百万レコードを含む Apache Parquet テーブルを使用します。ダウンロードデータセットをローカルコンピューターに解凍し、S3 バケットにアップロードします。この投稿では、データセットを次の場所にアップロードしました s3://sample-iceberg-datasets-xxxxxxxxxxx/sampledb/orders_and_customers/.

次の表は、テーブルのレイアウトを示しています。 customer_orders.

列名	データ型	Description
オーダーキー	文字列	注文の注文番号
保管キー	文字列	顧客識別番号
注文の状況	文字列	注文のステータス
合計金額	文字列	注文の合計金額
注文日	文字列	注文日
注文優先	文字列	注文の優先順位
店員	文字列	注文を処理した店員の名前
配送優先度	文字列	発送優先です
名	文字列	顧客名
住所	文字列	お客様の住所
国家キー	文字列	顧客の国キー
電話	文字列	お客様の電話番号
アクトバル	文字列	お客様の口座残高
mktsegment	文字列	顧客市場セグメント

特徴エンジニアリングを実行する

データサイエンティストとして、私たちは次のことを実行したいと考えています。特徴エンジニアリング既存のデータセット内の各顧客について計算された XNUMX 年間の合計購入額と XNUMX 年間の平均購入額を加算することにより、顧客注文データに基づいて計算します。デモンストレーションの目的で、 customer_orders のテーブル sampledb 次の DDL コマンドに示すように、Athena を使用してデータベースを作成します。 (既存のデータセットのいずれかを使用して、この投稿で説明されている手順に従うことができます。) customer_orders データセットが生成され、S3 バケットの場所に保存されました s3://sample-iceberg-datasets-xxxxxxxxxxx/sampledb/orders_and_customers/ 寄木細工の形式で。このテーブルは Apache Iceberg テーブルではありません。

CREATE EXTERNAL TABLE sampledb.customer_orders( `orderkey` string, `custkey` string, `orderstatus` string, `totalprice` string, `orderdate` string, `orderpriority` string, `clerk` string, `shippriority` string, `name` string, `address` string, `nationkey` string, `phone` string, `acctbal` string, `mktsegment` string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION 's3://sample-iceberg-datasets-xxxxxxxxxxx/sampledb/orders_and_customers/'
TBLPROPERTIES ( 'classification'='parquet');

クエリを実行してテーブル内のデータを検証します。

SELECT * from sampledb.customer_orders limit 10;

このテーブルに新しい機能を追加して、顧客の販売をより深く理解できるようにしたいと考えています。これにより、モデルのトレーニングが迅速化され、より貴重な洞察が得られるようになります。データセットに新しい特徴を追加するには、 customer_orders Athena テーブルから Athena 上の Apache Iceberg テーブルへ。発行A CTAS クエリステートメントを使用して、Apache Iceberg 形式で新しいテーブルを作成します。 customer_orders テーブル。その際、各顧客の過去 XNUMX 年間 (データセットの最大年) の合計購入金額を取得する新しい機能が追加されます。

次の CTAS クエリでは、という名前の新しい列が追加されます。 one_year_sales_aggregate デフォルト値として 0.0 データ型の double が追加され、 table_type に設定されています ICEBERG:

CREATE TABLE sampledb.customers_orders_aggregate
WITH (table_type = 'ICEBERG', format = 'PARQUET', location = 's3://sample-iceberg-datasets-xxxxxxxxxxxx/sampledb/customer_orders_aggregate', is_external = false ) AS SELECT orderkey,
custkey,
orderstatus,
totalprice,
orderdate, orderpriority, clerk, shippriority, name, address, nationkey, phone, acctbal, mktsegment,
0.0 as one_year_sales_aggregate
from sampledb.customer_orders;

次のクエリを発行して、Apache Iceberg テーブルのデータと新しい列を確認します。 one_year_sales_aggregate としての値 0.0:

SELECT custkey, totalprice, one_year_sales_aggregate from sampledb.customers_orders_aggregate limit 10;

新しい機能の値を入力したいと考えています one_year_sales_aggregate データセット内でデータを取得し、過去 XNUMX 年間 (データセットの最大年) の購入に基づいて各顧客の合計購入金額を取得します。 Athena を使用して Apache Iceberg テーブルに MERGE クエリステートメントを発行し、 one_year_sales_aggregate 機能：

MERGE INTO sampledb.customers_orders_aggregate coa USING (select custkey, date_format(CAST(orderdate as date), '%Y ') as orderdate, sum(CAST(totalprice as double)) as one_year_sales_aggregate FROM sampledb.customers_orders_aggregate o where date_format(CAST(o.orderdate as date), '%Y ') = (select date_format(max(CAST(orderdate as date)), '%Y ') from sampledb.customers_orders_aggregate) group by custkey, date_format(CAST(orderdate as date), '%Y ')) sales_one_year_agg ON (coa.custkey = sales_one_year_agg.custkey) WHEN MATCHED THEN UPDATE SET one_year_sales_aggregate = sales_one_year_agg.one_year_sales_aggregate;

次のクエリを発行して、過去 XNUMX 年間の各顧客の合計支出の更新値を検証します。

SELECT custkey, totalprice, one_year_sales_aggregate
from sampledb.customers_orders_aggregate limit 10;

各顧客による過去 XNUMX 年間の平均購入金額を計算して保存するために、既存の Apache Iceberg テーブルに別の機能を追加することにしました。 ALTER クエリステートメントを発行して、機能の既存のテーブルに新しい列を追加します。 one_year_sales_average:

ALTER TABLE sampledb.customers_orders_aggregate
ADD COLUMNS (one_year_sales_average double);

この新しい機能に値を設定する前に、機能のデフォルト値を設定できます。 one_year_sales_average 〜へ 0.0。 Athena で同じ Apache Iceberg テーブルを使用して、UPDATE クエリステートメントを発行して、新機能の値を次のように設定します。 0.0:

UPDATE sampledb.customers_orders_aggregate
SET one_year_sales_average = 0.0;

次のクエリを発行して、過去 XNUMX 年間の各顧客の平均支出の更新値が次のように設定されていることを確認します。 0.0:

SELECT custkey, orderdate, totalprice, one_year_sales_aggregate, one_year_sales_average from sampledb.customers_orders_aggregate limit 10;

次に、新しい機能の値を入力します。 one_year_sales_average データセット内でデータを取得し、過去 XNUMX 年間 (データセットの最大年) の購入に基づいて各顧客の平均購入金額を取得します。 Athena エンジンを使用して Athena 上の既存の Apache Iceberg テーブルに MERGE クエリステートメントを発行し、機能の値を設定します。 one_year_sales_average:

MERGE INTO sampledb.customers_orders_aggregate coa USING (select custkey, date_format(CAST(orderdate as date), '%Y') as orderdate, avg(CAST(totalprice as double)) as one_year_sales_average FROM sampledb.customers_orders_aggregate o where date_format(CAST(o.orderdate as date), '%Y') = (select date_format(max(CAST(orderdate as date)), '%Y') from sampledb.customers_orders_aggregate) group by custkey, date_format(CAST(orderdate as date), '%Y')) sales_one_year_avg ON (coa.custkey = sales_one_year_avg.custkey) WHEN MATCHED THEN UPDATE SET one_year_sales_average = sales_one_year_avg.one_year_sales_average;

次のクエリを発行して、各顧客の平均支出の更新された値を確認します。

SELECT custkey, orderdate, totalprice, one_year_sales_aggregate, one_year_sales_average from sampledb.customers_orders_aggregate limit 10;

追加のデータ特徴がデータセットに追加されると、データサイエンティストは通常、Amazon Sagemaker または同等のツールセットを使用して ML モデルのトレーニングと推論を行います。

まとめ

この投稿では、Athena と Apache Iceberg を使用して特徴量エンジニアリングを実行する方法を説明しました。また、CTAS クエリを使用して Apache Parquet 形式の既存のデータセットから Athena 上に Apache Iceberg テーブルを作成すること、ALTER クエリを使用して Athena 上の既存の Apache Iceberg テーブルに新機能を追加すること、UPDATE および MERGE クエリステートメントを使用して既存の列の特徴値。

CTAS クエリを使用してテーブルを迅速かつ効率的に作成し、MERGE クエリステートメントを使用して XNUMX ステップでテーブルを同期し、Athena と Apache Iceberg を使用して機能を変換する際のデータの準備と更新タスクを簡素化することをお勧めします。コメントやフィードバックがある場合は、コメントセクションに残してください。

著者について

ヴィヴェーク・ゴータム は、AWS プロフェッショナルサービスでデータレイクを専門とするデータアーキテクトです。彼は、AWS 上でデータ製品、分析プラットフォーム、ソリューションを構築する企業顧客と協力しています。最新のデータプラットフォームを構築および設計していないときは、Vivek はグルメ愛好家であり、新しい旅行先を探索したり、ハイキングに出かけたりすることも好きです。

ミハイル・ヴェインシュタイン アマゾンウェブサービスのソリューションアーキテクトです。 Mikhail は、ヘルスケアおよびライフサイエンスの顧客と協力して、患者の転帰を改善するソリューションを構築しています。 Mikhail は、データ分析サービスを専門としています。

ナレシュゴータム AWS のデータ分析および AI/ML のリーダーであり、20 年の経験があります。顧客が高可用性、高パフォーマンス、および費用対効果の高いデータ分析および AI/ML ソリューションを設計して、データ主導の意思決定で顧客を支援することを楽しんでいます。 . 余暇には、瞑想と料理を楽しんでいます。

ハルシャ・タディパルティ は、AWS の分析担当プリンシパルソリューションアーキテクトのスペシャリストです。彼は、データベースと分析における複雑な顧客の問題を解決し、成功を収めることを楽しんでいます。仕事以外では、可能な限り家族と過ごしたり、映画を見たり、旅行したりするのが大好きです。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
EVMファイナンス。分散型金融のための統一インターフェイス。こちらからアクセスしてください。
クォンタムメディアグループ。 IR/PR増幅。こちらからアクセスしてください。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/big-data/accelerate-data-science-feature-engineering-on-transactional-data-lakes-using-amazon-athena-with-apache-iceberg/

タイムスタンプ： 2023 年 6 月 20 日

タイムスタンプ： 2023 年 11 月 29 日

Amazon Athena と Apache Iceberg を使用して、トランザクションデータレイクでのデータサイエンス機能エンジニアリングを加速する | アマゾンウェブサービス

プラトン再発行

ソリューションの概要

前提条件

データセット

特徴エンジニアリングを実行する

まとめ

著者について

より多くの AWSビッグデータ

Grafana を使用して Amazon Redshift のデータベース権限を視覚化する

Amazon S3 データレイク上に構築された Apache Iceberg テーブルの運用効率を向上 | アマゾンウェブサービス

AWS Glue クローラーによる Apache Hudi サポートの導入 | アマゾンウェブサービス

起動スクリプトの Amazon MWAA サポートの新機能 | アマゾンウェブサービス

Amazon OpenSearch Service のクラスターマネージャータスクスロットルによる復元力の向上 | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー