Amazon MWAA を使用して AWS Glue ジョブオーケストレーションとモニタリングを簡素化する

プラトン再発行

フォロワー： 0

あらゆる業界の組織には、さまざまな分析システムにわたる分析ユースケースのための複雑なデータ処理要件があります。 AWS 上のデータレイク、データウェアハウス (Amazonレッドシフト）、検索（AmazonOpenSearchサービス)、NoSQL (Amazon DynamoDB)、機械学習 (アマゾンセージメーカー）、もっと。分析専門家は、これらの分散システムに保存されているデータから価値を引き出し、顧客にとってより優れた、安全で、コストが最適化されたエクスペリエンスを生み出すという任務を負っています。たとえば、デジタルメディア企業は、顧客プロファイルの統一されたビューを構築し、革新的な機能のアイデアを刺激し、プラットフォームのエンゲージメントを高めるために、社内および社外のデータベースのデータセットを組み合わせて処理しようとしています。

これらのシナリオでは、サーバーレスデータ統合サービスを探している顧客は、 AWSグルーデータの処理とカタログ化のためのコアコンポーネントとして。 AWS Glue は AWS のサービスおよびパートナー製品と適切に統合されており、分析、機械学習 (ML)、またはアプリケーション開発ワークフローを可能にするローコード/ノーコードの抽出、変換、ロード (ETL) オプションを提供します。 AWS Glue ETL ジョブは、より複雑なパイプラインの XNUMX つのコンポーネントである場合があります。これらのコンポーネントの実行を調整し、コンポーネント間の依存関係を管理することは、データ戦略における重要な機能です。 Apache Airflow の Amazon 管理ワークフロー (Amazon MWAA) は、オンプレミスリソース、AWS サービス、サードパーティコンポーネントなどの分散テクノロジーを使用してデータパイプラインを調整します。

この投稿では、Amazon MWAA の最新機能を使用して、Airflow によって調整された AWS Glue ジョブのモニタリングを簡素化する方法を示します。

ソリューションの概要

この投稿では以下について説明します。

Amazon MWAA 環境をバージョン 2.4.3 にアップグレードする方法。
Airflow から AWS Glue ジョブをオーケストレートする方法有向無彩色グラフ (DAG)。
Amazon MWAA における Airflow Amazon プロバイダーパッケージの可観測性の強化。 AWS Glue ジョブの実行ログを Airflow コンソールに統合して、データパイプラインのトラブルシューティングを簡素化できるようになりました。 Amazon MWAA コンソールは、AWS Glue ジョブの実行を監視および分析するための単一の参照となります。以前は、サポートチームがアクセスする必要がありました。 AWSマネジメントコンソールこの可視化のために手動の手順を実行します。この機能は、Amazon MWAA バージョン 2.4.3 からデフォルトで利用可能になります。

次の図は、ソリューションアーキテクチャを示しています。

前提条件

次の前提条件が必要です。

Amazon MWAA 環境をセットアップする

環境の作成手順については、以下を参照してください。 AmazonMWAA環境を作成する。既存のユーザーの場合は、この投稿で取り上げた可観測性の強化を活用するために、バージョン 2.4.3 にアップグレードすることをお勧めします。

Amazon MWAA をバージョン 2.4.3 にアップグレードする手順は、現在のバージョンが 1.10.12 か 2.2.2 かによって異なります。この投稿では両方のオプションについて説明します。

Amazon MWAA 環境をセットアップするための前提条件

次の前提条件を満たす必要があります。

バージョン 1.10.12 から 2.4.3 へのアップグレード

Amazon MWAA バージョンを使用している場合 1.10.12、参照する新しい Amazon MWAA 環境への移行 2.4.3 にアップグレードします。

バージョン 2.0.2 または 2.2.2 から 2.4.3 へのアップグレード

Amazon MWAA 環境バージョン 2.2.2 以前を使用している場合は、次の手順を実行します。

作るカスタム依存関係については、requirements.txt DAG に必要な特定のバージョンを使用します。
ファイルを Amazon S3 にアップロードします Amazon MWAA 環境が依存関係をインストールするためのrequirements.txtを指す適切な場所にあります。
の手順に従ってください新しい Amazon MWAA 環境への移行をクリックしてバージョン 2.4.3 を選択します。

DAG を更新する

古い Amazon MWAA 環境からアップグレードしたお客様は、既存の DAG を更新する必要がある場合があります。 Airflow バージョン 2.4.3 では、Airflow 環境はデフォルトで Amazon プロバイダーパッケージバージョン 6.0.0 を使用します。このパッケージには、オペレーター名の変更など、破壊的な変更が含まれる可能性があります。たとえば、 AWSGlueジョブオペレーターは廃止され、次のものに置き換えられましたグルージョブオペレーター。互換性を維持するには、以前のバージョンの非推奨またはサポートされていない演算子を新しい演算子に置き換えて、Airflow DAG を更新します。次の手順を実行します。

MFAデバイスに移動するアマゾンAWSオペレーター.
Amazon MWAA インスタンスにインストールされている適切なバージョン (デフォルトでは 6.0.0) を選択して、サポートされている Airflow オペレーターのリストを見つけます。
既存の DAG コードに必要な変更を加え、変更したファイルを Amazon S3 の DAG の場所にアップロードします。

Airflow から AWS Glue ジョブを調整する

このセクションでは、Airflow DAG 内での AWS Glue ジョブのオーケストレーションの詳細について説明します。 Airflow は、オンプレミスのプロセス、外部依存関係、他の AWS サービスなどの異種システム間の依存関係を含むデータパイプラインの開発を容易にします。

AWS Glue と Amazon MWAA を使用して CloudTrail ログ集約を調整する

この例では、Amazon MWAA を使用して、CloudTrail ログに基づいて集約されたメトリクスを保持する AWS Glue Python Shell ジョブをオーケストレーションするユースケースを説明します。

CloudTrail を使用すると、AWS アカウントで行われる AWS API 呼び出しを可視化できます。このデータの一般的な使用例は、監査と規制のニーズのためにアカウントのリソースに作用するプリンシパルの使用状況メトリクスを収集することです。

CloudTrail イベントはログに記録されるため、Amazon S3 に JSON ファイルとして配信されますが、分析クエリには理想的ではありません。このデータを集約し、Parquet ファイルとして保存して、最適なクエリパフォーマンスを実現したいと考えています。最初のステップとして、AWS Glue ジョブで追加の集計を行う前に、Athena を使用してデータの初期クエリを実行できます。 AWS Glue データカタログテーブルの作成の詳細については、を参照してください。パーティションプロジェクションを使用した Athena での CloudTrail ログのテーブルの作成データ。 Athena 経由でデータを調査し、集計テーブルに保持するメトリクスを決定したら、AWS Glue ジョブを作成できます。

Athena で CloudTrail テーブルを作成する

まず、Athena 経由で CloudTrail データをクエリできるようにするテーブルをデータカタログに作成する必要があります。次のサンプルクエリは、リージョンと日付 (snapshot_date と呼ばれる) に関する XNUMX つのパーティションを持つテーブルを作成します。 CloudTrail バケット、AWS アカウント ID、および CloudTrail テーブル名のプレースホルダーを必ず置き換えてください。

create external table if not exists `<<<CLOUDTRAIL_TABLE_NAME>>>`( `eventversion` string comment 'from deserializer', `useridentity` struct<type:string,principalid:string,arn:string,accountid:string,invokedby:string,accesskeyid:string,username:string,sessioncontext:struct<attributes:struct<mfaauthenticated:string,creationdate:string>,sessionissuer:struct<type:string,principalid:string,arn:string,accountid:string,username:string>>> comment 'from deserializer', `eventtime` string comment 'from deserializer', `eventsource` string comment 'from deserializer', `eventname` string comment 'from deserializer', `awsregion` string comment 'from deserializer', `sourceipaddress` string comment 'from deserializer', `useragent` string comment 'from deserializer', `errorcode` string comment 'from deserializer', `errormessage` string comment 'from deserializer', `requestparameters` string comment 'from deserializer', `responseelements` string comment 'from deserializer', `additionaleventdata` string comment 'from deserializer', `requestid` string comment 'from deserializer', `eventid` string comment 'from deserializer', `resources` array<struct<arn:string,accountid:string,type:string>> comment 'from deserializer', `eventtype` string comment 'from deserializer', `apiversion` string comment 'from deserializer', `readonly` string comment 'from deserializer', `recipientaccountid` string comment 'from deserializer', `serviceeventdetails` string comment 'from deserializer', `sharedeventid` string comment 'from deserializer', `vpcendpointid` string comment 'from deserializer')
PARTITIONED BY ( `region` string, `snapshot_date` string)
ROW FORMAT SERDE 'com.amazon.emr.hive.serde.CloudTrailSerde' STORED AS INPUTFORMAT 'com.amazon.emr.cloudtrail.CloudTrailInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION 's3://<<<CLOUDTRAIL_BUCKET>>>/AWSLogs/<<<ACCOUNT_ID>>>/CloudTrail/'
TBLPROPERTIES ( 'projection.enabled'='true', 'projection.region.type'='enum', 'projection.region.values'='us-east-2,us-east-1,us-west-1,us-west-2,af-south-1,ap-east-1,ap-south-1,ap-northeast-3,ap-northeast-2,ap-southeast-1,ap-southeast-2,ap-northeast-1,ca-central-1,eu-central-1,eu-west-1,eu-west-2,eu-south-1,eu-west-3,eu-north-1,me-south-1,sa-east-1', 'projection.snapshot_date.format'='yyyy/mm/dd', 'projection.snapshot_date.interval'='1', 'projection.snapshot_date.interval.unit'='days', 'projection.snapshot_date.range'='2020/10/01,now', 'projection.snapshot_date.type'='date', 'storage.location.template'='s3://<<<CLOUDTRAIL_BUCKET>>>/AWSLogs/<<<ACCOUNT_ID>>>/CloudTrail/${region}/${snapshot_date}')

Athena コンソールで前述のクエリを実行し、テーブル名とテーブルが作成された AWS Glue データカタログデータベースをメモします。これらの値は、後の Airflow DAG コードで使用します。

サンプル AWS Glue ジョブコード

次のコードはサンプルです AWS Glue Python シェルジョブそれは次のことをします：

どの日のデータを処理するかについての引数 (Amazon MWAA DAG から渡します) を受け取ります
使用するパンダ用 AWS SDK Athena クエリを実行して、AWS Glue の外部で CloudTrail JSON データの初期フィルタリングを実行します。
Pandas を使用して、フィルタリングされたデータに対して単純な集計を実行します。
集約されたデータをテーブル内の AWS Glue データカタログに出力します。
処理中にログを使用します。これは Amazon MWAA で表示されます。

import awswrangler as wr
import pandas as pd
import sys
import logging
from awsglue.utils import getResolvedOptions
from datetime import datetime, timedelta # Logging setup, redirects all logs to stdout
LOGGER = logging.getLogger()
formatter = logging.Formatter('%(asctime)s.%(msecs)03d %(levelname)s %(module)s - %(funcName)s: %(message)s')
streamHandler = logging.StreamHandler(sys.stdout)
streamHandler.setFormatter(formatter)
LOGGER.addHandler(streamHandler)
LOGGER.setLevel(logging.INFO) LOGGER.info(f"Passed Args :: {sys.argv}") sql_query_template = """
select
region,
useridentity.arn,
eventsource,
eventname,
useragent from "{cloudtrail_glue_db}"."{cloudtrail_table}"
where snapshot_date='{process_date}'
and region in ('us-east-1','us-east-2') """ required_args = ['CLOUDTRAIL_GLUE_DB', 'CLOUDTRAIL_TABLE', 'TARGET_BUCKET', 'TARGET_DB', 'TARGET_TABLE', 'ACCOUNT_ID']
arg_keys = [*required_args, 'PROCESS_DATE'] if '--PROCESS_DATE' in sys.argv else required_args
JOB_ARGS = getResolvedOptions ( sys.argv, arg_keys) LOGGER.info(f"Parsed Args :: {JOB_ARGS}") # if process date was not passed as an argument, process yesterday's data
process_date = ( JOB_ARGS['PROCESS_DATE'] if JOB_ARGS.get('PROCESS_DATE','NONE') != "NONE" else (datetime.today() - timedelta(days=1)).strftime("%Y-%m-%d") ) LOGGER.info(f"Taking snapshot for :: {process_date}") RAW_CLOUDTRAIL_DB = JOB_ARGS['CLOUDTRAIL_GLUE_DB']
RAW_CLOUDTRAIL_TABLE = JOB_ARGS['CLOUDTRAIL_TABLE']
TARGET_BUCKET = JOB_ARGS['TARGET_BUCKET']
TARGET_DB = JOB_ARGS['TARGET_DB']
TARGET_TABLE = JOB_ARGS['TARGET_TABLE']
ACCOUNT_ID = JOB_ARGS['ACCOUNT_ID'] final_query = sql_query_template.format( process_date=process_date.replace("-","/"), cloudtrail_glue_db=RAW_CLOUDTRAIL_DB, cloudtrail_table=RAW_CLOUDTRAIL_TABLE
) LOGGER.info(f"Running Query :: {final_query}") raw_cloudtrail_df = wr.athena.read_sql_query( sql=final_query, database=RAW_CLOUDTRAIL_DB, ctas_approach=False, s3_output=f"s3://{TARGET_BUCKET}/athena-results",
) raw_cloudtrail_df['ct']=1 agg_df = raw_cloudtrail_df.groupby(['arn','region','eventsource','eventname','useragent'],as_index=False).agg({'ct':'sum'})
agg_df['snapshot_date']=process_date LOGGER.info(agg_df.info(verbose=True)) upload_path = f"s3://{TARGET_BUCKET}/{TARGET_DB}/{TARGET_TABLE}" if not agg_df.empty: LOGGER.info(f"Upload to {upload_path}") try: response = wr.s3.to_parquet( df=agg_df, path=upload_path, dataset=True, database=TARGET_DB, table=TARGET_TABLE, mode="overwrite_partitions", schema_evolution=True, partition_cols=["snapshot_date"], compression="snappy", index=False ) LOGGER.info(response) except Exception as exc: LOGGER.error("Uploading to S3 failed") LOGGER.exception(exc) raise exc
else: LOGGER.info(f"Dataframe was empty, nothing to upload to {upload_path}")

この AWS Glue ジョブの主な利点は次のとおりです。

Athena クエリを使用して、初期フィルタリングが AWS Glue ジョブの外部で確実に行われるようにします。そのため、最小限のコンピューティングを備えた Python シェルジョブでも、大規模な CloudTrail データセットを集約するには十分です。
私たちは、分析ライブラリセットオプション AWS SDK for Pandas ライブラリを使用するために AWS Glue ジョブを作成するときにオンになります。

AWS Glue ジョブを作成する

AWS Glue ジョブを作成するには、次の手順を実行します。

前のセクションのスクリプトをコピーし、ローカルファイルに保存します。この投稿では、ファイルの名前は次のとおりです。 script.py.
AWS Glue コンソールで、選択します ETL ジョブ ナビゲーションペインに表示されます。
新しいジョブを作成し、を選択します Python シェルスクリプトエディタ.
選択 既存のスクリプトをアップロードして編集する ローカルに保存したファイルをアップロードします。
選択する 創造する.

ソフトウェア設定ページで、下図のように 仕事の詳細 タブで、AWS Glue ジョブの名前を入力します。
IAMの役割、既存のロールを選択するか、Amazon S3、AWS Glue、Athena に必要なアクセス許可を持つ新しいロールを作成します。ロールは、前に作成した CloudTrail テーブルをクエリし、出力場所に書き込む必要があります。

次のサンプルポリシーコードを使用できます。プレースホルダーを、CloudTrail ログバケット、出力テーブル名、出力 AWS Glue データベース、出力 S3 バケット、CloudTrail テーブル名、CloudTrail テーブルを含む AWS Glue データベース、および AWS アカウント ID に置き換えます。

{ "Version": "2012-10-17", "Statement": [ { "Action": [ "s3:List*", "s3:Get*" ], "Resource": [ "arn:aws:s3:::<<<CLOUDTRAIL_LOGS_BUCKET>>>/*", "arn:aws:s3:::<<<CLOUDTRAIL_LOGS_BUCKET>>>*" ], "Effect": "Allow", "Sid": "GetS3CloudtrailData" }, { "Action": [ "glue:Get*", "glue:BatchGet*" ], "Resource": [ "arn:aws:glue:us-east-1:<<<YOUR_AWS_ACCT_ID>>>:catalog", "arn:aws:glue:us-east-1:<<<YOUR_AWS_ACCT_ID>>>:database/<<<GLUE_DB_WITH_CLOUDTRAIL_TABLE>>>", "arn:aws:glue:us-east-1:<<<YOUR_AWS_ACCT_ID>>>:table/<<<GLUE_DB_WITH_CLOUDTRAIL_TABLE>>>/<<<CLOUDTRAIL_TABLE>>>*" ], "Effect": "Allow", "Sid": "GetGlueCatalogCloudtrailData" }, { "Action": [ "s3:PutObject*", "s3:Abort*", "s3:DeleteObject*", "s3:GetObject*", "s3:GetBucket*", "s3:List*", "s3:Head*" ], "Resource": [ "arn:aws:s3:::<<<OUTPUT_S3_BUCKET>>>", "arn:aws:s3:::<<<OUTPUT_S3_BUCKET>>>/<<<OUTPUT_GLUE_DB>>>/<<<OUTPUT_TABLE_NAME>>>/*" ], "Effect": "Allow", "Sid": "WriteOutputToS3" }, { "Action": [ "glue:CreateTable", "glue:CreatePartition", "glue:UpdatePartition", "glue:UpdateTable", "glue:DeleteTable", "glue:DeletePartition", "glue:BatchCreatePartition", "glue:BatchDeletePartition", "glue:Get*", "glue:BatchGet*" ], "Resource": [ "arn:aws:glue:us-east-1:<<<YOUR_AWS_ACCT_ID>>>:catalog", "arn:aws:glue:us-east-1:<<<YOUR_AWS_ACCT_ID>>>:database/<<<OUTPUT_GLUE_DB>>>", "arn:aws:glue:us-east-1:<<<YOUR_AWS_ACCT_ID>>>:table/<<<OUTPUT_GLUE_DB>>>/<<<OUTPUT_TABLE_NAME>>>*" ], "Effect": "Allow", "Sid": "AllowOutputToGlue" }, { "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:PutLogEvents" ], "Resource": "arn:aws:logs:*:*:/aws-glue/*", "Effect": "Allow", "Sid": "LogsAccess" }, { "Action": [ "s3:GetObject*", "s3:GetBucket*", "s3:List*", "s3:DeleteObject*", "s3:PutObject", "s3:PutObjectLegalHold", "s3:PutObjectRetention", "s3:PutObjectTagging", "s3:PutObjectVersionTagging", "s3:Abort*" ], "Resource": [ "arn:aws:s3:::<<<ATHENA_RESULTS_BUCKET>>>", "arn:aws:s3:::<<<ATHENA_RESULTS_BUCKET>>>/*" ], "Effect": "Allow", "Sid": "AccessToAthenaResults" }, { "Action": [ "athena:StartQueryExecution", "athena:StopQueryExecution", "athena:GetDataCatalog", "athena:GetQueryResults", "athena:GetQueryExecution" ], "Resource": [ "arn:aws:glue:us-east-1:<<<YOUR_AWS_ACCT_ID>>>:catalog", "arn:aws:athena:us-east-1:<<<YOUR_AWS_ACCT_ID>>>:datacatalog/AwsDataCatalog", "arn:aws:athena:us-east-1:<<<YOUR_AWS_ACCT_ID>>>:workgroup/primary" ], "Effect": "Allow", "Sid": "AllowAthenaQuerying" } ]
}

Pythonバージョン、選択する Pythonの3.9.

選択 共通の分析ライブラリをロードする.
データ処理装置、選択する 1DPU.
他のオプションはデフォルトのままにするか、必要に応じて調整します。

選択する Save ジョブ設定を保存します。

AWS Glue ジョブをオーケストレートするように Amazon MWAA DAG を設定する

次のコードは、作成した AWS Glue ジョブをオーケストレートできる DAG 用です。この DAG では次の主要な機能を利用します。

"""Sample DAG"""
import airflow.utils
from airflow.providers.amazon.aws.operators.glue import GlueJobOperator
from airflow import DAG
from datetime import timedelta
import airflow.utils # allow backfills via DAG run parameters
process_date = '{{ dag_run.conf.get("process_date") if dag_run.conf.get("process_date") else "NONE" }}' dag = DAG( dag_id = "CLOUDTRAIL_LOGS_PROCESSING", default_args = { 'depends_on_past':False, 'start_date':airflow.utils.dates.days_ago(0), 'retries':1, 'retry_delay':timedelta(minutes=5), 'catchup': False }, schedule_interval = None, # None for unscheduled or a cron expression - E.G. "00 12 * * 2" - at 12noon Tuesday dagrun_timeout = timedelta(minutes=30), max_active_runs = 1, max_active_tasks = 1 # since there is only one task in our DAG
) ## Log ingest. Assumes Glue Job is already created
glue_ingestion_job = GlueJobOperator( task_id="<<<some-task-id>>>", job_name="<<<GLUE_JOB_NAME>>>", script_args={ "--ACCOUNT_ID":"<<<YOUR_AWS_ACCT_ID>>>", "--CLOUDTRAIL_GLUE_DB":"<<<GLUE_DB_WITH_CLOUDTRAIL_TABLE>>>", "--CLOUDTRAIL_TABLE":"<<<CLOUDTRAIL_TABLE>>>", "--TARGET_BUCKET": "<<<OUTPUT_S3_BUCKET>>>", "--TARGET_DB": "<<<OUTPUT_GLUE_DB>>>", # should already exist "--TARGET_TABLE": "<<<OUTPUT_TABLE_NAME>>>", "--PROCESS_DATE": process_date }, region_name="us-east-1", dag=dag, verbose=True
) glue_ingestion_job

Amazon MWAA での AWS Glue ジョブの可観測性を向上させる

AWS Glue ジョブはログを書き込みますアマゾンクラウドウォッチ。 Airflow の Amazon プロバイダーパッケージに対する最近の可観測性の強化により、これらのログは Airflow タスクログと統合されるようになりました。この統合により、Airflow ユーザーは Airflow UI で直接エンドツーエンドの可視性を得ることができ、CloudWatch や AWS Glue コンソールで検索する必要がなくなります。

この機能を使用するには、Amazon MWAA 環境にアタッチされている IAM ロールに、必要なログを取得して書き込むための次のアクセス許可があることを確認してください。

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:PutLogEvents", "logs:GetLogEvents", "logs:GetLogRecord", "logs:DescribeLogStreams", "logs:FilterLogEvents", "logs:GetLogGroupFields", "logs:GetQueryResults", ], "Resource": [ "arn:aws:logs:*:*:log-group:airflow-243-<<<Your environment name>>>-*"--Your Amazon MWAA Log Stream Name ] } ]
}

verbose=true の場合、AWS Glue ジョブの実行ログが Airflow タスクログに表示されます。デフォルトは false です。詳細については、以下を参照してください。計測パラメータ.

有効にすると、DAG は AWS Glue ジョブの CloudWatch ログストリームを読み取り、Airflow DAG AWS Glue ジョブステップログに中継します。これにより、DAG ログを介してリアルタイムで AWS Glue ジョブの実行に関する詳細な洞察が得られます。 AWS Glue ジョブは、ジョブの STDOUT と STDERR にそれぞれ基づいて出力とエラー CloudWatch ロググループを生成することに注意してください。出力ロググループ内のすべてのログと、エラーロググループからの例外ログまたはエラーログは、Amazon MWAA に中継されます。

AWS 管理者は、サポートチームのアクセスを Airflow のみに制限できるようになり、Amazon MWAA がジョブオーケストレーションとジョブの健全性管理の一元管理画面になります。以前は、ユーザーは Airflow DAG ステップで AWS Glue ジョブの実行ステータスを確認し、ジョブ実行識別子を取得する必要がありました。次に、AWS Glue コンソールにアクセスしてジョブの実行履歴を見つけ、識別子を使用して目的のジョブを検索し、最後にジョブの CloudWatch ログに移動してトラブルシューティングを行う必要がありました。

DAG を作成する

DAG を作成するには、次の手順を実行します。

前述の DAG コードをローカルの .py ファイルに保存し、指定されたプレースホルダーを置き換えます。

AWS アカウント ID、AWS Glue ジョブ名、CloudTrail テーブルを含む AWS Glue データベース、および CloudTrail テーブル名の値はすでにわかっている必要があります。必要に応じて、出力 S3 バケット、出力 AWS Glue データベース、出力テーブル名を調整できますが、以前に使用した AWS Glue ジョブの IAM ロールがそれに応じて設定されていることを確認してください。

Amazon MWAA コンソールで、環境に移動して、DAG コードが保存されている場所を確認します。

DAG フォルダーは、DAG ファイルを配置する S3 バケット内のプレフィックスです。

そこに編集したファイルをアップロードします。

Amazon MWAA コンソールを開いて、DAG がテーブルに表示されていることを確認します。

DAGを実行する

DAG を実行するには、次の手順を実行します。

次のオプションから選択します。
- DAGをトリガーする – これにより、処理するデータとして昨日のデータが使用されます
- 構成付きの DAG をトリガーする – このオプションを使用すると、バックフィル用に別の日付を渡すことができます。これは、次の方法で取得されます。 dag_run.conf DAG コード内でパラメータとして AWS Glue ジョブに渡されます。

次のスクリーンショットは、選択した場合の追加の構成オプションを示しています。 構成付きの DAG をトリガーする.

DAG の実行を監視します。
DAG が完了したら、実行の詳細を開きます。

右側のペインで、ログを表示するか、 タスクインスタンスの詳細 全体をご覧ください。

のおかげで、AWS Glue コンソールを使用せずに Amazon MWAA で AWS Glue ジョブ出力ログを表示できます。 GlueJobOperator 冗長なフラグ。

AWS Glue ジョブの結果は、指定した出力テーブルに書き込まれます。

Athena 経由でこのテーブルにクエリを実行して、成功したことを確認します。

まとめ

Amazon MWAA は、AWS Glue ジョブのステータスを追跡する単一の場所を提供し、ジョブオーケストレーションとヘルス管理のための単一画面として Airflow コンソールを使用できるようになりました。この投稿では、Airflow を使用して AWS Glue ジョブをオーケストレーションする手順を説明しました。 GlueJobOperator。新しい可観測性の強化により、統一されたエクスペリエンスで AWS Glue ジョブのトラブルシューティングをシームレスに行うことができます。また、Amazon MWAA 環境を互換性のあるバージョンにアップグレードし、依存関係を更新し、それに応じて IAM ロールポリシーを変更する方法も示しました。

一般的なトラブルシューティング手順の詳細については、次を参照してください。トラブルシューティング: Amazon MWAA 環境の作成と更新。 Amazon MWAA 環境への移行の詳細については、以下を参照してください。 1.10から2へのアップグレード。 Airflow Amazon プロバイダーパッケージの AWS Glue ジョブの可観測性を高めるためのオープンソースコードの変更については、以下を参照してください。 AWS Glue ジョブからのリレーログ.

最後に、次のサイトにアクセスすることをお勧めします。 AWS ビッグデータブログ AWS の分析、機械学習、データガバナンスに関するその他の資料については、こちらをご覧ください。

著者について

ルシャブ・ロカンデ は、AWS プロフェッショナルサービス分析プラクティスを担当するデータおよび ML エンジニアです。彼は、顧客がビッグデータ、機械学習、分析ソリューションを実装するのを支援しています。仕事以外では、家族と過ごしたり、読書、ランニング、ゴルフを楽しんでいます。

ライアン・ゴメス は、AWS プロフェッショナルサービス分析プラクティスを担当するデータおよび ML エンジニアです。彼は、クラウドでの分析および機械学習ソリューションを通じて、顧客がより良い成果を達成できるよう支援することに情熱を注いでいます。仕事以外では、フィットネス、料理、友人や家族と充実した時間を過ごすことを楽しんでいます。

ヴィシュワグプタ は、AWS プロフェッショナルサービス分析プラクティスのシニアデータアーキテクトです。彼は、顧客がビッグデータと分析ソリューションを実装するのを支援しています。仕事以外では、家族と時間を過ごしたり、旅行したり、新しい食べ物を試したりすることを楽しんでいます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
未来を鋳造する w エイドリエン・アシュリー。こちらからアクセスしてください。
PREIPO® を使用して PRE-IPO 企業の株式を売買します。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/big-data/simplify-aws-glue-job-orchestration-and-monitoring-with-amazon-mwaa/

タイムスタンプ： 2023 年 5 月 19 日

タイムスタンプ： 2023 年 5 月 1 日

プラトン再発行

Altron Group が最適化された顧客エンゲージメントのビジョンを加速するのに AWS がどのように役立ったか | アマゾンウェブサービス

データレイクで Apache Iceberg を使用して増分データ処理をサポートする

Amazon OpenSearch サーバーレスのネットワーク接続パターン | アマゾンウェブサービス

Amazon Redshift の多次元データレイアウトのソートキーを使用して、反復スキャンフィルターを含むワークロードのパフォーマンスを向上させる | アマゾンウェブサービス

Amazon QuickSight は、TalentReef が顧客により多くの情報に基づいた採用決定を行えるよう支援します

AWS Glue Data Quality、機密データ検出、AWS Lake Formation による自動データガバナンス | アマゾンウェブサービス

市場ダイナミクスの習得: 超正確なティック履歴によるトランザクションコスト分析の変革 – Apache Spark 用 PCAP と Amazon Athena |アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー