AWSのローカルでのETLパイプラインの開発とテスト

通常、ETLパイプラインの開発とテストは、セットアップに時間がかかり、メンテナンスが必要な実際の環境/クラスターで行われます。この記事では、DockerとLocalStackを使用して、ETLパイプラインをローカルで開発およびテストすることに焦点を当てています。このソリューションは、クラウド上にサービスをセットアップすることなく、ローカル環境でテストする柔軟性を提供します。

注釈

By サブハッシュ・スリーニバサチャー、Epsilonのソフトウェアエンジニアテクニカルリード

概要

AWSは、エンジニア、データサイエンティストがインフラストラクチャをセットアップする必要性を心配することなく、ソリューションの構築と問題解決に集中できるようにする上で極めて重要な役割を果たします。サーバーレスで従量課金制の価格設定により、AWSはその場でサービスを簡単に作成できます。

AWS Glueは、サーバーレスETLパイプラインを構築するためにデータエンジニアによって広く使用されています。 PySparkは、開発に使用される一般的な技術スタックのXNUMXつです。ただし、サービスが利用可能であるにもかかわらず、対処する必要のある特定の課題があります。

ETLスクリプト（PySpark）またはその他のサービスのいずれの場合でも、AWS環境でコードをデバッグすることは困難です。

AWSサービスの使用状況を継続的に監視することは、コスト要因を管理するための鍵です
AWSは、すべてのSparkライブラリがインストールされたDev Endpointを提供していますが、価格を考慮すると、大規模な開発チームでの使用には適していません。
AWSサービスのアクセシビリティは 限られました 特定のユーザー向け

ソリューション

AWSのソリューションは、アクセシビリティやコスト要因を気にすることなく、ローカル環境で開発、テストできます。この記事を通じて、XNUMXつの問題に取り組んでいます–

AWS開発エンドポイントを使用せずにローカルでPySparkコードをデバッグします。
ローカルでAWSサービスとやり取りする

どちらの問題も、Dockerイメージを使用することで解決できます。

まず、AWS環境でサーバーを使用する必要がなくなり、代わりに、マシンで実行されているDockerイメージがコードを実行する環境として機能します。

AWSは、PySparkスクリプトに使用できるサンドボックスイメージを提供します。 Dockerイメージは、PySparkコードを実行するようにセットアップできます。 https://aws.amazon.com/blogs/big-data/developing-aws-glue-etl-jobs-locally-using-a-container/

コードの実行にDockerマシンを使用できるため、ETLパイプラインの構築中にファイルを保存（読み取り/書き込み）するS3のようなサービスが必要です。

S3との相互作用は次のように置き換えることができますローカルスタックこれは、クラウドアプリケーションを開発するための使いやすいテスト/モックフレームワークを提供します。これは、実際のAWSクラウド環境と同じ機能とAPIを提供するローカルマシン上のテスト環境を起動します。

ヘッダ

これまでのところ、この記事では、ETLパイプラインの構築と利用可能なサービスの使用について説明しています。ただし、SNS、SQS、CloudFormation、Lambda関数などのAWSサービスを使用する場合は、同様のアプローチをあらゆるユースケースに適用できます。

アプローチ

Dockerコンテナをリモートインタプリタとして使用する
コンテナでPySparkセッションを実行します
LocalStackを使用してS3サービスをローカルでスピンアップする
PySparkコードを使用して、LocalStackで実行されているS3バケットからの読み取りと書き込みを行います

前提条件

以下のツールをマシンにインストールする必要があります

デッカー
PyCharm Professional / VisualStudioコード

Dockerイメージをダウンロードまたはプルします（Dockerプル）。
- libs：glue_libs_1.0.0_image_01
- localstack / localstack
Dockerコンテナーは、PyCharmプロフェッショナルバージョンでリモートインタープリターとして使用できます。

製品の導入

Dockerがインストールされ、イメージがローカルマシンにプルされた状態で、コンテナーを起動するための構成でPyCharmの設定を開始します。

docker-compose.ymlファイルを作成します

https://gist.github.com/subhash-sreenivasachar/526221a4ede6053b1d576e666db8ec87#file-docker-compose-yml

DockerFileを作成する

https://gist.github.com/subhash-sreenivasachar/526221a4ede6053b1d576e666db8ec87#file-dockerfile

インストールするパッケージを含む要件ファイルを使用する

https://gist.github.com/subhash-sreenivasachar/526221a4ede6053b1d576e666db8ec87#file-requirements-txt

Pythonリモートインタープリターをセットアップする
- docker-composeファイルを使用してPythonインタープリターをセットアップします。
- PyCharm DockerCompose設定で `glue-service`を選択します。
- Docker-composeファイルは、両方のイメージのコンテナーを作成して実行します
- LocalStackはデフォルトでポート4566で実行され、S3サービスが有効になっています