プラトン再発行

フォロワー： 0

Terraformを使用して5分で最新のデータスタックをブートストラップする

タグ：ビッグクエリー, クラウド, データウェアハウス, DBT, 最新のデータスタック

最新のデータスタックとは何ですか?どのようにデプロイするのですか? このガイドでは、Airbyte、BigQuery、dbt、Metabase、その他 Terraform を使用する必要なものすべてのセットアップ手順を説明し、この旅を始める動機になります。

注釈

By トゥアン・グエン、JoonSolutionsのCTOおよび取締役.

最新のデータスタックアーキテクチャ (著者による画像)。

私たちのアーキテクチャ

最新のデータスタックを使い始めるのは、さまざまなツールやプロセスが関与するため、気が遠くなるかもしれません。この記事は、この旅をできるだけスムーズに開始できるようにすることを目的としています。準備ステップはたくさんありますが、必要なのは五分完了したら、すべてのリソースを起動します。

使用します テラフォームは、Google Cloud ですべてをプロビジョニングするためのコードとしてのインフラストラクチャのオープンソースツールです。以下の手順に従うと、作成されるリソースは次のとおりです。

必要な API が有効になっている Google Cloud プロジェクト
取り込み: Airbyte を実行する GCE インスタンス
ウェアハウジング: BigQuery データセット
オーケストレーション (オプション): Airflow を実行する GCE インスタンス
BI とデータの検出: Metabase を実行する GCE インスタンス
さまざまなサービスのサービスアカウントとその IAM 権限バインディング

始める

Google Cloud アカウントを作成し、課金を有効にする

このプロジェクトの Terraform コードは、Google Cloud Platform と対話します。したがって、最初のステップは Google アカウントを作成することです。課金を有効にする。に注意してください 請求ID 請求ページでは次の形式で入力します。 ######-######-######。この値は次のステップで必要になります。

Google Cloud CLI をインストールする

指示に従って Google Cloud SDK をインストールしますこちらそれぞれの OS に合わせて。を手に入れた後、 gクラウド CLI がインストールされている場合は、ターミナルウィンドウで次のコマンドを実行し、指示に従います。これにより、Terraform は認証にデフォルトの資格情報を使用できるようになります。

gcloud authapplication-デフォルトのログイン

テラフォームのインストール

指示に従ってくださいこちら Terraform CLI をローカルにインストールします。その後次のコマンドを実行して、インストールを確認します。

テラフォーム -v

次のようなものが表示されます。

darwin_amd1.0.0 上の Terraform v64 + プロバイダー registry.terraform.io/bashicorp/google v3.71.0

このリポジトリをローカルでフォークまたはクローン作成する

また、ご購読はいつでも停止することが可能ですこのリポジトリをフォークする自分のアカウントにコピーするか、ローカルマシンにクローンを作成します。リポジトリのクローンを作成するには、次のコマンドを実行します。

git clone https://github.com/tuanchris/modern-data-stack cd modern-data-stack

作る terraform.tfvars file

作る terraform.tfvars 次の内容のファイル：

# 最初のステップの請求 ID billing_id = ######-######-###### # プロジェクトを配置するフォルダー ID # 使用する場合は空白のままにしてください個人アカウントfolder_id = "" # プロジェクトを配置する組織ID # 個人アカウントを使用する場合は空白のままにしておきます org_id = "" # 作成するプロジェクト project_id = ""

警告: これらは機密性の高い値とみなされます。このファイルをコミットしないでください。 *.tfstate ファイルをパブリックリポジトリにコピーします。

の値をカスタマイズします変数.tf

の変数 変数.tf リソースの構成に使用されます。

著者による画像。

変数を変更することで、さまざまなサービスに合わせてマシンタイプをカスタマイズできます。使用したくないサービスがある場合は、そのサービスをコメントアウトしてください。 gce.tf ファイルにソフトウェアを指定する必要があります。

ソースデータセットディクショナリに追加することで、ソースシステム用に異なるデータセットを作成することもできます。

最新のデータスタックの使用

さまざまなサービスのサービスアカウントを取得する

著者による画像。

Google では、サービスごとに異なるサービスアカウントを使用することを推奨しています。プロジェクトの terraform コードは、すでに使用されているさまざまなテクノロジに対してさまざまなアカウントを作成しました。特定のサービスのサービスアカウントを取得するには、次のコマンドを実行します。

terraform 出力 [service_name]_sa_key

これらすべてのアカウントのデフォルトの権限は、 役割/bigquery.admin。これをカスタマイズできます。 iam.tf ファイルにソフトウェアを指定する必要があります。

返された値は、base64 でエンコードされています。この値を JSON 形式に戻すには、次のコマンドを実行します。

echo "[前のコマンドの値]" | Base64 -d

JSON サービスアカウントを使用して、プロジェクトのリソースへのサービスアクセスを認証できます。

警告: このサービスアカウントを持つ誰もがプロジェクトにアクセスできます。

Airbyteでデータを取り込む

エアバイトは優れたオープンソースデータ統合ツールです。 Airbyte UI にアクセスするには、まず gcloud SSH コマンドを取得します。

著者による画像。

次のようなコマンドが表示されます。

gcloud beta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airbyte" --project "tf-airbyte-demo"

次に、Airbyte UI をローカルでポート転送するコマンドに以下を追加します。

-- -L 8000:ローカルホスト:8000 -L 8001:ローカルホスト:8001 -N -f

最終的なコマンドは次のようになります。

gcloud beta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airbyte" --project "tf-airbyte-demo" -- -L 8000:localhost:8000 -L 8001:localhost:8001 - N-f

注： GCP UI からコピーした後は、必ず改行文字を削除してください。

Airbyte インスタンスの起動が完了したら、ブラウザにアクセスしてアクセスできます。 localhost：8000。そうでない場合は、インスタンスのインストールが完了するまで XNUMX 分間待ちます。

著者による画像。

これで、ソースを統合し、 airbyte_sa_keyすぐにデータを BigQuery に保存できます。

Airbyte インストールには次の場所からアクセスできます。 /エアバイト/ VM 内で。

dbt によるデータのモデル化

DBT (データ構築ツール) は、SQL を使用した強力なオープンソースデータ変換ツールです。これにより、データアナリストは、これまでデータエンジニアが行っていた作業を実行できるようになります。また、データアナリストとデータエンジニアを組み合わせた、アナリティクスエンジニアと呼ばれるまったく新しいポジションの作成にも役立ちます。私のブログでポジションの詳細を読むことができますこちら.

著者による画像。

Airbyte、Airflow、Metabase とは異なり、dbt を実行するためにサーバーは必要ありません。にアクセスして、無料 (永久) 1 シートアカウントに登録できます。ウェブサイト.

Airflow でワークフローを調整する

エアフローは、Airbnb によって作成された実績のあるワークフローオーケストレーションツールです。最新のデータスタックを使用すれば、Airflow を頻繁に使用する必要がなくなると思います。ただし、カスタマイズが必要な場合には、Airflow が頼りになるツールになることがあります。

UI にアクセスするには、Airbyte で上記のセクションと同様の SSH コマンドを取得します。ポート転送には次のコマンドを使用します。

gcloud beta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airflow" --project "tf-airbyte-demo" -- -L 8080:localhost:8080 -N -f

これで、次の場所から Airflow インストールにアクセスできるようになります。 localhost：8080。デフォルトのユーザー名とパスワードは次のとおりです 管理人 & 管理人.

著者による画像。

エアフローのインストールには次の場所からアクセスできます。 /気流/ VM 内で。

メタベースでデータを視覚化する

メタベースは、オープンソースのデータ視覚化および検出ツールです。非常にユーザーフレンドリーで、簡単に始めることができます。

Metabase UI にアクセスするには、Airbyte で上記のセクションと同様の SSH コマンドを取得します。次に、次のコマンドをポート転送に使用します。

gcloud beta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-metabase" --project "tf-airbyte-demo" -- -L 3000:localhost:3000 -N -f

著者による画像。

クリーンアップ

不要なコストの発生を避けるために、このプロジェクトで作成されたリソースを必ず実行してクリーンアップしてください。

テラフォーム破壊

警告： これにより、プロジェクト内の永続化されたデータとリソースが削除されます。あるいは、未使用の GCE をオフにしてコストを節約することもできます。

元の。許可を得て転載。

バイオ： トゥアン・グエン Data as aService会社であるJoonSolutionsのCTOです。彼の専門的な経験は、データサイエンスチーム、分析インフラストラクチャ、および分析のユースケースの構築と管理を中心に展開しています。彼は、データ分析とクラウドコンピューティングへの情熱を組み合わせて、このデジタル時代のビジネスで競争力を維持できるようにするのが大好きです。彼は、天文学、読書、音楽、IoTなど、幅広い関心を持っています。

関連する

= 前の投稿

次の投稿 =>

過去30日間の人気記事

一番人気
6年のトップ2021データサイエンスオンラインコースデータサイエンティストとMLエンジニアは贅沢な従業員です Googleのリサーチディレクターからデータサイエンスを学ぶためのアドバイス GitHubCopilotオープンソースの代替案ディープラーニングの幾何学的基盤