Amazon MSK Connect と AWS Glue Schema Registry を使用してエンドツーエンドの変更データキャプチャを構築する

プラトン再発行

フォロワー： 0

データの値は時間に敏感です。リアルタイム処理により、データ主導の意思決定が正確になり、数時間または数日ではなく数秒または数分で実行可能になります。変更データキャプチャ (CDC) は、データベース内のデータに加えられた変更を特定してキャプチャし、それらの変更をリアルタイムでダウンストリームシステムに配信するプロセスを指します。ソースデータベースのトランザクションからすべての変更を取得し、それらをリアルタイムでターゲットに移動することで、システムの同期が維持され、リアルタイム分析のユースケースとゼロダウンタイムのデータベース移行に役立ちます。以下は、CDC のいくつかの利点です。

ターゲットリポジトリへのデータ変更のインクリメンタルロードまたはリアルタイムストリーミングを有効にすることで、一括ロード更新や不便なバッチウィンドウの必要性がなくなります。
複数のシステムのデータが同期されていることを保証します。これは、高速データ環境で時間に敏感な意思決定を行う場合に特に重要です。

カフカコネクト Apache Kafka のオープンソースコンポーネントであり、データベース、キー値ストア、検索インデックス、およびファイルシステム間の単純なデータ統合のための集中型データハブとして機能します。の AWSGlueスキーマレジストリデータストリームスキーマを一元的に検出、制御、展開できます。 Kafka Connect と Schema Registry を統合して、コネクタからスキーマ情報を取得します。 Kafka Connect は、Kafka Connect で使用される内部データ型から Avro、Protobuf、または JSON スキーマとして表されるデータ型にデータを変換するメカニズムを提供します。 AvroConverter、ProtobufConverter、および JsonSchemaConverter は、データを Kafka に生成する Kafka コネクタ (ソース) によって生成されたスキーマを自動的に登録します。 Kafka からのデータを使用するコネクタ (シンク) は、各メッセージのデータに加えてスキーマ情報を受け取ります。これにより、シンクコネクタはデータの構造を認識して、データカタログ内のデータベーステーブルスキーマを維持するなどの機能を提供できます。

この投稿では、次を使用してエンドツーエンドの CDC を構築する方法を示しています。アマゾンMSKコネクトは、Kafka Connect アプリケーションと AWS Glue Schema Registry をデプロイして実行する AWS マネージドサービスであり、データストリームスキーマを一元的に検出、制御、進化させることができます。

ソリューションの概要

プロデューサー側では、この例では MySQL 互換のアマゾンオーロラデータベースをデータソースとして使用し、デベジウム CDC を実行するための MySQL コネクタ。 Debezium コネクタはデータベースを継続的に監視し、行レベルの変更を Kafka トピックにプッシュします。コネクターは、データベースからスキーマをフェッチして、レコードをバイナリー形式にシリアライズします。スキーマがまだレジストリに存在しない場合は、スキーマが登録されます。スキーマは存在するが、シリアライザーが新しいバージョンを使用している場合、スキーマレジストリは互換モードスキーマを更新する前のスキーマの。このソリューションでは、 下位互換モード. 新しいバージョンのスキーマに下位互換性がない場合、スキーマレジストリはエラーを返します。Kafka Connect を構成して、互換性のないメッセージを配信不能キューに送信できます。

消費者側では、 Amazon シンプルストレージサービス (Amazon S3) シンクコネクタ。レコードを逆シリアル化し、変更を Amazon S3 に保存します。 MSK Connect を使用して、Debezium コネクタと Amazon S3 シンクを構築してデプロイします。

スキーマの例

この投稿では、次のスキーマをテーブルの最初のバージョンとして使用します。

{ “Database Name”: “sampledatabase”, “Table Name”: “movies”, “Fields”: [ { “name”: “movie_id”, “type”: “INTEGER” }, { “name”: “title”, “type”: “STRING” }, { “name”: “release_year”, “type”: “INTEGER” } ] }

前提条件

MSK プロデューサーおよびコンシューマーコネクタを構成する前に、まずデータソース、MSK クラスター、および新しいスキーマレジストリをセットアップする必要があります。私たちは提供します AWS CloudFormation テンプレートを使用して、ソリューションに必要なサポートリソースを生成します。

データソースとしての MySQL 互換の Aurora データベース。 CDC を実行するには、バイナリログを有効にします。 DB クラスターパラメータグループ.
MSK クラスター。ネットワーク接続を簡素化するために、Aurora データベースと MSK クラスターに同じ VPC を使用します。
メッセージキーとメッセージ値のスキーマを処理する XNUMX つのスキーマレジストリ。
データシンクとして 3 つの SXNUMX バケット。
このデモに必要な MSK Connect プラグインとワーカー構成。
1 アマゾンエラスティックコンピューティングクラウドデータベースコマンドを実行する (Amazon EC2) インスタンス。

AWS アカウントでリソースをセットアップするには、Amazon MSK、MSK Connect、および AWS Glue Schema Registry をサポートする AWS リージョンで次の手順を完了します。

選択する 発射スタック:
選択する Next.
スタック名、適切な名前を入力します。
データベースのパスワードで、データベースユーザーに必要なパスワードを入力します。
その他の値はデフォルトのままにします。
選択する Next.
次のページで、 Next.
最後のページで詳細を確認し、選択します AWS CloudFormationがIAMリソースを作成する可能性があることを認めます.
選択する スタックを作成.

ソースコネクタと宛先コネクタのカスタムプラグイン

カスタムプラグインは、XNUMX つ以上のコネクタ、変換、またはコンバータの実装を含む一連の JAR ファイルです。 Amazon MSK は、コネクタが実行されている MSK Connect クラスターのワーカーにプラグインをインストールします。このデモの一部として、ソースコネクタにはオープンソースを使用します Debezium MySQL コネクタ JAR、宛先コネクタには、認可された Confluent コミュニティを使用します Amazon S3 シンクコネクタ JAR. 両方のプラグインには、次のライブラリも追加されています。 Avro シリアライザーとデシリアライザー AWS Glue スキーマレジストリの。これらのカスタムプラグインは、前のステップでデプロイされた CloudFormation テンプレートの一部として既に作成されています。

MSK Connect の Debezium コネクタで AWS Glue Schema Registry を MSK プロデューサーとして使用する

まず、Debezium MySQL プラグインを使用してソースコネクタを展開し、 AmazonAuroraMySQL-互換性のあるエディションデータベースを Amazon MSK に。次の手順を完了します。

Amazon MSK コンソールのナビゲーションペインで、 MSKコネクト、選択する コネクタ.
選択する コネクタを作成する.
選択する 既存のカスタムプラグインを使用 次に、名前が始まるカスタムプラグインを選択します msk-blog-debezium-source-plugin.
選択する Next.
のような適切な名前を入力します debezium-mysql-connector およびオプションの説明。
Apache Kafka クラスター、選択する MSK クラスター CloudFormation テンプレートによって作成されたクラスターを選択します。
In コネクタ構成、デフォルト値を削除し、次の構成キーと値のペアを適切な値とともに使用します。
- 名 – コネクタに使用される名前。
- データベース.ホスト名 – CloudFormation の出力 データベースエンドポイント.
- database.user および database.password – CloudFormation テンプレートで渡されるパラメーター。
- データベース.ヒストリー.kafka.ブートストラップ.サーバー – CloudFormation の出力 カフカブートストラップ.
- key.converter.region と value.converter.region – あなたの地域。

name=<Connector-name>
connector.class=io.debezium.connector.mysql.MySqlConnector
database.hostname=<DBHOST>
database.port=3306
database.user=<DBUSER>
database.password=<DBPASSWORD>
database.server.id=42
database.server.name=db1
table.whitelist=sampledatabase.movies
database.history.kafka.bootstrap.servers=<MSK-BOOTSTRAP>
database.history.kafka.topic=dbhistory.demo1
key.converter=com.amazonaws.services.schemaregistry.kafkaconnect.AWSKafkaAvroConverter
value.converter=com.amazonaws.services.schemaregistry.kafkaconnect.AWSKafkaAvroConverter
key.converter.region=<REGION>
value.converter.region=<REGION>
key.converter.registry.name=msk-connect-blog-keys
value.converter.registry.name=msk-connect-blog-values
key.converter.compatibility=FORWARD
value.converter.compatibility=FORWARD
key.converter.schemaAutoRegistrationEnabled=true
value.converter.schemaAutoRegistrationEnabled=true
transforms=unwrap
transforms.unwrap.type=io.debezium.transforms.ExtractNewRecordState
transforms.unwrap.drop.tombstones=false
transforms.unwrap.delete.handling.mode=rewrite
transforms.unwrap.add.fields=op,source.ts_ms
tasks.max=1

これらの設定の一部は一般的なものであり、すべてのコネクタに対して指定する必要があります。例えば：

connector.class は、コネクタの Java クラスです。
tasks.max は、このコネクタ用に作成するタスクの最大数です

いくつかの設定 (database.*, transforms.*) は、Debezium MySQL コネクタに固有のものです。参照する Debezium MySQL ソースコネクタの構成プロパティ。

いくつかの設定 (key.converter.* & value.converter.*) スキーマレジストリに固有のものです。私たちは、 AWSKafkaAvroConverter AWS Glue スキーマレジストリライブラリフォーマットコンバーターとして。構成するには AWSKafkaAvroConverter、文字列定数プロパティの値を使用します AWSSchemaRegistryConstants クラス：

key.converter & value.converter ソースコネクタ用に Kafka に書き込まれる、またはシンクコネクタ用に Kafka から読み取られるデータの形式を制御します。を使用しております AWSKafkaAvroConverter アブロフォーマット用。
key.converter.registry.name & value.converter.registry.name 使用するスキーマレジストリを定義します。
key.converter.compatibility & value.converter.compatibility 互換性モデルを定義します。

参照する AWS Glue Schema Registry で Kafka Connect を使用する。

次に、構成します コネクタ容量. 私たちは選ぶことができます Provisioned 他のプロパティをデフォルトのままにします
ワーカー構成、名前で始まるカスタムワーカー構成を選択します msk-gsr-blog CloudFormation テンプレートの一部として作成されます。
アクセス許可には、Live モジュールで提供された AWS IDおよびアクセス管理 CloudFormation テンプレートによって生成された (IAM) ロール MSKConnectRole.
選択する Next.
セキュリティで、デフォルトを選択します。
選択する Next.
ログ配信選択 Amazon CloudWatch Logs に配信する CloudFormation テンプレートによって作成されたロググループを参照します (msk-connector-logs).
選択する Next.
設定を確認して選択します コネクタを作成する.

数分後、コネクタは実行中の状態に変わります。

MSK コンシューマとして MSK Connect で実行されている Confluent S3 シンクコネクタで AWS Glue Schema Registry を使用する

Confluent S3 シンクプラグインを使用してシンクコネクタをデプロイし、Amazon MSK から Amazon S3 にデータをストリーミングします。次の手順を完了します。

1. Amazon MSK コンソールのナビゲーションペインで、 MSKコネクト、選択する コネクタ.
2. 選択する コネクタを作成する.
3. 選択する 既存のカスタムプラグインを使用 名前で始まるカスタムプラグインを選択します msk-blog-S3sink-plugin.
4. 選択する Next.
5. のような適切な名前を入力します s3-sink-connector およびオプションの説明。
6. Apache Kafka クラスター、選択する MSK クラスター CloudFormation テンプレートによって作成されたクラスターを選択します。
7. In コネクタ構成、提供されたデフォルト値を削除し、適切な値で次の構成キーと値のペアを使用します。
  1. - 名 – コネクタに使用されているものと同じ名前。
    - s3.バケット.名 – CloudFormation の出力 バケット名.
    - s3.region、key.converter.region、および value.converter.region – あなたの地域。

name=<CONNERCOR-NAME>
connector.class=io.confluent.connect.s3.S3SinkConnector
s3.bucket.name=<BUCKET-NAME>
key.converter=com.amazonaws.services.schemaregistry.kafkaconnect.AWSKafkaAvroConverter
value.converter=com.amazonaws.services.schemaregistry.kafkaconnect.AWSKafkaAvroConverter
s3.region=<REGION>
storage.class=io.confluent.connect.s3.storage.S3Storage
partitioner.class=io.confluent.connect.storage.partitioner.DefaultPartitioner
format.class=io.confluent.connect.s3.format.parquet.ParquetFormat
flush.size=10
tasks.max=1
key.converter.schemaAutoRegistrationEnabled=true
value.converter.schemaAutoRegistrationEnabled=true
key.converter.region=<REGION>
value.converter.region=<REGION>
value.converter.avroRecordType=GENERIC_RECORD
key.converter.avroRecordType=GENERIC_RECORD
value.converter.compatibility=NONE
key.converter.compatibility=NONE
store.kafka.keys=false
schema.compatibility=NONE
topics=db1.sampledatabase.movies
value.converter.registry.name=msk-connect-blog-values
key.converter.registry.name=msk-connect-blog-keys
store.kafka.headers=false

次に、構成します コネクタ容量. 私たちは選ぶことができます Provisioned 他のプロパティをデフォルトのままにします
ワーカー構成、名前で始まるカスタムワーカー構成を選択します msk-gsr-blog CloudFormation テンプレートの一部として作成されます。
アクセス許可、CloudFormation テンプレートによって生成された IAM ロールを使用します MSKConnectRole.
選択する Next.
セキュリティで、デフォルトを選択します。
選択する Next.
ログ配信選択 Amazon CloudWatch Logs に配信する CloudFormation テンプレートによって作成されたロググループを参照します。 msk-connector-logs.
選択する Next.
設定を確認して選択します コネクタを作成する.

数分後、コネクタが実行されます。

エンドツーエンドの CDC ログストリームをテストする

Debezium と S3 シンクコネクタの両方が稼働中になったので、次の手順を実行して、エンドツーエンドの CDC をテストします。

Amazon EC2 コンソールで、 セキュリティグループ ページで見やすくするために変数を解析したりすることができます。
セキュリティグループを選択 ClientInstanceSecurityGroup 選択して インバウンドルールを編集する.
ローカルネットワークからの SSH 接続を許可するインバウンドルールを追加します。
ソフトウェア設定ページで、下図のように インスタンス ページで、インスタンスを選択します ClientInstance 選択して お問合せ.
ソフトウェア設定ページで、下図のように EC2インスタンス接続 タブを選択 お問合せ.
現在の作業ディレクトリが /home/ec2-user そして、それはファイルを持っています create_table.sql, alter_table.sql , initial_insert.sql, insert_data_with_new_column.sql.
次のコマンドを実行して、MySQL データベースにテーブルを作成します (CloudFormation テンプレートの出力からデータベースのホスト名を指定します)。

mysql -h <DATABASE-HOST> -u master -p < create_table.sql

パスワードの入力を求められたら、CloudFormation テンプレートパラメーターからパスワードを入力します。
次のコマンドを使用して、いくつかのサンプルデータをテーブルに挿入します。

mysql -h <DATABASE-HOST> -u master -p < initial_insert.sql

パスワードの入力を求められたら、CloudFormation テンプレートパラメーターからパスワードを入力します。
AWS Glue コンソールで、選択します スキーマレジストリ ナビゲーションペインで、を選択します スキーマ.
MFAデバイスに移動する db1.sampledatabase.movies バージョン 1 を使用して、movies テーブル用に作成された新しいスキーマを確認します。

{ "type": "record", "name": "Value", "namespace": "db1.sampledatabase.movies", "fields": [ { "name": "movie_id", "type": "int" }, { "name": "title", "type": "string" }, { "name": "release_year", "type": "int" }, { "name": "__op", "type": [ "null", "string" ], "default": null }, { "name": "__source_ts_ms", "type": [ "null", "long" ], "default": null }, { "name": "__deleted", "type": [ "null", "string" ], "default": null } ], "connect.name": "db1.sampledatabase.movies.Value"
}

Kafka トピックのパーティションごとに個別の S3 フォルダーが作成され、トピックのデータがそのフォルダーに書き込まれます。

Amazon S3 コンソールで、Kafka トピックのフォルダーにある Parquet 形式で書き込まれたデータを確認します。

スキーマの進化

最初のスキーマが定義された後、アプリケーションは時間の経過とともにそれを進化させる必要がある場合があります。これが発生した場合、下流のコンシューマーが古いスキーマと新しいスキーマの両方でエンコードされたデータをシームレスに処理できることが重要です。互換モードを使用すると、時間の経過とともにスキーマがどのように進化できるか、またはできないかを制御できます。これらのモードは、アプリケーションがデータを生成および消費する間の契約を形成します。 AWS Glue Schema Registry で利用可能なさまざまな互換性モードの詳細については、次を参照してください。 AWSGlueスキーマレジストリ. この例では、コンシューマーが現在と以前のスキーマバージョンの両方を読み取れるようにするために、後方互換性を使用しています。次の手順を完了します。

次のコマンドを実行して、テーブルに新しい列を追加します。

mysql -h <DATABASE-HOST> -u master -p < alter_table.sql

次のコマンドを実行して、テーブルに新しいデータを挿入します。

mysql -h <DATABASE-HOST> -u master -p < insert_data_with_new_column.sql

AWS Glue コンソールで、選択します スキーマレジストリ ナビゲーションペインで、を選択します スキーマ.
スキーマに移動します db1.sampledatabase.movies バージョン 2 を使用して、追加した国列を含む、movies テーブル movies 用に作成されたスキーマの新しいバージョンを確認します。

{ "type": "record", "name": "Value", "namespace": "db1.sampledatabase.movies", "fields": [ { "name": "movie_id", "type": "int" }, { "name": "title", "type": "string" }, { "name": "release_year", "type": "int" }, { "name": "COUNTRY", "type": "string" }, { "name": "__op", "type": [ "null", "string" ], "default": null }, { "name": "__source_ts_ms", "type": [ "null", "long" ], "default": null }, { "name": "__deleted", "type": [ "null", "string" ], "default": null } ], "connect.name": "db1.sampledatabase.movies.Value"
}

Amazon S3 コンソールで、Kafka トピックのフォルダーに Parquet 形式で書き込まれたデータを確認します。

クリーンアップ

AWS アカウントへの不要な請求を防ぐために、この投稿で使用した AWS リソースを削除してください。

Amazon S3 コンソールで、CloudFormation テンプレートによって作成された S3 バケットに移動します。
すべてのファイルとフォルダーを選択し、削除.
指示に従って完全に削除を入力し、選択します オブジェクトを削除する.
AWS CloudFormationコンソールで、作成したスタックを削除します。
スタックステータスがに変わるのを待ちます DELETE_COMPLETE.

まとめ

この投稿では、Amazon MSK、MSK Connect、および AWS Glue Schema Registry を使用して CDC ログストリームを構築し、ビジネスニーズの変化に応じてデータストリームのスキーマを進化させる方法を示しました。このアーキテクチャパターンを、さまざまな Kafka コネクタを持つ他のデータソースに適用できます。詳細については、 MSK コネクトの例.