SmugMug の Amazon OpenSearch サービス用の耐久性のある検索パイプライン |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

SmugMug は XNUMX つの非常に大規模なオンライン写真プラットフォームを運営しています。 SmugMugのおよび Flickrのにより、100 億を超える顧客が数百億枚の写真を安全に保存、検索、共有、販売できるようになります。顧客が数十年分の写真をアップロードして検索することで、検索が重要なインフラストラクチャに変わり、SmugMug が最初に使用されて以来、着実に成長しました。アマゾンクラウドサーチ 2012では、続けて AmazonOpenSearchサービス 2018 年以来、数十億のドキュメントとテラバイトの検索ストレージに達して以来。

ここでは、SmugMug スタッフエンジニアの Lee Shepherd が、複数のクラスターへのライブトラフィックのパブリッシュ、バックフィル、ミラーリングに使用される SmugMug の検索アーキテクチャを共有します。 SmugMug は、これらのパイプラインを使用してベンチマーク、検証を行い、i6xlarge からの Graviton ベースの r2gd.3.2xlarge インスタンスを含む新しい構成への移行とテストを行います。 Amazon OpenSearch サーバーレス。急激に非現実的なトラフィックパターンを導入することなく、実稼働サービスに影響を与えることなく、パブリッシュ、バックフィル、クエリに使用される XNUMX つのパイプラインについて説明します。

このプロセスには、次の XNUMX つの主要なアーキテクチャ部分が重要です。

インデックスデータの永続的な信頼できる情報源。ベストプラクティスです OpenSearch インデックスを超えた耐久性のあるストアを用意するというバックアップ戦略の一環です。 Amazon DynamoDB スケーラビリティと統合を提供します AWSラムダこれにより、プロセスの多くが簡素化されます。私たちは検索以外の他のサービスに DynamoDB を使用しているため、これは自然に適合しました。
信頼できる情報源からのデータを OpenSearch に公開するための Lambda 関数。使用する関数の別名同じ Lambda 関数の複数の設定を同時に実行するのに役立ち、データの同期を保つための鍵となります。

出版

パブリッシングパイプラインは、ユーザーによるキーワードやキャプションの入力、新しいアップロード、ラベル検出などのイベントによって駆動されます。 Amazonの再認識。これらのイベントは、次のような他のいくつかのアセットストアからのデータを組み合わせて処理されます。 Amazon Aurora MySQL 互換エディションおよび Amazon Simple Storage Service（Amazon S3）、単一のアイテムを DynamoDB に書き込む前に。

DynamoDB に書き込むと、Lambda パブリッシング関数が呼び出されます。 DynamoDB ストリーム Kinesis アダプター、DynamoDB から更新された項目のバッチを取得し、OpenSearch にインデックスを作成します。 DynamoDB Streams Kinesis アダプターを使用すると、必要な同時 Lambda の数が減るなど、他の利点もあります。

パブリッシング Lambda 関数は、環境変数を使用して、どの OpenSearch ドメインとインデックスにパブリッシュするかを決定します。本番エイリアスは、DynamoDB テーブルまたは Kinesis Stream から離れた本番 OpenSearch ドメインに書き込むように設定されています

新しい構成をテストするとき、または移行するとき、移行エイリアスは新しい OpenSearch ドメインに書き込むように構成されますが、運用エイリアスと同じトリガーを使用します。これにより、両方の OpenSearch Service ドメインへのデータの二重インデックス作成が同時に可能になります。

DynamoDB テーブルスキーマの例を次に示します。

 "Id": 123456, // partition key "Fields": { "format": "JPG", "height": 1024, "width": 1536, ... }, "LastUpdated": 1600107934,

「LastUpdated」値は、インデックス作成時にドキュメントのバージョンとして使用され、OpenSearch が順序どおりでない更新を拒否できるようにします。

バックフィル

変更が両方のドメインに公開されたので、新しいドメイン (インデックス) に履歴データをバックフィルする必要があります。新しく作成したインデックスをバックフィルするには、次の組み合わせを使用します。 Amazon Simple Queue Service（Amazon SQS） DynamoDB が使用されます。スクリプトは、次の手順を含むメッセージを SQS キューに追加します。並列スキャン DynamoDB テーブルのセグメント。

SQS キューは、メッセージ命令を読み取り、DynamoDB テーブルの対応するセグメントからアイテムのバッチをフェッチし、OpenSearch インデックスにそれらを書き込む Lambda 関数を起動します。新しいメッセージは SQS キューに書き込まれ、セグメント内の進行状況を追跡します。セグメントが完了すると、それ以上メッセージは SQS キューに書き込まれなくなり、プロセス自体が停止します。

同時実行性はセグメントの数によって決まり、Lambda 同時実行スケーリングによって追加の制御が提供されます。 SmugMug は、運用ドメインに影響を与えることなく、OpenSearch 構成で 1 時間あたり XNUMX 億件を超えるドキュメントのインデックスを作成できます。

SQS キューのシードには、NodeJS AWS-SDK ベースのスクリプトが使用されます。 SQS 構成スクリプトのオプションのスニペットを次に示します。

Usage: queue_segments [options] Options:
--search-endpoint <url> OpenSearch endpoint url
--sqs-url <url> SQS queue url
--index <string> OpenSearch index name
--table <string> DynamoDB table name
--key-name <string> DynamoDB table partition key name
--segments <int> Number of parallel segments

結果として得られる SQS メッセージの形式は次のとおりです。

{ searchEndpoint: opts.searchEndpoint, sqsUrl: opts.sqsUrl, table: opts.table, keyName: opts.keyName, index: opts.index, segment: i, totalSegments: opts.segments, exclusiveStartKey: <lastEvaluatedKey from previous iteration>
}

各セグメントが処理されると、前の反復の「lastEvaluatedKey」が次の反復の「exclusiveStartKey」としてメッセージに追加されます。

ミラーリング

最後に、私たちの ミラーリングされた検索クエリ 結果は、運用ドメインに加えて、OpenSearch クエリを SQS キューに送信することによって実行されます。 SQS キューは、レプリカドメインにクエリを再生する Lambda 関数を起動します。これらのリクエストの検索結果はどのユーザーにも送信されませんが、運用システムや顧客に影響を与えることなく、テスト中の OpenSearch サービス上で運用負荷を複製できます。

まとめ

新しい OpenSearch ドメインまたは構成を評価する場合、私たちが関心のある主な指標はクエリレイテンシのパフォーマンス、つまり所要レイテンシ (時間あたりのレイテンシ)、そして最も重要なのは検索のレイテンシです。 Graviton R6gd への移行では、P40 ～ P50 のレイテンシーが約 99% 低下し、i3 と比較して CPU 使用率も同様に向上しました (Graviton の低コストは無視しています)。もう 1 つの歓迎すべき利点は、R6gd およびその他の新しいインスタンスへの GXNUMXGC の追加によるガベージコレクションの変更に伴う JVM メモリ負荷がより予測可能かつ監視可能になったことです。

このパイプラインを使用して、OpenSearch Serverless もテストし、その最良の使用例を見つけています。私たちはそのサービスに興奮しており、完全にサーバーレスのアーキテクチャをやがて実現するつもりです。結果をお待ちください。

著者について

リー・シェパード SmugMug スタッフソフトウェアエンジニアです

アイドン・ベキロフ アマゾンウェブサービスのプリンシパルテクニカルアカウントマネージャーです

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/big-data/smugmugs-durable-search-pipelines-for-amazon-opensearch-service/

タイムスタンプ： 2023 年 10 月 19 日

タイムスタンプ： 2023 年 5 月 17 日

プラトン再発行

Amazon EKS 上の Amazon EMR のコスト監視 | アマゾンウェブサービス

Amazon MSK Connect のプライベート DNS ホスト名を解決する | アマゾンウェブサービス

新しい統合 SYS ビューを使用して Amazon Redshift モニタリングを簡素化する | アマゾンウェブサービス

Amazon QuickSight のフィールドベースの色付けエクスペリエンスの紹介 | アマゾンウェブサービス

Amazon MWAA によるインプレースバージョンアップグレードの紹介 | アマゾンウェブサービス

Amazon OpenSearch Service で多層マップを構築する | アマゾンウェブサービス

Chargeback Gurus は、Amazon Quicksight を使用して、高度なチャージバックインテリジェンスを e コマースマーチャントに提供し、数百万ドルを回復できるようにします

オープンソース JDBC コネクタを使用した Amazon MSK Connect でデータをストリーミングする | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー