VPC サポート付きの Amazon Kendra S3 コネクタを使用して回答を正確に検索する

プラトン再発行

フォロワー： 0

アマゾンケンドラは使いやすいインテリジェントな検索サービスであり、検索機能をアプリケーションに統合できるため、ユーザーは次のようなデータソースに保存されている情報を見つけることができます。 Amazon シンプルストレージサービス、OneDrive および Google ドライブ。 SalesForce、SharePoint、Service Now などのアプリケーション。などのリレーショナルデータベース Amazon リレーショナルデータベースサービス (アマゾン RDS)。 Amazon Kendra コネクタを使用すると、複数のコンテンツリポジトリからのデータを Amazon Kendra インデックスと同期できます。エンドユーザーが自然言語で質問すると、Amazon Kendra は機械学習 (ML) アルゴリズムを使用してコンテキストを理解し、最も関連性の高い回答を返します。

Amazon Kendra の S3 コネクタは、S3 バケットに保存されているドキュメントとそれに関連するメタデータのインデックス作成をサポートしています。多くの場合、VPC 内で実行されているアプリケーションが特定の S3 バケットにのみアクセスできるようにする必要があり、多くの場合、接続がインターネットを経由してパブリックエンドポイントに到達してはなりません。ただし、多くのお客様は複数の S3 バケットを所有しており、その一部は Amazon S3 の VPC エンドポイント. この投稿では、VPC エンドポイントを使用するための VPC サポートで更新された Amazon Kendra S3 コネクタを使用する方法について説明します。

この投稿では、VPC 内からのみアクセス可能な S3 バケットに保存されたドキュメントを接続することにより、Amazon Kendra を使用して AWS でエンタープライズ検索エンジンを作成するのに役立つ手順を説明します。詳細については、次を参照してください。 Amazon Kendra によるエンタープライズ検索の強化. この投稿では、Amazon S3 用にコネクタを構成する方法と、データソースのコンテンツが変更されたときにインデックスをデータソースと同期する方法を構成する方法も示しています。

ソリューションの概要

主な改良点はXNUMXつ Amazon ケンドラ S3 コネクタ :

VPC サポート – コネクタは、アマゾンバーチャルプライベートクラウド (Amazon VPC) ネットワーク。を使用して Amazon S3 に安全に接続できるようになりました Amazon S3 の VPC エンドポイント VPC 接続、サブネット、セキュリティグループを指定します。
XNUMX つの同期モード – Amazon S3 のデータソースの Amazon Kendra インデックスへの同期をスケジュールするときに、完全同期モードまたは新規、変更、および削除されたドキュメントの同期モードで実行することを選択できるようになりました。完全同期モードでは、同期が実行されるたびに、クロールするように構成されたルートパスの下にあるすべてのフォルダー内のオブジェクトがスキャンされ、すべてのドキュメントが再取り込みされます。完全更新により、新しいデータソースを削除して作成する必要なく、インデックスをリセットできます。新規、変更、および削除されたドキュメントの同期モードでは、同期ジョブが実行されるたびに、最後のクロール以降に追加、変更、または削除されたオブジェクトのみが処理されます。増分クロールは、新しいオブジェクトを既存のデータソースに定期的に追加するデータセットで使用すると、実行時間とコストを削減できます。
ドキュメントの追加の包含パターンと除外パターン: プレフィックスに加えて、ドキュメントをインデックスに含めたり除外したりするためのパターンを導入しています。サポートされている XNUMX つのパターンタイプは、Unix スタイルの glob またはファイルタイプです。正規表現パターンを追加して、特定のフォルダーを含めたり、フォルダー、ファイルの種類、または特定のファイルをデータソースから除外したりできるようになりました。これは、さまざまなカテゴリ、分類、およびファイルタイプに属するコンテンツを含む共有データリポジトリに役立ちます。

前提条件

このチュートリアルでは、次の前提条件を満たしている必要があります。

ドキュメントリポジトリを作成して構成する

Amazon Kendraでインデックスを作成する前に、ドキュメントをS3バケットにロードする必要があります。このセクションでは、S3バケットを作成し、ファイルを取得して、バケットにロードする手順について説明します。このセクションのすべての手順を完了すると、Amazon Kendraが使用できるデータソースが作成されます。

ソフトウェア設定ページで、下図のように AWSマネジメントコンソールの [リージョン] リストで、[米国東部 (バージニア北部)] または任意のリージョンを選択します。アマゾンケンドラはで利用可能です.
選択する サービス.
Storage、選択する S3.
Amazon S3コンソールで、 バケットを作成する.
一般的な設定、次の情報を提供します。
- バケット名について, 入力します kendrapost-{your account id}.
- リージョンには、Amazon Kendra インデックスのデプロイに使用するのと同じリージョンを選択します (この記事では us-east-1).
- バケット設定、 for パブリックアクセスをブロックする、すべてデフォルト値のままにします。
詳細設定、すべてデフォルト値のままにします。
選択する バケットを作成する.
ダウンロード AWS_ホワイトペーパー.zip そしてファイルを解凍します。
Amazon S3コンソールで、作成したバケットを選択し、 アップロード.
フォルダをアップロードする Best Practices, Databases, General, Machine Learning 解凍したファイルから。

バケット内に、XNUMX つのフォルダーが表示されます。

データソースを追加する

A 情報元 インデックスを作成するためのドキュメントを保存する場所です。データソースをAmazon Kendraインデックスと自動的に同期して、検索がソースリポジトリの新しいドキュメント、更新されたドキュメント、または削除されたドキュメントを正しく反映していることを確認できます。

このセクションのすべてのステップを完了すると、データソースが Amazon Kendra にリンクされます。詳細については、次を参照してください。データソースからのドキュメントの追加.

続行する前に、インデックスの作成が完了し、インデックスが次のように表示されていることを確認してください。 アクティブ。詳細については、を参照してください。索引の作成.

Amazon Kendra コンソールで、インデックスに移動します (この投稿では、 kendra-blog-index).
ソフトウェア設定ページで、下図のように kendra-blog-index ページ、選択 データソースを追加する.
Amazon S3 の下で、選択します コネクタを追加.

Amazon Kendraがサポートするさまざまなデータソースの詳細については、データソースからのドキュメントの追加.

データソースの詳細を指定する セクション、 データソース名、入る aws_white_paper.
Description、入る AWS White Paper documentation.
選択する Next.

次に、 AWS IDおよびアクセス管理 Amazon Kendra の (IAM) ロール。

アクセスとセキュリティを定義する ページ、 IAMの役割 セクションでは、選択 新しい役割を作成する.
[ロール名] に入力します source-role （ロール名の前に AmazonKendra-).
VPC とセキュリティの構成 セクションで、 VPC、 そしてあなたの サブネットと VPC セキュリティグループ.

Amazon Kendra を Amazon Virtual Private Cloud に接続する方法の詳細については、次を参照してください。 VPC を使用するように Amazon Kendra を設定する.

選択する Next.
同期設定を構成する ページ、 データソースの場所を入力してください、作成したS3バケットを入力します。 kendrapost-{your account id}.
コメントを残す メタデータファイルのプレフィックスフォルダーの場所 ブランク。

デフォルトでは、メタデータファイルはドキュメントと同じディレクトリに保存されます。これらのファイルを別のフォルダに配置する場合は、プレフィックスを追加できます。詳細については、 Amazon S3 ドキュメントのメタデータ.

復号化キーを選択、選択を解除したままにします。
追加の構成、パターンを追加して、特定のフォルダまたはファイルを含めたり除外したりできます。この投稿では、デフォルト値を保持します。
同期モード 選ぶ 新規、変更、または削除されたドキュメントの同期.
周波数、選択する オンデマンドで実行.

このステップでは、データソースが Amazon Kendra インデックスと同期される頻度を定義します。

選択する Next.
フィールドマッピングを設定する ページで、デフォルト値をそのまま使用します。
選択する Next.
ソフトウェア設定ページで、下図のように 確認して作成する ページ、選択 データソースを追加する.
Kendra インデックスに戻ります。
あなたの選択します。 情報元、を選択します 今すぐ同期 ドキュメントをAmazon Kendraインデックスと同期します。

このプロセスにかかる時間は、インデックスを作成するドキュメントの数によって異なります。この使用例では、15 分かかる場合があります。その後、同期が成功したというメッセージが表示されます。 [同期の実行履歴] セクションで、40 個のドキュメントが同期されたことがわかります。

Amazon Kendra インデックスで自然言語クエリを実行できるようになりました。インデックスを検索すると、Amazon Kendra は提供されたすべてのデータとメタデータを使用して、検索クエリに対して最も正確な回答を返します。 Amazon Kendra コンソールで、 インデックス付きコンテンツを検索. クエリフィールドで、「どの AWS サービスにイレブンナインの耐久性があるか?」などのクエリから始めます。

インデックスのクエリの詳細については、次を参照してください。インデックスのクエリ

データソースの変更を同期してインデックスを検索する

データソースは、新しいデータ、変更されたデータ、または削除されたデータを同期するように設定されています。データソースを Amazon Kendra のインデックスと段階的に同期する前に、新しいドキュメントを S3 バケットにロードする必要があります。

Amazon S3コンソールで、作成したバケットを選択し、 アップロード.
フォルダをアップロードする Security および Well_Architected 解凍したファイルから。

これで、S3 バケットに追加された新しいドキュメントを同期できます。

Amazon Kendraコンソールで、 データソース 次に、S3 データソースを選択します。
選択する 今すぐ同期

このプロセスの期間は、インデックスを作成するドキュメントの数によって異なります。この使用例の場合、15分かかることがあります。その後、同期が成功したというメッセージが表示されます。

同期の実行履歴 セクションでは、20個のドキュメントが同期されていることがわかります。

データソースの再インデックス

データソースに古い情報があるシナリオでは、新しいデータソースを削除して作成することなく、データソースのインデックスを再作成できるようになりました。同期モードを変更してデータソースのインデックスを再作成するには、次の手順を実行します。

Amazon Kendra コンソールで、 データソース 次に、S3 データソースを選択します。
ソフトウェア設定ページで、下図のようにメニュー、選択 編集する。
選択する Next に移動する ステップ 3 – 同期設定ページの構成.
同期モードの場合は、 完全同期。
周波数、選択する オンデマンドで実行.
選択する Next.
フィールドマッピングを設定する ページで、デフォルト値をそのまま使用します。
選択する Next.
ソフトウェア設定ページで、下図のように 確認して作成する ページ、選択 アップデイト.

これで、S3 バケットに追加された新しいドキュメントを同期できます。

Amazon Kendraコンソールで、 データソース 次に、S3 データソースを選択します。
選択する 今すぐ同期

同期の実行履歴 セクションで、変更された列の下の以前の同期ステータスに関係なく、すべてのドキュメントが同期されたことがわかります。

クリーンアップ

将来の課金を回避し、未使用のロールとポリシーを一掃するには、作成したリソースを削除します。

Amazon Kendra インデックスで、選択します インデックス ナビゲーションペインに表示されます。
作成したインデックスを選択し、メニュー、選択削除.
削除を確認するには、プロンプトが表示されたら「削除」と入力し、削除.

確認メッセージが表示されるまで待ちます。このプロセスには最大15分かかります。

Amazon S3コンソールでは、 S3 バケットを削除する.
IAMコンソールで、対応する IAM ロールを削除します.

まとめ

この投稿では、Amazon Kendra を使用して、インターネットゲートウェイやネットワークアドレス変換 (NAT) デバイスを必要としない Amazon S3 への安全な接続を使用して、エンタープライズ検索サービスをデプロイする方法を学びました。同期モードを使用して、ドキュメントのより迅速な同期を有効にすることができます。

取り上げなかった多くの追加機能があります。例えば：

Amazon Kendra インデックスに対してユーザーベースのアクセス制御を有効にし、構成済みのアクセス制御に基づいてドキュメントへのアクセスを制限できます。
オブジェクト属性を Amazon Kendra インデックス属性にマッピングし、ファセット、検索、および検索結果での表示を有効にすることができます。
Amazon Kendra 表形式検索を使用して、ウェブページ (HTML テーブル) から情報をすばやく見つけることができます

Amazon Kendra の詳細については、以下を参照してください。 AmazonKendra開発者ガイド.