Amazon SageMaker JumpStart の Pinecone Vector データベースと Llama-2 を使用した検索拡張生成により幻覚を軽減する |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

業界全体での LLM の導入は一見止められないように見えますが、LLM は新しい AI の波を推進する広範なテクノロジーエコシステムの 2 つのコンポーネントです。会話型 AI のユースケースの多くでは、ユーザーのクエリに応答するために Llama 5、Flan TXNUMX、Bloom などの LLM が必要です。これらのモデルは、パラメトリックな知識に依存して質問に答えます。モデルはトレーニング中にこの知識を学習し、それをモデルパラメーターにエンコードします。この知識を更新するには、LLM を再トレーニングする必要があり、これには多大な時間と費用がかかります。

幸いなことに、ソースの知識を使用して LLM に情報を提供することもできます。ソース知識は、入力プロンプトを通じて LLM に入力される情報です。ソース知識を提供する一般的なアプローチの XNUMX つは、検索拡張生成 (RAG) です。 RAG を使用して、外部データソースから関連情報を取得し、その情報を LLM にフィードします。

このブログ投稿では、Amazon Sagemaker JumpStart を使用して Llama-2 などの LLM をデプロイし、AI 幻覚を防ぐために、Pinecone ベクターデータベースを使用した検索拡張生成 (RAG) を通じて LLM を関連情報で最新の状態に保つ方法を説明します。。

Amazon SageMaker の検索拡張生成 (RAG)

Pinecone は RAG の取得コンポーネントを処理しますが、さらに XNUMX つの重要なコンポーネントが必要です。LLM 推論を実行する場所と、埋め込みモデルを実行する場所です。

Amazon SageMaker Studio は、単一の Web ベースのビジュアルインターフェイスを提供する統合開発環境 (IDE) で、専用ツールにアクセスしてすべての機械学習 (ML) 開発を実行できます。これは、ユーザーが自分の SageMaker アカウントで特定のモデルを検索、プレビュー、起動できるモデルハブである SageMaker JumpStart を提供します。基礎モデルを含む幅広い問題タイプに対応する、事前トレーニング済みの公開されている独自のモデルを提供します。

Amazon SageMaker Studio は、RAG 対応の LLM パイプラインを開発するための理想的な環境を提供します。まず、AWS コンソールを使用して、Amazon SageMaker に移動し、SageMaker Studio ドメインを作成し、Jupyter Studio ノートブックを開きます。

前提条件

次の前提条件の手順を実行します。

Amazon SageMaker Studio をセットアップします。
Amazon SageMaker ドメインにオンボードします。
無料枠の松ぼっくりベクトルデータベースにサインアップしてください。
前提条件ライブラリ: SageMaker Python SDK、Pinecone クライアント

ソリューションウォークスルー

SageMaker Studio ノートブックを使用して、まず前提条件のライブラリをインストールする必要があります。

!pip install -qU sagemaker pinecone-client==2.2.1 ipywidgets==7.0.0

LLM の導入

この投稿では、LLM を展開する XNUMX つのアプローチについて説明します。 XNUMXつ目は、 HuggingFaceModel 物体。これは、Hugging Face モデルハブから直接 LLM (および埋め込みモデル) をデプロイするときに使用できます。

たとえば、デプロイ可能な構成を作成できます。 google/flan-t5-xl 次のスクリーンキャプチャに示すようにモデルを作成します。

import sagemaker
from sagemaker.huggingface import (
HuggingFaceModel, 
get_huggingface_llm_image_uri
)
role = sagemaker.get_execution_role()
hub_config = {'HF_MODEL_ID':'google/flan-t5-xl', # model_id from hf.co/models
'HF_TASK':'text-generation' # NLP task you want to use for predictions

# retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri("huggingface", version="0.8.2"&)
huggingface_model = HuggingFaceModel(env=hub_config, role=role, # iam role with permissions to create an Endpoint 
image_uri=llm_image
)

Hugging Face からモデルを直接デプロイする場合は、 my_model_configuration 次のように：

An env config は、どのモデルをどのタスクに使用するかを示します。
SageMaker の実行 role モデルをデプロイする権限を与えます。
An image_uri は、Hugging Face から LLM を展開するための専用のイメージ構成です。

あるいは、SageMaker には、より単純なモデルと直接互換性のある一連のモデルがあります。 JumpStartModel 物体。 Llama 2 などの多くの人気のある LLM がこのモデルでサポートされており、次のスクリーンキャプチャに示すように初期化できます。

import sagemaker 
from sagemaker.jumpstart.model import JumpStartModel 

role = sagemaker.get_execution_role() 

my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-7b-f")

両方のバージョンの場合、 my_model、次のスクリーンキャプチャに示すように、それらをデプロイします。

predictor = my_model.deploy(
    initial_instance_count=1, instance_type="ml.g5.4xlarge", endpoint_name="llama-2-generator")

事前トレーニングされた LLM のクエリ

初期化された LLM エンドポイントを使用して、クエリを開始できます。クエリの形式は (特に会話型 LLM と非会話型 LLM の間で) 異なる場合がありますが、プロセスは一般に同じです。ハグ顔モデルの場合は、次の手順を実行します。

# https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/

prompt = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know

ANSWER:

"""

payload = {
    "inputs":  
      [
        [
         {"role": "system", "content": prompt},
         {"role": "user", "content": question},
        ]   
      ],
   "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
}

out = predictor.predict(payload, custom_attributes='accept_eula=true')
out[0]['generation']['content']

解決策は次のとおりです。 GitHubリポジトリ.

ここで私たちが受け取っている生成された答えはあまり意味がありません - それは幻覚です。

LLM への追加コンテキストの提供

Llama 2 は、内部パラメトリック知識のみに基づいて私たちの質問に答えようとします。明らかに、モデルパラメーターには、SageMaker のマネージドスポットトレーニングでどのインスタンスが使用できるかについての情報は保存されていません。

この質問に正しく答えるには、情報源の知識を使用する必要があります。つまり、プロンプトを介して追加情報を LLM に提供します。その情報をモデルの追加コンテキストとして直接追加しましょう。

context = """Managed Spot Training can be used with all instances
supported in Amazon SageMaker. Managed Spot Training is supported
in all AWS Regions where Amazon SageMaker is currently available."""

prompt_template = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know".

CONTEXT:
{context}

ANSWER:
"""

text_input = prompt_template.replace("{context}", context).replace("{question}", question)

payload = {
    "inputs":  
      [
        [
         {"role": "system", "content": text_input},
         {"role": "user", "content": question},
        ]   
      ],
   "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
}

out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}")

[Input]: Which instances can I use with Managed Spot Training in SageMaker?

[Output]:  Based on the given context, you can use Managed Spot Training with all instances supported in Amazon SageMaker. Therefore, the answer is:

All instances supported in Amazon SageMaker.

これで、質問に対する正しい答えがわかりました。それは簡単でした！ただし、ユーザーはプロンプトにコンテキストを挿入する可能性は低く、質問に対する答えをすでに知っているはずです。

単一のコンテキストを手動で挿入するのではなく、より広範な情報データベースから関連する情報を自動的に識別します。そのためには、検索拡張生成が必要です。

検索拡張生成

検索拡張生成を使用すると、情報のデータベースをベクトル空間にエンコードでき、ベクトル間の近接性が関連性/意味論的な類似性を表します。このベクトル空間を知識ベースとして使用すると、新しいユーザークエリを変換し、同じベクトル空間にエンコードして、以前にインデックス付けされた最も関連性の高いレコードを取得できます。

これらの関連レコードを取得した後、それらのレコードをいくつか選択し、追加のコンテキストとして LLM プロンプトに含めて、LLM に関連性の高いソースの知識を提供します。これは XNUMX 段階のプロセスであり、次のとおりです。

インデックス付けでは、データセットからの情報をベクトルインデックスに入力します。
検索はクエリ中に行われ、ベクトルインデックスから関連情報を取得します。

どちらのステップでも、人間が読めるプレーンテキストをセマンティックベクトル空間に変換するための埋め込みモデルが必要です。次のスクリーンキャプチャに示すように、Hugging Face の高効率 MiniLM センテンストランスフォーマーを使用します。このモデルは LLM ではないため、Llama 2 モデルと同じ方法では初期化されません。

hub_config = {
    "HF_MODEL_ID": "sentence-transformers/all-MiniLM-L6-v2",  # model_id from hf.co/models
    "HF_TASK": "feature-extraction",
}

huggingface_model = HuggingFaceModel(
    env=hub_config,
    role=role,
    transformers_version="4.6",  # transformers version used
    pytorch_version="1.7",  # pytorch version used
    py_version="py36",  # python version of the DLC
)

hub_configでは、上のスクリーンキャプチャに示されているようにモデル ID を指定しますが、LLM のようなテキストではなくベクトル埋め込みを生成しているため、タスクでは特徴抽出を使用します。これに続いて、モデル構成を次のように初期化します。 HuggingFaceModel 前と同様ですが、今回は LLM イメージを使用せず、いくつかのバージョンパラメーターを使用します。

encoder = huggingface_model.deploy(
    initial_instance_count=1, instance_type="ml.t2.large", endpoint_name="minilm-embedding"
)

次のようにモデルを再度デプロイできます。 deploy、より小さい (CPU のみ) インスタンスを使用します。 ml.t2.large。 MiniLM モデルは小さいため、大量のメモリを必要とせず、CPU 上でもエンベディングをすばやく作成できるため、GPU も必要ありません。必要に応じて、GPU でモデルをより高速に実行できます。

埋め込みを作成するには、 predict メソッドを使用し、エンコードするコンテキストのリストを、 inputs 図に示すようにキー:

out = encoder.predict({"inputs": ["some text here", "some more text goes here too"]})

XNUMX つの入力コンテキストが渡され、次に示すように XNUMX つのコンテキストベクトル埋め込みが返されます。

len(out)

2

MiniLM モデルの埋め込み次元は次のとおりです。 384 つまり、MiniLM 出力を埋め込む各ベクトルの次元は次のようになります。 384。ただし、埋め込みの長さに注目すると、次のことがわかります。

len(out[0]), len(out[1])

(8, 8)

XNUMX つのリストにはそれぞれ XNUMX つの項目が含まれます。 MiniLM は、最初にトークン化ステップでテキストを処理します。このトークン化により、人間が判読可能なプレーンテキストがモデルが判読可能なトークン ID のリストに変換されます。モデルの出力特徴では、トークンレベルの埋め込みを確認できます。これらの埋め込みの XNUMX つは、予想される次元を示しています。 384 示されているように：

len(out[0][0])

384

次の図に示すように、各ベクトル次元の平均値を使用して、これらのトークンレベルの埋め込みをドキュメントレベルの埋め込みに変換します。

単一の 384 次元ベクトルを取得するための平均プーリング操作。

import numpy as np embeddings = np.mean(np.array(out), axis=1)embeddings.shape(2, 384)

384 つの XNUMX 次元ベクトル埋め込み (入力テキストごとに XNUMX つ) を使用します。作業を容易にするために、次のスクリーンキャプチャに示すように、エンコードプロセスを XNUMX つの関数にラップします。

from typing import List

def embed_docs(docs: List[str]) -> List[List[float]]:
    out = encoder.predict({"inputs": docs})
    embeddings = np.mean(np.array(out), axis=1)
    return embeddings.tolist()

データセットのダウンロード

Amazon SageMaker FAQ をナレッジベースとしてダウンロードして、質問列と回答列の両方を含むデータを取得します。

Amazon SageMaker FAQ をダウンロードする

検索を実行するときは、[質問] 列を削除できるように、[回答] のみを探します。詳細についてはノートブックを参照してください.

データセットと埋め込みパイプラインの準備が整いました。ここで必要なのは、それらの埋め込みを保存する場所だけです。

インデキシング

Pinecone ベクトルデータベースは、ベクトルの埋め込みを保存し、大規模に効率的に検索します。データベースを作成するには、Pinecone からの無料の API キーが必要です。

import pinecone
import os

# add Pinecone API key from app.pinecone.io
api_key = os.environ.get("PINECONE_API_KEY") or "YOUR_API_KEY"
# set Pinecone environment - find next to API key in console
env = os.environ.get("PINECONE_ENVIRONMENT") or "YOUR_ENV"

pinecone.init(api_key=api_key, environment=env)

Pinecone ベクトルデータベースに接続した後、単一のベクトルインデックス (従来の DB のテーブルと同様) を作成します。インデックスに名前を付けます retrieval-augmentation-aws そしてインデックスを揃えます dimension および metric パラメータを、埋め込みモデル (この場合は MiniLM) で必要なパラメータと組み合わせます。

import time

index_name = "retrieval-augmentation-aws"

if index_name in pinecone.list_indexes():
    pinecone.delete_index(index_name)

pinecone.create_index(name=index_name, dimension=embeddings.shape[1], metric="cosine")
# wait for index to finish initialization
while not pinecone.describe_index(index_name).status["ready"]:
    time.sleep(1)

データの挿入を開始するには、次のコマンドを実行します。

from tqdm.auto import tqdm

batch_size = 2  # can increase but needs larger instance size otherwise instance runs out of memory
vector_limit = 1000

answers = df_knowledge[:vector_limit]
index = pinecone.Index(index_name)

for i in tqdm(range(0, len(answers), batch_size)):
    # find end of batch
    i_end = min(i + batch_size, len(answers))
    # create IDs batch
    ids = [str(x) for x in range(i, i_end)]
    # create metadata batch
    metadatas = [{"text": text} for text in answers["Answer"][i:i_end]]
    # create embeddings
    texts = answers["Answer"][i:i_end].tolist()
    embeddings = embed_docs(texts)
    # create records list for upsert
    records = zip(ids, embeddings, metadatas)
    # upsert to Pinecone
    index.upsert(vectors=records)

この投稿の前半の質問を使用して、インデックスのクエリを開始できます。

# extract embeddings for the questions
query_vec = embed_docs(question)[0]

# query pinecone
res = index.query(query_vec, top_k=1, include_metadata=True)

# show the results
res
{'matches': [{'id': '90',
'metadata': {'text': 'Managed Spot Training can be used with all '
'instances supported in Amazon '
'SageMaker.rn'},
'score': 0.881181657,
'values': []}],
'namespace': ''}

上記の出力は、質問への回答に役立つ関連コンテキストを返していることを示しています。私たち以来 top_k = 1, index.query 以下のメタデータとともにトップの結果を返しました。 Managed Spot Training can be used with all instances supported in Amazon.

プロンプトの拡張

取得したコンテキストを使用してプロンプトを拡張し、LLM に供給するコンテキストの最大量を決定します。使用 1000 コンテンツの長さを超えるまで、返された各コンテキストをプロンプトに繰り返し追加できる文字数制限があります。

プロンプトの拡張

フィード context_str 次のスクリーンキャプチャに示すように、LLM プロンプトに入力します。

payload = create_payload(question, context_str)
out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}")

[入力]: SageMaker のマネージド スポット トレーニングで使用できるインスタンスはどれですか? [出力]: 提供されたコンテキストに基づいて、Amazon SageMaker でサポートされているすべてのインスタンスでマネージド スポット トレーニングを使用できます。 したがって、答えは次のとおりです。Amazon SageMaker ではすべてのインスタンスがサポートされています。

ロジックは機能するため、処理をきれいに保つために単一の関数にラップします。

def rag_query(question: str) -> str:
    # create query vec
    query_vec = embed_docs(question)[0]
    # query pinecone
    res = index.query(query_vec, top_k=5, include_metadata=True)
    # get contexts
    contexts = [match.metadata["text"] for match in res.matches]
    # build the multiple contexts string
    context_str = construct_context(contexts=contexts)
    # create our retrieval augmented prompt
    payload = create_payload(question, context_str)
    # make prediction
    out = predictor.predict(payload, custom_attributes='accept_eula=true')
    return out[0]["generation"]["content"]

次のような質問ができるようになりました。

rag_query("Does SageMaker support spot instances?")

' Yes, Amazon SageMaker supports spot instances for managed spot training. According to the provided context, Managed Spot Training can be used with all instances supported in Amazon SageMaker, and Managed Spot Training is supported in all AWS Regions where Amazon SageMaker is currently available.nnTherefore, the answer to your question is:nnYes, SageMaker supports spot instances in all regions where Amazon SageMaker is available.'

クリーンアップ

不要な料金が発生しないようにするには、モデルとエンドポイントを削除します。

encoder.delete_model()

encoder.delete_endpoint()

まとめ

この投稿では、SageMaker 上のオープンアクセス LLM を使用した RAG について紹介しました。また、Llama 2 を使用した Amazon SageMaker Jumpstart モデル、Flan T5 を使用した Hugging Face LLM、および MiniLM を使用した埋め込みモデルをデプロイする方法も示しました。

オープンアクセスモデルと Pinecone ベクトルインデックスを使用して、完全なエンドツーエンドの RAG パイプラインを実装しました。これを使用して、幻覚を最小限に抑え、LLM の知識を最新の状態に保ち、最終的にシステムに対するユーザーエクスペリエンスと信頼性を高める方法を示しました。

この例を自分で実行するには、この GitHub リポジトリのクローンを作成し、次のコマンドを使用して前の手順を実行します。 GitHub の質問応答ノートブック.

著者について

VedantJainプロフィール写真 ヴェダントジャイン はシニア AI/ML スペシャリストであり、戦略的な生成 AI イニシアチブに取り組んでいます。 AWS に入社する前、Vedant は Databricks、Hortonworks (現 Cloudera)、JP Morgan Chase などのさまざまな企業で ML/データサイエンスの専門職を歴任してきました。仕事以外では、ヴェダントは音楽制作、ロッククライミング、科学を利用して有意義な生活を送ること、世界中の料理を探求することに情熱を注いでいます。

ジェームズ・ブリッグス Pinecone のスタッフ開発者アドボケートであり、ベクトル検索と AI/ML を専門としています。彼は、オンライン教育を通じて開発者や企業が独自の GenAI ソリューションを開発できるよう指導しています。 Pinecone に入社する前は、James は小規模なテクノロジー関連の新興企業から既存の金融会社まで AI の開発に取り組んでいました。仕事以外では、ジェームズは旅行に情熱を持っており、サーフィンやスキューバからムエタイやブラジリアン柔術に至るまで、新しい冒険を楽しむことに情熱を持っています。

シンファン Amazon SageMaker JumpStart および Amazon SageMaker 組み込みアルゴリズムの上級応用科学者です。スケーラブルな機械学習アルゴリズムの開発に注力しています。彼の研究対象は、自然言語処理、表形式データの説明可能なディープラーニング、およびノンパラメトリック時空クラスタリングの堅牢な分析の分野です。彼は、ACL、ICDM、KDD カンファレンス、Royal Statistical Society: Series A で多くの論文を発表しています。