Пом’якшення галюцинацій за допомогою розширеної генерації Retrieval за допомогою векторної бази даних Pinecone & Llama-2 від Amazon SageMaker JumpStart

Перевидано Платоном

читають: 0

Незважаючи на, здавалося б, нестримне впровадження LLM у галузях, вони є одним із компонентів ширшої технологічної екосистеми, яка живить нову хвилю ШІ. У багатьох випадках використання штучного інтелекту для розмови потрібні такі LLM, як Llama 2, Flan T5 і Bloom, щоб відповідати на запити користувачів. Ці моделі покладаються на параметричні знання, щоб відповісти на запитання. Модель вивчає ці знання під час навчання та кодує їх у параметрах моделі. Щоб оновити ці знання, ми повинні перепідготовити LLM, що займає багато часу та грошей.

На щастя, ми також можемо використовувати знання джерел, щоб інформувати наших LLM. Вихідні знання - це інформація, яка надходить до LLM через підказку введення. Одним із популярних підходів до надання джерельних знань є Retrieval Augmented Generation (RAG). Використовуючи RAG, ми отримуємо відповідну інформацію із зовнішнього джерела даних і передаємо цю інформацію в LLM.

У цій публікації в блозі ми розглянемо, як розгортати LLM, наприклад Llama-2, за допомогою Amazon Sagemaker JumpStart і підтримувати наші LLM актуальною інформацією через Retrieval Augmented Generation (RAG) за допомогою векторної бази даних Pinecone, щоб запобігти галюцинаціям ШІ. .

Retrieval Augmented Generation (RAG) в Amazon SageMaker

Pinecone оброблятиме пошуковий компонент RAG, але вам потрібні ще два критичні компоненти: десь для запуску висновку LLM і десь для запуску моделі вбудовування.

Amazon SageMaker Studio — це інтегроване середовище розробки (IDE), яке надає єдиний візуальний веб-інтерфейс, де ви можете отримати доступ до спеціально створених інструментів для виконання всіх розробок машинного навчання (ML). Він забезпечує SageMaker JumpStart, який є центром моделей, де користувачі можуть знаходити, переглядати та запускати певну модель у своєму обліковому записі SageMaker. Він надає попередньо підготовлені, загальнодоступні та пропрієтарні моделі для широкого діапазону типів проблем, у тому числі основні моделі.

Amazon SageMaker Studio забезпечує ідеальне середовище для розробки конвеєрів LLM із підтримкою RAG. Спочатку за допомогою консолі AWS перейдіть до Amazon SageMaker, створіть домен SageMaker Studio та відкрийте блокнот Jupyter Studio.

Передумови

Виконайте такі необхідні кроки:

Налаштуйте Amazon SageMaker Studio.
Підключення до домену Amazon SageMaker.
Підпишіться на безкоштовну векторну базу даних Pinecone.
Необхідні бібліотеки: SageMaker Python SDK, клієнт Pinecone

Покрокове керівництво рішенням

Використовуючи блокнот SageMaker Studio, нам спочатку потрібно встановити необхідні бібліотеки:

!pip install -qU sagemaker pinecone-client==2.2.1 ipywidgets==7.0.0

Розгортання LLM

У цій публікації ми обговорюємо два підходи до розгортання LLM. Перший - через HuggingFaceModel об'єкт. Ви можете використовувати це під час розгортання LLM (і вбудовуваних моделей) безпосередньо з центру моделі Hugging Face.

Наприклад, ви можете створити розгорнуту конфігурацію для google/flan-t5-xl моделі, як показано на наступному знімку екрана:

import sagemaker
from sagemaker.huggingface import (
HuggingFaceModel, 
get_huggingface_llm_image_uri
)
role = sagemaker.get_execution_role()
hub_config = {'HF_MODEL_ID':'google/flan-t5-xl', # model_id from hf.co/models
'HF_TASK':'text-generation' # NLP task you want to use for predictions

# retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri("huggingface", version="0.8.2"&)
huggingface_model = HuggingFaceModel(env=hub_config, role=role, # iam role with permissions to create an Endpoint 
image_uri=llm_image
)

Під час розгортання моделей безпосередньо з Hugging Face ініціалізуйте my_model_configuration з наступним:

An env config повідомляє нам, яку модель ми хочемо використовувати та для якого завдання.
Наше виконання SageMaker role дає нам дозвіл на розгортання нашої моделі.
An image_uri це конфігурація зображення, спеціально призначена для розгортання LLM з Hugging Face.

Крім того, SageMaker має набір моделей, безпосередньо сумісних із простішими JumpStartModel об'єкт. Багато популярних LLM, як-от Llama 2, підтримуються цією моделлю, яку можна ініціалізувати, як показано на наступному знімку екрана:

import sagemaker 
from sagemaker.jumpstart.model import JumpStartModel 

role = sagemaker.get_execution_role() 

my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-7b-f")

Для обох версій my_model, розгорніть їх, як показано на наступному знімку екрана:

predictor = my_model.deploy(
    initial_instance_count=1, instance_type="ml.g5.4xlarge", endpoint_name="llama-2-generator")

Опитування попередньо підготовленого LLM

З нашою ініціалізованою кінцевою точкою LLM ви можете почати надсилати запити. Формат наших запитів може відрізнятися (зокрема, між розмовними та нерозмовними LLM), але процес загалом однаковий. Для моделі Hugging Face виконайте наступне:

# https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/

prompt = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know

ANSWER:

"""

payload = {
    "inputs":  
      [
        [
         {"role": "system", "content": prompt},
         {"role": "user", "content": question},
        ]   
      ],
   "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
}

out = predictor.predict(payload, custom_attributes='accept_eula=true')
out[0]['generation']['content']

Ви можете знайти рішення в GitHub сховище.

Згенерована відповідь, яку ми тут отримуємо, не має особливого сенсу — це галюцинація.

Надання додаткового контексту LLM

Llama 2 намагається відповісти на наше запитання виключно на основі внутрішніх параметричних знань. Очевидно, що параметри моделі не зберігають відомості про те, які екземпляри ми можемо за допомогою керованого точкового навчання в SageMaker.

Щоб правильно відповісти на це питання, ми повинні скористатися джерельними знаннями. Тобто ми надаємо додаткову інформацію LLM через підказку. Давайте додамо цю інформацію безпосередньо як додатковий контекст для моделі.

context = """Managed Spot Training can be used with all instances
supported in Amazon SageMaker. Managed Spot Training is supported
in all AWS Regions where Amazon SageMaker is currently available."""

prompt_template = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know".

CONTEXT:
{context}

ANSWER:
"""

text_input = prompt_template.replace("{context}", context).replace("{question}", question)

payload = {
    "inputs":  
      [
        [
         {"role": "system", "content": text_input},
         {"role": "user", "content": question},
        ]   
      ],
   "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
}

out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}")

[Input]: Which instances can I use with Managed Spot Training in SageMaker?

[Output]:  Based on the given context, you can use Managed Spot Training with all instances supported in Amazon SageMaker. Therefore, the answer is:

All instances supported in Amazon SageMaker.

Тепер ми бачимо правильну відповідь на запитання; це було легко! Однак навряд чи користувач буде вставляти контексти у свої підказки, він би вже знав відповідь на своє запитання.

Замість того, щоб вручну вставляти єдиний контекст, автоматично ідентифікуйте відповідну інформацію з більшої бази даних інформації. Для цього вам знадобиться Retrieval Augmented Generation.

Доповнена генерація пошуку

За допомогою Retrieval Augmented Generation ви можете закодувати базу даних інформації у векторний простір, де близькість між векторами представляє їх релевантність/семантичну подібність. Використовуючи цей векторний простір як базу знань, ви можете перетворити новий запит користувача, закодувати його в той самий векторний простір і отримати найбільш релевантні записи, проіндексовані раніше.

Після отримання цих відповідних записів виберіть декілька з них і включіть їх у підказку LLM як додатковий контекст, забезпечуючи LLM дуже релевантними джерельними знаннями. Це двоетапний процес, де:

Індексація заповнює векторний індекс інформацією з набору даних.
Отримання відбувається під час запиту, де ми отримуємо відповідну інформацію з векторного індексу.

Обидва кроки вимагають моделі вбудовування, щоб перевести наш зрозумілий людині простий текст у семантичний векторний простір. Використовуйте високоефективний трансформатор речень MiniLM від Hugging Face, як показано на наступному знімку екрана. Ця модель не є LLM і тому не ініціалізується так само, як наша модель Llama 2.

hub_config = {
    "HF_MODEL_ID": "sentence-transformers/all-MiniLM-L6-v2",  # model_id from hf.co/models
    "HF_TASK": "feature-extraction",
}

huggingface_model = HuggingFaceModel(
    env=hub_config,
    role=role,
    transformers_version="4.6",  # transformers version used
    pytorch_version="1.7",  # pytorch version used
    py_version="py36",  # python version of the DLC
)

У hub_config, вкажіть ідентифікатор моделі, як показано на знімку екрана вище, але для цього завдання використовуйте функцію вилучення, оскільки ми генеруємо векторні вбудовування, а не текст, як наш LLM. Після цього ініціалізуйте конфігурацію моделі за допомогою HuggingFaceModel як і раніше, але цього разу без образу LLM і з деякими параметрами версії.

encoder = huggingface_model.deploy(
    initial_instance_count=1, instance_type="ml.t2.large", endpoint_name="minilm-embedding"
)

Ви можете знову розгорнути модель за допомогою deploy, використовуючи менший (тільки ЦП) екземпляр ml.t2.large. Модель MiniLM є крихітною, тому їй не потрібно багато пам’яті та не потрібен графічний процесор, оскільки вона може швидко створювати вбудовування навіть на центральному процесорі. Якщо потрібно, ви можете запустити модель швидше на GPU.

Щоб створити вбудовування, використовуйте predict і передати список контекстів для кодування через inputs ключ, як показано:

out = encoder.predict({"inputs": ["some text here", "some more text goes here too"]})

Передаються два контексти введення, повертаючи два вбудованих вектора контексту, як показано:

len(out)

2

Розмірність вбудовування моделі MiniLM становить 384 це означає, що кожен вектор, що вбудовує вихідні дані MiniLM, повинен мати розмірність 384. Однак, дивлячись на довжину наших вставок, ви побачите наступне:

len(out[0]), len(out[1])

(8, 8)

Два списки містять по вісім пунктів. MiniLM спочатку обробляє текст на етапі токенізації. Ця токенізація перетворює наш зрозумілий людині звичайний текст у список ідентифікаторів токенів, які можна прочитати моделлю. У вихідних функціях моделі ви можете побачити вбудовування на рівні маркерів. одне з цих вкладень показує очікувану розмірність 384 як показано:

len(out[0][0])

384

Перетворіть ці вбудовування на рівні маркерів у вбудовування на рівні документа, використовуючи середні значення для кожного векторного виміру, як показано на наступній ілюстрації.

Операція об’єднання середніх для отримання одного 384-вимірного вектора.

import numpy as np embeddings = np.mean(np.array(out), axis=1)embeddings.shape(2, 384)

З двома 384-вимірними векторними вкладеннями, по одному для кожного вхідного тексту. Щоб полегшити наше життя, об’єднайте процес кодування в одну функцію, як показано на наступному знімку екрана:

from typing import List

def embed_docs(docs: List[str]) -> List[List[float]]:
    out = encoder.predict({"inputs": docs})
    embeddings = np.mean(np.array(out), axis=1)
    return embeddings.tolist()

Завантаження набору даних

Завантажте розділ поширених запитань Amazon SageMaker як базу знань, щоб отримати дані, які містять стовпці запитань і відповідей.

Завантажте поширені запитання про Amazon SageMaker

Виконуючи пошук, шукайте лише відповіді, щоб ви могли опустити стовпець запитання. Подробиці дивіться в блокноті.

Наш набір даних і конвеєр для вбудовування готові. Тепер все, що нам потрібно, це десь зберігати ці вбудовування.

Індексація

Векторна база даних Pinecone зберігає вбудовані вектори та здійснює ефективний пошук у масштабі. Для створення бази даних вам знадобиться безкоштовний ключ API від Pinecone.

import pinecone
import os

# add Pinecone API key from app.pinecone.io
api_key = os.environ.get("PINECONE_API_KEY") or "YOUR_API_KEY"
# set Pinecone environment - find next to API key in console
env = os.environ.get("PINECONE_ENVIRONMENT") or "YOUR_ENV"

pinecone.init(api_key=api_key, environment=env)

Після підключення до векторної бази даних Pinecone створіть єдиний векторний індекс (подібний до таблиці в традиційних БД). Назвіть індекс retrieval-augmentation-aws і вирівняйте індекс dimension та metric параметри з тими, що вимагаються моделлю вбудовування (у цьому випадку MiniLM).

import time

index_name = "retrieval-augmentation-aws"

if index_name in pinecone.list_indexes():
    pinecone.delete_index(index_name)

pinecone.create_index(name=index_name, dimension=embeddings.shape[1], metric="cosine")
# wait for index to finish initialization
while not pinecone.describe_index(index_name).status["ready"]:
    time.sleep(1)

Щоб почати вставляти дані, виконайте наступне:

from tqdm.auto import tqdm

batch_size = 2  # can increase but needs larger instance size otherwise instance runs out of memory
vector_limit = 1000

answers = df_knowledge[:vector_limit]
index = pinecone.Index(index_name)

for i in tqdm(range(0, len(answers), batch_size)):
    # find end of batch
    i_end = min(i + batch_size, len(answers))
    # create IDs batch
    ids = [str(x) for x in range(i, i_end)]
    # create metadata batch
    metadatas = [{"text": text} for text in answers["Answer"][i:i_end]]
    # create embeddings
    texts = answers["Answer"][i:i_end].tolist()
    embeddings = embed_docs(texts)
    # create records list for upsert
    records = zip(ids, embeddings, metadatas)
    # upsert to Pinecone
    index.upsert(vectors=records)

Ви можете розпочати запит до індексу з запитання з попередньої публікації.

# extract embeddings for the questions
query_vec = embed_docs(question)[0]

# query pinecone
res = index.query(query_vec, top_k=1, include_metadata=True)

# show the results
res
{'matches': [{'id': '90',
'metadata': {'text': 'Managed Spot Training can be used with all '
'instances supported in Amazon '
'SageMaker.rn'},
'score': 0.881181657,
'values': []}],
'namespace': ''}

Наведені вище результати показують, що ми повертаємо релевантні контексти, щоб допомогти нам відповісти на наше запитання. Оскільки ми top_k = 1, index.query повернув верхній результат поряд із метаданими, які читаються Managed Spot Training can be used with all instances supported in Amazon.

Доповнення підказки

Використовуйте отримані контексти, щоб розширити підказку та визначити максимальну кількість контексту для передачі в LLM. Використовувати 1000 обмеження символів, щоб ітеративно додавати кожен повернутий контекст до підказки, доки ви не перевищите довжину вмісту.

Доповнення підказки

Годуйте context_str у підказку LLM, як показано на наступному знімку екрана:

payload = create_payload(question, context_str)
out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}")

[Введення]: які екземпляри я можу використовувати з керованим точковим навчанням у SageMaker? [Вихід]: виходячи з наданого контексту, ви можете використовувати кероване точкове навчання з усіма екземплярами, які підтримуються в Amazon SageMaker. Отже, відповідь така: усі екземпляри підтримуються в Amazon SageMaker.

Логіка працює, тому об’єднайте її в одну функцію, щоб усе було чисто.

def rag_query(question: str) -> str:
    # create query vec
    query_vec = embed_docs(question)[0]
    # query pinecone
    res = index.query(query_vec, top_k=5, include_metadata=True)
    # get contexts
    contexts = [match.metadata["text"] for match in res.matches]
    # build the multiple contexts string
    context_str = construct_context(contexts=contexts)
    # create our retrieval augmented prompt
    payload = create_payload(question, context_str)
    # make prediction
    out = predictor.predict(payload, custom_attributes='accept_eula=true')
    return out[0]["generation"]["content"]

Тепер ви можете ставити такі запитання, як показано нижче:

rag_query("Does SageMaker support spot instances?")

' Yes, Amazon SageMaker supports spot instances for managed spot training. According to the provided context, Managed Spot Training can be used with all instances supported in Amazon SageMaker, and Managed Spot Training is supported in all AWS Regions where Amazon SageMaker is currently available.nnTherefore, the answer to your question is:nnYes, SageMaker supports spot instances in all regions where Amazon SageMaker is available.'

Прибирати

Щоб уникнути небажаних витрат, видаліть модель і кінцеву точку.

encoder.delete_model()

encoder.delete_endpoint()

Висновок

У цій публікації ми познайомили вас із RAG із відкритим доступом до LLM на SageMaker. Ми також показали, як розгортати моделі Amazon SageMaker Jumpstart за допомогою Llama 2, LLM Hugging Face за допомогою Flan T5 і вбудовувати моделі за допомогою MiniLM.

Ми реалізували повний наскрізний конвеєр RAG, використовуючи наші моделі відкритого доступу та векторний індекс Pinecone. Використовуючи це, ми показали, як звести до мінімуму галюцинації та підтримувати знання LLM в актуальному стані, і в кінцевому підсумку підвищити користувацький досвід і довіру до наших систем.

Щоб запустити цей приклад самостійно, клонуйте це сховище GitHub і виконайте попередні кроки за допомогою Блокнот із відповідями на запитання на GitHub.

Про авторів

Зображення профілю Vedant Jain Ведант джайн є старшим спеціалістом зі штучного інтелекту/ML, який працює над стратегічними ініціативами Generative AI. До того як приєднатися до AWS, Vedant обіймав посади зі спеціальності ML/Data Science в різних компаніях, таких як Databricks, Hortonworks (нині Cloudera) і JP Morgan Chase. Окрім роботи, Ведант захоплюється створенням музики, скелелазінням, використанням науки для змістовного життя та вивченням кухонь усього світу.

Джеймс Бріггс є штатним захисником розробників у Pinecone, який спеціалізується на векторному пошуку та AI/ML. Він допомагає розробникам і компаніям розробляти власні рішення GenAI за допомогою онлайн-навчання. До Pinecone Джеймс працював над штучним інтелектом для невеликих технологічних стартапів і відомих фінансових корпорацій. Поза роботою Джеймс має пристрасть до подорожей і захоплення новими пригодами, починаючи від серфінгу та підводного плавання до тайського боксу та бій-джиу.

Сінь Хуан є старшим прикладним науковим співробітником Amazon SageMaker JumpStart і вбудованих алгоритмів Amazon SageMaker. Він зосереджується на розробці масштабованих алгоритмів машинного навчання. Його дослідницькі інтереси стосуються обробки природної мови, пояснюваного глибокого навчання на табличних даних і надійного аналізу непараметричної просторово-часової кластеризації. Він опублікував багато статей на конференціях ACL, ICDM, KDD і Королівського статистичного товариства: серія A.