使用 Amazon Bedrock 和 Amazon SageMaker 上托管的多模式基础模型与您的幻灯片对话 - 第 1 部分 |亚马逊网络服务

由柏拉图重新发布

关注： 0

随着生成式人工智能的出现，当今的基础模型 (FM)，例如大语言模型 (LLM) Claude 2 和 Llama 2，可以执行一系列生成任务，例如对文本数据进行问答、摘要和内容创建。然而，现实世界的数据以多种形式存在，例如文本、图像、视频和音频。以 PowerPoint 幻灯片为例。它可以包含文本形式的信息，也可以嵌入图形、表格和图片中。

在这篇文章中，我们提出了一个使用多模态 FM 的解决方案，例如 Amazon Titan 多模式嵌入模型和拉瓦1.5 和 AWS 服务，包括亚马逊基岩和亚马逊SageMaker 对多模式数据执行类似的生成任务。

解决方案概述

该解决方案提供了一种使用幻灯片的文本和视觉元素中包含的信息来回答问题的实现。该设计依赖于检索增强生成（RAG）的概念。传统上，RAG 与法学硕士可以处理的文本数据相关联。在这篇文章中，我们将 RAG 扩展为也包含图像。这提供了强大的搜索功能，可以从表格和图形以及文本等视觉元素中提取上下文相关的内容。

设计包含图像的 RAG 解决方案有多种方法。我们在这里介绍了一种方法，并将在这个由三部分组成的系列的第二篇文章中介绍另一种方法。

该解决方案包括以下组件：

Amazon Titan 多模式嵌入模型 – 该 FM 用于为本文中使用的幻灯片中的内容生成嵌入。作为多模态模型，此 Titan 模型可以处理文本、图像或组合作为输入并生成嵌入。 Titan Multimodal Embeddings 模型生成 1,024 维的向量（嵌入），并通过 Amazon Bedrock 访问。
大型语言和视觉助手（LLaVA） – LLaVA 是一种用于视觉和语言理解的开源多模式模型，用于解释幻灯片中的数据，包括图形和表格等视觉元素。我们使用7亿参数版本拉瓦1.5-7b 在这个解决方案中。
亚马逊SageMaker – LLaVA 模型使用 SageMaker 托管服务部署在 SageMaker 端点上，我们使用生成的端点对 LLaVA 模型运行推理。我们还使用 SageMaker 笔记本来端到端地编排和演示该解决方案。
亚马逊 OpenSearch 无服务器 – OpenSearch Serverless 是一种按需无服务器配置亚马逊开放搜索服务。我们使用 OpenSearch Serverless 作为矢量数据库来存储 Titan Multimodal Embeddings 模型生成的嵌入。在 OpenSearch Serverless 集合中创建的索引充当我们的 RAG 解决方案的向量存储。
Amazon OpenSearch 摄取 (OSI) – OSI 是一个完全托管的无服务器数据收集器，可将数据传送到 OpenSearch 服务域和 OpenSearch Serverless 集合。在本文中，我们使用 OSI 管道将数据传送到 OpenSearch Serverless 矢量存储。

解决方案架构

解决方案设计由两部分组成：摄取和用户交互。在摄取过程中，我们通过将每张幻灯片转换为图像来处理输入幻灯片，为这些图像生成嵌入，然后填充矢量数据存储。这些步骤在用户交互步骤之前完成。

在用户交互阶段，用户提出的问题被转换为嵌入，并在向量数据库上运行相似性搜索，以找到可能包含用户问题答案的幻灯片。然后，我们将此幻灯片（以图像文件的形式）提供给 LLaVA 模型和用户问题，作为生成查询答案的提示。这篇文章的所有代码都可以在 GitHub上回购。

下图说明了摄取架构。

摄取架构图

工作流程步骤如下：

幻灯片被转换为 JPG 格式的图像文件（每张幻灯片一个），并传递到 Titan Multimodal Embeddings 模型以生成嵌入。在这篇文章中，我们使用标题为使用 AWS Trainium 和 AWS Inferentia 训练和部署 Stable Diffusion 2023 年 31 月在多伦多举行的 AWS 峰会上展示了该解决方案。示例甲板有 31 张幻灯片，因此我们生成 1,024 组向量嵌入，每组向量嵌入有 XNUMX 个维度。我们向这些生成的向量嵌入添加额外的元数据字段并创建一个 JSON 文件。这些附加元数据字段可用于利用 OpenSearch 强大的搜索功能执行丰富的搜索查询。
生成的嵌入被放在一个 JSON 文件中，该文件上传到亚马逊简单存储服务（亚马逊S3）。
通过 Amazon S3事件通知，一个事件被放入 Amazon Simple Queue服务（Amazon SQS）队列。
SQS 队列中的此事件充当运行 OSI 管道的触发器，该管道反过来将数据（JSON 文件）作为文档摄取到 OpenSearch Serverless 索引中。请注意，OpenSearch Serverless 索引被配置为此管道的接收器，并作为 OpenSearch Serverless 集合的一部分创建。

下图说明了用户交互架构。

用户交互架构

工作流程步骤如下：

用户提交与已摄取的幻灯片相关的问题。
使用通过 Amazon Bedrock 访问的 Titan Multimodal Embeddings 模型将用户输入转换为嵌入。使用这些嵌入执行 OpenSearch 矢量搜索。我们执行 k 最近邻 (k=1) 搜索来检索与用户查询匹配的最相关的嵌入。设置 k=1 会检索与用户问题最相关的幻灯片。
OpenSearch Serverless 响应的元数据包含与最相关的幻灯片对应的图像的路径。
通过组合用户问题和图像路径来创建提示，并将其提供给 SageMaker 上托管的 LLaVA。 LLaVA 模型能够理解用户问题并通过检查图像中的数据来回答它。
该推理的结果返回给用户。

以下各节将详细讨论这些步骤。请参阅成果部分的屏幕截图和输出的详细信息。

先决条件

要实施本文中提供的解决方案，您应该有一个 AWS账户熟悉 FM、Amazon Bedrock、SageMaker 和 OpenSearch Service。

该解决方案使用 Titan Multimodal Embeddings 模型。确保启用此模型以在 Amazon Bedrock 中使用。在 Amazon Bedrock 控制台上，选择 模型访问 在导航窗格中。如果启用 Titan Multimodal Embeddings，访问状态将说明 授予访问权限.

管理 Amazon Bedrock 中的模型访问

如果模型不可用，请通过选择启用对模型的访问 管理模型访问选择 Titan 多模态嵌入 G1，并选择 请求模型访问。该模型立即可供使用。

请求 Amazon Bedrock 中的模型访问权限

使用 AWS CloudFormation 模板创建解决方案堆栈

使用以下其中一项 AWS CloudFormation 模板（取决于您所在的区域）来启动解决方案资源。

AWS地区	链接
`us-east-1`
`us-west-2`

堆栈创建成功后，导航到堆栈的输出 AWS CloudFormation 控制台上的选项卡并记下以下值 MultimodalCollectionEndpoint，我们在后续步骤中使用它。

CloudFormation 模板创建的资源

CloudFormation 模板创建以下资源：

IAM角色 - 下列 AWS身份和访问管理 (IAM) 角色已创建。更新这些角色以应用最小特权权限.
- SMExecutionRole 具有 Amazon S3、SageMaker、OpenSearch Service 和 Bedrock 的完全访问权限。
- OSPipelineExecutionRole 可以访问特定的 Amazon SQS 和 OSI 操作。
SageMaker 笔记本 – 这篇文章的所有代码都是通过这个笔记本运行的。
OpenSearch 无服务器集合 – 这是用于存储和检索嵌入的矢量数据库。
OSI管道 – 这是将数据引入 OpenSearch Serverless 的管道。
S3斗 – 这篇文章的所有数据都存储在这个存储桶中。
SQS队列 – 触发OSI管道运行的事件被放入该队列中。

CloudFormation 模板配置 OSI 管道，其中 Amazon S3 和 Amazon SQS 处理作为源，OpenSearch Serverless 索引作为接收器。在指定的 S3 存储桶和前缀 (multimodal/osi-embeddings-json）将触发 SQS 通知，OSI 管道使用这些通知将数据提取到 OpenSearch Serverless 中。

CloudFormation 模板还创建网络, 加密及数据访问 OpenSearch Serverless 集合所需的策略。更新这些策略以应用最低权限。

请注意，SageMaker 笔记本中引用了 CloudFormation 模板名称。如果默认模板名称已更改，请确保在全局变量.py

测试解决方案

完成先决条件步骤并成功创建 CloudFormation 堆栈后，您现在可以测试该解决方案：

在SageMaker控制台上，选择 笔记本电脑 在导航窗格中。
点击 MultimodalNotebookInstance 笔记本实例并选择 打开JupyterLab.
In 文件浏览器，遍历到笔记本文件夹以查看笔记本和支持文件。

笔记本按照其运行顺序进行编号。每个笔记本中的说明和注释描述了该笔记本执行的操作。我们一一运行这些笔记本。

0_deploy_llava.ipynb 在 JupyterLab 中打开它。
点击运行菜单中选择 运行所有单元格 运行此笔记本中的代码。

此笔记本将 LLaVA-v1.5-7B 模型部署到 SageMaker 端点。在此笔记本中，我们从 HuggingFace Hub 下载 LLaVA-v1.5-7B 模型，将 inference.py 脚本替换为 llava_inference.py，并为此模型创建一个 model.tar.gz 文件。 model.tar.gz 文件上传到 Amazon S3 并用于在 SageMaker 终端节点上部署模型。这 llava_inference.py 脚本具有额外的代码，允许从 Amazon S3 读取图像文件并对其运行推理。

1_data_prep.ipynb 在 JupyterLab 中打开它。
点击运行菜单中选择 运行所有单元格 运行此笔记本中的代码。

此笔记本下载滑动甲板，将每张幻灯片转换为 JPG 文件格式，并将其上传到本文使用的 S3 存储桶。

2_data_ingestion.ipynb 在 JupyterLab 中打开它。
点击运行菜单中选择 运行所有单元格 运行此笔记本中的代码。

我们在此笔记本中执行以下操作：

我们在 OpenSearch Serverless 集合中创建索引。该索引存储幻灯片的嵌入数据。请看下面的代码：

session = boto3.Session()
credentials = session.get_credentials()
auth = AWSV4SignerAuth(credentials, g.AWS_REGION, g.OS_SERVICE)

os_client = OpenSearch(
  hosts = [{'host': host, 'port': 443}],
  http_auth = auth,
  use_ssl = True,
  verify_certs = True,
  connection_class = RequestsHttpConnection,
  pool_maxsize = 20
)

index_body = """
{
  "settings": {
      "index.knn": true
  },
  "mappings": {
      "properties": {
          "vector_embedding": {
              "type": "knn_vector",
              "dimension": 1024,
              "method": {
                  "name": "hnsw",
                  "engine": "nmslib",
                  "parameters": {}
              }
          },
          "image_path": {
              "type": "text"
          },
          "metadata": {
              "properties": {
                  "slide_filename": {
                      "type": "text"
                  },
                  "model_id": {
                      "type": "text"
                  },
                  "slide_description": {
                      "type": "text"
                  }
              }
          }
      }
  }
}
"""
index_body = json.loads(index_body)
try:
  response = os_client.indices.create(index_name, body=index_body)
  logger.info(f"response received for the create index -> {response}")
except Exception as e:
  logger.error(f"error in creating index={index_name}, exception={e}")

我们使用 Titan Multimodal Embeddings 模型将之前笔记本中创建的 JPG 图像转换为矢量嵌入。这些嵌入和附加元数据（例如图像文件的 S3 路径）存储在 JSON 文件中并上传到 Amazon S3。请注意，系统会创建一个 JSON 文件，其中包含转换为嵌入的所有幻灯片（图像）的文档。以下代码片段显示了如何将图像（以 Base64 编码字符串的形式）转换为嵌入：

def get_multimodal_embeddings(bedrock: botocore.client, image: str) -> np.ndarray:
    body = json.dumps(dict(inputImage=image))
    try:
        response = bedrock.invoke_model(
            body=body, modelId=g.FMC_MODEL_ID, accept=g.ACCEPT_ENCODING, contentType=g.CONTENT_ENCODING
        )
        response_body = json.loads(response.get("body").read())
        embeddings = np.array([response_body.get("embedding")]).astype(np.float32)
    except Exception as e:
        logger.error(f"exception while image(truncated)={image[:10]}, exception={e}")
        embeddings = None

    return embeddings

此操作会触发 OpenSearch 摄取管道，该管道会处理文件并将其摄取到 OpenSearch Serverless 索引中。以下是创建的 JSON 文件的示例。（示例代码中显示了具有四个维度的向量。Titan Multimodal Embeddings 模型生成 1,024 个维度。）

[
  {
    "image_path": "s3://<your-bucket-name>/path/to/file1.json",
    "metadata": {
      "slide_filename": "mypowerpoint1.pptx",
      "model_id": "amazon.titan-embed-image-v1",
      "slide_description": "This is a test slide deck"
    },
    "vector_embedding": [
      657.6052386529958,
      0.8865137233123771,
      763.870264592026
    ]
  }
]

3_rag_inference.ipynb 在 JupyterLab 中打开它。
点击运行菜单中选择 运行所有单元格 运行此笔记本中的代码。

该笔记本实现了 RAG 解决方案：我们将用户问题转换为嵌入，从矢量数据库中找到相似的图像（幻灯片），并将检索到的图像提供给 LLaVA 以生成用户问题的答案。我们使用以下提示模板：

prompt_template: str = """Pretend that you are a helpful assistant that answers questions about content in a slide deck. 
  Using only the information in the provided slide image answer the following question.
  If you do not find the answer in the image then say I did not find the answer to this question in the slide deck.

  {question}
"""

以下代码片段提供了 RAG 工作流程：

# create prompt and convert to embeddings
question: str = "As per the AI/ML flywheel, what do the AWS AI/ML services provide?"
prompt = prompt_template.format(question=question)
text_embeddings = get_text_embeddings(bedrock, question)

# vector db search
vector_db_response: Dict = find_similar_data(text_embeddings)

# download image for local notebook display
s3_img_path = vector_db_response.get('hits', {}).get('hits')[0].get('_source').get('image_path')
logger.info(f"going to answer the question="{question}" using the image "{s3_img_path}"")

!aws s3 cp {s3_img_path} .
local_img_path = os.path.basename(s3_img_path)
display(Image(filename=local_img_path))

# Ask LLaVA
data = {
    "image" : s3_img_path,
    "question" : prompt,
    "temperature" : 0.1,
}
output = predictor.predict(data)
logger.info(f"Image={s3_img_path}nQuestion: {question}nAnswer: {output}nn")

成果

以下是我们实施过程中产生的一些用户问题和答复的汇编。这问题列捕获用户问题，并且回答列是 LLaVA 生成的文本响应。图片是 OpenSearch Serverless 矢量搜索返回的 k 最近 (k=1) 幻灯片匹配。 LLaVA 解读这张幻灯片以提供答案。

多模态 RAG 结果

问题	回答	图片
Inf2 的性能与同类 EC2 实例相比如何？我需要数字。	根据幻灯片，与同类 EC2 实例相比，AWS Inferentia2 的 Inf4 实例吞吐量提高了 10 倍，延迟降低了 2 倍。
根据 AI/ML 飞轮，AWS AI/ML 服务提供什么？	AWS AI/ML 服务提供更好的 $/perfer 功能、新功能和创新投资。
与GPT-2相比，GPT-3多了多少参数？ GPT-2和GPT-3的参数大小的数值差异是多少？	根据幻灯片，GPT-3 有 175 亿个参数，而 GPT-2 有 1.5 亿个参数。 GPT-2和GPT-3的参数大小之间的数值差异为173.5亿。
粒子物理学中的夸克是什么？	我在幻灯片中没有找到这个问题的答案。

请随意将此解决方案扩展到您的幻灯片。只需使用幻灯片的 URL 更新 globals.py 中的 SLIDE_DECK 变量，然后运行上一节中详细介绍的提取步骤即可。

Tips:

您可以使用 OpenSearch 仪表板与 OpenSearch API 交互，以对索引和提取的数据运行快速测试。以下屏幕截图显示了 OpenSearch 仪表板 GET 示例。

OpenSearch 仪表板视图

清理

为避免将来产生费用，请删除您创建的资源。您可以通过 CloudFormation 控制台删除堆栈来执行此操作。

删除 CloudFormation 堆栈

此外，删除为 LLaVA 推理创建的 SageMaker 推理端点。您可以通过取消注释清理步骤来完成此操作 3_rag_inference.ipynb 并运行单元，或者通过 SageMaker 控制台删除端点：选择推理和端点在导航窗格中，然后选择端点并将其删除。

结论

企业一直在生成新内容，幻灯片是一种常用机制，用于在组织内部以及外部与客户或会议上共享和传播信息。随着时间的推移，丰富的信息可能会被隐藏在非文本模式中，例如这些幻灯片中的图表和表格。您可以使用此解决方案以及 Titan Multimodal Embeddings 模型和 LLaVA 等多模态 FM 的强大功能来发现新信息或发现幻灯片内容的新观点。

我们鼓励您通过探索来了解更多亚马逊SageMaker JumpStart, 亚马逊泰坦型号、Amazon Bedrock 和 OpenSearch Service，并使用本文中提供的示例实现构建解决方案。

请留意本系列中的另外两篇文章。第 2 部分介绍了您可以用来与幻灯片对话的另一种方法。此方法生成并存储 LLaVA 推断，并使用这些存储的推断来响应用户查询。第 3 部分比较这两种方法。

关于作者

阿米特·阿罗拉（Amit Arora） 是 Amazon Web Services 的 AI 和 ML 专家架构师，帮助企业客户使用基于云的机器学习服务来快速扩展他们的创新。他还是华盛顿特区乔治敦大学 MS 数据科学和分析项目的兼职讲师

曼朱·普拉萨德 是 Amazon Web Services 战略客户部门的高级解决方案架构师。她专注于为多个领域提供技术指导，包括为大型机电客户提供人工智能/机器学习。在加入 AWS 之前，她为金融服务行业的公司以及一家初创公司设计和构建了解决方案。

阿查纳·伊纳普迪 是 AWS 的高级解决方案架构师，为战略客户提供支持。她拥有十多年帮助客户设计和构建数据分析和数据库解决方案的经验。她热衷于利用技术为客户提供价值并实现业务成果。

安塔拉赖莎 是 Amazon Web Services 的人工智能和机器学习解决方案架构师，为德克萨斯州达拉斯市的战略客户提供支持。她之前还拥有与 AWS 大型企业合作伙伴合作的经验，曾担任数字原生客户的合作伙伴成功解决方案架构师。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/talk-to-your-slide-deck-using-multimodal-foundation-models-hosted-on-amazon-bedrock-and-amazon-sagemaker-part-1/

时间戳记： 2024 年 1 月 30 日

时间戳记： 2023 年 3 月 30 日

由柏拉图重新发布

服务提供商如何通过 Amazon Comprehend 使用自然语言处理从客户工单中获取洞察

使用 AWS Trainium 和 Amazon SageMaker 最大限度地提高性能并降低深度学习培训成本

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理