使用 Amazon Bedrock 中的检索增强生成为电视/OTT 平台构建电影聊天机器人 |亚马逊网络服务

由柏拉图重新发布

关注： 0

改善用户发现新内容的方式对于提高用户在媒体平台上的参与度和满意度至关重要。仅关键字搜索就很难捕获语义和用户意图，从而导致结果缺乏相关上下文；例如，寻找约会之夜或圣诞节主题的电影。如果用户无法可靠地找到他们想要的内容，这可能会降低保留率。然而，随着大型语言模型（法学硕士），有机会解决这些语义和用户意图挑战。通过结合嵌入使用一种称为的技术捕获语义检索增强生成 (RAG)，您可以根据从您自己的数据源检索到的上下文生成更相关的答案。

在这篇文章中，我们将向您展示如何通过使用您自己的数据实现 RAG 来安全地创建电影聊天机器人知识库亚马逊基岩。我们使用 IMDb 和 Box Office Mojo 数据集来模拟媒体和娱乐客户的目录，并展示如何只需几个步骤即可构建自己的 RAG 解决方案。

解决方案概述

IMDb 和 Box Office Mojo 电影/电视/OTT 可授权数据包提供范围广泛的娱乐元数据，包括超过 1.6 亿的用户评级；超过 13 万演职人员的演职员表； 10 万部电影、电视和娱乐节目；以及来自 60 多个国家/地区的全球票房报告数据。许多 AWS 媒体和娱乐客户通过 AWS数据交换以改进内容发现并提高客户参与度和保留率。

Amazon Bedrock 知识库简介

为了给法学硕士配备最新的专有信息，组织使用 RAG，这是一种从公司数据源获取数据并使用该数据丰富提示的技术，以提供更相关和更准确的响应。 Amazon Bedrock 知识库支持完全托管的 RAG 功能，允许您使用上下文和相关公司数据自定义 LLM 响应。知识库自动执行端到端 RAG 工作流程，包括摄取、检索、提示增强和引用，从而无需编写自定义代码来集成数据源和管理查询。 Amazon Bedrock 的知识库还支持多轮对话，以便法学硕士可以用正确的答案回答复杂的用户查询。

我们使用以下服务作为此解决方案的一部分：

我们将完成以下高级步骤：

预处理 IMDb 数据以从每个电影记录创建文档并将数据上传到亚马逊简单存储服务（Amazon S3）存储桶。
创建知识库。
将您的知识库与数据源同步。
使用知识库回答有关电影目录的语义查询。

先决条件

本文中使用的 IMDb 数据需要商业内容许可证并付费订阅 AWS Data Exchange 上的 IMDb 和 Box Office Mojo 电影/电视/OTT 许可包。要查询许可证并访问示例数据，请访问开发者.imdb.com。要访问数据集，请参阅使用 IMDb 知识图进行强力推荐和搜索——第 1 部分并按照 访问 IMDb 数据 部分。

预处理 IMDb 数据

在创建知识库之前，我们需要将 IMDb 数据集预处理为文本文件并将其上传到 S3 存储桶。在这篇文章中，我们使用 IMDb 数据集模拟客户目录。我们从 IMDb 数据集中选取 10,000 部热门电影作为目录并构建数据集。

使用以下内容笔记本使用演员、导演和制片人姓名等附加信息创建数据集。我们使用以下代码为电影创建一个文件，其中所有信息都以法学硕士可以理解的非结构化文本形式存储在文件中：

def create_txt_files_imdb(row):
    full_text = ""
    full_text += f"{row['originalTitle']} ({row['titleId']}) was shot in year {int(row['year'])} with rating {row['rating']} and poster url {row['poster_url']}.nn"
    full_text += f"{row['originalTitle']} has genres {', '.join(row['genres'])}.nn"
    full_text += f"{row['originalTitle']} has actors {', '.join(row['Actors'])}.nn"   
    full_text += f"{row['originalTitle']} has directors {', '.join(row['Directors'])}.nn"
    full_text += f"{row['originalTitle']} has producers {', '.join(row['Producers'])}.nn"
    full_text += f"{row['originalTitle']} has keyword {', '.join([x.replace('-',' ') for x in row['keyword']])}.nn"
    full_text += f"{row['originalTitle']} has location {', '.join(row['location'])}.nn"
    full_text += f"{row['originalTitle']} has plot {row['plot']}.nn"
    with open(f"<path>/data/imdb_data/{row['titleId']}.txt","w") as f:
        f.write(full_text)
    return full_text

获得 .txt 格式的数据后，您可以使用以下命令将数据上传到 Amazon S3：

aws s3 cp <path to local data> s3://<bucket-name>/<path>/ --recursive

创建 IMDb 知识库

完成以下步骤来创建您的知识库：

在 Amazon Bedrock 控制台上，选择 知识库 在导航窗格中。
创建知识库.
针对 知识库名称，输入 imdb.
针对 知识库描述，输入可选描述，例如用于提取和存储 imdb 数据的知识库。
针对 IAM 权限，选择 创建并使用新的服务角色，然后输入新服务角色的名称。
下一页.

知识库详细信息控制台页面

针对 资料来源名称，输入 imdb-s3.
针对 S3 URI，输入您将数据上传到的 S3 URI。
在 高级设置 – 可选 部分，用于 分块策略，选择 无分块.
下一页.

知识库使您能够将文档分成更小的部分，以便您可以轻松地处理大型文档。在我们的例子中，我们已经将数据分块为较小的文档（每部电影一个）。

知识库控制台2

在 矢量数据库 部分，选择 快速创建新的矢量存储.

Amazon Bedrock 将自动创建完全托管的 OpenSearch Serverless 矢量搜索集合，并使用所选的 Titan Embedding G1 – 文本嵌入模型配置用于嵌入数据源的设置。

知识库矢量存储页面

查看您的设置并选择 创建知识库.

将您的数据与知识库同步

现在您已经创建了知识库，您可以将知识库与您的数据同步。

在 Amazon Bedrock 控制台上，导航到您的知识库。
在 数据源 部分中，选择 Sync.

知识库同步

数据源同步后，您就可以查询数据了。

使用语义结果改进搜索

请完成以下步骤来测试解决方案并使用语义结果改进搜索：

在 Amazon Bedrock 控制台上，导航到您的知识库。
选择您的知识库并选择 测试知识库.
选择型号，并选择 人类克劳德 v2.1.
使用.

现在您可以查询数据了。

我们可以问一些语义问题，例如“推荐一些圣诞节主题的电影”。

查询给我推荐一些圣诞主题的电影。

知识库响应包含引文，您可以探索响应的正确性和真实性。

知识库引用

您还可以从这些电影中深入了解所需的任何信息。在下面的例子中，我们问“谁在圣诞节前导演了噩梦？”

“圣诞节前的噩梦是谁导演的？”

您还可以提出与类型和收视率相关的更具体的问题，例如“向我展示收视率大于 7 的经典动画电影？”

给我看一下评分超过 7 的经典动画电影？

通过代理扩充您的知识库

亚马逊基岩代理帮助您自动执行复杂的任务。代理可以将用户查询分解为更小的任务，并调用自定义 API 或知识库来补充运行操作的信息。借助 Agents for Amazon Bedrock，开发人员可以将智能代理集成到他们的应用程序中，从而加速 AI 支持的应用程序的交付并节省数周的开发时间。通过代理，您可以通过添加更多功能（例如来自的推荐）来扩充您的知识库亚马逊个性化用于特定于用户的推荐或执行操作，例如根据用户需求过滤电影。

结论

在这篇文章中，我们展示了如何使用 Amazon Bedrock 通过几个步骤构建对话式电影聊天机器人，以根据您自己的数据以及 IMDb 和 Box Office Mojo 电影/电视/OTT 许可数据集回答语义搜索和对话体验。在下一篇文章中，我们将介绍使用 Agents for Amazon Bedrock 向您的解决方案添加更多功能的过程。要开始使用 Amazon Bedrock 上的知识库，请参阅 Amazon Bedrock 知识库.