将生成式 AI 与 Amazon EMR、Amazon Bedrock 和适用于 Apache Spark 的英语 SDK 结合使用来释放见解 |亚马逊网络服务

由柏拉图重新发布

关注： 0

在这个大数据时代，世界各地的组织都在不断寻找创新方法，从庞大的数据集中提取价值和见解。 Apache Spark 提供有效处理大量数据所需的可扩展性和速度。

亚马逊电子病历是业界领先的云大数据解决方案，使用 Apache Spark 等开源框架，用于 PB 级数据处理、交互式分析和机器学习 (ML)，阿帕奇蜂巢及急板。 Amazon EMR 是运行 Apache Spark 的最佳场所。您可以快速轻松地从以下位置创建托管 Spark 集群： AWS管理控制台, AWS命令行界面 (AWS CLI) 或 Amazon EMR API。您还可以使用其他 Amazon EMR 功能，包括快速亚马逊简单存储服务 (Amazon S3) 使用 Amazon EMR 文件系统 (EMRFS) 连接，与亚马逊 EC2 现货市场和 AWS胶水数据目录和 EMR Managed Scaling 用于在集群中添加或删除实例。亚马逊EMR Studio 是一个集成开发环境 (IDE)，使数据科学家和数据工程师能够轻松开发、可视化和调试用 R、Python、Scala 和 PySpark 编写的数据工程和数据科学应用程序。 EMR Studio 提供完全托管的 Jupyter Notebook 以及 Spark UI 和 YARN Timeline Service 等工具来简化调试。

为了释放数据宝库中隐藏的潜力，必须超越传统分析。生成式人工智能 (generative AI) 是一种尖端技术，将机器学习与创造力相结合，生成类似人类的文本、艺术甚至代码。亚马逊基岩是使用基础模型 (FM) 构建和扩展生成式 AI 应用程序的最直接方法。 Amazon Bedrock 是一项完全托管的服务，可通过 API 提供来自 Amazon 和领先 AI 公司的 FM，因此您可以在 Playground 中快速试验各种 FM，并使用单个 API 进行推理，无论您选择哪种模型，您可以灵活地使用来自不同提供商的 FM，并以最少的代码更改保持最新的模型版本。

在这篇文章中，我们将探讨如何使用 Amazon EMR、Amazon Bedrock 和 pyspark-ai 图书馆。 pyspark-ai 库是 Apache Spark 的英文版 SDK。它接受英语指令并将其编译成 PySpark 对象，例如 DataFrame。这使得 Spark 的使用变得更加简单，让您能够专注于从数据中提取价值。

解决方案概述

下图说明了将生成式 AI 与 Amazon EMR 和 Amazon Bedrock 结合使用的架构。

解决方案概述

EMR Studio 是一个基于 Web 的 IDE，适用于在 EMR 集群上运行的完全托管的 Jupyter 笔记本。我们与连接到正在运行的 EMR 集群的 EMR Studio 工作区进行交互，并运行作为本文一部分提供的笔记本。我们使用纽约市出租车数据来深入了解用户乘坐的各种出租车。我们根据 Spark DataFrame 中加载的数据以自然语言提出问题。然后，pyspark-ai 库使用 Amazon Bedrock 中的 Amazon Titan Text FM 基于自然语言问题创建 SQL 查询。 pyspark-ai 库接受 SQL 查询，使用 Spark SQL 运行它，并将结果提供给用户。

在此解决方案中，您可以使用以下命令在您的 AWS 账户中创建和配置所需的资源： AWS CloudFormation 模板。该模板创建了 AWS胶水数据库和表、S3 存储桶、VPC 等 AWS身份和访问管理解决方案中使用的 (IAM) 资源。

该模板旨在演示如何将 EMR Studio 与 pyspark-ai 包和 Amazon Bedrock 结合使用，不适合在未经修改的情况下用于生产用途。此外，该模板使用 us-east-1 区域，未经修改可能无法在其他区域工作。该模板创建的资源在使用时会产生成本。按照本文末尾的清理步骤删除资源并避免不必要的费用。

先决条件

在启动 CloudFormation 堆栈之前，请确保您具备以下条件：

提供对 AWS 服务的访问的 AWS 账户
具有用于配置 AWS CLI 的访问密钥和密钥的 IAM 用户，以及在 AWS CloudFormation 中创建 IAM 角色、IAM 策略和堆栈的权限
Titan Text G1 – Express 模型目前处于预览阶段，因此您需要具有预览访问权限才能将其用作本文的一部分

使用 AWS CloudFormation 创建资源

CloudFormation 创建以下 AWS 资源：

具有私有和公有子网的 VPC 堆栈，可与 EMR Studio、路由表和 NAT 网关结合使用。
安装了 Python 3.9 的 EMR 集群。我们使用引导操作来安装 Python 3.9 和其他相关包，例如 pyspark-ai 和 Amazon Bedrock 依赖项。（有关更多信息，请参阅引导脚本.)
用于 EMR Studio 工作区和笔记本存储的 S3 存储桶。
用于 EMR Studio 设置、Amazon Bedrock 访问和运行笔记本的 IAM 角色和策略

首先，请完成以下步骤：

启动堆栈：
选择 我承认此模板可能会创建 IAM 资源.

CloudFormation 堆栈大约需要 20-30 分钟才能完成。您可以在 AWS CloudFormation 控制台上监控其进度。当其状态显示为 CREATE_COMPLETE，您的 AWS 账户将拥有实施此解决方案所需的资源。

创建EMR工作室

现在，您可以创建 EMR Studio 和工作区来使用笔记本代码。完成以下步骤：

在 EMR Studio 控制台上，选择 创建工作室。
输入 工作室名称 as GenAI-EMR-Studio 并提供描述。
在 网络和安全 部分，指定以下内容：
- 针对 VPC，选择您创建的 VPC 作为您部署的 CloudFormation 堆栈的一部分。使用 VPCID 密钥的 CloudFormation 输出获取 VPC ID。
- 针对 子网路，选择所有四个子网。
- 针对 安全与访问，选择 自定义安全组.
- 针对 集群/端点安全组，选择 EMRSparkAI-Cluster-Endpoint-SG.
- 针对 工作区安全组，选择 EMRSparkAI-Workspace-SG.
在 工作室服务角色 部分，指定以下内容：
- 针对认证，选择 AWS身份和访问管理（IAM）.
- 针对 AWS IAM 服务角色，选择 EMRSparkAI-StudioServiceRole.
在 工作区存储 部分，浏览并选择用于存储的 S3 存储桶，开头为 emr-sparkai-<account-id>.
创建工作室.
创建 EMR Studio 后，选择下面的链接 工作室访问网址 访问工作室。
当您在 Studio 中时，选择 创建工作区.
地址 emr-genai 作为工作区的名称并选择 创建工作区.
创建工作区后，选择其名称以启动工作区（确保您已禁用任何弹出窗口阻止程序）。

使用 Apache Spark 与 Amazon EMR 和生成式 AI 进行大数据分析

现在我们已经完成了所需的设置，我们可以开始使用 Apache Spark 与 Amazon EMR 和生成式 AI 来执行大数据分析。

第一步，我们加载一个笔记本，其中包含处理用例所需的代码和示例。我们使用纽约出租车数据集，其中包含有关出租车乘坐的详细信息。

下载笔记本文件 NYTaxi.ipynb 并通过选择上传图标将其上传到您的工作区。
笔记本导入后，打开笔记本并选择 PySpark 作为内核。

PySpark 人工智能默认情况下使用 OpenAI 的 ChatGPT4.0 作为 LLM 模型，但您也可以插入来自 Amazon Bedrock 的模型，亚马逊SageMaker JumpStart，以及其他第三方模型。在本文中，我们将展示如何集成 Amazon Bedrock Titan 模型来生成 SQL 查询，并在 Amazon EMR 中与 Apache Spark 一起运行它。

要开始使用笔记本，您需要将工作区关联到计算层。为此，请选择计算导航窗格中的图标，然后选择由 CloudFormation 堆栈创建的 EMR 集群。

配置 Python 参数以将更新后的 Python 3.9 包与 Amazon EMR 结合使用：

%%configure -f
{
"conf": {
"spark.executorEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9",
"spark.yarn.appMasterEnv.PYSPARK_PYTHON": "/usr/local/python3.9.18/bin/python3.9"
}
}

导入必要的库：

from pyspark_ai import SparkAI
from pyspark.sql import SparkSession
from langchain.chat_models import ChatOpenAI
from langchain.llms.bedrock import Bedrock
import boto3
import os

导入库后，您可以从 Amazon Bedrock 定义 LLM 模型。在本例中，我们使用 amazon.titan-text-express-v1。您需要根据 Titan Text G1 – Express 模型的预览访问权限输入区域和 Amazon Bedrock 终端节点 URL。
```
boto3_bedrock = boto3.client('bedrock-runtime', '<region>', endpoint_url='<bedrock endpoint url>')
llm = Bedrock(
model_id="amazon.titan-text-express-v1",
client=boto3_bedrock)
```

将 Spark AI 连接到 Amazon Bedrock LLM 模型，以便根据自然语言的问题生成 SQL 查询：

#Connecting Spark AI to the Bedrock Titan LLM
spark_ai = SparkAI(llm = llm, verbose=False)
spark_ai.activate()

在这里，我们用 verbose=False 初始化了 Spark AI；您还可以设置 verbose=True 以查看更多详细信息。

现在，您可以在 Spark DataFrame 中读取 NYC Taxi 数据，并使用 Spark 中生成式 AI 的强大功能。

例如，您可以询问数据集中的记录数：

taxi_records.ai.transform("count the number of records in this dataset").show()

我们得到以下回应：

> Entering new AgentExecutor chain...
Thought: I need to count the number of records in the table.
Action: query_validation
Action Input: SELECT count(*) FROM spark_ai_temp_view_ee3325
Observation: OK
Thought: I now know the final answer.
Final Answer: SELECT count(*) FROM spark_ai_temp_view_ee3325
> Finished chain.
+----------+
| count(1)|
+----------+
|2870781820|
+----------+

Spark AI内部使用浪链 SQL 链，它向最终用户隐藏了在 Spark 中使用查询的复杂性。

该笔记本还提供了一些示例场景，用于探索使用 Apache Spark 和 Amazon EMR 生成 AI 的强大功能。

清理

清空S3存储桶的内容 emr-sparkai-<account-id>，删除作为本文一部分创建的 EMR Studio 工作区，然后删除您部署的 CloudFormation 堆栈。

结论

本文展示了如何借助 Apache Spark 以及 Amazon EMR 和 Amazon Bedrock 增强您的大数据分析能力。 PySpark AI 包允许您从数据中获得有意义的见解。它有助于减少开发和分析时间，减少编写手动查询的时间，并让您能够专注于业务用例。

作者简介

索拉布·布提亚尼 是 AWS 的首席分析专家解决方案架构师。他对新技术充满热情。他于 2019 年加入 AWS，与客户合作，使用 Amazon Bedrock、Amazon SageMaker、Amazon EMR、Amazon Athena、AWS Glue、AWS Lake Formation、和亚马逊数据区。

苛刻的瓦尔丹 是 AWS 高级解决方案架构师，专门从事分析。他在大数据和数据科学领域拥有超过 8 年的工作经验。他热衷于帮助客户采用最佳实践并从数据中发现见解。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://aws.amazon.com/blogs/big-data/use-generative-ai-with-amazon-emr-amazon-bedrock-and-english-sdk-for-apache-spark-to-unlock-insights/

时间戳记： 2023 年 11 月 16 日

时间戳记： 2023 年 11 月 15 日

将生成式 AI 与 Amazon EMR、Amazon Bedrock 和适用于 Apache Spark 的英语 SDK 结合使用来解锁见解 | 亚马逊网络服务

由柏拉图重新发布

解决方案概述

先决条件

使用 AWS CloudFormation 创建资源

创建EMR工作室

使用 Apache Spark 与 Amazon EMR 和生成式 AI 进行大数据分析

清理

结论

作者简介

更多来自 AWS 大数据

Amazon QuickSight 帮助 TalentReef 帮助其客户做出更明智的招聘决策

将数据从事务数据湖增量加载到数据仓库 | 亚马逊网络服务

在 Amazon QuickSight 中使用雷达图可视化多元数据

在 Amazon MWAA 上引入共享 VPC 支持 | 亚马逊网络服务

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理