使用分区索引通过 AWS Glue 爬网程序高效爬网数据湖并改进数据访问

由柏拉图重新发布

关注： 0

在当今世界，客户管理着自己的大量数据亚马逊简单存储服务 (Amazon S3) 数据湖，需要复杂的数据管道来持续了解数据布局的变化并将其提供给消费系统。 AWS胶水爬网程序提供了一种在 AWS Glue 数据目录中对数据进行编目的简单方法，从而消除了架构管理和数据分类方面的繁重工作。 AWS Glue 爬网程序从 Amazon S3 中提取数据架构和分区，以自动填充数据目录，从而保持元数据最新。

但随着数据随着时间的推移呈指数增长，给定表中的分区数量可能会显着增加。因为分析服务例如亚马逊雅典娜查询包含数百万个分区的表时，检索分区所需的时间会增加，并可能导致查询运行时间增加。

如今，AWS Glue 爬网程序支持已扩展为自动为新发现的表添加分区索引，以优化分区数据集的查询处理。现在，当爬网程序在爬网程序运行期间创建新的数据目录表时，它还会默认创建一个分区索引，并以所有数字和字符串类型分区列的最大排列作为键。然后，数据目录根据这些键创建可搜索索引，从而减少在具有数百万个分区的表上检索和过滤分区元数据所需的时间。分区索引的创建有利于 Athena 上运行的分析工作负载，亚马逊电子病历, 亚马逊红移频谱和 AWS Glue。

在本文中，我们介绍如何使用 AWS Glue 爬网程序创建分区索引，并比较使用和不使用 Athena 分区索引访问爬网数据时的查询性能改进。

解决方案概述

我们使用 AWS CloudFormation 模板来创建我们的解决方案资源。在以下步骤中，我们演示如何配置 AWS Glue 爬网程序以使用 AWS Glue 控制台或 AWS命令行界面（AWS CLI）。然后我们比较使用 Athena 的查询性能改进。

先决条件

要跟随这篇文章，您必须有权访问 AWS身份和访问管理 (IAM) 管理员角色，使用 AWS CloudFormation 创建资源。

设置您的解决方案资源

CloudFormation 模板生成以下资源：

IAM角色和政策
用于保存架构的 AWS Glue 数据库
指向高度分区数据集的 AWS Glue 爬网程序
用于存储查询结果的 Athena 工作组和存储桶

请完成以下步骤来设置解决方案资源：

登录到 AWS管理控制台作为 IAM 管理员。
启动堆栈 部署 CloudFormation 模板：
针对 数据库名称，保留默认值 blog_partition_index_crawlerdb.
下一页.
查看最后一页上的详细信息并选择 我承认AWS CloudFormation可能会创建IAM资源.
创建堆栈.
堆栈完成后，在 AWS CloudFormation 控制台上，导航到输出堆栈的标签。
记下以下值 DatabaseName 和 GlueCrawlerName.

该堆栈部署的某些资源在使用时会产生成本。

编辑并运行 AWS Glue 爬虫

要配置和运行 AWS Glue 爬网程序，请完成以下步骤：

在 AWS Glue 控制台上，选择爬行在导航窗格中。
找到 crawler blog-partition-index-crawler 并选择编辑.
在 设置输出和调度 部分，下 高级选项，选择 自动创建分区索引.
查看并更新爬网程序设置。

或者，您可以使用 AWS CLI 配置爬网程序（提供您的 IAM 角色和区域）：

aws glue create-crawler --name blog-partition-index-crawler --targets '{ "S3Targets": [{ "Path": "s3://awsglue-datasets/examples/highly-partitioned-table/"}] }' --database-name "blog_partition_index_crawlerdb" --role <Crawler_IAM_role> --configuration "{"Version":1.0,"CreatePartitionIndex":true}" --region <region_name>

现在运行爬网程序并验证爬网程序运行是否已完成。

这是高度分区的数据集，大约需要 90 分钟才能完成。

验证分区表

在 AWS Glue 数据库中 blog_partition_index_crawlerdb，验证该表 highly_partitioned_table 。

默认情况下，爬网程序根据有效列类型的分区列的最大排列（与分区列的顺序相同）来确定索引，分区列可以是数字或字符串。对于爬虫创建的表（highly_partitioned_table），我们有分区列 year （串）， month （串）， day （字符串），和 hour （细绳）。

根据这个定义，爬虫创建了年、月、日、小时排列的索引。爬虫创建了前缀为的索引 crawler_ 在默认创建的任何分区索引上。

通过导航到表来验证相同的内容 highly_partitioned_table 在 AWS Glue 控制台上并选择指数标签。

爬网程序能够爬网 S3 数据源并成功填充表的分区索引。

比较使用 Athena 的查询性能改进

首先，我们在 Athena 中查询表，不使用分区索引。要使用 Athena 验证表，请完成以下步骤：

在Athena控制台上，选择 crawler-primary-workgroup 作为 Athena 工作组并选择确认.

运行以下查询：

select count(*), sum(value) from blog_partition_index_crawlerdb.highly_partitioned_table where year='1980' and month='01' and day ='01'

以下屏幕截图显示，在未使用分区索引启用过滤的情况下，查询大约花费了 32 秒。

现在我们在 Athena 查询上启用分区索引：

ALTER TABLE blog_partition_index_crawlerdb.highly_partitioned_table
SET TBLPROPERTIES ('partition_filtering.enabled' = 'true')

再次运行以下查询并记下运行时间：

select count(*), sum(value) from blog_partition_index_crawlerdb.highly_partitioned_table where year=‘1980’ and month=‘01’ and day =‘01’

下面的屏幕截图显示查询仅花费了 700 毫秒，使用分区索引启用过滤后速度要快得多。

清理

为避免对您的 AWS 账户产生不必要的费用，您可以删除 AWS 资源：

以用于创建 CloudFormation 堆栈的 IAM 管理员身份登录到 CloudFormation 控制台。
删除您创建的 CloudFormation 堆栈。

结论

在这篇文章中，我们解释了如何配置 AWS 爬网程序来创建分区索引，并比较了使用 Athena 索引访问数据时的查询性能。

如果表上不存在分区索引，AWS Glue 会加载表的所有分区，然后筛选加载的分区，这会导致元数据检索效率低下。 Redshift Spectrum、Amazon EMR 和 AWS Glue ETL Spark DataFrames 等分析服务现在可以利用索引来获取分区，从而显着提高查询性能。

有关跨各种分析引擎的分区索引和查询性能的更多信息，请参阅使用 AWS Glue 数据目录分区索引提高 Amazon Athena 查询性能和使用 AWS Glue 分区索引提高查询性能.

特别感谢为本次爬虫功能发布做出贡献的所有人：Yuhang Chen、Kyle Duong 和 Mita Gavade。

关于作者

斯里维迪亚·帕塔萨拉蒂 是 AWS Lake Formation 团队的高级大数据架构师。她喜欢构建数据网格解决方案并与社区分享。

桑迪普·阿德万卡尔 是 AWS 的高级技术产品经理。他在加利福尼亚湾区工作，与全球客户合作，将业务和技术要求转化为产品，使客户能够改进他们管理、保护和访问数据的方式。

SEO 支持的内容和 PR 分发。今天得到放大。
EVM财务。去中心化金融的统一接口。访问这里。
量子传媒集团。 IR/PR 放大。访问这里。
柏拉图爱流。 Web3 数据智能。知识放大。访问这里。
Sumber: https://aws.amazon.com/blogs/big-data/efficiently-crawl-your-data-lake-and-improve-data-access-with-aws-glue-crawler-using-partition-indexes/

时间戳记： 2023 年 6 月 15 日

使用 AWS Data Exchange 在 Amazon Redshift Serverless 上轻松运行流行的基准测试

源群集：

AWS 大数据

源节点： 1888942

时间戳记： 2023 年 1 月 9 日

使用 SAML 身份以编程方式访问 Amazon OpenSearch Service

源群集：

AWS 大数据

源节点： 2644121

时间戳记： 2023 年 5 月 9 日

使用新的 SQL 命令 MERGE 和 QUALIFY 在 Amazon Redshift 中实施和验证变更数据捕获 | 亚马逊网络服务

源群集：

AWS 大数据

源节点： 2896166

时间戳记： 2023 年 9 月 22 日

Amazon EMR 无服务器支持更大的工作线程来运行更多计算和内存密集型工作负载

源群集：

AWS 大数据

源节点： 1960703

时间戳记： 2023 年 2 月 15 日

Diligent 使用 Amazon QuickSight 通过数据驱动的自动化洞察增强客户治理

源群集：

AWS 大数据

源节点： 1926219

时间戳记： 2023 年 1 月 27 日

从 AWS Glue Studio 可视化编辑器探索 Amazon Redshift 的新 ETL 和 ELT 功能

源群集：

AWS 大数据

源节点： 2597868

时间戳记： 2023 年 4 月 20 日

将生成式 AI 与 Amazon EMR、Amazon Bedrock 和适用于 Apache Spark 的英语 SDK 结合使用来解锁见解 | 亚马逊网络服务

源群集：

AWS 大数据

源节点： 2980843

时间戳记： 2023 年 11 月 16 日

使用 AWS Glue 数据质量 | 设置高级规则以验证多个数据集的质量亚马逊网络服务

源群集：

AWS 大数据

源节点： 2710104

时间戳记： 2023 年 6 月 6 日

Amazon QuickSight 中的新散点图选项可可视化您的数据

源群集：

AWS 大数据

源节点： 2639142

时间戳记： 2023 年 5 月 8 日

EC2 集群上 Amazon EMR 的容量管理和 Amazon EMR 托管扩展改进 | 亚马逊网络服务

源群集：

AWS 大数据

源节点： 2869033

时间戳记： 2023 年 9 月 7 日

使用 AWS Step Functions 和 Amazon Redshift Data API 加速 ELT 流程的编排

源群集：

AWS 大数据

源节点： 1892378

时间戳记： 2023 年 1 月 10 日

使用 Amazon Redshift ML 实施模型版本控制 | 亚马逊网络服务

源群集：

AWS 大数据

源节点： 2966547

时间戳记： 2023 年 11 月 1 日

由柏拉图重新发布

Amazon EMR 无服务器支持更大的工作线程来运行更多计算和内存密集型工作负载

将生成式 AI 与 Amazon EMR、Amazon Bedrock 和适用于 Apache Spark 的英语 SDK 结合使用来解锁见解 | 亚马逊网络服务

使用 AWS Glue 数据质量 | 设置高级规则以验证多个数据集的质量亚马逊网络服务

Amazon QuickSight 中的新散点图选项可可视化您的数据

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

解决方案概述

先决条件

设置您的解决方案资源

编辑并运行 AWS Glue 爬虫

验证分区表

比较使用 Athena 的查询性能改进

清理

结论

关于作者

更多来自 AWS 大数据

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理