使用 Amazon Redshift（预览版）查询数据湖中的 Iceberg 表

由柏拉图重新发布

关注： 0

亚马逊Redshift 是一个快速、完全托管的 PB 级云数据仓库，可让您使用标准 SQL 和现有商业智能 (BI) 工具轻松且经济高效地分析所有数据。如今，数以万计的客户使用 Amazon Redshift 来分析 EB 级数据并运行分析查询，使其成为使用最广泛的云数据仓库。 Amazon Redshift 可用于无服务器配置和预配置配置。

Amazon Redshift 使您能够直接访问存储在亚马逊简单存储服务 (Amazon S3) 使用 SQL 查询并连接数据仓库和数据湖中的数据。借助 Amazon Redshift，您可以使用中央数据库查询 S3 数据湖中的数据 AWS胶水来自 Redshift 数据仓库的元存储。

Amazon Redshift 支持查询各种数据格式，例如 CSV、JSON、Parquet 和 ORC，以及表格式（例如 Apache Hudi 和 Delta）。 Amazon Redshift 还支持查询结构体、数组和映射等复杂数据类型的嵌套数据。

借助此功能，Amazon Redshift 能够以经济高效的方式将您的 PB 级数据仓库扩展到 Amazon S3 上的 EB 级数据湖。

Apache Iceberg 是 Amazon Redshift 预览版现在支持的最新表格式。在这篇文章中，我们将向您展示如何使用 Amazon Redshift 查询 Iceberg 表，并探索 Iceberg 支持和选项。

解决方案概述

阿帕奇·冰山是一种适用于非常大的 PB 级分析数据集的开放表格式。 Iceberg 将大型文件集合作为表进行管理，并支持现代分析数据湖操作，例如记录级插入、更新、删除和时间旅行查询。 Iceberg 规范允许无缝表演化，例如架构和分区演化，其设计针对 Amazon S3 上的使用进行了优化。

Iceberg 存储所有元数据文件的元数据指针。当 SELECT 查询读取 Iceberg 表时，查询引擎首先进入 Iceberg 目录，然后检索最新元数据文件位置的条目，如下图所示。

Amazon Redshift 现在提供对 Apache Iceberg 表的支持，这允许数据湖客户以事务一致的方式运行只读分析查询。这使您能够轻松管理和维护事务数据湖上的表。

Amazon Redshift 使用以下方式支持 Apache Iceberg 的本机架构和分区演化功能： AWS Glue数据目录，无需更改表定义来添加新分区或移动和处理大量数据来更改现有数据湖表的架构。 Amazon Redshift 使用 Apache Iceberg 表元数据中存储的列统计信息来优化其查询计划并减少运行查询所需的文件扫描。

在这篇文章中，我们使用来自纽约市出租车和豪华轿车委员会的黄色出租车公共数据集作为我们的源数据。数据集包含数据文件阿帕奇木地板 Amazon S3 上的格式。我们用亚马逊雅典娜转换此 Parquet 数据集，然后使用亚马逊红移频谱查询并联接 Redshift 本地表、执行行级删除和更新以及分区演变，所有这些都通过 S3 数据湖中的 AWS Glue 数据目录进行协调。

先决条件

您应该具备以下先决条件：

将 Parquet 数据转换为 Iceberg 表

对于这篇文章，您需要来自纽约市出租车和豪华轿车委员会的黄色出租车公共数据集以冰山格式提供。您可以下载文件，然后使用 Athena 将 Parquet 数据集转换为 Iceberg 表，或者参考使用 Amazon Athena、Amazon EMR 和 AWS Glue 构建 Apache Iceberg 数据湖创建 Iceberg 表的博客文章。

在这篇文章中，我们使用 Athena 来转换数据。完成以下步骤：

使用前面的链接下载文件或使用 AWS命令行界面 (AWS CLI) 使用以下命令将文件从 3 年和 2020 年的公共 S2021 存储桶复制到您的 S3 存储桶：

aws s3 cp "s3://nyc-tlc/trip data/" s3://<Your S3 bucket name>/Parquet/ --exclude "*" --include "yellow_tripdata_2020*" –recursive
aws s3 cp "s3://nyc-tlc/trip data/" s3://<Your S3 bucket name>/Parquet/ --exclude "*" --include "yellow_tripdata_2021*" –recursive

有关更多信息，请参阅设置 Amazon Redshift CLI.

建立资料库 Icebergdb 并使用 Athena 创建一个表，使用以下语句指向 Parquet 格式文件：

CREATE DATABASE Icebergdb; 
CREATE EXTERNAL TABLE icebergdb.nyc_taxi_yellow_parquet( vendorid int, tpep_pickup_datetime timestamp, tpep_dropoff_datetime timestamp, passenger_count bigint, trip_distance double, ratecodeid bigint, store_and_fwd_flag string, pulocationid int, dolocationid int, payment_type integer, fare_amount double, extra double, mta_tax double, tip_amount double, tolls_amount double, improvement_surcharge double, total_amount double, congestion_surcharge double, airport_fee double
)
STORED AS PARQUET
LOCATION 's3://<Your S3 Bucket>/Parquet/’

使用以下 SQL 验证 Parquet 表中的数据：

SELECT vendorid, tpep_pickup_datetime, tpep_dropoff_datetime, trip_distance, fare_amount, tip_amount, tolls_amount, total_amount, congestion_surcharge, airport_fee
FROM icebergdb.nyc_taxi_yellow_parquet
limit 5;

使用以下代码在 Athena 中创建一个 Iceberg 表。您可以将表类型属性视为具有 Parquet 格式和快速压缩的 Iceberg 表，如下所示 create table 陈述。您需要在运行 SQL 之前更新 S3 位置。另请注意，Iceberg 表是按以下方式分区的 Year 键。

CREATE TABLE nyc_taxi_yellow_iceberg( vendorid int, tpep_pickup_datetime timestamp, tpep_dropoff_datetime timestamp, passenger_count bigint, trip_distance double, ratecodeid bigint, store_and_fwd_flag string, pulocationid int, dolocationid int, payment_type bigint, fare_amount double, extra double, mta_tax double, tip_amount double, tolls_amount double, improvement_surcharge double, total_amount double, congestion_surcharge double, airport_fee double)
PARTITIONED BY (year(tpep_pickup_datetime))
LOCATION ‘s3://<Your S3 bucket name>/iceberg/iceberg'
TBLPROPERTIES ( 'table_type'='iceberg', 'write_compression'='snappy', 'format'='parquet');

创建表后，使用之前加载的 Parquet 表将数据加载到 Iceberg 表中 nyc_taxi_yellow_parquet 使用以下 SQL：

insert into nyc_taxi_yellow_iceberg ( vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee )
select vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee
from nyc_taxi_yellow_parquet;

SQL语句完成后，验证Iceberg表中的数据 nyc_taxi_yellow_iceberg。在进入下一步之前需要执行此步骤。
```
SELECT * FROM nyc_taxi_yellow_iceberg LIMIT 5;
```
您可以使用以下命令验证 nyc_taxi_yellow_iceberg 表是否采用 Iceberg 格式表并在 Year 列上进行分区：
```
SHOW CREATE TABLE nyc_taxi_yellow_iceberg;
```

在 Amazon Redshift 中创建外部架构

在本部分中，我们演示如何在 Amazon Redshift 中创建指向 AWS Glue 数据库的外部架构 icebergdb 查询 Iceberg 表 nyc_taxi_yellow_iceberg 我们在上一节中看到使用 Athena。

通过以下方式登录 Redshift 查询编辑器 v2 或 SQL 客户端并运行以下命令（请注意，AWS Glue 数据库 icebergdb 和正在使用的区域信息）：

CREATE external schema spectrum_iceberg_schema
from data catalog
database 'icebergdb'
region 'us-east-1'
iam_role default;

要了解如何在 Amazon Redshift 中创建外部架构，请参阅创建外部模式

创建外部架构后 spectrum_iceberg_schema，您可以查询 Amazon Redshift 中的 Iceberg 表。

查询 Amazon Redshift 中的 Iceberg 表

在查询编辑器 v2 中运行以下查询。注意 spectrum_iceberg_schema 是在 Amazon Redshift 中创建的外部架构的名称， nyc_taxi_yellow_iceberg 是查询中使用的 AWS Glue 数据库中的表：

SELECT * FROM"dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg";

以下屏幕截图中的查询数据输出显示可以使用 Redshift Spectrum 查询 Iceberg 格式的 AWS Glue 表。

检查查询Iceberg表的解释计划

您可以使用以下查询来获取解释计划输出，其显示格式为 ICEBERG:

EXPLAIN SELECT vendorid,count(*) FROM "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
GROUP BY vendorid;

验证更新以确保数据一致性

Iceberg 表更新完成后，您可以查询 Amazon Redshift 以查看数据的事务一致视图。让我们通过选择一个来运行查询 vendorid 对于特定的接送服务：

SELECT * FROM nyc_taxi_yellow_iceberg
WHERE vendorid=1
AND tpep_pickup_datetime=cast('2021-06-24 21:53:26' AS timestamp)
AND tpep_dropoff_datetime=cast('2021-06-24 22:02:46'AS timestamp)
LIMIT 5;

接下来，更新值 passenger_count 到4和 trip_distance 到 9.4 vendorid 以及雅典娜的某些接送日期：

UPDATE nyc_taxi_yellow_iceberg
SET passenger_count=4,trip_distance=9.4
WHERE vendorid=1
AND tpep_pickup_datetime=cast('2021-06-24 21:53:26' AS timestamp)
AND tpep_dropoff_datetime=cast('2021-06-24 22:02:46'AS timestamp);

最后，在查询编辑器 v2 中运行以下查询以查看更新后的值 passenger_count 和 trip_distance:

SELECT * FROM "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
WHERE vendorid=1
AND tpep_pickup_datetime=cast('2021-06-24 21:53:26' AS timestamp)
AND tpep_dropoff_datetime=cast('2021-06-24 22:02:46' AS timestamp)
LIMIT 5;

如下图所示，Iceberg 表的更新操作可在 Amazon Redshift 中进行。

在 Amazon Redshift 中创建本地表和历史数据的统一视图

作为现代数据架构策略，您可以在数据湖中组织历史数据或不常访问的数据，并将经常访问的数据保留在 Redshift 数据仓库中。这提供了大规模管理分析并找到最具成本效益的架构解决方案的灵活性。

在此示例中，我们将 2 年的数据加载到 Redshift 表中；其余数据保留在 S3 数据湖中，因为该数据集的查询频率较低。

使用以下代码加载2年的数据 nyc_taxi_yellow_recent Amazon Redshift 中的表，源自 Iceberg 表：

CREATE TABLE nyc_taxi_yellow_recent
AS
SELECT *
FROM "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
WHERE extract(year from tpep_pickup_datetime)>2020;

接下来，您可以在 Athena 中使用以下命令从 Iceberg 表中删除过去 2 年的数据，因为您在上一步中已将数据加载到 Redshift 表中：
```
DELETE FROM nyc_taxi_yellow_iceberg WHERE EXTRACT(year from tpep_pickup_datetime)>2020;
```

完成这些步骤后，Redshift 表拥有 2 年的数据，其余数据位于 Amazon S3 的 Iceberg 表中。

使用创建视图 nyc_taxi_yellow_iceberg 冰山桌和 nyc_taxi_yellow_recent Amazon Redshift 中的表：

create or replace view nyc_taxi_yellow as
select 'nyc_taxi_yellow_iceberg' as source,vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee
from "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
union all
select 'nyc_taxi_yellow_recent' as source,vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee
from public.nyc_taxi_yellow_recent
with no schema binding;

现在查询视图，根据过滤条件，Redshift Spectrum 将扫描 Iceberg 数据、Redshift 表或两者。以下示例查询通过扫描两个表从每个源表返回许多记录：
```
SELECT source,count(1)
FROM nyc_taxi_yellow
GROUP BY source;
```

分区演变

冰山用途隐藏分区，这意味着您无需手动为 Apache Iceberg 表添加分区。 Amazon Redshift 会自动检测 Apache Iceberg 表中的新分区值或新分区规范（添加或删除分区列），无需手动操作即可更新表定义中的分区。以下示例演示了这一点。

在我们的示例中，如果 Iceberg 表 nyc_taxi_yellow_iceberg 最初按年份分区，后来按列分区 vendorid 添加为附加分区列，然后 Amazon Redshift 可以无缝查询 Iceberg 表 nyc_taxi_yellow_iceberg 在一段时间内使用两种不同的分区方案。

使用 Amazon Redshift 查询 Iceberg 表时的注意事项

在预览期间，将 Amazon Redshift 与 Iceberg 表结合使用时请考虑以下事项：

仅支持 AWS Glue 数据目录中定义的 Iceberg 表。
不支持 CREATE 或 ALTER 外部表命令，这意味着 Iceberg 表应该已存在于 AWS Glue 数据库中。
不支持时间旅行查询。
支持 Iceberg 版本 1 和 2。有关 Iceberg 格式版本的更多详细信息，请参阅格式版本控制.
有关 Iceberg 表支持的数据类型的列表，请参阅 Apache Iceberg 表支持的数据类型（预览）.
查询 Iceberg 表的定价与使用 Amazon Redshift 访问任何其他数据格式的定价相同。

有关 Iceberg 格式表预览注意事项的更多详细信息，请参阅将 Apache Iceberg 表与 Amazon Redshift 结合使用（预览）.

客户的反馈意见

“Tinuiti 是最大的独立绩效营销公司，每天处理大量数据，必须拥有强大的数据湖和数据仓库策略，以便我们的市场情报团队能够以简单、经济、安全的方式存储和分析所有客户数据。以及稳健的方式，”Tinuiti 首席技术官 Justin Manus 说道。 “Amazon Redshift 对我们数据湖中的 Apache Iceberg 表（单一事实来源）的支持解决了优化性能和可访问性方面的关键挑战，并进一步简化了我们的数据集成管道，以访问从不同来源提取的所有数据，并为我们的数据提供支持。客户的品牌潜力。”

结论

在这篇文章中，我们向您展示了一个使用存储在 Amazon S3 中的文件（在 AWS Glue 数据目录中编目为表）在 Redshift 中查询 Iceberg 表的示例，并演示了一些关键功能，例如高效的行级更新和删除、以及用户使用 Athena 释放大数据力量的模式演化体验。

您可以使用 Amazon Redshift 对各种文件和表格式的数据湖表运行查询，例如阿帕奇·胡迪和三角洲湖，现在 Apache 冰山（预览），它为您的现代数据架构需求提供了额外的选项。

我们希望这能为您在 Amazon Redshift 中查询 Iceberg 表提供一个良好的起点。

作者简介

罗希特·班萨尔（Rohit Bansal） 是 AWS 的分析专家解决方案架构师。他擅长 Amazon Redshift，并与客户合作使用其他 AWS Analytics 服务构建下一代分析解决方案。

萨蒂什·萨蒂亚 是 Amazon Redshift 的高级产品工程师。他是一位狂热的大数据爱好者，他与全球客户合作以取得成功并满足他们的数据仓库和数据湖架构需求。

兰詹·伯曼 是 AWS 的分析专家解决方案架构师。他专注于 Amazon Redshift 并帮助客户构建可扩展的分析解决方案。他在不同的数据库和数据仓库技术方面拥有超过 16 年的经验。他热衷于使用云解决方案自动化和解决客户问题。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。汽车/电动汽车，碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
图表Prime。使用 ChartPrime 提升您的交易游戏。访问这里。
块偏移量。现代化环境抵消所有权。访问这里。
Sumber: https://aws.amazon.com/blogs/big-data/query-your-iceberg-tables-in-data-lake-using-amazon-redshift-preview/

时间戳记： 2023 年 8 月 31 日

时间戳记： 2023 年 9 月 18 日

使用 Amazon Redshift（预览版）查询数据湖中的 Iceberg 表 | 亚马逊网络服务

由柏拉图重新发布

解决方案概述

先决条件

将 Parquet 数据转换为 Iceberg 表

在 Amazon Redshift 中创建外部架构

查询 Amazon Redshift 中的 Iceberg 表

检查查询Iceberg表的解释计划

验证更新以确保数据一致性

在 Amazon Redshift 中创建本地表和历史数据的统一视图

分区演变

使用 Amazon Redshift 查询 Iceberg 表时的注意事项

客户的反馈意见

结论

作者简介

更多来自 AWS 大数据

通过针对敏感查询的 Amazon Redshift 数据仓库警报来集中近乎实时的治理 | 亚马逊网络服务

通过 AWS Glue 的本机连接器加速 Amazon OpenSearch Service 的分析 |亚马逊网络服务

将数据从事务数据湖增量加载到数据仓库 | 亚马逊网络服务

推出 Amazon QuickSight 的基于现场的着色体验 | 亚马逊网络服务

使用 Elastic 和 Amazon Kinesis Data Firehose 加速数据洞察

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理