Запрос таблиц Iceberg в Data Lake с помощью Amazon Redshift (предварительная версия)

Переиздано Платоном

Читают: 0

Амазонка Redshift — это быстрое, полностью управляемое облачное хранилище данных петабайтного масштаба, которое позволяет легко и экономично анализировать все ваши данные с помощью стандартного SQL и существующих инструментов бизнес-аналитики (BI). Сегодня десятки тысяч клиентов используют Amazon Redshift для анализа эксабайтов данных и выполнения аналитических запросов, что делает его наиболее широко используемым облачным хранилищем данных. Amazon Redshift доступен как в бессерверной, так и в подготовленной конфигурации.

Amazon Redshift позволяет получить прямой доступ к данным, хранящимся в Простой сервис хранения Amazon (Amazon S3) с помощью SQL-запросов и объединения данных в хранилище данных и озере данных. С помощью Amazon Redshift вы можете запрашивать данные в озере данных S3, используя центральный Клей AWS Metastore из вашего хранилища данных Redshift.

Amazon Redshift поддерживает запросы к широкому спектру форматов данных, таких как CSV, JSON, Parquet и ORC, а также к форматам таблиц, таким как Apache Hudi и Delta. Amazon Redshift также поддерживает запросы к вложенным данным со сложными типами данных, такими как структура, массив и карта.

Благодаря этой возможности Amazon Redshift экономически эффективным способом расширяет ваше хранилище данных петабайтного масштаба до озера данных эксабайтного масштаба на Amazon S3.

Apache Iceberg — это новейший формат таблиц, который сейчас поддерживается в предварительной версии Amazon Redshift. В этом посте мы покажем вам, как выполнять запросы к таблицам Iceberg с помощью Amazon Redshift, а также рассмотрим поддержку и варианты Iceberg.

Обзор решения

Апач Айсберг — это формат открытой таблицы для очень больших наборов аналитических данных размером в петабайты. Iceberg управляет большими коллекциями файлов в виде таблиц и поддерживает современные аналитические операции с озером данных, такие как вставка, обновление, удаление и запросы на перемещение во времени на уровне записей. Спецификация Iceberg обеспечивает плавную эволюцию таблицы, такую как эволюция схемы и разделов, а ее конструкция оптимизирована для использования в Amazon S3.

Iceberg хранит указатель метаданных для всех файлов метаданных. Когда запрос SELECT читает таблицу Iceberg, механизм запросов сначала обращается к каталогу Iceberg, а затем извлекает запись о местоположении последнего файла метаданных, как показано на следующей диаграмме.

Amazon Redshift теперь обеспечивает поддержку таблиц Apache Iceberg, что позволяет клиентам озера данных выполнять аналитические запросы только для чтения транзакционно-согласованным способом. Это позволяет вам легко управлять и обслуживать таблицы в озерах транзакционных данных.

Amazon Redshift поддерживает собственную схему Apache Iceberg и возможности эволюции разделов с помощью Каталог данных AWS Glue, что устраняет необходимость изменять определения таблиц для добавления новых разделов или перемещения и обработки больших объемов данных для изменения схемы существующей таблицы озера данных. Amazon Redshift использует статистику столбцов, хранящуюся в метаданных таблицы Apache Iceberg, для оптимизации планов запросов и сокращения количества проверок файлов, необходимых для выполнения запросов.

В этом посте мы используем Публичный набор данных о желтых такси от Комиссии по такси и лимузинам Нью-Йорка. как наши исходные данные. Набор данных содержит файлы данных в Паркет Apache формат на Amazon S3. Мы используем Амазонка Афина чтобы преобразовать этот набор данных Parquet, а затем использовать Спектр красного смещения Амазонки для запроса и объединения с локальной таблицей Redshift, выполнения удалений и обновлений на уровне строк, а также эволюции разделов — все это координируется через каталог данных AWS Glue в озере данных S3.

Предпосылки

У вас должны быть следующие предпосылки:

Преобразование данных Parquet в таблицу Iceberg

Для этого поста вам понадобится Публичный набор данных о желтых такси от Комиссии по такси и лимузинам Нью-Йорка. доступен в формате Айсберг. Вы можете загрузить файлы, а затем использовать Athena для преобразования набора данных Parquet в таблицу Iceberg или обратиться к Создайте озеро данных Apache Iceberg с помощью Amazon Athena, Amazon EMR и AWS Glue. сообщение в блоге о создании таблицы Iceberg.

В этом посте мы используем Athena для преобразования данных. Выполните следующие шаги:

Загрузите файлы по предыдущей ссылке или воспользуйтесь Интерфейс командной строки AWS (AWS CLI), чтобы скопировать файлы из общедоступной корзины S3 за 2020 и 2021 годы в корзину S3, используя следующую команду:
```
aws s3 cp "s3://nyc-tlc/trip data/" s3://<Your S3 bucket name>/Parquet/ --exclude "*" --include "yellow_tripdata_2020*" –recursive
aws s3 cp "s3://nyc-tlc/trip data/" s3://<Your S3 bucket name>/Parquet/ --exclude "*" --include "yellow_tripdata_2021*" –recursive
```

Для получения дополнительной информации обратитесь к Настройка интерфейса командной строки Amazon Redshift.

Создать базу данных Icebergdb и создайте таблицу, используя Athena, указывающую на файлы формата Parquet, используя следующий оператор:

CREATE DATABASE Icebergdb; 
CREATE EXTERNAL TABLE icebergdb.nyc_taxi_yellow_parquet( vendorid int, tpep_pickup_datetime timestamp, tpep_dropoff_datetime timestamp, passenger_count bigint, trip_distance double, ratecodeid bigint, store_and_fwd_flag string, pulocationid int, dolocationid int, payment_type integer, fare_amount double, extra double, mta_tax double, tip_amount double, tolls_amount double, improvement_surcharge double, total_amount double, congestion_surcharge double, airport_fee double
)
STORED AS PARQUET
LOCATION 's3://<Your S3 Bucket>/Parquet/’

Проверьте данные в таблице Parquet, используя следующий SQL:

SELECT vendorid, tpep_pickup_datetime, tpep_dropoff_datetime, trip_distance, fare_amount, tip_amount, tolls_amount, total_amount, congestion_surcharge, airport_fee
FROM icebergdb.nyc_taxi_yellow_parquet
limit 5;

Создайте таблицу Iceberg в Athena с помощью следующего кода. Свойства типа таблицы можно увидеть в виде таблицы Iceberg с форматом Parquet и мгновенным сжатием ниже. create table заявление. Вам необходимо обновить местоположение S3 перед запуском SQL. Также обратите внимание, что таблица Iceberg разделена с помощью Year .

CREATE TABLE nyc_taxi_yellow_iceberg( vendorid int, tpep_pickup_datetime timestamp, tpep_dropoff_datetime timestamp, passenger_count bigint, trip_distance double, ratecodeid bigint, store_and_fwd_flag string, pulocationid int, dolocationid int, payment_type bigint, fare_amount double, extra double, mta_tax double, tip_amount double, tolls_amount double, improvement_surcharge double, total_amount double, congestion_surcharge double, airport_fee double)
PARTITIONED BY (year(tpep_pickup_datetime))
LOCATION ‘s3://<Your S3 bucket name>/iceberg/iceberg'
TBLPROPERTIES ( 'table_type'='iceberg', 'write_compression'='snappy', 'format'='parquet');

После создания таблицы загрузите данные в таблицу Iceberg, используя ранее загруженную таблицу Parquet. nyc_taxi_yellow_parquet со следующим SQL:

insert into nyc_taxi_yellow_iceberg ( vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee )
select vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee
from nyc_taxi_yellow_parquet;

Когда оператор SQL будет завершен, проверьте данные в таблице Iceberg. nyc_taxi_yellow_iceberg. Этот шаг необходим перед переходом к следующему шагу.
```
SELECT * FROM nyc_taxi_yellow_iceberg LIMIT 5;
```
Вы можете проверить, что таблица nyc_taxi_yellow_iceberg находится в таблице формата Iceberg и разбита на разделы по столбцу «Год», используя следующую команду:
```
SHOW CREATE TABLE nyc_taxi_yellow_iceberg;
```

Создайте внешнюю схему в Amazon Redshift

В этом разделе мы покажем, как создать внешнюю схему в Amazon Redshift, указывающую на базу данных AWS Glue. icebergdb запросить таблицу Iceberg nyc_taxi_yellow_iceberg что мы видели в предыдущем разделе, используя Athena.

Войдите в Redshift через Редактор запросов v2 или клиент SQL и выполните следующую команду (обратите внимание, что база данных AWS Glue icebergdb и используется информация о регионе):

CREATE external schema spectrum_iceberg_schema
from data catalog
database 'icebergdb'
region 'us-east-1'
iam_role default;

Дополнительную информацию о создании внешних схем в Amazon Redshift см. создать внешнюю схему

После создания внешней схемы spectrum_iceberg_schemaвы можете запросить таблицу Iceberg в Amazon Redshift.

Запрос таблицы Iceberg в Amazon Redshift

Запустите следующий запрос в редакторе запросов версии 2. Обратите внимание, что spectrum_iceberg_schema — это имя внешней схемы, созданной в Amazon Redshift, и nyc_taxi_yellow_iceberg — это таблица в базе данных AWS Glue, используемая в запросе:

SELECT * FROM"dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg";

Вывод данных запроса на следующем снимке экрана показывает, что таблица AWS Glue в формате Iceberg доступна для запроса с использованием Redshift Spectrum.

Ознакомьтесь с планом объяснения запроса к таблице Iceberg.

Вы можете использовать следующий запрос, чтобы получить выходные данные плана объяснения, которые показывают, что формат ICEBERG:

EXPLAIN SELECT vendorid,count(*) FROM "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
GROUP BY vendorid;

Проверка обновлений на предмет согласованности данных

После завершения обновления таблицы Iceberg вы можете запросить Amazon Redshift, чтобы просмотреть транзакционно-согласованное представление данных. Давайте выполним запрос, выбрав vendorid и для определенного посадки и высадки:

SELECT * FROM nyc_taxi_yellow_iceberg
WHERE vendorid=1
AND tpep_pickup_datetime=cast('2021-06-24 21:53:26' AS timestamp)
AND tpep_dropoff_datetime=cast('2021-06-24 22:02:46'AS timestamp)
LIMIT 5;

Затем обновите значение passenger_count к 4 и trip_distance до 9.4 за vendorid и определенные даты получения и возврата в Афине:

UPDATE nyc_taxi_yellow_iceberg
SET passenger_count=4,trip_distance=9.4
WHERE vendorid=1
AND tpep_pickup_datetime=cast('2021-06-24 21:53:26' AS timestamp)
AND tpep_dropoff_datetime=cast('2021-06-24 22:02:46'AS timestamp);

Наконец, запустите следующий запрос в редакторе запросов версии 2, чтобы увидеть обновленное значение passenger_count и trip_distance:

SELECT * FROM "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
WHERE vendorid=1
AND tpep_pickup_datetime=cast('2021-06-24 21:53:26' AS timestamp)
AND tpep_dropoff_datetime=cast('2021-06-24 22:02:46' AS timestamp)
LIMIT 5;

Как показано на следующем снимке экрана, операции обновления таблицы Iceberg доступны в Amazon Redshift.

Создайте единое представление локальной таблицы и исторических данных в Amazon Redshift.

В качестве стратегии современной архитектуры данных вы можете организовать исторические данные или менее часто используемые данные в озере данных и хранить часто используемые данные в хранилище данных Redshift. Это обеспечивает гибкость для управления аналитикой в масштабе и поиска наиболее экономически эффективного архитектурного решения.

В этом примере мы загружаем данные за 2 года в таблицу Redshift; Остальные данные остаются в озере данных S3, поскольку этот набор данных запрашивается реже.

Используйте следующий код, чтобы загрузить данные за 2 года в nyc_taxi_yellow_recent таблица в Amazon Redshift, источник из таблицы Iceberg:
```
CREATE TABLE nyc_taxi_yellow_recent
AS
SELECT *
FROM "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
WHERE extract(year from tpep_pickup_datetime)>2020;
```
Затем вы можете удалить данные за последние 2 года из таблицы Iceberg с помощью следующей команды в Athena, поскольку на предыдущем шаге вы загрузили данные в таблицу Redshift:
```
DELETE FROM nyc_taxi_yellow_iceberg WHERE EXTRACT(year from tpep_pickup_datetime)>2020;
```

После выполнения этих шагов в таблице Redshift будут данные за 2 года, а остальные данные будут в таблице Iceberg в Amazon S3.

Создайте представление с помощью nyc_taxi_yellow_iceberg Стол Айсберг и nyc_taxi_yellow_recent таблица в Amazon Redshift:

create or replace view nyc_taxi_yellow as
select 'nyc_taxi_yellow_iceberg' as source,vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee
from "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
union all
select 'nyc_taxi_yellow_recent' as source,vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee
from public.nyc_taxi_yellow_recent
with no schema binding;

Теперь запросите представление. В зависимости от условий фильтра Redshift Spectrum будет сканировать либо данные Iceberg, либо таблицу Redshift, либо и то, и другое. Следующий пример запроса возвращает несколько записей из каждой исходной таблицы путем сканирования обеих таблиц:
```
SELECT source,count(1)
FROM nyc_taxi_yellow
GROUP BY source;
```

Эволюция перегородки

Айсберг использует скрытое разделение, что означает, что вам не нужно вручную добавлять разделы для таблиц Apache Iceberg. Новые значения разделов или новые характеристики разделов (добавление или удаление столбцов разделов) в таблицах Apache Iceberg автоматически обнаруживаются Amazon Redshift, и для обновления разделов в определении таблицы не требуется никаких ручных операций. Следующий пример демонстрирует это.

В нашем примере, если таблица Iceberg nyc_taxi_yellow_iceberg первоначально был разделен по годам, а затем по столбцу vendorid был добавлен в качестве дополнительного столбца раздела, то Amazon Redshift сможет легко запрашивать таблицу Iceberg. nyc_taxi_yellow_iceberg с двумя разными схемами разделов в течение определенного периода времени.

Что следует учитывать при запросе таблиц Iceberg с помощью Amazon Redshift

В период предварительной версии при использовании Amazon Redshift с таблицами Iceberg учитывайте следующее:

Поддерживаются только таблицы Iceberg, определенные в каталоге данных AWS Glue.
Команды внешней таблицы CREATE или ALTER не поддерживаются. Это означает, что таблица Iceberg уже должна существовать в базе данных AWS Glue.
Запросы о путешествиях во времени не поддерживаются.
Поддерживаются версии Iceberg 1 и 2. Более подробную информацию о версиях формата Iceberg см. Форматирование версий.
Список поддерживаемых типов данных с таблицами Iceberg см. Поддерживаемые типы данных с таблицами Apache Iceberg (предварительная версия).
Стоимость запроса к таблице Iceberg такая же, как и за доступ к любым другим форматам данных с помощью Amazon Redshift.

Дополнительные сведения о предварительном просмотре таблиц формата Iceberg см. Использование таблиц Apache Iceberg с Amazon Redshift (предварительная версия).

Отзыв заказчика

«Tinuiti, крупнейшая независимая фирма по маркетингу, ежедневно обрабатывает большие объемы данных и должна иметь надежную стратегию озера и хранилища данных, чтобы наши команды по анализу рынка могли хранить и анализировать все данные наших клиентов в простой, доступной и безопасной форме. и надежный способ», — говорит Джастин Манус, технический директор Tinuiti. «Поддержка Amazon Redshift таблиц Apache Iceberg в нашем озере данных, которое является единственным источником достоверной информации, решает критическую задачу оптимизации производительности и доступности, а также еще больше упрощает наши конвейеры интеграции данных для доступа ко всем данным, полученным из разных источников, и для поддержки наших потенциал бренда клиентов».

Заключение

В этом посте мы показали вам пример запроса к таблице Iceberg в Redshift с использованием файлов, хранящихся в Amazon S3, каталогизированных в виде таблицы в каталоге данных AWS Glue, и продемонстрировали некоторые ключевые функции, такие как эффективное обновление и удаление на уровне строк, а также опыт эволюции схемы, позволяющий пользователям раскрыть возможности больших данных с помощью Athena.

Amazon Redshift можно использовать для выполнения запросов к таблицам озера данных в различных файлах и форматах таблиц, например Апач Худи и Дельта Лейки теперь с Апач Айсберг (предварительная версия), который предоставляет дополнительные возможности для удовлетворения потребностей современных архитектур данных.

Мы надеемся, что это станет для вас отличной отправной точкой для выполнения запросов к таблицам Iceberg в Amazon Redshift.

Об авторах

Рохит Бансал является специалистом по аналитике, архитектором решений в AWS. Он специализируется на Amazon Redshift и работает с клиентами над созданием аналитических решений следующего поколения с использованием других сервисов AWS Analytics.

Сатиш Сатья является старшим инженером по продуктам в Amazon Redshift. Он страстный энтузиаст больших данных, который сотрудничает с клиентами по всему миру, чтобы добиться успеха и удовлетворить их потребности в хранилищах данных и архитектуре озера данных.

Ранджан Бурман является специалистом по аналитике, архитектором решений в AWS. Он специализируется на Amazon Redshift и помогает клиентам создавать масштабируемые аналитические решения. Он имеет более чем 16-летний опыт работы с различными технологиями баз данных и хранилищ данных. Он увлечен автоматизацией и решением проблем клиентов с помощью облачных решений.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Автомобили / электромобили, Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
ЧартПрайм. Улучшите свою торговую игру с ChartPrime. Доступ здесь.
Смещения блоков. Модернизация права собственности на экологические компенсации. Доступ здесь.
Источник: https://aws.amazon.com/blogs/big-data/query-your-iceberg-tables-in-data-lake-using-amazon-redshift-preview/

Отметка времени: 31 августа 2023

Отметка времени: сентябрь 18, 2023

Выполняйте запросы к таблицам Iceberg в озере данных с помощью Amazon Redshift (предварительная версия) | Веб-сервисы Amazon

Переиздано Платоном

Обзор решения

Предпосылки

Преобразование данных Parquet в таблицу Iceberg

Создайте внешнюю схему в Amazon Redshift

Запрос таблицы Iceberg в Amazon Redshift

Ознакомьтесь с планом объяснения запроса к таблице Iceberg.

Проверка обновлений на предмет согласованности данных

Создайте единое представление локальной таблицы и исторических данных в Amazon Redshift.

Эволюция перегородки

Что следует учитывать при запросе таблиц Iceberg с помощью Amazon Redshift

Отзыв заказчика

Заключение

Об авторах

Больше от AWS Большие данные

Ускорьте аналитику в Amazon OpenSearch Service с помощью AWS Glue через собственный соединитель | Веб-сервисы Amazon

Поэтапная загрузка данных из озер транзакционных данных в хранилища данных | Веб-сервисы Amazon

Представляем возможность раскрашивания в полевых условиях для Amazon QuickSight | Веб-сервисы Амазонки

Ускорьте анализ данных с помощью Elastic и Amazon Kinesis Data Firehose

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись