Consulte sus tablas Iceberg en Data Lake utilizando Amazon Redshift (vista previa) | Servicios web de Amazon

Reeditado por Platón

seguidores: 0

Desplazamiento al rojo de Amazon es un almacén de datos en la nube rápido y totalmente administrado a escala de petabytes que hace que sea simple y rentable analizar todos sus datos utilizando SQL estándar y sus herramientas de inteligencia empresarial (BI) existentes. Hoy en día, decenas de miles de clientes utilizan Amazon Redshift para analizar exabytes de datos y ejecutar consultas analíticas, lo que lo convierte en el almacén de datos en la nube más utilizado. Amazon Redshift está disponible en configuraciones aprovisionadas y sin servidor.

Amazon Redshift le permite acceder directamente a los datos almacenados en Servicio de almacenamiento simple de Amazon (Amazon S3) utilizando consultas SQL y uniendo datos en su almacén de datos y lago de datos. Con Amazon Redshift, puede consultar los datos de su lago de datos S3 mediante una central Pegamento AWS metastore desde su almacén de datos de Redshift.

Amazon Redshift admite consultas de una amplia variedad de formatos de datos, como CSV, JSON, Parquet y ORC, y formatos de tablas como Apache Hudi y Delta. Amazon Redshift también admite consultas de datos anidados con tipos de datos complejos como estructura, matriz y mapa.

Con esta capacidad, Amazon Redshift extiende su almacén de datos a escala de petabytes a un lago de datos a escala de exabytes en Amazon S3 de manera rentable.

Apache Iceberg es el último formato de tabla admitido ahora en versión preliminar por Amazon Redshift. En esta publicación, le mostramos cómo consultar tablas de Iceberg mediante Amazon Redshift y explorar el soporte y las opciones de Iceberg.

Resumen de la solución

iceberg apache es un formato de tabla abierta para conjuntos de datos analíticos de gran tamaño a escala de petabytes. Iceberg gestiona grandes colecciones de archivos como tablas y admite operaciones analíticas modernas de lagos de datos, como consultas de inserción, actualización, eliminación y viajes en el tiempo a nivel de registro. La especificación Iceberg permite una evolución perfecta de tablas, como la evolución de esquemas y particiones, y su diseño está optimizado para su uso en Amazon S3.

Iceberg almacena el puntero de metadatos de todos los archivos de metadatos. Cuando una consulta SELECT lee una tabla Iceberg, el motor de consultas primero va al catálogo de Iceberg y luego recupera la entrada de la ubicación del último archivo de metadatos, como se muestra en el siguiente diagrama.

Amazon Redshift ahora brinda soporte para tablas Apache Iceberg, lo que permite a los clientes del lago de datos ejecutar consultas de análisis de solo lectura de manera transaccionalmente consistente. Esto le permite administrar y mantener fácilmente sus tablas en lagos de datos transaccionales.

Amazon Redshift admite las capacidades de evolución de particiones y esquemas nativos de Apache Iceberg mediante el Catálogo de datos de AWS Glue, eliminando la necesidad de modificar las definiciones de las tablas para agregar nuevas particiones o mover y procesar grandes cantidades de datos para cambiar el esquema de una tabla de lago de datos existente. Amazon Redshift utiliza las estadísticas de columnas almacenadas en los metadatos de la tabla Apache Iceberg para optimizar sus planes de consultas y reducir los análisis de archivos necesarios para ejecutar consultas.

En esta publicación, usamos el Conjunto de datos públicos de taxis amarillos de la Comisión de Taxis y Limusinas de Nueva York como nuestra fuente de datos. El conjunto de datos contiene archivos de datos en Parquet Apache formato en Amazon S3. Usamos Atenea amazónica para convertir este conjunto de datos de Parquet y luego usar Espectro de Redshift de Amazon para consultar y unirse a una tabla local de Redshift, realizar eliminaciones y actualizaciones a nivel de fila y evolución de particiones, todo coordinado a través del catálogo de datos de AWS Glue en un lago de datos S3.

Requisitos previos

Debe tener los siguientes requisitos previos:

Convertir datos de Parquet en una tabla Iceberg

Para esta publicación necesitas el Conjunto de datos públicos de taxis amarillos de la Comisión de Taxis y Limusinas de Nueva York Disponible en formato Iceberg. Puede descargar los archivos y luego usar Athena para convertir el conjunto de datos de Parquet en una tabla Iceberg, o consultar Cree un lago de datos Apache Iceberg con Amazon Athena, Amazon EMR y AWS Glue publicación de blog para crear la tabla Iceberg.

En esta publicación, utilizamos Athena para convertir los datos. Complete los siguientes pasos:

Descargue los archivos usando el enlace anterior o use el Interfaz de línea de comandos de AWS (AWS CLI) para copiar los archivos del depósito público de S3 para los años 2020 y 2021 a su depósito de S3 mediante el siguiente comando:

aws s3 cp "s3://nyc-tlc/trip data/" s3://<Your S3 bucket name>/Parquet/ --exclude "*" --include "yellow_tripdata_2020*" –recursive
aws s3 cp "s3://nyc-tlc/trip data/" s3://<Your S3 bucket name>/Parquet/ --exclude "*" --include "yellow_tripdata_2021*" –recursive

Para obtener más información, consulte Configuración de la CLI de Amazon Redshift.

Crea una base de datos Icebergdb y cree una tabla usando Athena que apunte a los archivos en formato Parquet usando la siguiente declaración:

CREATE DATABASE Icebergdb; 
CREATE EXTERNAL TABLE icebergdb.nyc_taxi_yellow_parquet( vendorid int, tpep_pickup_datetime timestamp, tpep_dropoff_datetime timestamp, passenger_count bigint, trip_distance double, ratecodeid bigint, store_and_fwd_flag string, pulocationid int, dolocationid int, payment_type integer, fare_amount double, extra double, mta_tax double, tip_amount double, tolls_amount double, improvement_surcharge double, total_amount double, congestion_surcharge double, airport_fee double
)
STORED AS PARQUET
LOCATION 's3://<Your S3 Bucket>/Parquet/’

Valide los datos en la tabla Parquet usando el siguiente SQL:

SELECT vendorid, tpep_pickup_datetime, tpep_dropoff_datetime, trip_distance, fare_amount, tip_amount, tolls_amount, total_amount, congestion_surcharge, airport_fee
FROM icebergdb.nyc_taxi_yellow_parquet
limit 5;

Cree una tabla Iceberg en Athena con el siguiente código. Puede ver las propiedades del tipo de tabla como una tabla Iceberg con formato Parquet y compresión rápida en lo siguiente create table declaración. Debe actualizar la ubicación de S3 antes de ejecutar SQL. También tenga en cuenta que la tabla Iceberg está dividida con el Year clave.

CREATE TABLE nyc_taxi_yellow_iceberg( vendorid int, tpep_pickup_datetime timestamp, tpep_dropoff_datetime timestamp, passenger_count bigint, trip_distance double, ratecodeid bigint, store_and_fwd_flag string, pulocationid int, dolocationid int, payment_type bigint, fare_amount double, extra double, mta_tax double, tip_amount double, tolls_amount double, improvement_surcharge double, total_amount double, congestion_surcharge double, airport_fee double)
PARTITIONED BY (year(tpep_pickup_datetime))
LOCATION ‘s3://<Your S3 bucket name>/iceberg/iceberg'
TBLPROPERTIES ( 'table_type'='iceberg', 'write_compression'='snappy', 'format'='parquet');

Después de crear la tabla, cargue los datos en la tabla Iceberg usando la tabla Parquet previamente cargada. nyc_taxi_yellow_parquet con el siguiente sql:

insert into nyc_taxi_yellow_iceberg ( vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee )
select vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee
from nyc_taxi_yellow_parquet;

Cuando la declaración SQL esté completa, valide los datos en la tabla Iceberg nyc_taxi_yellow_iceberg. Este paso es necesario antes de pasar al siguiente.
```
SELECT * FROM nyc_taxi_yellow_iceberg LIMIT 5;
```
Puede validar que la tabla nyc_taxi_amarillo_iceberg esté en formato Iceberg y particionada en la columna Año usando el siguiente comando:
```
SHOW CREATE TABLE nyc_taxi_yellow_iceberg;
```

Cree un esquema externo en Amazon Redshift

En esta sección, demostramos cómo crear un esquema externo en Amazon Redshift que apunte a la base de datos de AWS Glue. icebergdb para consultar la tabla Iceberg nyc_taxi_yellow_iceberg que vimos en la sección anterior usando Athena.

Inicie sesión en Redshift a través de Editor de consultas v2 o un cliente SQL y ejecute el siguiente comando (tenga en cuenta que la base de datos de AWS Glue icebergdb y se está utilizando información de la región):

CREATE external schema spectrum_iceberg_schema
from data catalog
database 'icebergdb'
region 'us-east-1'
iam_role default;

Para obtener información sobre la creación de esquemas externos en Amazon Redshift, consulte crear esquema externo

Después de crear el esquema externo spectrum_iceberg_schema, puede consultar la tabla Iceberg en Amazon Redshift.

Consultar la tabla Iceberg en Amazon Redshift

Ejecute la siguiente consulta en Query Editor v2. Tenga en cuenta que spectrum_iceberg_schema es el nombre del esquema externo creado en Amazon Redshift y nyc_taxi_yellow_iceberg es la tabla de la base de datos de AWS Glue utilizada en la consulta:

SELECT * FROM"dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg";

El resultado de los datos de la consulta en la siguiente captura de pantalla muestra que la tabla de AWS Glue con formato Iceberg se puede consultar mediante Redshift Spectrum.

Consulte el plan explicativo para consultar la tabla Iceberg.

Puede utilizar la siguiente consulta para obtener el resultado del plan de explicación, que muestra que el formato es ICEBERG:

EXPLAIN SELECT vendorid,count(*) FROM "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
GROUP BY vendorid;

Validar actualizaciones para la coherencia de los datos

Una vez completada la actualización en la tabla Iceberg, puede consultar Amazon Redshift para ver la vista transaccionalmente consistente de los datos. Ejecutemos una consulta eligiendo un vendorid y para una determinada recogida y devolución:

SELECT * FROM nyc_taxi_yellow_iceberg
WHERE vendorid=1
AND tpep_pickup_datetime=cast('2021-06-24 21:53:26' AS timestamp)
AND tpep_dropoff_datetime=cast('2021-06-24 22:02:46'AS timestamp)
LIMIT 5;

A continuación, actualice el valor de passenger_count a 4 y trip_distance a 9.4 para un vendorid y ciertas fechas de recogida y devolución en Athena:

UPDATE nyc_taxi_yellow_iceberg
SET passenger_count=4,trip_distance=9.4
WHERE vendorid=1
AND tpep_pickup_datetime=cast('2021-06-24 21:53:26' AS timestamp)
AND tpep_dropoff_datetime=cast('2021-06-24 22:02:46'AS timestamp);

Finalmente, ejecute la siguiente consulta en Query Editor v2 para ver el valor actualizado de passenger_count y trip_distance:

SELECT * FROM "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
WHERE vendorid=1
AND tpep_pickup_datetime=cast('2021-06-24 21:53:26' AS timestamp)
AND tpep_dropoff_datetime=cast('2021-06-24 22:02:46' AS timestamp)
LIMIT 5;

Como se muestra en la siguiente captura de pantalla, las operaciones de actualización en la tabla Iceberg están disponibles en Amazon Redshift.

Cree una vista unificada de la tabla local y los datos históricos en Amazon Redshift

Como estrategia de arquitectura de datos moderna, puede organizar datos históricos o datos a los que se accede con menos frecuencia en el lago de datos y mantener los datos a los que se accede con frecuencia en el almacén de datos de Redshift. Esto proporciona la flexibilidad para gestionar análisis a escala y encontrar la solución de arquitectura más rentable.

En este ejemplo, cargamos 2 años de datos en una tabla Redshift; el resto de los datos permanece en el lago de datos de S3 porque ese conjunto de datos se consulta con menos frecuencia.

Utilice el siguiente código para cargar 2 años de datos en el nyc_taxi_yellow_recent tabla en Amazon Redshift, procedente de la tabla Iceberg:

CREATE TABLE nyc_taxi_yellow_recent
AS
SELECT *
FROM "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
WHERE extract(year from tpep_pickup_datetime)>2020;

A continuación, puede eliminar los datos de los últimos 2 años de la tabla Iceberg usando el siguiente comando en Athena porque cargó los datos en una tabla Redshift en el paso anterior:
```
DELETE FROM nyc_taxi_yellow_iceberg WHERE EXTRACT(year from tpep_pickup_datetime)>2020;
```

Después de completar estos pasos, la tabla Redshift tiene 2 años de datos y el resto de los datos está en la tabla Iceberg en Amazon S3.

Crea una vista usando el nyc_taxi_yellow_iceberg mesa iceberg y nyc_taxi_yellow_recent tabla en Amazon Redshift:

create or replace view nyc_taxi_yellow as
select 'nyc_taxi_yellow_iceberg' as source,vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee
from "dev"."spectrum_iceberg_schema"."nyc_taxi_yellow_iceberg"
union all
select 'nyc_taxi_yellow_recent' as source,vendorid,tpep_pickup_datetime, tpep_dropoff_datetime, passenger_count,trip_distance, ratecodeid,store_and_fwd_flag, pulocationid,dolocationid, payment_type,fare_amount, extra,mta_tax,tip_amount, tolls_amount,total_amount, congestion_surcharge,airport_fee
from public.nyc_taxi_yellow_recent
with no schema binding;

Ahora consulte la vista, dependiendo de las condiciones del filtro, Redshift Spectrum escaneará los datos de Iceberg, la tabla Redshift o ambos. La siguiente consulta de ejemplo devuelve una cantidad de registros de cada una de las tablas de origen al escanear ambas tablas:
```
SELECT source,count(1)
FROM nyc_taxi_yellow
GROUP BY source;
```

Evolución de la partición

Usos del iceberg partición oculta, lo que significa que no necesita agregar particiones manualmente para sus tablas de Apache Iceberg. Amazon Redshift detecta automáticamente los nuevos valores de partición o las nuevas especificaciones de partición (agregar o eliminar columnas de partición) en las tablas de Apache Iceberg y no se necesita ninguna operación manual para actualizar las particiones en la definición de la tabla. El siguiente ejemplo demuestra esto.

En nuestro ejemplo, si la tabla Iceberg nyc_taxi_yellow_iceberg Originalmente se dividió por año y luego la columna vendorid se agregó como una columna de partición adicional, entonces Amazon Redshift puede consultar sin problemas la tabla Iceberg nyc_taxi_yellow_iceberg con dos esquemas de partición diferentes durante un período de tiempo.

Consideraciones al consultar tablas de Iceberg mediante Amazon Redshift

Durante el período de vista previa, tenga en cuenta lo siguiente al utilizar Amazon Redshift con tablas Iceberg:

Solo se admiten las tablas Iceberg definidas en el catálogo de datos de AWS Glue.
Los comandos CREATE o ALTER de tabla externa no son compatibles, lo que significa que la tabla Iceberg ya debería existir en una base de datos de AWS Glue.
No se admiten consultas de viajes en el tiempo.
Se admiten las versiones 1 y 2 de Iceberg. Para obtener más detalles sobre las versiones del formato Iceberg, consulte Versión de formato.
Para obtener una lista de los tipos de datos admitidos con tablas Iceberg, consulte Tipos de datos admitidos con tablas Apache Iceberg (vista previa).
El precio por consultar una tabla Iceberg es el mismo que el de acceder a cualquier otro formato de datos mediante Amazon Redshift.

Para obtener detalles adicionales sobre las consideraciones para la vista previa de tablas en formato Iceberg, consulte Uso de tablas de Apache Iceberg con Amazon Redshift (versión preliminar).

Valoración de los clientes

“Tinuiti, la firma independiente de marketing de resultados más grande, maneja grandes volúmenes de datos a diario y debe contar con una sólida estrategia de almacenamiento y lago de datos para que nuestros equipos de inteligencia de mercado almacenen y analicen todos los datos de nuestros clientes de una manera fácil, asequible y segura. , y robusta”, afirma Justin Manus, director de tecnología de Tinuiti. “El soporte de Amazon Redshift para las tablas Apache Iceberg en nuestro lago de datos, que es la única fuente de verdad, aborda un desafío crítico en la optimización del rendimiento y la accesibilidad y simplifica aún más nuestros procesos de integración de datos para acceder a todos los datos ingeridos de diferentes fuentes y potenciar nuestra el potencial de marca de los clientes”.

Conclusión

En esta publicación, le mostramos un ejemplo de consulta de una tabla Iceberg en Redshift utilizando archivos almacenados en Amazon S3, catalogados como una tabla en el catálogo de datos de AWS Glue, y demostramos algunas de las características clave, como actualización y eliminación eficientes a nivel de fila, y la experiencia de evolución de esquemas para que los usuarios desbloqueen el poder del big data utilizando Athena.

Puede utilizar Amazon Redshift para ejecutar consultas en tablas del lago de datos en varios archivos y formatos de tabla, como apache hudi y Delta Lakey ahora con Apache Iceberg (vista previa), que proporciona opciones adicionales para sus necesidades de arquitecturas de datos modernas.

Esperamos que esto le brinde un excelente punto de partida para consultar tablas Iceberg en Amazon Redshift.

Acerca de los autores

rohit-bansal es un arquitecto de soluciones especialista en análisis en AWS. Se especializa en Amazon Redshift y trabaja con los clientes para crear soluciones de análisis de última generación utilizando otros servicios de análisis de AWS.

satish sathiya es ingeniero de productos sénior en Amazon Redshift. Es un ávido entusiasta de los macrodatos que colabora con clientes de todo el mundo para lograr el éxito y satisfacer sus necesidades de almacenamiento de datos y arquitectura de lago de datos.

Ranjan birmano es un arquitecto de soluciones especialista en análisis en AWS. Se especializa en Amazon Redshift y ayuda a los clientes a crear soluciones analíticas escalables. Tiene más de 16 años de experiencia en diferentes tecnologías de bases de datos y almacenamiento de datos. Le apasiona automatizar y resolver los problemas de los clientes con soluciones en la nube.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Automoción / vehículos eléctricos, Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
ChartPrime. Eleve su juego comercial con ChartPrime. Accede Aquí.
Desplazamientos de bloque. Modernización de la propiedad de compensaciones ambientales. Accede Aquí.
Fuente: https://aws.amazon.com/blogs/big-data/query-your-iceberg-tables-in-data-lake-using-amazon-redshift-preview/

Sello de tiempo: 31 de agosto de 2023

Sello de tiempo: 16 de Agosto, 2023

Consulte sus tablas Iceberg en el lago de datos mediante Amazon Redshift (versión preliminar) | Servicios web de Amazon

Reeditado por Platón

Resumen de la solución

Requisitos previos

Convertir datos de Parquet en una tabla Iceberg

Cree un esquema externo en Amazon Redshift

Consultar la tabla Iceberg en Amazon Redshift

Consulte el plan explicativo para consultar la tabla Iceberg.

Validar actualizaciones para la coherencia de los datos

Cree una vista unificada de la tabla local y los datos históricos en Amazon Redshift

Evolución de la partición

Consideraciones al consultar tablas de Iceberg mediante Amazon Redshift

Valoración de los clientes

Conclusión

Acerca de los autores

Mas de Big Data de AWS

Cómo las organizaciones sanitarias pueden analizar y crear conocimientos utilizando datos de transparencia de precios | Servicios web de Amazon

Presentamos actualizaciones de versiones locales con Amazon MWAA | Servicios web de Amazon

Escale sus trabajos de AWS Glue for Apache Spark con nuevos tipos de trabajadores más grandes G.4X y G.8X | Servicios web de Amazon

Transmita registros de flujo de VPC a Datadog a través de Amazon Kinesis Data Firehose | Servicios web de Amazon

Implementar un proceso CDC sin servidor con Apache Iceberg utilizando Amazon DynamoDB y Amazon Athena | Servicios web de Amazon

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta