Use Amazon Athena com Spark SQL para formatos de tabela transacional de código aberto | Amazon Web Services

Republicado por Platão

seguidores: 0

Data lakes alimentados pela AWS, apoiados pela disponibilidade incomparável de Serviço de armazenamento simples da Amazon (Amazon S3), pode lidar com a escala, a agilidade e a flexibilidade necessárias para combinar diferentes abordagens de dados e análises. À medida que os data lakes cresceram em tamanho e amadureceram em uso, uma quantidade significativa de esforço pode ser despendida para manter os dados consistentes com os eventos de negócios. Para garantir que os arquivos sejam atualizados de maneira transacionalmente consistente, um número crescente de clientes está usando formatos de tabelas transacionais de código aberto, como Iceberg Apache, Apache Hudi e Fundação Linux Delta Lake que ajudam você a armazenar dados com altas taxas de compactação, fazer interface nativa com seus aplicativos e estruturas e simplificar o processamento incremental de dados em data lakes criados no Amazon S3. Esses formatos permitem transações, upserts e exclusões ACID (atomicidade, consistência, isolamento, durabilidade), além de recursos avançados, como viagem no tempo e instantâneos que antes estavam disponíveis apenas em data warehouses. Cada formato de armazenamento implementa esta funcionalidade de maneiras ligeiramente diferentes; para uma comparação, consulte Escolhendo um formato de tabela aberto para seu data lake transacional na AWS.

Em 2023, AWS anunciou disponibilidade geral para Apache Iceberg, Apache Hudi e Linux Foundation Delta Lake em Amazon Athena para Apache Spark, o que elimina a necessidade de instalar um conector separado ou dependências associadas e gerenciar versões, além de simplificar as etapas de configuração necessárias para usar essas estruturas.

Neste post, mostramos como usar o Spark SQL em Amazona atena notebooks e trabalhar com formatos de tabela Iceberg, Hudi e Delta Lake. Demonstramos operações comuns, como criação de bancos de dados e tabelas, inserção de dados nas tabelas, consulta de dados e visualização de snapshots de tabelas no Amazon S3 usando Spark SQL no Athena.

Pré-requisitos

Preencha os seguintes pré-requisitos:

Baixe e importe notebooks de exemplo do Amazon S3

Para acompanhar, baixe os notebooks discutidos nesta postagem nos seguintes locais:

Depois de fazer download dos notebooks, importe-os para o ambiente do Athena Spark seguindo o procedimento Para importar um bloco de notas seção em Gerenciando arquivos de notebook.

Navegue até a seção específica do formato de tabela aberta

Se você estiver interessado no formato da tabela Iceberg, navegue até Trabalhando com tabelas Apache Iceberg seção.

Se você estiver interessado no formato da tabela Hudi, navegue até Trabalhando com tabelas Apache Hudi seção.

Se você estiver interessado no formato da tabela Delta Lake, navegue até Trabalhando com tabelas Delta Lake básicas do Linux seção.

Trabalhando com tabelas Apache Iceberg

Ao usar notebooks Spark no Athena, você pode executar consultas SQL diretamente sem precisar usar o PySpark. Fazemos isso usando magias de células, que são cabeçalhos especiais em uma célula de notebook que alteram o comportamento da célula. Para SQL, podemos adicionar o %%sql magic, que interpretará todo o conteúdo da célula como uma instrução SQL a ser executada no Athena.

Nesta seção, mostramos como você pode usar o SQL no Apache Spark for Athena para criar, analisar e gerenciar tabelas do Apache Iceberg.

Configurar uma sessão de notebook

Para usar o Apache Iceberg no Athena, ao criar ou editar uma sessão, selecione o ícone Iceberg Apache opção expandindo o Propriedades do Apache Spark seção. Ele irá preencher previamente as propriedades conforme mostrado na imagem a seguir.

Esta imagem mostra as propriedades do Apache Iceberg definidas durante a criação da sessão Spak no Athena.

Para ver as etapas, consulte Editando detalhes da sessão or Criando seu próprio caderno.

O código usado nesta seção está disponível no SparkSQL_iceberg.ipynb arquivo para acompanhar.

Crie um banco de dados e uma tabela Iceberg

Primeiro, criamos um banco de dados no AWS Glue Data Catalog. Com o seguinte SQL, podemos criar um banco de dados chamado icebergdb:

%%sql
CREATE DATABASE icebergdb

A seguir, no banco de dados icebergdb, criamos uma tabela Iceberg chamada noaa_iceberg apontando para um local no Amazon S3 onde carregaremos os dados. Execute a seguinte instrução e substitua o local s3://<your-S3-bucket>/<prefix>/ com seu bucket S3 e prefixo:

%%sql
CREATE TABLE icebergdb.noaa_iceberg(
station string,
date string,
latitude string,
longitude string,
elevation string,
name string,
temp string,
temp_attributes string,
dewp string,
dewp_attributes string,
slp string,
slp_attributes string,
stp string,
stp_attributes string,
visib string,
visib_attributes string,
wdsp string,
wdsp_attributes string,
mxspd string,
gust string,
max string,
max_attributes string,
min string,
min_attributes string,
prcp string,
prcp_attributes string,
sndp string,
frshtt string)
USING iceberg
PARTITIONED BY (year string)
LOCATION 's3://<your-S3-bucket>/<prefix>/noaaiceberg/'

Inserir dados na tabela

Para povoar o noaa_iceberg Tabela Iceberg, inserimos dados da tabela Parquet sparkblogdb.noaa_pq que foi criado como parte dos pré-requisitos. Você pode fazer isso usando um INSERT INTO declaração no Spark:

%%sql
INSERT INTO icebergdb.noaa_iceberg select * from sparkblogdb.noaa_pq

Alternativamente, você pode usar CRIAR TABELA COMO SELECT com a cláusula USING iceberg para criar uma tabela Iceberg e inserir dados de uma tabela de origem em uma única etapa:

%%sql
CREATE TABLE icebergdb.noaa_iceberg
USING iceberg
PARTITIONED BY (year)
AS SELECT * FROM sparkblogdb.noaa_pq

Consultar a tabela Iceberg

Agora que os dados estão inseridos na tabela Iceberg, podemos começar a analisá-los. Vamos executar um Spark SQL para encontrar a temperatura mínima registrada por ano para o 'SEATTLE TACOMA AIRPORT, WA US' localização:

%%sql
select name, year, min(MIN) as minimum_temperature
from icebergdb.noaa_iceberg
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

Obtemos o seguinte resultado.

A imagem mostra o resultado da primeira consulta selecionada

Atualizar dados na tabela Iceberg

Vejamos como atualizar os dados em nossa tabela. Queremos atualizar o nome da estação 'SEATTLE TACOMA AIRPORT, WA US' para 'Sea-Tac'. Usando Spark SQL, podemos executar um ATUALIZAÇÃO declaração contra a mesa Iceberg:

%%sql
UPDATE icebergdb.noaa_iceberg
SET name = 'Sea-Tac'
WHERE name = 'SEATTLE TACOMA AIRPORT, WA US'

Podemos então executar a consulta SELECT anterior para encontrar a temperatura mínima registrada para o 'Sea-Tac' localização:

%%sql
select name, year, min(MIN) as minimum_temperature
from icebergdb.noaa_iceberg
where name = 'Sea-Tac'
group by 1,2

Obtemos a seguinte saída.

A imagem mostra a saída da segunda consulta selecionada

Arquivos de dados compactos

Formatos de tabela abertos como Iceberg funcionam criando alterações delta no armazenamento de arquivos e rastreando as versões de linhas por meio de arquivos de manifesto. Mais arquivos de dados levam a mais metadados armazenados em arquivos de manifesto, e arquivos de dados pequenos geralmente geram uma quantidade desnecessária de metadados, resultando em consultas menos eficientes e custos de acesso mais elevados ao Amazon S3. Executando Icebergs rewrite_data_files O procedimento no Spark for Athena compactará arquivos de dados, combinando muitos pequenos arquivos de alteração delta em um conjunto menor de arquivos Parquet otimizados para leitura. A compactação de arquivos acelera a operação de leitura quando consultados. Para executar a compactação em nossa tabela, execute o seguinte Spark SQL:

%%sql
CALL spark_catalog.system.rewrite_data_files
(table => 'icebergdb.noaa_iceberg', strategy=>'sort', sort_order => 'zorder(name)')

rewrite_data_files oferece opções para especificar sua estratégia de classificação, que pode ajudar a reorganizar e compactar os dados.

Listar instantâneos de tabela

Cada operação de gravação, atualização, exclusão, upsert e compactação em uma tabela Iceberg cria um novo instantâneo de uma tabela, mantendo os dados e metadados antigos para isolamento de instantâneo e viagem no tempo. Para listar os instantâneos de uma tabela Iceberg, execute a seguinte instrução Spark SQL:

%%sql
SELECT *
FROM spark_catalog.icebergdb.noaa_iceberg.snapshots

Expirar instantâneos antigos

Recomenda-se a expiração regular de snapshots para excluir arquivos de dados que não são mais necessários e para manter pequeno o tamanho dos metadados da tabela. Ele nunca removerá arquivos que ainda são exigidos por um snapshot não expirado. No Spark for Athena, execute o SQL a seguir para expirar os snapshots da tabela icebergdb.noaa_iceberg que são mais antigos que um carimbo de data/hora específico:

%%sql
CALL spark_catalog.system.expire_snapshots
('icebergdb.noaa_iceberg', TIMESTAMP '2023-11-30 00:00:00.000')

Observe que o valor do carimbo de data/hora é especificado como uma string no formato yyyy-MM-dd HH:mm:ss.fff. A saída fornecerá uma contagem do número de arquivos de dados e metadados excluídos.

Elimine a tabela e o banco de dados

Você pode executar o seguinte Spark SQL para limpar as tabelas Iceberg e os dados associados no Amazon S3 deste exercício:

%%sql
DROP TABLE icebergdb.noaa_iceberg PURGE

Execute o seguinte Spark SQL para remover o banco de dados icebergdb:

%%sql
DROP DATABASE icebergdb

Para saber mais sobre todas as operações que você pode realizar em tabelas Iceberg usando Spark for Athena, consulte Consultas Spark e Procedimentos de faísca na documentação do Iceberg.

Trabalhando com tabelas Apache Hudi

A seguir, mostramos como você pode usar SQL no Spark for Athena para criar, analisar e gerenciar tabelas Apache Hudi.

Configurar uma sessão de notebook

Para usar o Apache Hudi no Athena, ao criar ou editar uma sessão, selecione o ícone Apache Hudi opção expandindo o Propriedades do Apache Spark seção.

Esta imagem mostra as propriedades do Apache Hudi definidas durante a criação da sessão Spak no Athena.

Para ver as etapas, consulte Editando detalhes da sessão or Criando seu próprio caderno.

O código usado nesta seção deve estar disponível no SparkSQL_hudi.ipynb arquivo para acompanhar.

Crie um banco de dados e uma tabela Hudi

Primeiro, criamos um banco de dados chamado hudidb que será armazenado no AWS Glue Data Catalog seguido pela criação da tabela Hudi:

%%sql
CREATE DATABASE hudidb

Criamos uma tabela Hudi apontando para um local no Amazon S3 onde carregaremos os dados. Observe que a tabela é de cópia na escrita tipo. É definido por type= 'cow' na tabela DDL. Definimos estação e data como múltiplas chaves primárias e preCombinedField como ano. Além disso, a tabela é particionada por ano. Execute a seguinte instrução e substitua o local s3://<your-S3-bucket>/<prefix>/ com seu bucket S3 e prefixo:

%%sql
CREATE TABLE hudidb.noaa_hudi(
station string,
date string,
latitude string,
longitude string,
elevation string,
name string,
temp string,
temp_attributes string,
dewp string,
dewp_attributes string,
slp string,
slp_attributes string,
stp string,
stp_attributes string,
visib string,
visib_attributes string,
wdsp string,
wdsp_attributes string,
mxspd string,
gust string,
max string,
max_attributes string,
min string,
min_attributes string,
prcp string,
prcp_attributes string,
sndp string,
frshtt string,
year string)
USING HUDI
PARTITIONED BY (year)
TBLPROPERTIES(
primaryKey = 'station, date',
preCombineField = 'year',
type = 'cow'
)
LOCATION 's3://<your-S3-bucket>/<prefix>/noaahudi/'

Inserir dados na tabela

Tal como acontece com o Iceberg, usamos o INSERT INTO instrução para preencher a tabela lendo dados do sparkblogdb.noaa_pq tabela criada no post anterior:

%%sql
INSERT INTO hudidb.noaa_hudi select * from sparkblogdb.noaa_pq

Consultar a tabela Hudi

Agora que a tabela foi criada, vamos executar uma consulta para encontrar a temperatura máxima registrada para o 'SEATTLE TACOMA AIRPORT, WA US' localização:

%%sql
select name, year, max(MAX) as maximum_temperature
from hudidb.noaa_hudi
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

Atualizar dados na tabela Hudi

Vamos mudar o nome da estação 'SEATTLE TACOMA AIRPORT, WA US' para 'Sea–Tac'. Podemos executar uma instrução UPDATE no Spark para Athena para atualizar os registros do noaa_hudi tabela:

%%sql
UPDATE hudidb.noaa_hudi
SET name = 'Sea-Tac'
WHERE name = 'SEATTLE TACOMA AIRPORT, WA US'

Executamos a consulta SELECT anterior para encontrar a temperatura máxima registrada para o 'Sea-Tac' localização:

%%sql
select name, year, max(MAX) as maximum_temperature
from hudidb.noaa_hudi
where name = 'Sea-Tac'
group by 1,2

Execute consultas de viagem no tempo

Podemos usar consultas de viagem no tempo em SQL no Athena para analisar instantâneos de dados anteriores. Por exemplo:

%%sql
select name, year, max(MAX) as maximum_temperature
from hudidb.noaa_hudi timestamp as of '2023-12-01 23:53:43.100'
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

Esta consulta verifica os dados de temperatura do aeroporto de Seattle em um horário específico no passado. A cláusula timestamp nos permite viajar de volta sem alterar os dados atuais. Observe que o valor do carimbo de data/hora é especificado como uma string no formato yyyy-MM-dd HH:mm:ss.fff.

Otimize a velocidade da consulta com clustering

Para melhorar o desempenho da consulta, você pode executar agrupamento em tabelas Hudi usando SQL no Spark for Athena:

%%sql
CALL run_clustering(table => 'hudidb.noaa_hudi', order => 'name')

Mesas compactas

Compactação é um serviço de tabela empregado pelo Hudi especificamente em tabelas Merge On Read (MOR) para mesclar atualizações de arquivos de log baseados em linhas para o arquivo base baseado em colunas correspondente periodicamente para produzir uma nova versão do arquivo base. A compactação não é aplicável a tabelas Copy On Write (COW) e aplica-se apenas a tabelas MOR. Você pode executar a seguinte consulta no Spark for Athena para realizar compactação em tabelas MOR:

%%sql
CALL run_compaction(op => 'run', table => 'hudi_table_mor');

Elimine a tabela e o banco de dados

Execute o seguinte Spark SQL para remover a tabela Hudi que você criou e os dados associados do local do Amazon S3:

%%sql
DROP TABLE hudidb.noaa_hudi PURGE

Execute o seguinte Spark SQL para remover o banco de dados hudidb:

%%sql
DROP DATABASE hudidb

Para saber mais sobre todas as operações que você pode realizar em tabelas Hudi usando Spark for Athena, consulte DDL SQL e Procedimentos na documentação do Hudi.

Trabalhando com tabelas Delta Lake básicas do Linux

A seguir, mostramos como você pode usar SQL no Spark for Athena para criar, analisar e gerenciar tabelas Delta Lake.

Configurar uma sessão de notebook

Para usar Delta Lake no Spark for Athena, ao criar ou editar uma sessão, selecione Fundação Linux Delta Lake expandindo o Propriedades do Apache Spark seção.

Esta imagem mostra as propriedades do Delta Lake definidas durante a criação da sessão Spak no Athena.

Para ver as etapas, consulte Editando detalhes da sessão or Criando seu próprio caderno.

O código usado nesta seção deve estar disponível no SparkSQL_delta.ipynb arquivo para acompanhar.

Crie um banco de dados e uma tabela Delta Lake

Nesta seção, criamos um banco de dados no AWS Glue Data Catalog. Usando o seguinte SQL, podemos criar um banco de dados chamado deltalakedb:

%%sql
CREATE DATABASE deltalakedb

A seguir, no banco de dados deltalakedb, criamos uma tabela Delta Lake chamada noaa_delta apontando para um local no Amazon S3 onde carregaremos os dados. Execute a seguinte instrução e substitua o local s3://<your-S3-bucket>/<prefix>/ com seu bucket S3 e prefixo:

%%sql
CREATE TABLE deltalakedb.noaa_delta(
station string,
date string,
latitude string,
longitude string,
elevation string,
name string,
temp string,
temp_attributes string,
dewp string,
dewp_attributes string,
slp string,
slp_attributes string,
stp string,
stp_attributes string,
visib string,
visib_attributes string,
wdsp string,
wdsp_attributes string,
mxspd string,
gust string,
max string,
max_attributes string,
min string,
min_attributes string,
prcp string,
prcp_attributes string,
sndp string,
frshtt string)
USING delta
PARTITIONED BY (year string)
LOCATION 's3://<your-S3-bucket>/<prefix>/noaadelta/'

Inserir dados na tabela

Nós usamos um INSERT INTO instrução para preencher a tabela lendo dados do sparkblogdb.noaa_pq tabela criada no post anterior:

%%sql
INSERT INTO deltalakedb.noaa_delta select * from sparkblogdb.noaa_pq

Você também pode usar CREATE TABLE AS SELECT para criar uma tabela Delta Lake e inserir dados de uma tabela de origem em uma consulta.

Consultar a tabela Delta Lake

Agora que os dados estão inseridos na tabela Delta Lake, podemos começar a analisá-los. Vamos executar um Spark SQL para encontrar a temperatura mínima registrada para o 'SEATTLE TACOMA AIRPORT, WA US' localização:

%%sql
select name, year, max(MAX) as minimum_temperature
from deltalakedb.noaa_delta
where name = 'SEATTLE TACOMA AIRPORT, WA US'
group by 1,2

Atualizar dados na tabela Delta lake

Vamos mudar o nome da estação 'SEATTLE TACOMA AIRPORT, WA US' para 'Sea–Tac'. Podemos executar um ATUALIZAÇÃO declaração no Spark para Athena atualizar os registros do noaa_delta tabela:

%%sql
UPDATE deltalakedb.noaa_delta
SET name = 'Sea-Tac'
WHERE name = 'SEATTLE TACOMA AIRPORT, WA US'

Podemos executar a consulta SELECT anterior para encontrar a temperatura mínima registrada para o 'Sea-Tac' localização, e o resultado deve ser o mesmo de antes:

%%sql
select name, year, max(MAX) as minimum_temperature
from deltalakedb.noaa_delta
where name = 'Sea-Tac'
group by 1,2

Arquivos de dados compactos

No Spark for Athena, você pode executar OPTIMIZE na tabela Delta Lake, que compactará os arquivos pequenos em arquivos maiores, para que as consultas não sejam sobrecarregadas pela sobrecarga de arquivos pequenos. Para realizar a operação de compactação, execute a seguinte consulta:

%%sql
OPTIMIZE deltalakedb.noaa_delta

Consulte otimizações na documentação do Delta Lake para diferentes opções disponíveis durante a execução do OPTIMIZE.

Remover arquivos que não são mais referenciados por uma tabela Delta Lake

Você pode remover arquivos armazenados no Amazon S3 que não são mais referenciados por uma tabela Delta Lake e são mais antigos que o limite de retenção executando o comando VACCUM na tabela usando Spark for Athena:

%%sql
VACUUM deltalakedb.noaa_delta

Consulte Remover arquivos que não são mais referenciados por uma tabela Delta na documentação do Delta Lake para opções disponíveis com VACUUM.

Elimine a tabela e o banco de dados

Execute o seguinte Spark SQL para remover a tabela Delta Lake que você criou:

%%sql
DROP TABLE deltalakedb.noaa_delta

Execute o seguinte Spark SQL para remover o banco de dados deltalakedb:

%%sql
DROP DATABASE deltalakedb

A execução de DROP TABLE DDL na tabela e no banco de dados Delta Lake exclui os metadados desses objetos, mas não exclui automaticamente os arquivos de dados no Amazon S3. Você pode executar o seguinte código Python na célula do notebook para excluir os dados do local S3:

import boto3

s3 = boto3.resource('s3')
bucket = s3.Bucket('<your-S3-bucket>')
bucket.objects.filter(Prefix="<prefix>/noaadelta/").delete()

Para saber mais sobre as instruções SQL que podem ser executadas em uma tabela Delta Lake usando Spark for Athena, consulte o começo rápido na documentação do Delta Lake.

Conclusão

Esta postagem demonstrou como usar Spark SQL em notebooks Athena para criar bancos de dados e tabelas, inserir e consultar dados e realizar operações comuns como atualizações, compactações e viagens no tempo em tabelas Hudi, Delta Lake e Iceberg. Os formatos de tabela abertos adicionam transações ACID, upserts e exclusões a data lakes, superando as limitações do armazenamento de objetos brutos. Ao eliminar a necessidade de instalar conectores separados, a integração integrada do Spark no Athena reduz as etapas de configuração e a sobrecarga de gerenciamento ao usar essas estruturas populares para criar data lakes confiáveis no Amazon S3. Para saber mais sobre como selecionar um formato de tabela aberto para suas cargas de trabalho de data lake, consulte Escolhendo um formato de tabela aberto para seu data lake transacional na AWS.

Sobre os autores

Pathik Xá é arquiteto sênior de análise no Amazon Athena. Ele ingressou na AWS em 2015 e tem se concentrado no espaço de análise de big data desde então, ajudando os clientes a criar soluções escaláveis e robustas usando os serviços de análise da AWS.

Raj Devnath é gerente de produtos da AWS no Amazon Athena. Ele é apaixonado por criar produtos que os clientes amam e ajudá-los a extrair valor de seus dados. Sua experiência é no fornecimento de soluções para vários mercados finais, como finanças, varejo, edifícios inteligentes, automação residencial e sistemas de comunicação de dados.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/big-data/use-amazon-athena-with-spark-sql-for-your-open-source-transactional-table-formats/

Carimbo de hora: 24 de janeiro de 2024

Carimbo de hora: 15 Novembro, 2023

Pré-requisitos

Baixe e importe notebooks de exemplo do Amazon S3

Navegue até a seção específica do formato de tabela aberta

Trabalhando com tabelas Apache Iceberg

Configurar uma sessão de notebook

Crie um banco de dados e uma tabela Iceberg

Inserir dados na tabela

Consultar a tabela Iceberg

Atualizar dados na tabela Iceberg

Arquivos de dados compactos

Listar instantâneos de tabela

Expirar instantâneos antigos

Elimine a tabela e o banco de dados

Trabalhando com tabelas Apache Hudi

Configurar uma sessão de notebook

Crie um banco de dados e uma tabela Hudi

Inserir dados na tabela

Consultar a tabela Hudi

Atualizar dados na tabela Hudi

Execute consultas de viagem no tempo

Otimize a velocidade da consulta com clustering

Mesas compactas

Elimine a tabela e o banco de dados

Trabalhando com tabelas Delta Lake básicas do Linux

Configurar uma sessão de notebook

Crie um banco de dados e uma tabela Delta Lake

Inserir dados na tabela

Consultar a tabela Delta Lake

Atualizar dados na tabela Delta lake

Arquivos de dados compactos

Remover arquivos que não são mais referenciados por uma tabela Delta Lake

Elimine a tabela e o banco de dados

Conclusão

Sobre os autores

Mais de Grandes dados da AWS

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta