Orquestre trabalhos do Amazon EMR Serverless Spark com o Amazon MWAA e validação de dados usando o Amazon Athena | Amazon Web Services

Republicado por Platão

seguidores: 0

À medida que a engenharia de dados se torna cada vez mais complexa, as organizações procuram novas formas de agilizar os seus fluxos de trabalho de processamento de dados. Muitos engenheiros de dados hoje usam o Apache Airflow para construir, agendar e monitorar seus pipelines de dados.

No entanto, à medida que o volume de dados aumenta, gerenciar e dimensionar esses pipelines pode se tornar uma tarefa difícil. Fluxos de trabalho gerenciados da Amazon para Apache Airflow (Amazon MWAA) pode ajudar a simplificar o processo de construção, execução e gerenciamento de pipelines de dados. Ao fornecer o Apache Airflow como uma plataforma totalmente gerenciada, o Amazon MWAA permite que os engenheiros de dados se concentrem na criação de fluxos de trabalho de dados em vez de se preocuparem com a infraestrutura.

Hoje, as empresas e organizações exigem maneiras econômicas e eficientes de processar grandes quantidades de dados. Amazon EMR sem servidor é uma solução econômica e escalável para processamento de big data que pode lidar com grandes volumes de dados. O Amazon Provider no Apache Airflow vem com operadores EMR Serverless e já está incluído no Amazon MWAA, facilitando aos engenheiros de dados a criação de pipelines de processamento de dados escalonáveis e confiáveis. Você pode usar o EMR Serverless para executar trabalhos do Spark nos dados e usar o Amazon MWAA para gerenciar os fluxos de trabalho e as dependências entre esses trabalhos. Essa integração também pode ajudar a reduzir custos ao dimensionar automaticamente os recursos necessários para processar dados.

O Amazon Athena é um serviço de análise interativo e sem servidor criado com base em estruturas de código aberto e compatível com formatos de arquivos e tabelas abertas. Você pode usar SQL padrão para interagir com os dados. Athena, um serviço de análise interativo e sem servidor, torna isso possível sem a necessidade de gerenciar infraestrutura complexa.

Nesta postagem, usamos Amazon MWAA, EMR Serverless e Athena para construir um pipeline completo de processamento de dados de ponta a ponta.

Visão geral da solução

O diagrama a seguir ilustra a arquitetura da solução.

O fluxo de trabalho inclui as seguintes etapas:

Crie um fluxo de trabalho do Amazon MWAA que recupere dados da sua entrada Serviço de armazenamento simples da Amazon (Amazon S3).
Use o EMR Serverless para processar os dados armazenados no Amazon S3. O EMR Serverless aumenta ou diminui automaticamente com base na carga de trabalho, para que você não precise se preocupar com provisionamento ou gerenciamento de qualquer infraestrutura.
Use o EMR Serverless para transformar os dados usando o código PySpark e, em seguida, armazene os dados transformados de volta em seu bucket S3.
Use o Athena para criar uma tabela externa baseada no conjunto de dados S3 e executar consultas para analisar os dados transformados. Atena usa o Cola AWS Catálogo de Dados para armazenar os metadados da tabela.

Pré-requisitos

Você deve ter os seguintes pré-requisitos:

Preparação de dados

Para ilustrar o uso de trabalhos EMR Serverless com Apache Spark por meio do Amazon MWAA e validação de dados usando Athena, usamos o conjunto de dados de táxi de Nova York disponível publicamente. Baixe os seguintes conjuntos de dados para sua máquina local:

Registros de viagem de táxi verde e táxi amarelo – Registros de viagem para táxis amarelos e verdes, que incluem informações como datas e horários de coleta e entrega, locais, distâncias de viagem e tipos de pagamento. Em nosso exemplo, usamos os arquivos Parquet mais recentes para 2022.
Conjunto de dados para pesquisa de zona de táxi – Um conjunto de dados que fornece IDs de localização e detalhes de zona correspondentes para táxis.

Nas etapas posteriores, carregaremos esses conjuntos de dados no Amazon S3.

Criar recursos de solução

Esta seção descreve as etapas para configurar o processamento e a transformação de dados.

Crie um aplicativo EMR sem servidor

Você pode criar um ou mais aplicativos EMR Serverless que usam estruturas analíticas de código aberto, como Apache Spark ou Apache Hive. Ao contrário do EMR no EC2, você não precisa excluir ou encerrar aplicativos EMR Serverless. O aplicativo EMR Serverless é apenas uma definição e, uma vez criado, pode ser reutilizado pelo tempo que for necessário. Isso torna o pipeline MWAA mais simples, pois agora você só precisa enviar trabalhos para um aplicativo EMR Serverless pré-criado.

Por padrão, o aplicativo EMR Serverless será iniciado automaticamente no envio do trabalho e interrompido automaticamente quando ocioso por 15 minutos por padrão para garantir eficiência de custos. Você pode modificar a quantidade de tempo ocioso ou optar por desativar o recurso.

Para criar um aplicativo usando o console EMR Serverless, siga as instruções em “Crie um aplicativo EMR sem servidor". Anote o ID do aplicativo, pois o usaremos nas etapas a seguir.

Criar um bucket e pastas do S3

Conclua as etapas a seguir para configurar o bucket e as pastas do S3:

No console do Amazon S3, criar um balde S3 para armazenar o conjunto de dados.
Anote o nome do bucket S3 a ser usado nas etapas posteriores.
Crie uma input_data pasta para armazenar dados de entrada.
Dentro dessa pasta, crie três pastas separadas, uma para cada conjunto de dados: green, yellow e zone_lookup.

Você pode baixar e trabalhar com os conjuntos de dados mais recentes disponíveis. Para nossos testes, usamos os seguintes arquivos:

A green/ pasta tem o arquivo green_tripdata_2022-06.parquet
A yellow/ pasta tem o arquivo yellow_tripdata_2022-06.parquet
A zone_lookup/ pasta tem o arquivo taxi_zone_lookup.csv

Configurar os scripts DAG do Amazon MWAA

Conclua as etapas a seguir para configurar seus scripts DAG:

Baixe os seguintes scripts para sua máquina local:
1. requisitos.txt – Uma dependência do Python é qualquer pacote ou distribuição que não esteja incluído na instalação base do Apache Airflow para sua versão do Apache Airflow em seu ambiente Amazon MWAA. Para este post, usamos Boto3 version >=1.23.9.
2. blog_dag_mwaa_emrs_ny_taxi.py – Este script faz parte do Amazon MWAA DAG e consiste nas seguintes tarefas: yellow_taxi_zone_lookup, green_taxi_zone_lookup e ny_taxi_summary,. Essas tarefas envolvem a execução de trabalhos do Spark para pesquisar zonas de táxi e gerar um resumo de dados.
3. zona_verde.py – Este script PySpark lê arquivos de dados para viagens de táxi verde e pesquisa de zona, executa uma operação de junção para combiná-los e gera um arquivo de saída contendo viagens de táxi verde com informações de zona. Ele utiliza visualizações temporárias para o df_green e df_zone quadros de dados, realiza junções baseadas em colunas e agrega dados como contagem de passageiros, distância da viagem e valor da tarifa. Por último, cria o output_data pasta no bucket S3 especificado para gravar o quadro de dados resultante, df_green_zone, como arquivos Parquet.
4. zona_amarela.py – Este script PySpark processa arquivos de dados de corrida de táxi amarelo e pesquisa de zona, unindo-os para gerar um arquivo de saída contendo corridas de táxi amarelo com informações de zona. O script aceita um nome de bucket S3 fornecido pelo usuário e inicia uma sessão do Spark com o nome do aplicativo yellow_zone. Ele lê os arquivos de táxi amarelos e o arquivo de pesquisa de zona do bucket S3 especificado, cria visualizações temporárias, executa uma junção com base no ID do local e calcula estatísticas como contagem de passageiros, distância da viagem e valor da tarifa. Por último, cria o output_data pasta no bucket S3 especificado para gravar o quadro de dados resultante, df_yellow_zone, como arquivos Parquet.
5. ny_taxi_summary.py – Este script PySpark processa o green_zone e yellow_zone arquivos para agregar estatísticas sobre corridas de táxi, agrupando dados por zonas de serviço e IDs de localização. Requer um nome de bucket S3 como argumento de linha de comando, cria uma SparkSession chamada ny_taxi_summary, lê os arquivos do S3, realiza uma junção e gera um novo quadro de dados denominado ny_taxi_summary. Ele cria uma pasta output_data no bucket S3 especificado para gravar o quadro de dados resultante em novos arquivos Parquet.
Na sua máquina local, atualize o blog_dag_mwaa_emrs_ny_taxi.py script com as seguintes informações:
- Atualize o nome do bucket S3 nas duas linhas a seguir:
```
S3_LOGS_BUCKET = "<<bucket_name_here>>"
S3_BASE_BUCKET = "<<bucket_name_here>>"
```
- Atualize o ARN do nome da sua função:
```
JOB_ROLE_ARN = “<<emr_serverless_execution_role ARN here>>”
e.g. arn:aws:iam::<<ACCOUNT_ID>>:role/<<ROLE_NAME>>
```
- Atualize o ID do aplicativo sem servidor EMR. Use o ID do aplicativo criado anteriormente.
```
EMR_SERVERLESS_APPLICATION_ID  = “<<emr serverless application ID here>>”
```
Nos envie os requirements.txt arquivo para o bucket S3 criado anteriormente
No bucket S3, crie uma pasta chamada dags e carregue o atualizado blog_dag_mwaa_emrs_ny_taxi.py arquivo da sua máquina local.
No console do Amazon S3, crie uma nova pasta chamada scripts dentro do bucket S3 e carregue os scripts para esta pasta de sua máquina local.

Crie um ambiente Amazon MWAA

Para criar um ambiente Airflow, execute as seguintes etapas:

No console Amazon MWAA, escolha Criar ambiente.
Escolha Nome, entrar mwaa_emrs_athena_pipeline.
Escolha Versão do fluxo de ar, escolha a versão mais recente (para esta postagem, 2.5.1).
Escolha Balde S3, insira o caminho para seu bucket S3.
Escolha Pasta DAGs, insira o caminho para o seu dags pasta.
Escolha Arquivo de requisitos, insira o caminho para o requirements.txt arquivo.
Escolha Próximo.
Escolha Nuvem privada virtual (VPC), escolha uma VPC que tenha no mínimo duas sub-redes privadas.

Isso preencherá duas das sub-redes privadas em sua VPC.

Debaixo Acesso ao servidor web, selecione Rede pública.

Isso permite que a UI do Apache Airflow seja acessada pela Internet por usuários com acesso ao Política IAM para seu ambiente.

Escolha Grupo(s) de segurança, selecione Criar novo grupo de segurança.
Escolha Classe de ambiente, selecione mw1.pequeno.
Escolha Função de execução, escolha Crie uma nova função.
Escolha Nome do papel, Insira o nome.
Deixe as outras configurações como padrão e escolha Próximo.
Na próxima página, escolha Crie meio Ambiente.

Pode levar cerca de 20 a 30 minutos para criar seu ambiente Amazon MWAA.

Quando o status do ambiente do Amazon MWAA muda para Disponível, navegue até o console do IAM e atualize a função de execução do cluster para adicionar passar privilégios de função para emr_serverless_execution_role.

Acione o Amazon MWAA DAG

Para acionar o DAG, conclua as seguintes etapas:

No console Amazon MWAA, escolha Ambientes no painel de navegação.
Abra seu ambiente e escolha Abra a IU do Airflow.
Selecionar blog_dag_mwaa_emr_ny_taxi, escolha o ícone de reprodução e escolha Acionar DAG.
Quando o DAG estiver em execução, escolha o DAG blog_dag_mwaa_emrs_ny_taxi e escolha Gráfico para localizar seu fluxo de trabalho de execução do DAG.

O DAG levará aproximadamente de 4 a 6 minutos para executar todos os scripts. Você verá todas as tarefas concluídas e o status geral do DAG será mostrado como sucesso.

Para executar novamente o DAG, remova s3://<<your_s3_bucket here >>/output_data/.

Opcionalmente, para entender como o Amazon MWAA executa essas tarefas, escolha a tarefa que deseja inspecionar.

Escolha Execute para visualizar os detalhes da execução da tarefa.

A captura de tela a seguir mostra um exemplo de logs de tarefas.

Se você gosta de se aprofundar nos logs de execução, no console EMR Serverless, navegue até “Aplicativos”. Os logs do driver Apache Spark indicarão o início do seu trabalho junto com os detalhes dos executores, estágios e tarefas que foram criados pelo EMR Serverless. Esses logs podem ser úteis para monitorar o progresso do seu trabalho e solucionar falhas.

Por padrão, o EMR Serverless armazenará logs de aplicativos com segurança no armazenamento gerenciado do Amazon EMR por um período de 30 dias. No entanto, você também pode especificar Amazon S3 ou Amazon CloudWatch como suas opções de entrega de log durante o envio do trabalho.

Valide o conjunto de resultados final com Athena

Vamos validar os dados carregados pelo processo usando consultas SQL do Athena.

No console Athena, escolha Editor de consultas no painel de navegação.
Se você estiver usando o Athena pela primeira vez, em Configurações, escolha Gerencie e insira o local do bucket S3 que você criou anteriormente (<S3_BUCKET_NAME>/athena), então escolha Salvar.
No editor de consultas, insira a seguinte consulta para criar uma tabela externa:

CREATE EXTERNAL TABLE default.ny_taxi_summary(
  pu_service_zone string, 
  pulocationid bigint, 
  do_service_zone string, 
  dolocationid bigint, 
  passenger_count bigint, 
  trip_distance double, 
  fare_amount double, 
  extra double, 
  mta_tax double, 
  tip_amount double, 
  tolls_amount double, 
  improvement_surcharge double, 
  total_amount double, 
  congestion_surcharge double, 
  airport_fee double)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  's3://<<YOUR-S3-BUCKET Here>>/output_data/ny_taxi_summary/' -- *** Change bucket name to your bucket***
TBLPROPERTIES (
  'classification'='parquet', 
  'compressionType'='none');

Execute a seguinte consulta no arquivo criado recentemente ny_taxi_summary tabela para recuperar as primeiras 10 linhas para validar os dados:

select * from default.ny_taxi_summary limit 10;

limpar

Para evitar cobranças futuras, execute as seguintes etapas:

No console do Amazon S3, exclua o bucket do S3 que você criou para armazenar o DAG, os scripts e os logs do Amazon MWAA.
No console do Athena, elimine a tabela que você criou:
```
drop table default.ny_taxi_summary;
```
No console do Amazon MWAA, navegue até o ambiente que você criou e escolha Apagar.
No console do EMR Studio, exclua o aplicativo.

Para excluir o aplicativo, navegue até o Listar aplicativos página. Selecione o aplicativo que você criou e escolha Ações → Parar para parar o aplicativo. Depois que o aplicativo estiver no estado STOPPED, selecione o mesmo aplicativo e escolha Ações → Excluir.

Conclusão

A engenharia de dados é um componente crítico de muitas organizações e, à medida que os volumes de dados continuam a crescer, é essencial encontrar formas de agilizar os fluxos de trabalho de processamento de dados. A combinação do Amazon MWAA, EMR Serverless e Athena fornece uma solução poderosa para criar, executar e gerenciar pipelines de dados com eficiência. Com esse pipeline de processamento de dados de ponta a ponta, os engenheiros de dados podem processar e analisar facilmente grandes quantidades de dados de maneira rápida e econômica, sem a necessidade de gerenciar infraestruturas complexas. A integração desses serviços da AWS fornece uma solução robusta e escalável para processamento de dados, ajudando as organizações a tomar decisões informadas com base em seus insights de dados.

Agora que você viu como enviar trabalhos do Spark no EMR Serverless por meio do Amazon MWAA, recomendamos que você use o Amazon MWAA para criar um fluxo de trabalho que executará trabalhos do PySpark por meio do EMR Serverless.

Agradecemos seus comentários e perguntas. Fique à vontade para entrar em contato conosco se tiver alguma dúvida ou comentário.

Sobre os autores

Rahul Sonawane é arquiteto principal de soluções analíticas na AWS com AI/ML e análise como sua área de especialidade.

Gaurav Parekh é um arquiteto de soluções que ajuda os clientes da AWS a construir arquiteturas modernas em grande escala. Ele é especialista em análise de dados e redes. Fora do trabalho, Gaurav gosta de jogar críquete, futebol e vôlei.

Histórico de auditoria

Dezembro de 2023: Esta postagem foi revisada quanto à precisão técnica por Santosh Gantaram, gerente técnico sênior de contas.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/big-data/orchestrate-amazon-emr-serverless-spark-jobs-with-amazon-mwaa-and-data-validation-using-amazon-athena/

Carimbo de hora: 12 de dezembro de 2023

Carimbo de hora: 5 de abril, 2023

Orquestre trabalhos do Amazon EMR Serverless Spark com o Amazon MWAA e validação de dados usando o Amazon Athena | Amazon Web Services

Republicado por Platão

Visão geral da solução

Pré-requisitos

Preparação de dados

Criar recursos de solução

Crie um aplicativo EMR sem servidor

Criar um bucket e pastas do S3

Configurar os scripts DAG do Amazon MWAA

Crie um ambiente Amazon MWAA

Acione o Amazon MWAA DAG

Valide o conjunto de resultados final com Athena

limpar

Conclusão

Sobre os autores

Histórico de auditoria

Mais de Grandes dados da AWS

Acelere análises no Amazon OpenSearch Service com AWS Glue por meio de seu conector nativo | Amazon Web Services

A BWH Hotels dimensiona a adoção de business intelligence empresarial enquanto reduz os custos com o Amazon QuickSight | Amazon Web Services

Carregar dados de forma incremental de data lakes transacionais para data warehouses | Amazon Web Services

Extraia séries temporais de dados meteorológicos de satélite com o AWS Lambda | Amazon Web Services

Use o filtro de token reverso para ativar consultas de correspondência de sufixo no OpenSearch | Amazon Web Services

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta