Orchestrați joburi Amazon EMR Serverless Spark cu Amazon MWAA și validarea datelor utilizând Amazon Athena | Amazon Web Services

Republicat de Platon

Urmaritori: 0

Pe măsură ce ingineria datelor devine din ce în ce mai complexă, organizațiile caută noi modalități de a-și eficientiza fluxurile de lucru de procesare a datelor. Mulți ingineri de date folosesc astăzi Apache Airflow pentru a construi, programa și monitoriza conductele de date.

Cu toate acestea, pe măsură ce volumul de date crește, gestionarea și scalarea acestor conducte poate deveni o sarcină descurajantă. Fluxuri de lucru gestionate de Amazon pentru Apache Airflow (Amazon MWAA) poate ajuta la simplificarea procesului de construire, rulare și gestionare a conductelor de date. Oferind Apache Airflow ca o platformă complet gestionată, Amazon MWAA le permite inginerilor de date să se concentreze pe construirea fluxurilor de lucru de date în loc să se preocupe de infrastructură.

Astăzi, întreprinderile și organizațiile au nevoie de modalități eficiente și rentabile de a procesa cantități mari de date. Amazon EMR fără server este o soluție rentabilă și scalabilă pentru procesarea datelor mari, care poate gestiona volume mari de date. Furnizorul Amazon din Apache Airflow vine cu operatori EMR Serverless și este deja inclus în Amazon MWAA, facilitând inginerilor de date să construiască conducte de procesare a datelor scalabile și fiabile. Puteți utiliza EMR Serverless pentru a rula joburi Spark pe date și puteți utiliza Amazon MWAA pentru a gestiona fluxurile de lucru și dependențele dintre aceste joburi. Această integrare poate ajuta, de asemenea, la reducerea costurilor prin scalarea automată a resurselor necesare procesării datelor.

Amazon Athena este un serviciu de analiză interactiv, fără server, construit pe framework-uri open-source, care acceptă formate open-table și fișiere. Puteți utiliza SQL standard pentru a interacționa cu datele. Athena, un serviciu de analiză fără server și interactiv, face acest lucru posibil fără a fi nevoie de a gestiona o infrastructură complexă.

În această postare, folosim Amazon MWAA, EMR Serverless și Athena pentru a construi o conductă completă de procesare a datelor end-to-end.

Prezentare generală a soluțiilor

Următoarea diagramă ilustrează arhitectura soluției.

Fluxul de lucru include următorii pași:

Creați un flux de lucru Amazon MWAA care preia date din intrarea dvs Serviciul Amazon de stocare simplă Găleată (Amazon S3)
Utilizați EMR Serverless pentru a procesa datele stocate în Amazon S3. EMR Serverless crește sau reduce automat în funcție de volumul de lucru, astfel încât nu trebuie să vă faceți griji cu privire la furnizarea sau gestionarea vreunei infrastructuri.
Utilizați EMR Serverless pentru a transforma datele utilizând codul PySpark și apoi stocați datele transformate înapoi în compartimentul dvs. S3.
Utilizați Athena pentru a crea un tabel extern bazat pe setul de date S3 și rulați interogări pentru a analiza datele transformate. Athena folosește AWS Adeziv Catalog de date pentru a stoca metadatele tabelului.

Cerințe preliminare

Ar trebui să aveți următoarele condiții preliminare:

Pregătirea datelor

Pentru a ilustra utilizarea joburilor EMR Serverless cu Apache Spark prin Amazon MWAA și validarea datelor folosind Athena, folosim setul de date de taxi NYC disponibil public. Descărcați următoarele seturi de date pe mașina dvs. locală:

Înregistrări de călătorie cu taxiul verde și cu taxiul galben – Înregistrări de călătorie pentru taxiurile galbene și verzi, care includ informații precum datele și orele de preluare și predare, locații, distanțe de călătorie și tipuri de plată. În exemplul nostru, folosim cele mai recente fișiere Parquet pentru 2022.
Set de date pentru căutarea zonei Taxi – Un set de date care furnizează ID-urile locației și detaliile zonei corespunzătoare pentru taxiuri.

În pașii următori, încărcăm aceste seturi de date pe Amazon S3.

Creați resurse de soluție

Această secțiune prezintă pașii pentru configurarea procesării și transformării datelor.

Creați o aplicație EMR Serverless

Puteți crea una sau mai multe aplicații EMR Serverless care utilizează cadre de analiză open source, cum ar fi Apache Spark sau Apache Hive. Spre deosebire de EMR pe EC2, nu trebuie să ștergeți sau să închideți aplicațiile EMR Serverless. Aplicația EMR Serverless este doar o definiție și, odată creată, poate fi reutilizată atât timp cât este necesar. Acest lucru face conducta MWAA mai simplă, deoarece acum trebuie doar să trimiteți locuri de muncă la o aplicație EMR Serverless pre-creată.

În mod implicit, Aplicația EMR Serverless se va porni automat la trimiterea jobului și se va opri automat când este inactivă timp de 15 minute, în mod implicit, pentru a asigura eficiența costurilor. Puteți modifica durata de inactivitate sau puteți alege să dezactivați funcția.

Pentru a crea o aplicație folosind consola EMR Serverless, urmați instrucțiunile din „Creați o aplicație EMR Serverless". Notați ID-ul aplicației, deoarece îl vom folosi în pașii următori.

Creați o găleată S3 și foldere

Parcurgeți următorii pași pentru a vă configura compartimentul și folderele S3:

Pe consola Amazon S3, creați o cupă S3 pentru a stoca setul de date.
Notați numele găleții S3 pentru a o utiliza în pașii ulterioare.
Creați o input_data folder pentru stocarea datelor de intrare.
În acel folder, creați trei foldere separate, câte unul pentru fiecare set de date: green, yellow, și zone_lookup.

Puteți descărca și lucra cu cele mai recente seturi de date disponibile. Pentru testarea noastră, folosim următoarele fișiere:

green/ folderul are fișierul green_tripdata_2022-06.parquet
yellow/ folderul are fișierul yellow_tripdata_2022-06.parquet
zone_lookup/ folderul are fișierul taxi_zone_lookup.csv

Configurați scripturile Amazon MWAA DAG

Parcurgeți următorii pași pentru a configura scripturile DAG:

Descărcați următoarele scripturi pe mașina dvs. locală:
1. cerințe.txt – O dependență Python este orice pachet sau distribuție care nu este inclusă în instalarea de bază Apache Airflow pentru versiunea dvs. Apache Airflow din mediul dvs. Amazon MWAA. Pentru această postare, folosim Boto3 version >=1.23.9.
2. blog_dag_mwaa_emrs_ny_taxi.py – Acest script face parte din Amazon MWAA DAG și constă din următoarele sarcini: yellow_taxi_zone_lookup, green_taxi_zone_lookup, și ny_taxi_summary,. Aceste sarcini implică rularea joburilor Spark pentru a căuta zone de taxi și generarea unui rezumat de date .
3. green_zone.py – Acest script PySpark citește fișierele de date pentru cursele cu taxiul verde și căutarea zonei, efectuează o operație de unire pentru a le combina și generează un fișier de ieșire care conține cursele cu taxiul verde cu informații despre zonă. Utilizează vizualizări temporare pentru df_green și df_zone cadre de date, efectuează îmbinări pe coloană și cumulează date precum numărul de pasageri, distanța călătoriei și valoarea tarifului. În cele din urmă, creează output_data folderul din compartimentul S3 specificat pentru a scrie cadrul de date rezultat, df_green_zone, ca fișiere Parquet.
4. yellow_zone.py – Acest script PySpark procesează fișierele de date privind cursa cu taxiul galben și căutarea zonei, unindu-le pentru a genera un fișier de ieșire care conține cursele cu taxiul galben cu informații despre zonă. Scriptul acceptă un nume de compartiment S3 furnizat de utilizator și inițiază o sesiune Spark cu numele aplicației yellow_zone. Citește fișierele taxi galbene și fișierul de căutare a zonei din compartimentul S3 specificat, creează vizualizări temporare, efectuează o alăturare pe baza ID-ului locației și calculează statistici precum numărul de pasageri, distanța călătoriei și valoarea tarifului. În cele din urmă, creează output_data folderul din compartimentul S3 specificat pentru a scrie cadrul de date rezultat, df_yellow_zone, ca fișiere Parquet.
5. ny_taxi_summary.py – Acest script PySpark procesează green_zone și yellow_zone fișiere pentru a agrega statistici privind cursele cu taxiul, gruparea datelor în funcție de zonele de servicii și ID-urile locației. Necesită un nume de găleată S3 ca argument în linia de comandă, creează o sesiune SparkSession numită ny_taxi_summary, citește fișierele din S3, efectuează o îmbinare și generează un nou cadru de date numit ny_taxi_summary. Acesta creează un folder output_data în compartimentul S3 specificat pentru a scrie cadrul de date rezultat în noile fișiere Parquet.
Pe computerul local, actualizați blog_dag_mwaa_emrs_ny_taxi.py script cu următoarele informații:
- Actualizați-vă numele compartimentului S3 în următoarele două rânduri:
```
S3_LOGS_BUCKET = "<<bucket_name_here>>"
S3_BASE_BUCKET = "<<bucket_name_here>>"
```
- Actualizați-vă numele rolului ARN:
```
JOB_ROLE_ARN = “<<emr_serverless_execution_role ARN here>>”
e.g. arn:aws:iam::<<ACCOUNT_ID>>:role/<<ROLE_NAME>>
```
- Actualizați ID-ul aplicației fără server EMR. Utilizați ID-ul aplicației creat mai devreme.
```
EMR_SERVERLESS_APPLICATION_ID  = “<<emr serverless application ID here>>”
```
Încărcați requirements.txt fișier în compartimentul S3 creat mai devreme
În compartimentul S3, creați un folder numit dags și încărcați actualizat blog_dag_mwaa_emrs_ny_taxi.py fișier de pe mașina dvs. locală.
Pe consola Amazon S3, creați un folder nou numit scripts în compartimentul S3 și încărcați scripturile în acest folder de pe mașina dvs. locală.

Creați un mediu Amazon MWAA

Pentru a crea un mediu Airflow, parcurgeți următorii pași:

Pe consola Amazon MWAA, alegeți Creați mediu.
Pentru Nume si Prenume, introduce mwaa_emrs_athena_pipeline.
Pentru Versiunea cu flux de aer, alege cea mai recentă versiune (pentru această postare, 2.5.1).
Pentru Găleată S3, introduceți calea către bucket-ul dvs. S3.
Pentru Dosarul DAGs, intră pe calea către tine dags dosar.
Pentru Dosarul de cerințe, intrați pe calea către requirements.txt fișier.
Alege Pagina Următoare →.
Pentru Cloud privat virtual (VPC), alegeți un VPC care are cel puțin două subrețele private.

Aceasta va popula două dintre subrețelele private din VPC-ul dvs.

În Acces la server web, Selectați Retea publica.

Acest lucru permite ca interfața de utilizare Apache Airflow să fie accesată prin internet de către utilizatorii cărora li s-a acordat acces la Politica IAM pentru mediul dumneavoastră.

Pentru Grupuri de securitate, Selectați Creați un nou grup de securitate.
Pentru Clasa de mediu, Selectați mw1.mic.
Pentru Rolul de execuție, alege Creați un nou rol.
Pentru Nume rol, introduceți un nume.
Lăsați celelalte configurații ca implicite și alegeți Pagina Următoare →.
Pe pagina următoare, alegeți Crea mediu inconjurator.

Crearea mediului Amazon MWAA poate dura aproximativ 20-30 de minute.

Când starea mediului Amazon MWAA se schimbă în Disponibil, navigați la consola IAM și actualizați rolul de execuție a clusterului pentru a adăuga transmite privilegii de rol la emr_serverless_execution_role.

Declanșați Amazon MWAA DAG

Pentru a declanșa DAG, parcurgeți următorii pași:

Pe consola Amazon MWAA, alegeți medii în panoul de navigare.
Deschide-ți mediul și alege Deschideți interfața de utilizare a fluxului de aer.
Selectați blog_dag_mwaa_emr_ny_taxi, alege pictograma de redare și alege Declanșează DAG.
Când DAG rulează, alegeți DAG blog_dag_mwaa_emrs_ny_taxi Și alegeți Grafic pentru a localiza fluxul de lucru al rulării DAG.

DAG va dura aproximativ 4-6 minute pentru a rula toate scripturile. Veți vedea toate sarcinile complete și starea generală a DAG se va afișa ca succes.

Pentru a rula din nou DAG, eliminați s3://<<your_s3_bucket here >>/output_data/.

Opțional, pentru a înțelege cum rulează Amazon MWAA aceste sarcini, alegeți sarcina pe care doriți să o inspectați.

Alege Alerga pentru a vedea detaliile executării sarcinii.

Următoarea captură de ecran arată un exemplu de jurnalele de activități.

Dacă doriți să vă aprofundați în jurnalele de execuție, atunci pe consola EMR Serverless, navigați la „Aplicații”. Jurnalele driverului Apache Spark vor indica inițierea lucrării dvs. împreună cu detaliile pentru executanți, etapele și sarcinile care au fost create de EMR Serverless. Aceste jurnale pot fi utile pentru a vă monitoriza progresul lucrării și pentru a remedia erorile.

În mod implicit, EMR Serverless va stoca jurnalele aplicațiilor în siguranță în stocarea gestionată Amazon EMR pentru o perioadă de 30 de zile. Cu toate acestea, puteți specifica și Amazon S3 sau Amazon CloudWatch ca opțiunile dvs. de livrare a jurnalului în timpul trimiterii jobului.

Validați setul de rezultate final cu Athena

Să validăm datele încărcate de proces folosind interogări Athena SQL.

Pe consola Athena, alegeți Editor de interogări în panoul de navigare.
Dacă utilizați Athena pentru prima dată, sub Setări cont, alege Administrare și introduceți locația compartimentului S3 pe care ați creat-o mai devreme (<S3_BUCKET_NAME>/athena), atunci alege Economisiți.
În editorul de interogări, introduceți următoarea interogare pentru a crea un tabel extern:

CREATE EXTERNAL TABLE default.ny_taxi_summary(
  pu_service_zone string, 
  pulocationid bigint, 
  do_service_zone string, 
  dolocationid bigint, 
  passenger_count bigint, 
  trip_distance double, 
  fare_amount double, 
  extra double, 
  mta_tax double, 
  tip_amount double, 
  tolls_amount double, 
  improvement_surcharge double, 
  total_amount double, 
  congestion_surcharge double, 
  airport_fee double)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  's3://<<YOUR-S3-BUCKET Here>>/output_data/ny_taxi_summary/' -- *** Change bucket name to your bucket***
TBLPROPERTIES (
  'classification'='parquet', 
  'compressionType'='none');

Rulați următoarea interogare pe cel recent creat ny_taxi_summary tabel pentru a prelua primele 10 rânduri pentru a valida datele:

select * from default.ny_taxi_summary limit 10;

A curăța

Pentru a preveni taxele viitoare, parcurgeți următorii pași:

Pe consola Amazon S3, ștergeți compartimentul S3 pe care l-ați creat pentru a stoca Amazon MWAA DAG, scripturile și jurnalele.
Pe consola Athena, plasați tabelul pe care l-ați creat:
```
drop table default.ny_taxi_summary;
```
Pe consola Amazon MWAA, navigați la mediul pe care l-ați creat și alegeți Șterge.
Pe consola EMR Studio, ștergeți aplicația.

Pentru a șterge aplicația, navigați la Listează aplicațiile pagină. Selectați aplicația pe care ați creat-o și alegeți Acțiuni → Opriți pentru a opri aplicația. După ce aplicația este în starea OPRIT, selectați aceeași aplicație și alegeți Acțiuni → Șterge.

Concluzie

Ingineria datelor este o componentă critică a multor organizații și, pe măsură ce volumele de date continuă să crească, este esențial să găsim modalități de eficientizare a fluxurilor de lucru de procesare a datelor. Combinația dintre Amazon MWAA, EMR Serverless și Athena oferă o soluție puternică pentru a construi, rula și gestiona eficient conductele de date. Cu această conductă de procesare a datelor end-to-end, inginerii de date pot procesa și analiza cu ușurință cantități mari de date rapid și rentabil, fără a fi nevoie să gestioneze infrastructura complexă. Integrarea acestor servicii AWS oferă o soluție robustă și scalabilă pentru procesarea datelor, ajutând organizațiile să ia decizii în cunoștință de cauză pe baza informațiilor lor despre date.

Acum că ați văzut cum să trimiteți joburi Spark pe EMR Serverless prin Amazon MWAA, vă încurajăm să utilizați Amazon MWAA pentru a crea un flux de lucru care va rula joburi PySpark prin EMR Serverless.

Așteptăm feedback-ul și întrebările dvs. Vă rugăm să nu ezitați să ne contactați dacă aveți întrebări sau comentarii.

Despre autori

Rahul Sonawane este arhitect principal de soluții de analiză la AWS, având ca domeniu de specialitate AI/ML și Analytics.

Gaurav Parekh este un arhitect de soluții care ajută clienții AWS să construiască arhitectură modernă la scară largă. El este specializat în analiza datelor și rețele. În afara serviciului, lui Gaurav îi place să joace cricket, fotbal și volei.

Istoricul auditului

Decembrie 2023: Această postare a fost revizuită pentru acuratețea tehnică de către Santosh Gantaram, managerul tehnic senior de cont.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/big-data/orchestrate-amazon-emr-serverless-spark-jobs-with-amazon-mwaa-and-data-validation-using-amazon-athena/

Timestamp-ul: December 12, 2023

Timestamp-ul: Aprilie 5, 2023

Orchestrați joburi Amazon EMR Serverless Spark cu Amazon MWAA și validarea datelor folosind Amazon Athena | Amazon Web Services

Republicat de Platon

Prezentare generală a soluțiilor

Cerințe preliminare

Pregătirea datelor

Creați resurse de soluție

Creați o aplicație EMR Serverless

Creați o găleată S3 și foldere

Configurați scripturile Amazon MWAA DAG

Creați un mediu Amazon MWAA

Declanșați Amazon MWAA DAG

Validați setul de rezultate final cu Athena

A curăța

Concluzie

Despre autori

Istoricul auditului

Mai mult de la AWS Big Data

Accelerați analiza pe Amazon OpenSearch Service cu AWS Glue prin conectorul său nativ | Amazon Web Services

BWH Hotels mărește adoptarea de business intelligence pentru întreprinderi reducând în același timp costurile cu Amazon QuickSight | Amazon Web Services

Încărcați datele în mod incremental de la lacurile de date tranzacționale în depozitele de date | Amazon Web Services

Extrageți serii temporale din datele meteorologice din satelit cu AWS Lambda | Amazon Web Services

Utilizați filtrul de simbol invers pentru a activa interogările de potrivire a sufixelor în OpenSearch | Amazon Web Services

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont