Simplifying Data Processing At Capitec With Amazon Redshift Integration For Apache Spark | Amazon Web Services

Republicat de Platon

Urmaritori: 0

Această postare este scrisă împreună cu Preshen Goobiah și Johan Olivier de la Capitec.

Apache Spark este un sistem de procesare distribuită cu sursă deschisă folosit pe scară largă, renumit pentru gestionarea sarcinilor de lucru de date la scară largă. Găsește aplicații frecvente printre dezvoltatorii Spark care lucrează Amazon EMR, Amazon SageMaker, AWS Adeziv și aplicații Spark personalizate.

Amazon RedShift oferă o integrare perfectă cu Apache Spark, permițându-vă să accesați cu ușurință datele Redshift atât pe clusterele furnizate de Amazon Redshift, cât și Amazon Redshift fără server. Această integrare extinde posibilitățile pentru soluțiile AWS de analiză și învățare automată (ML), făcând depozitul de date accesibil pentru o gamă mai largă de aplicații.

Cu Integrare Amazon Redshift pentru Apache Spark, puteți începe rapid și puteți dezvolta fără efort aplicații Spark folosind limbaje populare precum Java, Scala, Python, SQL și R. Aplicațiile dvs. pot citi și scrie fără probleme din depozitul dvs. de date Amazon Redshift, menținând în același timp performanța optimă și consistența tranzacțională. În plus, veți beneficia de îmbunătățiri ale performanței prin optimizări pushdown, sporind și mai mult eficiența operațiunilor dumneavoastră.

Capitec, cea mai mare bancă de retail din Africa de Sud, cu peste 21 de milioane de clienți de servicii bancare cu amănuntul, își propune să ofere servicii financiare simple, accesibile și accesibile pentru a-i ajuta pe sud-africanii să investească mai bine, astfel încât să poată trăi mai bine. În această postare, discutăm despre integrarea cu succes a conectorului Amazon Redshift open source de către echipa de servicii partajate Feature Platform a Capitec. Ca urmare a utilizării integrării Amazon Redshift pentru Apache Spark, productivitatea dezvoltatorilor a crescut cu un factor de 10, conductele de generare de caracteristici au fost simplificate, iar duplicarea datelor a fost redusă la zero.

Oportunitatea de afaceri

Există 19 modele predictive pentru utilizarea a 93 de funcții construite cu AWS Glue în diviziile Capitec Retail Credit. Înregistrările caracteristicilor sunt îmbogățite cu fapte și dimensiuni stocate în Amazon Redshift. Apache PySpark a fost selectat pentru a crea funcții, deoarece oferă un mecanism rapid, descentralizat și scalabil pentru a dispută date din diverse surse.

Aceste caracteristici de producție joacă un rol crucial în a permite aplicații de împrumut pe termen fix în timp real, aplicații pentru carduri de credit, monitorizarea comportamentului de credit lunar și identificarea salariului zilnic în cadrul companiei.

Problema sursei de date

Pentru a asigura fiabilitatea conductelor de date PySpark, este esențial să aveți date consistente la nivel de înregistrare din tabelele dimensionale și de fapt stocate în Enterprise Data Warehouse (EDW). Aceste tabele sunt apoi unite cu tabele din Enterprise Data Lake (EDL) în timpul execuției.

În timpul dezvoltării caracteristicilor, inginerii de date necesită o interfață perfectă pentru EDW. Această interfață le permite să acceseze și să integreze datele necesare din EDW în conductele de date, permițând dezvoltarea și testarea eficientă a caracteristicilor.

Procesul de rezolvare anterior

În soluția anterioară, inginerii de date din echipa de produs au petrecut 30 de minute pe rulare pentru a expune manual datele Redshift la Spark. Pașii au inclus următorii:

Construiți o interogare predicată în Python.
Trimiteți un mesaj DESCĂRCA interogare prin intermediul Amazon Redshift Data API.
Datele de catalog în AWS Glue Data Catalog prin intermediul AWS SDK for Pandas folosind eșantionarea.

Această abordare a pus probleme pentru seturi mari de date, a necesitat întreținere recurentă din partea echipei platformei și a fost complex de automatizat.

Prezentare generală a soluției actuale

Capitec a reușit să rezolve aceste probleme cu integrarea Amazon Redshift pentru Apache Spark în conductele de generare de caracteristici. Arhitectura este definită în diagrama următoare.

Fluxul de lucru include următorii pași:

Bibliotecile interne sunt instalate în jobul AWS Glue PySpark prin AWS CodeArtifact.
Un job AWS Glue preia acreditările de cluster Redshift de la Manager de secrete AWS și configurează conexiunea Amazon Redshift (injectează acreditările de cluster, locații de descărcare, formate de fișiere) prin biblioteca internă partajată. Integrarea Amazon Redshift pentru Apache Spark acceptă și utilizarea Gestionarea identității și accesului AWS (IAM) la recuperați acreditările și conectați-vă la Amazon Redshift.
Interogarea Spark este tradusă într-o interogare optimizată Amazon Redshift și trimisă la EDW. Acest lucru este realizat prin integrarea Amazon Redshift pentru Apache Spark.
Setul de date EDW este descărcat într-un prefix temporar într-un Serviciul Amazon de stocare simplă Găleată (Amazon S3)
Setul de date EDW din compartimentul S3 este încărcat în executanții Spark prin integrarea Amazon Redshift pentru Apache Spark.
Setul de date EDL este încărcat în executanții Spark prin AWS Glue Data Catalog.

Aceste componente lucrează împreună pentru a se asigura că inginerii de date și conductele de date de producție au instrumentele necesare pentru a implementa integrarea Amazon Redshift pentru Apache Spark, pentru a rula interogări și pentru a facilita descărcarea datelor din Amazon Redshift în EDL.

Utilizarea integrării Amazon Redshift pentru Apache Spark în AWS Glue 4.0

În această secțiune, demonstrăm utilitatea integrării Amazon Redshift pentru Apache Spark prin îmbogățirea unui tabel de cereri de împrumut care se află în lacul de date S3 cu informații despre clienți din depozitul de date Redshift din PySpark.

dimclient tabelul din Amazon Redshift conține următoarele coloane:

ClientKey – INT8
ClientAltKey – VARCHAR50
PartyIdentifierNumber – VARCHAR20
ClientCreateDate - DATA
Este anulat – INT2
RowIsCurrent – INT2

loanapplication tabelul din Catalogul de date AWS Glue conține următoarele coloane:

RecordID – MARE
LogDate - TIMESTAMP-UL
PartyIdentifierNumber – STRING

Tabelul Redshift este citit prin integrarea Amazon Redshift pentru Apache Spark și stocat în cache. Vezi următorul cod:

import pyspark.sql.functions as F
from pyspark.sql import SQLContext
sc = # existing SparkContext
sql_context = SQLContext(sc) secretsmanager_client = boto3.client('secretsmanager')
secret_manager_response = secretsmanager_client.get_secret_value( SecretId='string', VersionId='string', VersionStage='string'
)
username = # get username from secret_manager_response
password = # get password from secret_manager_response
url = "jdbc:redshift://redshifthost:5439/database?user=" + username + "&password=" + password read_config = { "url": url, "tempdir": "s3://<capitec-redshift-temp-bucket>/<uuid>/", "unload_s3_format": "PARQUET"
} d_client = ( spark.read.format("io.github.spark_redshift_community.spark.redshift") .options(**read_config) .option("query", f"select * from edw_core.dimclient") .load() .where((F.col("RowIsCurrent") == 1) & (F.col("isCancelled") == 0)) .select( F.col("PartyIdentifierNumber"), F.col("ClientCreateDate") ) .cache()
)

Înregistrările cererii de împrumut sunt citite din lacul de date S3 și îmbogățite cu dimclient tabel cu informații despre Amazon Redshift:

import pyspark.sql.functions as F
from awsglue.context import GlueContext
from pyspark import SparkContext glue_ctx = GlueContext(SparkContext.getOrCreate()) push_down_predicate = ( f"meta_extract_start_utc_ms between " f"'2023-07-12" f" 18:00:00.000000' and " f"'2023-07-13 06:00:00.000000'"
) database_name="loan_application_system"
table_name="dbo_view_loan_applications"
catalog_id = # Glue Data Catalog # Selecting only the following columns
initial_select_cols=[ "RecordID", "LogDate", "PartyIdentifierNumber" ] d_controller = (glue_ctx.create_dynamic_frame.from_catalog(catalog_id=catalog_id, database=database_name, table_name=table_name, push_down_predicate=push_down_predicate) .toDF() .select(*initial_select_cols) .withColumn("LogDate", F.date_format("LogDate", "yyyy-MM-dd").cast("string")) .dropDuplicates()) # Left Join on PartyIdentifierNumber and enriching the loan application record
d_controller_enriched = d_controller.join(d_client, on=["PartyIdentifierNumber"], how="left").cache()

Ca urmare, înregistrarea cererii de împrumut (din lacul de date S3) este îmbogățită cu ClientCreateDate coloană (de la Amazon Redshift).

Cum rezolvă integrarea Amazon Redshift pentru Apache Spark problema aprovizionării datelor

Integrarea Amazon Redshift pentru Apache Spark abordează eficient problema aprovizionării datelor prin următoarele mecanisme:

Lectură la timp – Integrarea Amazon Redshift pentru conectorul Apache Spark citește tabelele Redshift într-o manieră la timp, asigurând consistența datelor și a schemei. Acest lucru este deosebit de valoros pentru Dimensiunea tip 2 care se schimbă lent (SCD) și intervalul de timp acumulând fapte instantanee. Prin combinarea acestor tabele Redshift cu tabelele AWS Glue Data Catalog din sistemul sursă din EDL în conductele de producție PySpark, conectorul permite integrarea perfectă a datelor din mai multe surse, menținând în același timp integritatea datelor.
Interogări optimizate Redshift – Integrarea Amazon Redshift pentru Apache Spark joacă un rol crucial în transformarea planului de interogare Spark într-o interogare optimizată Redshift. Acest proces de conversie simplifică experiența de dezvoltare pentru echipa de produs prin aderarea la principiul localității datelor. Interogările optimizate utilizează capacitățile și optimizările de performanță ale Amazon Redshift, asigurând preluarea și procesarea eficientă a datelor de la Amazon Redshift pentru conductele PySpark. Acest lucru ajută la eficientizarea procesului de dezvoltare, îmbunătățind în același timp performanța generală a operațiunilor de aprovizionare a datelor.

Obține cele mai bune performanțe

Integrarea Amazon Redshift pentru Apache Spark aplică automat predicate și interogări pushdown pentru a optimiza performanța. Puteți obține îmbunătățiri de performanță utilizând formatul implicit Parquet utilizat pentru descărcare cu această integrare.

Pentru detalii suplimentare și exemple de cod, consultați Nou – Integrarea Amazon Redshift cu Apache Spark.

Beneficiile soluției

Adoptarea integrării a adus mai multe beneficii semnificative pentru echipă:

Productivitate îmbunătățită a dezvoltatorilor – Interfața PySpark oferită de integrare a sporit productivitatea dezvoltatorului cu un factor de 10, permițând o interacțiune mai fluidă cu Amazon Redshift.
Eliminarea dublării datelor – Tabelele Redshift duplicate și catalogate AWS Glue din lacul de date au fost eliminate, rezultând un mediu de date mai raționalizat.
Sarcină EDW redusă – Integrarea a facilitat descărcarea selectivă a datelor, minimizând încărcarea EDW prin extragerea doar a datelor necesare.

Utilizând integrarea Amazon Redshift pentru Apache Spark, Capitec a deschis calea pentru o procesare îmbunătățită a datelor, o productivitate crescută și un ecosistem de inginerie a funcțiilor mai eficient.

Concluzie

În această postare, am discutat despre modul în care echipa Capitec a implementat cu succes integrarea Apache Spark Amazon Redshift pentru Apache Spark pentru a-și simplifica fluxurile de lucru de calcul al caracteristicilor. Aceștia au subliniat importanța utilizării conductelor de date PySpark descentralizate și modulare pentru crearea caracteristicilor modelului predictiv.

În prezent, integrarea Amazon Redshift pentru Apache Spark este utilizată de 7 conducte de date de producție și 20 de conducte de dezvoltare, arătându-și eficacitatea în mediul Capitec.

Mergând mai departe, echipa de servicii partajate Feature Platform de la Capitec intenționează să extindă adoptarea integrării Amazon Redshift pentru Apache Spark în diferite domenii de afaceri, cu scopul de a îmbunătăți și mai mult capabilitățile de procesare a datelor și de a promova practici eficiente de inginerie a caracteristicilor.

Pentru informații suplimentare despre utilizarea integrării Amazon Redshift pentru Apache Spark, consultați următoarele resurse:

Despre Autori

Preshen Goobiah este inginer principal de învățare automată pentru platforma de caracteristici la Capitec. El se concentrează pe proiectarea și construirea de componente Feature Store pentru uzul întreprinderilor. În timpul liber, îi place să citească și să călătorească.

Johan Olivier este inginer senior de învățare automată pentru platforma de modele Capitec. Este un antreprenor și pasionat de rezolvare a problemelor. Îi place muzica și socializarea în timpul liber.

Sudipta Bagchi este arhitect de soluții de specialitate senior la Amazon Web Services. Are peste 12 ani de experiență în date și analiză și îi ajută pe clienți să proiecteze și să construiască soluții de analiză scalabile și de înaltă performanță. În afara serviciului, îi place să alerge, să călătorească și să joace cricket. Conectează-te cu el LinkedIn.

Syed Humair este arhitect de soluții Senior Analytics Specialist la Amazon Web Services (AWS). Are peste 17 ani de experiență în arhitectura întreprinderii, concentrându-se pe date și AI/ML, ajutând clienții AWS la nivel global să-și abordeze cerințele tehnice și de afaceri. Te poți conecta cu el pe LinkedIn.

Vuyisa Maswana este arhitect senior de soluții la AWS, cu sediul în Cape Town. Vuyisa se concentrează puternic pe a ajuta clienții să construiască soluții tehnice pentru a rezolva problemele de afaceri. El a sprijinit Capitec în călătoria lor AWS din 2019.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/big-data/simplifying-data-processing-at-capitec-with-amazon-redshift-integration-for-apache-spark/

Timestamp-ul: Noiembrie 10, 2023

Timestamp-ul: 4 Mai, 2023

Simplificarea procesării datelor la Capitec cu integrarea Amazon Redshift pentru Apache Spark | Amazon Web Services

Republicat de Platon

Oportunitatea de afaceri

Problema sursei de date

Procesul de rezolvare anterior

Prezentare generală a soluției actuale

Utilizarea integrării Amazon Redshift pentru Apache Spark în AWS Glue 4.0

Cum rezolvă integrarea Amazon Redshift pentru Apache Spark problema aprovizionării datelor

Obține cele mai bune performanțe

Beneficiile soluției

Concluzie

Despre Autori

Mai mult de la AWS Big Data

Îmbunătățiri ale procedurilor stocate în Amazon Redshift | Amazon Web Services

Creați conducte de date incrementale pentru a încărca modificări ale datelor tranzacționale folosind AWS DMS, Delta 2.0 și Amazon EMR Serverless

Îmbunătățiți productivitatea utilizând comenzile rapide de la tastatură în editorul de interogări Amazon Athena

Utilizați potrivirea șirurilor neclare pentru a estima înregistrările duplicate în Amazon Redshift

Creați, implementați și rulați joburi Spark pe Amazon EMR cu instrumentul CLI EMR cu sursă deschisă

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont