Semplificare l'elaborazione dei dati in Capitec con l'integrazione di Amazon Redshift per Apache Spark

Ripubblicato da Platone

Seguaci: 0

Questo post è stato scritto in collaborazione con Preshen Goobiah e Johan Olivier di Capitec.

Apache Spark è un sistema di elaborazione distribuita open source ampiamente utilizzato, rinomato per la gestione di carichi di lavoro di dati su larga scala. Trova applicazione frequente tra gli sviluppatori Spark che lavorano con Amazon EMR, Amazon Sage Maker, Colla AWS e applicazioni Spark personalizzate.

Amazon RedShift offre un'integrazione perfetta con Apache Spark, consentendoti di accedere facilmente ai tuoi dati Redshift sia sui cluster forniti da Amazon Redshift che Amazon Redshift senza server. Questa integrazione espande le possibilità delle soluzioni di analisi e machine learning (ML) di AWS, rendendo il data warehouse accessibile a una gamma più ampia di applicazioni.

Grazie alla Integrazione di Amazon Redshift per Apache Spark, puoi iniziare rapidamente e sviluppare facilmente applicazioni Spark utilizzando linguaggi diffusi come Java, Scala, Python, SQL e R. Le tue applicazioni possono leggere e scrivere senza problemi nel tuo data warehouse Amazon Redshift mantenendo prestazioni ottimali e coerenza transazionale. Inoltre, trarrai vantaggio dai miglioramenti delle prestazioni attraverso le ottimizzazioni pushdown, migliorando ulteriormente l'efficienza delle tue operazioni.

Capitec, la più grande banca al dettaglio del Sud Africa con oltre 21 milioni di clienti bancari al dettaglio, mira a fornire servizi finanziari semplici, convenienti e accessibili per aiutare i sudafricani ad operare meglio in modo che possano vivere meglio. In questo post, discutiamo della riuscita integrazione del connettore open source Amazon Redshift da parte del team Feature Platform dei servizi condivisi di Capitec. Come risultato dell'utilizzo dell'integrazione Amazon Redshift per Apache Spark, la produttività degli sviluppatori è aumentata di un fattore 10, le pipeline di generazione di funzionalità sono state semplificate e la duplicazione dei dati ridotta a zero.

L'opportunità commerciale

Sono disponibili 19 modelli predittivi per l'utilizzo di 93 funzionalità realizzate con AWS Glue nelle divisioni Credito al dettaglio di Capitec. I record delle funzionalità vengono arricchiti con fatti e dimensioni archiviati in Amazon Redshift. Apache PySpark è stato selezionato per creare funzionalità perché offre un meccanismo veloce, decentralizzato e scalabile per gestire i dati provenienti da diverse fonti.

Queste funzionalità di produzione svolgono un ruolo cruciale nel consentire richieste di prestiti a tempo determinato in tempo reale, richieste di carte di credito, monitoraggio batch del comportamento del credito mensile e identificazione batch di salari giornalieri all'interno dell'azienda.

Il problema della provenienza dei dati

Per garantire l'affidabilità delle pipeline di dati PySpark, è essenziale disporre di dati coerenti a livello di record provenienti da tabelle dimensionali e fattuali archiviate nell'Enterprise Data Warehouse (EDW). Queste tabelle vengono quindi unite alle tabelle dell'Enterprise Data Lake (EDL) in fase di esecuzione.

Durante lo sviluppo delle funzionalità, gli ingegneri dei dati necessitano di un'interfaccia continua con EDW. Questa interfaccia consente loro di accedere e integrare i dati necessari dall'EDW nelle pipeline di dati, consentendo uno sviluppo e un test efficienti delle funzionalità.

Processo di soluzione precedente

Nella soluzione precedente, i data engineer del team di prodotto impiegavano 30 minuti per esecuzione per esporre manualmente i dati Redshift a Spark. I passaggi includevano quanto segue:

Costruisci una query con predicato in Python.
Invia un SCARICARE interrogare tramite il API dati Amazon Redshift.
Cataloga i dati nel catalogo dati di AWS Glue tramite l'SDK AWS per Panda utilizzando il campionamento.

Questo approccio poneva problemi per set di dati di grandi dimensioni, richiedeva una manutenzione ricorrente da parte del team della piattaforma ed era complesso da automatizzare.

Panoramica della soluzione attuale

Capitec è stata in grado di risolvere questi problemi con l'integrazione di Amazon Redshift per Apache Spark all'interno delle pipeline di generazione di funzionalità. L'architettura è definita nel diagramma seguente.

Il flusso di lavoro include i seguenti passaggi:

Le librerie interne vengono installate nel processo AWS Glue PySpark tramite Codice AWS Artefatto.
Un lavoro AWS Glue recupera le credenziali del cluster Redshift da AWS Secrets Manager e configura la connessione Amazon Redshift (inserisce credenziali del cluster, posizioni di scarico, formati di file) tramite la libreria interna condivisa. Anche l'integrazione Amazon Redshift per Apache Spark supporta l'utilizzo Gestione dell'identità e dell'accesso di AWS (IAM) a recuperare le credenziali e connettersi ad Amazon Redshift.
La query Spark viene tradotta in una query ottimizzata per Amazon Redshift e inviata all'EDW. Ciò è possibile grazie all'integrazione di Amazon Redshift per Apache Spark.
Il set di dati EDW viene scaricato in un prefisso temporaneo in un file Servizio di archiviazione semplice Amazon (Amazon S3) secchio.
Il set di dati EDW dal bucket S3 viene caricato negli esecutori Spark tramite l'integrazione Amazon Redshift per Apache Spark.
Il set di dati EDL viene caricato negli esecutori Spark tramite il catalogo dati di AWS Glue.

Questi componenti lavorano insieme per garantire che gli ingegneri dei dati e le pipeline dei dati di produzione dispongano degli strumenti necessari per implementare l'integrazione di Amazon Redshift per Apache Spark, eseguire query e facilitare lo scaricamento dei dati da Amazon Redshift all'EDL.

Utilizzo dell'integrazione Amazon Redshift per Apache Spark in AWS Glue 4.0

In questa sezione dimostriamo l'utilità dell'integrazione Amazon Redshift per Apache Spark arricchendo una tabella di richiesta di prestito residente nel data Lake S3 con le informazioni sui clienti provenienti dal data warehouse Redshift in PySpark.

Il dimclient La tabella in Amazon Redshift contiene le seguenti colonne:

ChiaveCliente –INT8
ClientAltKey – VARCHAR50
Numero identificativo della parte – VARCHAR20
ClientCreateDate - DATA
È annullato –INT2
RowIsCurrent –INT2

Il loanapplication La tabella nel Catalogo dati di AWS Glue contiene le seguenti colonne:

ID record – GRANDE
LogDate – TIMESTAMP
Numero identificativo della parte - CORDA

La tabella Redshift viene letta tramite l'integrazione Amazon Redshift per Apache Spark e memorizzata nella cache. Vedere il seguente codice:

import pyspark.sql.functions as F
from pyspark.sql import SQLContext
sc = # existing SparkContext
sql_context = SQLContext(sc) secretsmanager_client = boto3.client('secretsmanager')
secret_manager_response = secretsmanager_client.get_secret_value( SecretId='string', VersionId='string', VersionStage='string'
)
username = # get username from secret_manager_response
password = # get password from secret_manager_response
url = "jdbc:redshift://redshifthost:5439/database?user=" + username + "&password=" + password read_config = { "url": url, "tempdir": "s3://<capitec-redshift-temp-bucket>/<uuid>/", "unload_s3_format": "PARQUET"
} d_client = ( spark.read.format("io.github.spark_redshift_community.spark.redshift") .options(**read_config) .option("query", f"select * from edw_core.dimclient") .load() .where((F.col("RowIsCurrent") == 1) & (F.col("isCancelled") == 0)) .select( F.col("PartyIdentifierNumber"), F.col("ClientCreateDate") ) .cache()
)

I record delle richieste di prestito vengono letti dal data Lake S3 e arricchiti con il file dimclient tabella sulle informazioni di Amazon Redshift:

import pyspark.sql.functions as F
from awsglue.context import GlueContext
from pyspark import SparkContext glue_ctx = GlueContext(SparkContext.getOrCreate()) push_down_predicate = ( f"meta_extract_start_utc_ms between " f"'2023-07-12" f" 18:00:00.000000' and " f"'2023-07-13 06:00:00.000000'"
) database_name="loan_application_system"
table_name="dbo_view_loan_applications"
catalog_id = # Glue Data Catalog # Selecting only the following columns
initial_select_cols=[ "RecordID", "LogDate", "PartyIdentifierNumber" ] d_controller = (glue_ctx.create_dynamic_frame.from_catalog(catalog_id=catalog_id, database=database_name, table_name=table_name, push_down_predicate=push_down_predicate) .toDF() .select(*initial_select_cols) .withColumn("LogDate", F.date_format("LogDate", "yyyy-MM-dd").cast("string")) .dropDuplicates()) # Left Join on PartyIdentifierNumber and enriching the loan application record
d_controller_enriched = d_controller.join(d_client, on=["PartyIdentifierNumber"], how="left").cache()

Di conseguenza, il record della richiesta di prestito (dal data Lake S3) si arricchisce del file ClientCreateDate colonna (da Amazon Redshift).

In che modo l'integrazione di Amazon Redshift per Apache Spark risolve il problema dell'approvvigionamento dei dati

L'integrazione di Amazon Redshift per Apache Spark risolve in modo efficace il problema dell'approvvigionamento dei dati attraverso i seguenti meccanismi:

Lettura just-in-time – L'integrazione Amazon Redshift per il connettore Apache Spark legge le tabelle Redshift in modo just-in-time, garantendo la coerenza dei dati e dello schema. Ciò è particolarmente prezioso per Tipo 2 dimensione a cambiamento lento (SCD) e il periodo di tempo in cui si accumulano i fatti delle istantanee. Combinando queste tabelle Redshift con le tabelle del catalogo dati AWS Glue del sistema di origine dell'EDL all'interno delle pipeline PySpark di produzione, il connettore consente un'integrazione perfetta dei dati provenienti da più origini mantenendo l'integrità dei dati.
Query Redshift ottimizzate – L'integrazione di Amazon Redshift per Apache Spark svolge un ruolo cruciale nella conversione del piano di query Spark in una query Redshift ottimizzata. Questo processo di conversione semplifica l'esperienza di sviluppo per il team di prodotto aderendo al principio della località dei dati. Le query ottimizzate utilizzano le funzionalità e le ottimizzazioni delle prestazioni di Amazon Redshift, garantendo un recupero e un'elaborazione efficienti dei dati da Amazon Redshift per le pipeline PySpark. Ciò aiuta a semplificare il processo di sviluppo migliorando al tempo stesso le prestazioni complessive delle operazioni di sourcing dei dati.

Ottenere la migliore prestazione

L'integrazione Amazon Redshift per Apache Spark applica automaticamente predicati e query pushdown per ottimizzare le prestazioni. Puoi ottenere miglioramenti delle prestazioni utilizzando il formato Parquet predefinito utilizzato per lo scarico con questa integrazione.

Per ulteriori dettagli ed esempi di codice, fare riferimento a Novità: integrazione di Amazon Redshift con Apache Spark.

Vantaggi della soluzione

L'adozione dell'integrazione ha prodotto numerosi vantaggi significativi per il team:

Maggiore produttività degli sviluppatori – L'interfaccia PySpark fornita dall'integrazione ha aumentato la produttività degli sviluppatori di un fattore 10, consentendo un'interazione più fluida con Amazon Redshift.
Eliminazione della duplicazione dei dati – Le tabelle Redshift duplicate e catalogate da AWS Glue nel data Lake sono state eliminate, con il risultato di un ambiente dati più snello.
Carico EDW ridotto – L’integrazione ha facilitato lo scarico selettivo dei dati, riducendo al minimo il carico sull’EDW estraendo solo i dati necessari.

Utilizzando l'integrazione Amazon Redshift per Apache Spark, Capitec ha aperto la strada a una migliore elaborazione dei dati, una maggiore produttività e un ecosistema di progettazione delle funzionalità più efficiente.

Conclusione

In questo post, abbiamo discusso di come il team Capitec ha implementato con successo l'integrazione Apache Spark Amazon Redshift per Apache Spark per semplificare i flussi di lavoro di calcolo delle funzionalità. Hanno sottolineato l’importanza di utilizzare pipeline di dati PySpark decentralizzate e modulari per creare funzionalità di modelli predittivi.

Attualmente, l'integrazione di Amazon Redshift per Apache Spark è utilizzata da 7 pipeline di dati di produzione e 20 pipeline di sviluppo, dimostrando la sua efficacia all'interno dell'ambiente Capitec.

Guardando al futuro, il team Feature Platform dei servizi condivisi di Capitec prevede di espandere l'adozione dell'integrazione Amazon Redshift per Apache Spark in diverse aree di business, con l'obiettivo di migliorare ulteriormente le capacità di elaborazione dei dati e promuovere pratiche efficienti di ingegneria delle funzionalità.

Per ulteriori informazioni sull'utilizzo dell'integrazione Amazon Redshift per Apache Spark, fare riferimento alle seguenti risorse:

Informazioni sugli autori

Preshen Goobiah è Lead Machine Learning Engineer per la Feature Platform di Capitec. Si concentra sulla progettazione e realizzazione di componenti Feature Store per uso aziendale. Nel tempo libero gli piace leggere e viaggiare.

Giovanni Olivier è un ingegnere senior di machine learning per la piattaforma modello di Capitec. È un imprenditore e un appassionato di problem solving. Gli piace la musica e socializzare nel tempo libero.

Sudipta Bagchi è un Senior Specialist Solutions Architect presso Amazon Web Services. Ha oltre 12 anni di esperienza nel campo dei dati e dell'analisi e aiuta i clienti a progettare e realizzare soluzioni di analisi scalabili e ad alte prestazioni. Fuori dal lavoro ama correre, viaggiare e giocare a cricket. Connettiti con lui su LinkedIn.

Syed Humair è un Senior Analytics Specialist Solutions Architect presso Amazon Web Services (AWS). Ha oltre 17 anni di esperienza nell'architettura aziendale concentrandosi su dati e AI/ML, aiutando i clienti AWS a livello globale a soddisfare i propri requisiti tecnici e aziendali. Puoi connetterti con lui su LinkedIn.

Vuyisa Maswana è Senior Solutions Architect presso AWS, con sede a Città del Capo. Vuyisa è fortemente impegnata ad aiutare i clienti a creare soluzioni tecniche per risolvere i problemi aziendali. Supporta Capitec nel suo viaggio in AWS dal 2019.

Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
Fonte: https://aws.amazon.com/blogs/big-data/simplifying-data-processing-at-capitec-with-amazon-redshift-integration-for-apache-spark/

Timestamp: 10 Novembre 2023

Timestamp: 4 Maggio 2023

Semplificazione dell'elaborazione dei dati in Capitec con l'integrazione di Amazon Redshift per Apache Spark | Servizi Web di Amazon

Ripubblicato da Platone

L'opportunità commerciale

Il problema della provenienza dei dati

Processo di soluzione precedente

Panoramica della soluzione attuale

Utilizzo dell'integrazione Amazon Redshift per Apache Spark in AWS Glue 4.0

In che modo l'integrazione di Amazon Redshift per Apache Spark risolve il problema dell'approvvigionamento dei dati

Ottenere la migliore prestazione

Vantaggi della soluzione

Conclusione

Informazioni sugli autori

Di più da Big Data di AWS

Miglioramenti alle procedure archiviate in Amazon Redshift | Servizi Web di Amazon

Crea pipeline di dati incrementali per caricare le modifiche ai dati transazionali utilizzando AWS DMS, Delta 2.0 e Amazon EMR Serverless

Migliora la produttività utilizzando le scorciatoie da tastiera nell'editor di query di Amazon Athena

Utilizza la corrispondenza di stringhe fuzzy per approssimare i record duplicati in Amazon Redshift

Crea, distribuisci ed esegui job Spark su Amazon EMR con lo strumento CLI EMR open source

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account