Förenkla databehandlingen hos Capitec med Amazon Redshift-integration för Apache Spark | Amazon Web Services

Återutgiven av Platon

anhängare: 0

Det här inlägget är skrivet tillsammans med Preshen Goobiah och Johan Olivier från Capitec.

Apache Spark är ett allmänt använt distribuerat bearbetningssystem med öppen källkod känt för att hantera storskaliga dataarbetsbelastningar. Den hittar ofta applikationer bland Spark-utvecklare som arbetar med Amazon EMR, Amazon SageMaker, AWS-lim och anpassade Spark-applikationer.

Amazon RedShift erbjuder sömlös integration med Apache Spark, så att du enkelt kan komma åt dina Redshift-data på både Amazon Redshift-provisionerade kluster och Amazon Redshift Serverlös. Denna integration utökar möjligheterna för AWS-analys- och maskininlärningslösningar (ML), vilket gör datalagret tillgängligt för ett bredare utbud av applikationer.

Med Amazon Redshift-integration för Apache Spark, kan du snabbt komma igång och utan ansträngning utveckla Spark-applikationer med populära språk som Java, Scala, Python, SQL och R. Dina applikationer kan sömlöst läsa från och skriva till ditt Amazon Redshift-datalager samtidigt som du bibehåller optimal prestanda och transaktionskonsistens. Dessutom kommer du att dra nytta av prestandaförbättringar genom pushdown-optimeringar, vilket ytterligare förbättrar effektiviteten i din verksamhet.

Capitec, Sydafrikas största detaljhandelsbank med över 21 miljoner privatbankskunder, syftar till att tillhandahålla enkla, prisvärda och tillgängliga finansiella tjänster för att hjälpa sydafrikaner att bank bättre så att de kan leva bättre. I det här inlägget diskuterar vi den framgångsrika integrationen av Amazon Redshift-kontakten med öppen källkod av Capitecs funktionsplattformsteam för delade tjänster. Som ett resultat av användningen av Amazon Redshift-integrationen för Apache Spark ökade utvecklarnas produktivitet med en faktor 10, funktionsgenereringspipelines strömlinjeformades och dataduplicering reducerades till noll.

Affärsmöjligheten

Det finns 19 prediktiva modeller med utrymme för att använda 93 funktioner byggda med AWS Glue över Capitecs Retail Credit-divisioner. Funktionsposter är berikade med fakta och dimensioner lagrade i Amazon Redshift. Apache PySpark valdes ut för att skapa funktioner eftersom det erbjuder en snabb, decentraliserad och skalbar mekanism för att bråka data från olika källor.

Dessa produktionsfunktioner spelar en avgörande roll för att möjliggöra realtidsansökningar om tidsbegränsade lån, kreditkortsansökningar, månatlig övervakning av kreditbeteende i batch och identifiering av batch daglig lön inom företaget.

Problemet med datakällan

För att säkerställa tillförlitligheten hos PySpark-datapipelines är det viktigt att ha konsekventa data på rekordnivå från både dimensions- och faktatabeller lagrade i Enterprise Data Warehouse (EDW). Dessa tabeller sammanfogas sedan med tabeller från Enterprise Data Lake (EDL) vid körning.

Under funktionsutveckling kräver dataingenjörer ett sömlöst gränssnitt till EDW. Detta gränssnitt tillåter dem att komma åt och integrera nödvändiga data från EDW i datapipelines, vilket möjliggör effektiv utveckling och testning av funktioner.

Tidigare lösningsprocess

I den tidigare lösningen tillbringade produktteamets dataingenjörer 30 minuter per körning för att manuellt exponera Redshift-data för Spark. Stegen inkluderade följande:

Konstruera en predikerad fråga i Python.
Skicka en LASTA AV fråga via Amazon Redshift Data API.
Katalogdata i AWS Glue Data Catalog via AWS SDK för pandor med sampling.

Detta tillvägagångssätt ställde till problem för stora datamängder, krävde återkommande underhåll från plattformsteamet och var komplicerad att automatisera.

Aktuell lösning översikt

Capitec kunde lösa dessa problem med Amazon Redshift-integrationen för Apache Spark inom funktionsgenereringspipelines. Arkitekturen definieras i följande diagram.

Arbetsflödet innehåller följande steg:

Interna bibliotek installeras i AWS Glue PySpark-jobbet via AWS CodeArtifact.
Ett AWS-limjobb hämtar Redshift-klusterreferenser från AWS Secrets Manager och ställer in Amazon Redshift-anslutningen (injicerar klusterreferenser, urladdningsplatser, filformat) via det delade interna biblioteket. Amazon Redshift-integrationen för Apache Spark stöder också användning AWS identitets- och åtkomsthantering (IAM) till hämta inloggningsuppgifter och ansluta till Amazon Redshift.
Spark-frågan översätts till en Amazon Redshift-optimerad fråga och skickas till EDW. Detta åstadkoms av Amazon Redshift-integrationen för Apache Spark.
EDW-datauppsättningen laddas ur till ett tillfälligt prefix i en Amazon enkel lagringstjänst (Amazon S3) hink.
EDW-dataset från S3-skopan laddas i Spark-exekutorer via Amazon Redshift-integrationen för Apache Spark.
EDL-datauppsättningen läses in i Spark-exekutorer via AWS Glue Data Catalog.

Dessa komponenter arbetar tillsammans för att säkerställa att dataingenjörer och produktionsdatapipelines har de nödvändiga verktygen för att implementera Amazon Redshift-integrationen för Apache Spark, köra frågor och underlätta urladdningen av data från Amazon Redshift till EDL.

Använder Amazon Redshift-integrationen för Apache Spark i AWS Glue 4.0

I det här avsnittet demonstrerar vi användbarheten av Amazon Redshift-integrationen för Apache Spark genom att berika en låneansökningstabell som finns i S3-datasjön med kundinformation från Redshifts datalager i PySpark.

Smakämnen dimclient Tabellen i Amazon Redshift innehåller följande kolumner:

ClientKey – INT8
ClientAltKey – VARCHAR50
PartyIdentifierNumber – VARCHAR20
ClientCreateDate - DATUM
Är Avbruten – INT2
RowIsCurrent – INT2

Smakämnen loanapplication Tabellen i AWS Glue Data Catalog innehåller följande kolumner:

RecordID – STORT
LogDate - TIDSSTÄMPEL
PartyIdentifierNumber – STRING

Redshift-tabellen läses via Amazon Redshift-integrationen för Apache Spark och cachelagras. Se följande kod:

import pyspark.sql.functions as F
from pyspark.sql import SQLContext
sc = # existing SparkContext
sql_context = SQLContext(sc) secretsmanager_client = boto3.client('secretsmanager')
secret_manager_response = secretsmanager_client.get_secret_value( SecretId='string', VersionId='string', VersionStage='string'
)
username = # get username from secret_manager_response
password = # get password from secret_manager_response
url = "jdbc:redshift://redshifthost:5439/database?user=" + username + "&password=" + password read_config = { "url": url, "tempdir": "s3://<capitec-redshift-temp-bucket>/<uuid>/", "unload_s3_format": "PARQUET"
} d_client = ( spark.read.format("io.github.spark_redshift_community.spark.redshift") .options(**read_config) .option("query", f"select * from edw_core.dimclient") .load() .where((F.col("RowIsCurrent") == 1) & (F.col("isCancelled") == 0)) .select( F.col("PartyIdentifierNumber"), F.col("ClientCreateDate") ) .cache()
)

Låneansökningsposter läses in från S3-datasjön och berikas med dimclient tabell på Amazon Redshift information:

import pyspark.sql.functions as F
from awsglue.context import GlueContext
from pyspark import SparkContext glue_ctx = GlueContext(SparkContext.getOrCreate()) push_down_predicate = ( f"meta_extract_start_utc_ms between " f"'2023-07-12" f" 18:00:00.000000' and " f"'2023-07-13 06:00:00.000000'"
) database_name="loan_application_system"
table_name="dbo_view_loan_applications"
catalog_id = # Glue Data Catalog # Selecting only the following columns
initial_select_cols=[ "RecordID", "LogDate", "PartyIdentifierNumber" ] d_controller = (glue_ctx.create_dynamic_frame.from_catalog(catalog_id=catalog_id, database=database_name, table_name=table_name, push_down_predicate=push_down_predicate) .toDF() .select(*initial_select_cols) .withColumn("LogDate", F.date_format("LogDate", "yyyy-MM-dd").cast("string")) .dropDuplicates()) # Left Join on PartyIdentifierNumber and enriching the loan application record
d_controller_enriched = d_controller.join(d_client, on=["PartyIdentifierNumber"], how="left").cache()

Som ett resultat berikas låneansökningsposten (från S3-datasjön) med ClientCreateDate kolumn (från Amazon Redshift).

Hur Amazon Redshift-integrationen för Apache Spark löser problemet med datakällan

Amazon Redshift-integrationen för Apache Spark åtgärdar effektivt datakällans problem genom följande mekanismer:

Just-in-time läsning – Amazon Redshift-integrationen för Apache Spark-anslutningen läser Redshift-tabeller på ett just-in-time-sätt, vilket säkerställer konsistensen av data och schema. Detta är särskilt värdefullt för Typ 2 långsamt ändrande dimension (SCD) och tidsperiod som ackumulerar ögonblicksbildfakta. Genom att kombinera dessa Redshift-tabeller med källsystemet AWS Glue Data Catalog-tabeller från EDL inom produktions PySpark-pipelines, möjliggör kontakten sömlös integrering av data från flera källor samtidigt som dataintegriteten bibehålls.
Optimerade rödförskjutningsfrågor – Amazon Redshift-integrationen för Apache Spark spelar en avgörande roll för att konvertera Spark-frågeplanen till en optimerad Redshift-fråga. Denna konverteringsprocess förenklar utvecklingsupplevelsen för produktteamet genom att följa principen om datalokalitet. De optimerade frågorna använder funktionerna och prestandaoptimeringarna hos Amazon Redshift, vilket säkerställer effektiv datahämtning och bearbetning från Amazon Redshift för PySpark-pipelines. Detta hjälper till att effektivisera utvecklingsprocessen samtidigt som det förbättrar den övergripande prestandan för datakällan.

Få bästa prestanda

Amazon Redshift-integrationen för Apache Spark tillämpar automatiskt predikat- och fråge-pushdown för att optimera prestanda. Du kan få prestandaförbättringar genom att använda standardformatet Parkett som används för avlastning med denna integration.

För ytterligare information och kodexempel, se Nytt – Amazon Redshift-integration med Apache Spark.

Lösningsfördelar

Antagandet av integrationen gav flera betydande fördelar för teamet:

Förbättrad utvecklarproduktivitet – PySpark-gränssnittet från integrationen ökade utvecklarens produktivitet med en faktor 10, vilket möjliggjorde smidigare interaktion med Amazon Redshift.
Eliminering av dataduplicering – Duplicerade och AWS Glue-katalogiserade Redshift-tabeller i datasjön eliminerades, vilket resulterade i en mer strömlinjeformad datamiljö.
Minskad EDW-belastning – Integrationen underlättade selektiv dataavlastning, vilket minimerade belastningen på EDW genom att endast extrahera nödvändiga data.

Genom att använda Amazon Redshift-integrationen för Apache Spark har Capitec banat väg för förbättrad databehandling, ökad produktivitet och ett mer effektivt ekosystem för funktionsteknik.

Slutsats

I det här inlägget diskuterade vi hur Capitec-teamet framgångsrikt implementerade Apache Spark Amazon Redshift-integrationen för Apache Spark för att förenkla deras arbetsflöden för funktionsberäkning. De betonade vikten av att använda decentraliserade och modulära PySpark-datapipelines för att skapa prediktiva modellfunktioner.

För närvarande används Amazon Redshift-integrationen för Apache Spark av 7 produktionsdatapipelines och 20 utvecklingspipelines, vilket visar dess effektivitet inom Capitecs miljö.

Framöver planerar de delade tjänsterna Feature Platform-teamet på Capitec att utöka användningen av Amazon Redshift-integrationen för Apache Spark i olika affärsområden, i syfte att ytterligare förbättra databehandlingskapaciteten och främja effektiv funktionsteknik.

För ytterligare information om hur du använder Amazon Redshift-integrationen för Apache Spark, se följande resurser:

Om författarna

Preshen Goobiah är Lead Machine Learning Engineer för Feature Platform på Capitec. Han är fokuserad på att designa och bygga Feature Store-komponenter för företagsanvändning. På fritiden tycker han om att läsa och att resa.

Johan Olivier är senior maskininlärningsingenjör för Capitecs modellplattform. Han är en entreprenör och problemlösningsentusiast. Han tycker om musik och umgås på fritiden.

Sudipta Bagchi är Senior Specialist Solutions Architect på Amazon Web Services. Han har över 12 års erfarenhet av data och analys, och hjälper kunder att designa och bygga skalbara och högpresterande analyslösningar. Utanför jobbet älskar han att springa, resa och spela cricket. Ta kontakt med honom LinkedIn.

Syed Humair är Senior Analytics Specialist Solutions Architect på Amazon Web Services (AWS). Han har över 17 års erfarenhet av företagsarkitektur med fokus på data och AI/ML, och hjälper AWS-kunder globalt att möta deras affärsmässiga och tekniska krav. Du kan få kontakt med honom LinkedIn.

Vuyisa Maswana är Senior Solutions Architect på AWS, baserad i Kapstaden. Vuyisa har ett starkt fokus på att hjälpa kunder att bygga tekniska lösningar för att lösa affärsproblem. Han har stöttat Capitec i deras AWS-resa sedan 2019.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://aws.amazon.com/blogs/big-data/simplifying-data-processing-at-capitec-with-amazon-redshift-integration-for-apache-spark/

Tidsstämpel: November 10, 2023

Tidsstämpel: Maj 9, 2023

Förenkla databehandlingen hos Capitec med Amazon Redshift-integration för Apache Spark | Amazon webbtjänster

Återutgiven av Platon

Affärsmöjligheten

Problemet med datakällan

Tidigare lösningsprocess

Aktuell lösning översikt

Använder Amazon Redshift-integrationen för Apache Spark i AWS Glue 4.0

Hur Amazon Redshift-integrationen för Apache Spark löser problemet med datakällan

Få bästa prestanda

Lösningsfördelar

Slutsats

Om författarna

Mer från AWS Big Data

Dyk djupt in i AWS Glue 4.0 för Apache Spark | Amazon webbtjänster

Fråga dina Iceberg-tabeller i datasjö med Amazon Redshift (Preview) | Amazon webbtjänster

Introducerar beständig buffring för Amazon OpenSearch Ingestion | Amazon webbtjänster

BWH Hotels skalar introduktionen av Enterprise Business Intelligence samtidigt som de minskar kostnaderna med Amazon QuickSight | Amazon webbtjänster

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto