Vereenvoudiging van gegevensverwerking bij Capitec met Amazon Redshift-integratie voor Apache Spark

Heruitgegeven door Plato

volgers: 0

Dit bericht is geschreven in samenwerking met Preshen Goobiah en Johan Olivier van Capitec.

Apache Spark is een veelgebruikt open source gedistribueerd verwerkingssysteem dat bekend staat om het verwerken van grootschalige dataworkloads. Het wordt veelvuldig toegepast onder Spark-ontwikkelaars die ermee werken Amazon EMR, Amazon Sage Maker, AWS lijm en aangepaste Spark-applicaties.

Amazon roodverschuiving biedt naadloze integratie met Apache Spark, waardoor u eenvoudig toegang heeft tot uw Redshift-gegevens op zowel door Amazon Redshift ingerichte clusters als Amazon Redshift Serverloos. Deze integratie breidt de mogelijkheden voor AWS-analyse- en machine learning (ML)-oplossingen uit, waardoor het datawarehouse toegankelijk wordt voor een breder scala aan toepassingen.

Met de Amazon Redshift-integratie voor Apache Spark, kunt u snel aan de slag en moeiteloos Spark-applicaties ontwikkelen met behulp van populaire talen zoals Java, Scala, Python, SQL en R. Uw applicaties kunnen naadloos lezen van en schrijven naar uw Amazon Redshift-datawarehouse met behoud van optimale prestaties en transactionele consistentie. Bovendien profiteert u van prestatieverbeteringen door middel van pushdown-optimalisaties, waardoor de efficiëntie van uw activiteiten verder wordt verbeterd.

Capitec, de grootste retailbank van Zuid-Afrika met meer dan 21 miljoen retailbankklanten, streeft ernaar eenvoudige, betaalbare en toegankelijke financiële diensten aan te bieden om Zuid-Afrikanen te helpen beter te bankieren, zodat ze beter kunnen leven. In dit bericht bespreken we de succesvolle integratie van de open source Amazon Redshift-connector door het Feature Platform-team van Capitec voor gedeelde services. Als gevolg van het gebruik van de Amazon Redshift-integratie voor Apache Spark steeg de productiviteit van ontwikkelaars met een factor 10, werden pijplijnen voor het genereren van functies gestroomlijnd en werd gegevensduplicatie tot nul teruggebracht.

De zakelijke mogelijkheid

Er zijn 19 voorspellende modellen beschikbaar voor het gebruik van 93 functies die zijn gebouwd met AWS Glue in de Retail Credit-divisies van Capitec. Functierecords worden verrijkt met feiten en dimensies die zijn opgeslagen in Amazon Redshift. Apache PySpark werd geselecteerd om functies te creëren omdat het een snel, gedecentraliseerd en schaalbaar mechanisme biedt om gegevens uit verschillende bronnen te verzamelen.

Deze productiefuncties spelen een cruciale rol bij het mogelijk maken van realtime leningaanvragen met een vaste looptijd, creditcardaanvragen, batchmonitoring van maandelijks kredietgedrag en batchidentificatie van dagelijkse salarissen binnen het bedrijf.

Het datasourcingprobleem

Om de betrouwbaarheid van PySpark-gegevenspijplijnen te garanderen, is het essentieel om consistente gegevens op recordniveau te hebben van zowel dimensionale als feitentabellen die zijn opgeslagen in het Enterprise Data Warehouse (EDW). Deze tabellen worden vervolgens tijdens runtime samengevoegd met tabellen uit het Enterprise Data Lake (EDL).

Tijdens de ontwikkeling van functies hebben data-ingenieurs een naadloze interface met de EDW nodig. Dankzij deze interface hebben ze toegang tot de benodigde gegevens van de EDW en kunnen ze deze integreren in de datapijplijnen, waardoor efficiënte ontwikkeling en testen van functies mogelijk wordt.

Vorig oplossingsproces

In de vorige oplossing waren de data-ingenieurs van het productteam 30 minuten per run bezig met het handmatig beschikbaar stellen van Redshift-gegevens aan Spark. De stappen omvatten het volgende:

Construeer een voorspelde query in Python.
Stuur een LOSSEN vraag via de Amazon Redshift-gegevens-API.
Catalogiseer gegevens in de AWS Glue Data Catalog via de AWS SDK voor Panda's met behulp van steekproeven.

Deze aanpak leverde problemen op voor grote datasets, vereiste terugkerend onderhoud van het platformteam en was complex om te automatiseren.

Huidig oplossingsoverzicht

Capitec kon deze problemen oplossen met de Amazon Redshift-integratie voor Apache Spark binnen pijplijnen voor het genereren van functies. De architectuur wordt gedefinieerd in het volgende diagram.

De workflow omvat de volgende stappen:

Interne bibliotheken worden in de AWS Glue PySpark-taak geïnstalleerd via AWS-codeartefact.
Een AWS Glue-taak haalt Redshift-clusterreferenties op van AWS-geheimenmanager en stelt de Amazon Redshift-verbinding in (injecteert clusterreferenties, ontlaadlocaties, bestandsformaten) via de gedeelde interne bibliotheek. De Amazon Redshift-integratie voor Apache Spark ondersteunt ook het gebruik AWS Identiteits- en toegangsbeheer (IAM) aan haal inloggegevens op en maak verbinding met Amazon Redshift.
De Spark-query wordt vertaald naar een voor Amazon Redshift geoptimaliseerde query en ingediend bij de EDW. Dit wordt bereikt door de Amazon Redshift-integratie voor Apache Spark.
De EDW-gegevensset wordt in een tijdelijk voorvoegsel in een Amazon eenvoudige opslagservice (Amazon S3) emmer.
De EDW-dataset uit de S3-bucket wordt in Spark-uitvoerders geladen via de Amazon Redshift-integratie voor Apache Spark.
De EDL-dataset wordt via de AWS Glue Data Catalog in Spark-uitvoerders geladen.

Deze componenten werken samen om ervoor te zorgen dat data-ingenieurs en productiedatapijplijnen over de nodige tools beschikken om de Amazon Redshift-integratie voor Apache Spark te implementeren, queries uit te voeren en het overbrengen van gegevens van Amazon Redshift naar de EDL te vergemakkelijken.

Gebruik van de Amazon Redshift-integratie voor Apache Spark in AWS Glue 4.0

In deze sectie demonstreren we het nut van de Amazon Redshift-integratie voor Apache Spark door een tabel met leningaanvragen in het S3-datameer te verrijken met klantinformatie uit het Redshift-datawarehouse in PySpark.

De dimclient tabel in Amazon Redshift bevat de volgende kolommen:

Clientsleutel –INT8
KlantAltKey – VARCHAR50
Partijidentificatienummer – VARCHAR20
KlantCreateDate - DATUM
Gaat niet door –INT2
RijIsCurrent –INT2

De loanapplication tabel in de AWS Glue Data Catalog bevat de volgende kolommen:

RecordID – BIGINT
LogDatum – TIJDSTEMPEL
Partijidentificatienummer - SNAAR

De Redshift-tabel wordt gelezen via de Amazon Redshift-integratie voor Apache Spark en in de cache opgeslagen. Zie de volgende code:

import pyspark.sql.functions as F
from pyspark.sql import SQLContext
sc = # existing SparkContext
sql_context = SQLContext(sc) secretsmanager_client = boto3.client('secretsmanager')
secret_manager_response = secretsmanager_client.get_secret_value( SecretId='string', VersionId='string', VersionStage='string'
)
username = # get username from secret_manager_response
password = # get password from secret_manager_response
url = "jdbc:redshift://redshifthost:5439/database?user=" + username + "&password=" + password read_config = { "url": url, "tempdir": "s3://<capitec-redshift-temp-bucket>/<uuid>/", "unload_s3_format": "PARQUET"
} d_client = ( spark.read.format("io.github.spark_redshift_community.spark.redshift") .options(**read_config) .option("query", f"select * from edw_core.dimclient") .load() .where((F.col("RowIsCurrent") == 1) & (F.col("isCancelled") == 0)) .select( F.col("PartyIdentifierNumber"), F.col("ClientCreateDate") ) .cache()
)

De registraties van leningaanvragen worden uit het S3-datameer ingelezen en verrijkt met de dimclient tabel met Amazon Redshift-informatie:

import pyspark.sql.functions as F
from awsglue.context import GlueContext
from pyspark import SparkContext glue_ctx = GlueContext(SparkContext.getOrCreate()) push_down_predicate = ( f"meta_extract_start_utc_ms between " f"'2023-07-12" f" 18:00:00.000000' and " f"'2023-07-13 06:00:00.000000'"
) database_name="loan_application_system"
table_name="dbo_view_loan_applications"
catalog_id = # Glue Data Catalog # Selecting only the following columns
initial_select_cols=[ "RecordID", "LogDate", "PartyIdentifierNumber" ] d_controller = (glue_ctx.create_dynamic_frame.from_catalog(catalog_id=catalog_id, database=database_name, table_name=table_name, push_down_predicate=push_down_predicate) .toDF() .select(*initial_select_cols) .withColumn("LogDate", F.date_format("LogDate", "yyyy-MM-dd").cast("string")) .dropDuplicates()) # Left Join on PartyIdentifierNumber and enriching the loan application record
d_controller_enriched = d_controller.join(d_client, on=["PartyIdentifierNumber"], how="left").cache()

Als gevolg hiervan wordt het dossier van de leningaanvraag (uit het S3-datameer) verrijkt met de ClientCreateDate kolom (van Amazon Redshift).

Hoe de Amazon Redshift-integratie voor Apache Spark het datasourcingprobleem oplost

De Amazon Redshift-integratie voor Apache Spark pakt het datasourcingprobleem effectief aan via de volgende mechanismen:

Just-in-time lezen – De Amazon Redshift-integratie voor Apache Spark-connector leest Redshift-tabellen op een just-in-time manier, waardoor de consistentie van gegevens en schema wordt gegarandeerd. Dit is bijzonder waardevol voor Type 2 langzaam veranderende dimensie (SCD) en tijdspanne die momentopname-feiten verzamelt. Door deze Redshift-tabellen te combineren met de bronsysteem AWS Glue Data Catalog-tabellen van de EDL binnen productie-PySpark-pijplijnen, maakt de connector een naadloze integratie van gegevens uit meerdere bronnen mogelijk met behoud van de gegevensintegriteit.
Geoptimaliseerde Redshift-query's – De Amazon Redshift-integratie voor Apache Spark speelt een cruciale rol bij het omzetten van het Spark-queryplan naar een geoptimaliseerde Redshift-query. Dit conversieproces vereenvoudigt de ontwikkelingservaring voor het productteam door vast te houden aan het datalokaliteitsprincipe. De geoptimaliseerde queries maken gebruik van de mogelijkheden en prestatie-optimalisaties van Amazon Redshift, waardoor het efficiënt ophalen en verwerken van gegevens vanuit Amazon Redshift voor de PySpark-pijplijnen wordt gegarandeerd. Dit helpt het ontwikkelingsproces te stroomlijnen en tegelijkertijd de algehele prestaties van de datasourcingactiviteiten te verbeteren.

Het behalen van de beste prestaties

De Amazon Redshift-integratie voor Apache Spark past automatisch predicaat- en query-pushdown toe om de prestaties te optimaliseren. U kunt prestatieverbeteringen verkrijgen door de standaard Parquet-indeling te gebruiken die wordt gebruikt voor het verwijderen van deze integratie.

Voor aanvullende details en codevoorbeelden raadpleegt u Nieuw – Amazon Redshift-integratie met Apache Spark.

Voordelen van de oplossing:

De adoptie van de integratie leverde een aantal belangrijke voordelen op voor het team:

Verbeterde productiviteit van ontwikkelaars – De PySpark-interface van de integratie verhoogde de productiviteit van ontwikkelaars met een factor 10, waardoor een soepelere interactie met Amazon Redshift mogelijk werd.
Eliminatie van gegevensduplicatie – Dubbele en door AWS Glue gecatalogiseerde Redshift-tabellen in het datameer zijn geëlimineerd, wat resulteert in een meer gestroomlijnde dataomgeving.
Verminderde EDW-belasting – De integratie vergemakkelijkte het selectief ontladen van gegevens, waardoor de belasting van de EDW werd geminimaliseerd door alleen de noodzakelijke gegevens te extraheren.

Door de Amazon Redshift-integratie voor Apache Spark te gebruiken, heeft Capitec de weg vrijgemaakt voor verbeterde gegevensverwerking, verhoogde productiviteit en een efficiënter ecosysteem voor feature-engineering.

Conclusie

In dit bericht hebben we besproken hoe het Capitec-team met succes de Apache Spark Amazon Redshift-integratie voor Apache Spark heeft geïmplementeerd om hun workflows voor functieberekening te vereenvoudigen. Ze benadrukten het belang van het gebruik van gedecentraliseerde en modulaire PySpark-datapijplijnen voor het creëren van voorspellende modelfuncties.

Momenteel wordt de Amazon Redshift-integratie voor Apache Spark gebruikt door zeven productiedatapijplijnen en twintig ontwikkelingspijplijnen, wat de effectiviteit ervan binnen de omgeving van Capitec aantoont.

In de toekomst is het Feature Platform-team voor gedeelde services bij Capitec van plan om de adoptie van de Amazon Redshift-integratie voor Apache Spark in verschillende bedrijfsgebieden uit te breiden, met als doel de gegevensverwerkingsmogelijkheden verder te verbeteren en efficiënte feature-engineeringpraktijken te bevorderen.

Raadpleeg de volgende bronnen voor aanvullende informatie over het gebruik van de Amazon Redshift-integratie voor Apache Spark:

Over de auteurs

Preshen Goobiah is de Lead Machine Learning Engineer voor het Feature Platform bij Capitec. Hij richt zich op het ontwerpen en bouwen van Feature Store-componenten voor zakelijk gebruik. In zijn vrije tijd houdt hij van lezen en reizen.

Johan Olivier is een Senior Machine Learning Engineer voor het Model Platform van Capitec. Hij is een ondernemer en een liefhebber van probleemoplossing. In zijn vrije tijd houdt hij van muziek en gezelligheid.

Sudipta Bagchi is een Senior Specialist Solutions Architect bij Amazon Web Services. Hij heeft meer dan 12 jaar ervaring in data en analytics en helpt klanten bij het ontwerpen en bouwen van schaalbare en krachtige analytics-oplossingen. Buiten zijn werk houdt hij van hardlopen, reizen en cricket spelen. Maak verbinding met hem LinkedIn.

Syed Humair is een Senior Analytics Specialist Solutions Architect bij Amazon Web Services (AWS). Hij heeft meer dan 17 jaar ervaring in enterprise-architectuur met de nadruk op data en AI/ML, waarmee hij AWS-klanten wereldwijd helpt om aan hun zakelijke en technische vereisten te voldoen. U kunt verbinding met hem maken via LinkedIn.

Vuyisa Maswana is een Senior Solutions Architect bij AWS, gevestigd in Kaapstad. Vuyisa heeft een sterke focus op het helpen van klanten bij het bouwen van technische oplossingen om zakelijke problemen op te lossen. Sinds 2019 ondersteunt hij Capitec in hun AWS-reis.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://aws.amazon.com/blogs/big-data/simplifying-data-processing-at-capitec-with-amazon-redshift-integration-for-apache-spark/

Tijdstempel: 10 november 2023

Tijdstempel: Augustus 23, 2023

Vereenvoudiging van de gegevensverwerking bij Capitec met Amazon Redshift-integratie voor Apache Spark | Amazon-webservices

Heruitgegeven door Plato

De zakelijke mogelijkheid

Het datasourcingprobleem

Vorig oplossingsproces

Huidig oplossingsoverzicht

Gebruik van de Amazon Redshift-integratie voor Apache Spark in AWS Glue 4.0

Hoe de Amazon Redshift-integratie voor Apache Spark het datasourcingprobleem oplost

Het behalen van de beste prestaties

Voordelen van de oplossing:

Conclusie

Over de auteurs

Meer van AWS-bigdata

Schaal uw AWS Glue voor Apache Spark-taken met nieuwe, grotere werktypen G.4X en G.8X | Amazon-webservices

Stream gegevens met Amazon MSK Connect met behulp van een open-source JDBC-connector | Amazon-webservices

De CO1-voetafdruk van scope XNUMX schatten met Amazon Athena | Amazon-webservices

Gebruik AWS Glue DataBrew-recepten in uw AWS Glue Studio visuele ETL-taken | Amazon-webservices

Orchestreer Amazon EMR Serverless Spark-taken met Amazon MWAA en gegevensvalidatie met Amazon Athena | Amazon-webservices

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account

De zakelijke mogelijkheid

Het datasourcingprobleem

Vorig oplossingsproces

Huidig ​​oplossingsoverzicht

Gebruik van de Amazon Redshift-integratie voor Apache Spark in AWS Glue 4.0

Hoe de Amazon Redshift-integratie voor Apache Spark het datasourcingprobleem oplost

Het behalen van de beste prestaties

Voordelen van de oplossing:

Conclusie

Over de auteurs

Meer van AWS-bigdata

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account

Huidig oplossingsoverzicht