Simplifying Data Processing At Capitec With Amazon Redshift Integration For Apache Spark | Amazon Web Services

Taasavaldanud Platon

järgijaid: 0

See postitus on kirjutatud koos Preshen Goobiahi ja Johan Olivieriga Capitecist.

Apache Spark on laialdaselt kasutatav avatud lähtekoodiga hajutatud töötlemissüsteem, mis on tuntud suuremahuliste andmekoormuste käsitlemise poolest. See leiab sageli rakendust Sparki arendajate seas, kellega koos töötavad Amazon EMR, Amazon SageMaker, AWS liim ja kohandatud Sparki rakendused.

Amazoni punane nihe pakub sujuvat integreerimist Apache Sparkiga, võimaldades teil hõlpsasti juurde pääseda oma Redshifti andmetele nii Amazon Redshiftiga varustatud klastrites kui ka Amazon Redshift serverita. See integratsioon laiendab AWS-i analüütika ja masinõppe (ML) lahenduste võimalusi, muutes andmelao kättesaadavaks suuremale hulgale rakendustele.

Koos Amazon Redshift integratsioon Apache Sparkile, saate kiiresti alustada ja vaevata Sparki rakendusi arendada, kasutades populaarseid keeli, nagu Java, Scala, Python, SQL ja R. Teie rakendused saavad sujuvalt lugeda teie Amazon Redshifti andmelaost ja sinna kirjutada, säilitades samal ajal optimaalse jõudluse ja tehingute järjepidevuse. Lisaks saate kasu tõukepõhise optimeerimise kaudu jõudluse paranemisest, mis suurendab veelgi teie toimingute tõhusust.

Capitec, Lõuna-Aafrika suurim jaepank, millel on üle 21 miljoni jaepanganduse kliendi, püüab pakkuda lihtsaid, taskukohaseid ja juurdepääsetavaid finantsteenuseid, et aidata lõuna-aafriklastel paremini elada, et nad saaksid paremini elada. Selles postituses käsitleme avatud lähtekoodiga Amazon Redshift konnektori edukat integreerimist Capiteci jagatud teenuste funktsiooniplatvormi meeskonna poolt. Apache Sparki Amazon Redshifti integratsiooni kasutamise tulemusena suurenes arendaja tootlikkus 10 korda, funktsioonide genereerimise torujuhtmeid muudeti sujuvamaks ja andmete dubleerimine vähenes nullini.

Ärivõimalus

Capiteci jaemüügikrediidi divisjonides on saadaval 19 ennustavat mudelit, mis võimaldavad kasutada 93 AWS Glue'iga loodud funktsiooni. Funktsioonide kirjed on rikastatud Amazon Redshiftis salvestatud faktide ja mõõtmetega. Funktsioonide loomiseks valiti Apache PySpark, kuna see pakub kiiret, detsentraliseeritud ja skaleeritavat mehhanismi erinevatest allikatest pärit andmete vaidlustamiseks.

Need tootmisfunktsioonid mängivad otsustavat rolli reaalajas tähtajaliste laenutaotluste, krediitkaarditaotluste, igakuise krediidikäitumise jälgimise ja igapäevase palga identifitseerimise võimaldamisel ettevõttes.

Andmeallika probleem

PySparki andmekonveierite usaldusväärsuse tagamiseks on oluline, et ettevõtte andmelaos (EDW) oleks järjepidevad kirjetaseme andmed nii dimensiooni- kui ka faktitabelitest. Seejärel ühendatakse need tabelid käitusajal Enterprise Data Lake'i (EDL) tabelitega.

Funktsioonide arendamise ajal nõuavad andmeinsenerid EDW-ga sujuvat liidest. See liides võimaldab neil EDW-st vajalikele andmetele juurde pääseda ja neid andmetorudesse integreerida, võimaldades funktsioonide tõhusat arendamist ja testimist.

Eelmine lahendusprotsess

Eelmises lahenduses kulutasid tootemeeskonna andmeinsenerid 30 minutit ühe jooksu kohta, et Redshifti andmed Sparkile käsitsi avaldada. Sammud hõlmasid järgmist.

Ehitage Pythonis predikteeritud päring.
Saada LAADI VÄLJA päring läbi Amazon Redshift Data API.
Kataloogiandmed AWS-i liimiandmete kataloogis Pandadele mõeldud AWS SDK kaudu, kasutades proovivõttu.

Selline lähenemine tekitas probleeme suurte andmekogumite puhul, nõudis platvormimeeskonnalt korduvat hooldust ja seda oli keeruline automatiseerida.

Praeguse lahenduse ülevaade

Capitec suutis need probleemid lahendada Apache Sparki Amazon Redshift integratsiooniga funktsioonide genereerimise torujuhtmetes. Arhitektuur on määratletud järgmisel diagrammil.

Töövoog sisaldab järgmisi samme:

Sisemised teegid installitakse AWS Glue PySparki töösse selle kaudu AWS CodeArtifact.
AWS-i liimitöö hangib Redshifti klastri mandaadid AWS-i saladuste haldur ja seadistab Amazon Redshift ühenduse (sisestab klastri mandaadid, mahalaadimiskohad, failivormingud) jagatud sisemise teegi kaudu. Apache Sparki Amazon Redshift integratsioon toetab ka kasutamist AWS-i identiteedi- ja juurdepääsuhaldus (IAM) kuni hankige mandaadid ja looge ühendus Amazon Redshiftiga.
Sparki päring tõlgitakse Amazon Redshifti optimeeritud päringuks ja esitatakse EDW-le. See saavutatakse Apache Sparki Amazon Redshift integratsiooniga.
EDW-andmestik laaditakse välja ajutiseks prefiksiks Amazoni lihtne salvestusteenus (Amazon S3) kopp.
S3 ämbrist pärit EDW andmestik laaditakse Sparki täituritesse Apache Sparki Amazon Redshift integratsiooni kaudu.
EDL-i andmestik laaditakse Sparki täituritesse AWS-i liimiandmete kataloogi kaudu.

Need komponendid töötavad koos tagamaks, et andmeinseneridel ja tootmisandmete torujuhtmetel on vajalikud tööriistad Amazon Redshifti integratsiooni rakendamiseks Apache Sparki jaoks, päringute käitamiseks ja andmete Amazon Redshiftist EDL-i mahalaadimise hõlbustamiseks.

Amazon Redshifti integratsiooni kasutamine Apache Sparki jaoks AWS Glue 4.0-s

Selles jaotises demonstreerime Amazon Redshifti integreerimise kasulikkust Apache Sparki jaoks, rikastades S3 andmejärves asuvat laenutaotluste tabelit PySparki Redshifti andmelaost pärineva klienditeabega.

. dimclient Amazon Redshifti tabel sisaldab järgmisi veerge:

Kliendivõti – INT8
ClientAltKey – VARCHAR50
PartyIdentifierNumber – VARCHAR20
ClientCreateDate – KUUPÄEV
On tühistatud – INT2
RowIs Current – INT2

. loanapplication AWS-i liimiandmete kataloogi tabel sisaldab järgmisi veerge:

RecordID – SUUR
Logikuupäev – TIMESTAMP
PartyIdentifierNumber – STRING

Redshifti tabelit loetakse Amazon Redshift integratsiooni kaudu Apache Sparkile ja salvestatakse vahemällu. Vaadake järgmist koodi:

import pyspark.sql.functions as F
from pyspark.sql import SQLContext
sc = # existing SparkContext
sql_context = SQLContext(sc) secretsmanager_client = boto3.client('secretsmanager')
secret_manager_response = secretsmanager_client.get_secret_value( SecretId='string', VersionId='string', VersionStage='string'
)
username = # get username from secret_manager_response
password = # get password from secret_manager_response
url = "jdbc:redshift://redshifthost:5439/database?user=" + username + "&password=" + password read_config = { "url": url, "tempdir": "s3://<capitec-redshift-temp-bucket>/<uuid>/", "unload_s3_format": "PARQUET"
} d_client = ( spark.read.format("io.github.spark_redshift_community.spark.redshift") .options(**read_config) .option("query", f"select * from edw_core.dimclient") .load() .where((F.col("RowIsCurrent") == 1) & (F.col("isCancelled") == 0)) .select( F.col("PartyIdentifierNumber"), F.col("ClientCreateDate") ) .cache()
)

Laenutaotluse kirjed loetakse sisse S3 andmejärvest ja neid rikastatakse dimclient tabel Amazon Redshifti teabe kohta:

import pyspark.sql.functions as F
from awsglue.context import GlueContext
from pyspark import SparkContext glue_ctx = GlueContext(SparkContext.getOrCreate()) push_down_predicate = ( f"meta_extract_start_utc_ms between " f"'2023-07-12" f" 18:00:00.000000' and " f"'2023-07-13 06:00:00.000000'"
) database_name="loan_application_system"
table_name="dbo_view_loan_applications"
catalog_id = # Glue Data Catalog # Selecting only the following columns
initial_select_cols=[ "RecordID", "LogDate", "PartyIdentifierNumber" ] d_controller = (glue_ctx.create_dynamic_frame.from_catalog(catalog_id=catalog_id, database=database_name, table_name=table_name, push_down_predicate=push_down_predicate) .toDF() .select(*initial_select_cols) .withColumn("LogDate", F.date_format("LogDate", "yyyy-MM-dd").cast("string")) .dropDuplicates()) # Left Join on PartyIdentifierNumber and enriching the loan application record
d_controller_enriched = d_controller.join(d_client, on=["PartyIdentifierNumber"], how="left").cache()

Selle tulemusena on laenutaotluse kirje (S3 andmejärvest) rikastatud ClientCreateDate veerg (alates Amazon Redshift).

Kuidas Apache Sparki Amazon Redshift integratsioon lahendab andmeallika probleemi

Apache Sparki Amazon Redshift integratsioon lahendab tõhusalt andmete hankimise probleemi järgmiste mehhanismide kaudu:

Just-in-time lugemine – Amazon Redshifti integratsioon Apache Sparki pistiku jaoks loeb Redshifti tabeleid õigel ajal, tagades andmete ja skeemi järjepidevuse. See on eriti väärtuslik 2. tüüpi aeglaselt muutuv mõõde (SCD) ja ajavahemikku koguvad hetktõmmise faktid. Kombineerides need Redshifti tabelid EDL-i lähtesüsteemi AWS Glue Data Catalog tabelitega PySparki tootmiskonveierites, võimaldab konnektor mitmest allikast pärit andmete sujuvat integreerimist, säilitades samal ajal andmete terviklikkuse.
Optimeeritud punanihke päringud – Apache Sparki Amazon Redshifti integratsioon mängib Sparki päringuplaani optimeeritud Redshifti päringuks teisendamisel üliolulist rolli. See teisendusprotsess lihtsustab tootemeeskonna arenduskogemust, järgides andmete lokaalsuse põhimõtet. Optimeeritud päringud kasutavad Amazon Redshifti võimalusi ja jõudluse optimeerimist, tagades tõhusa andmete hankimise ja töötlemise Amazon Redshiftist PySparki torujuhtmete jaoks. See aitab arendusprotsessi sujuvamaks muuta, parandades samal ajal andmete hankimise toimingute üldist jõudlust.

Parima soorituse saavutamine

Amazon Redshift integratsioon Apache Sparki jaoks rakendab jõudluse optimeerimiseks automaatselt predikaatide ja päringu allalaadimist. Saate jõudlust parandada, kui kasutate selle integratsiooniga mahalaadimiseks kasutatavat parketi vaikevormingut.

Täiendavate üksikasjade ja koodinäidiste saamiseks vaadake Uus – Amazon Redshift integratsioon Apache Sparkiga.

Lahenduse eelised

Integratsiooni kasutuselevõtt andis meeskonnale mitmeid olulisi eeliseid:

Suurenenud arendaja tootlikkus – Integratsiooni pakutav PySparki liides suurendas arendaja tootlikkust 10 korda, võimaldades sujuvamat suhtlemist Amazon Redshiftiga.
Andmete dubleerimise kõrvaldamine – Andmejärves olevad dubleeritud ja AWS Glue'iga kataloogitud Redshift tabelid kõrvaldati, mille tulemuseks oli sujuvam andmekeskkond.
Vähendatud EDW koormus – Integreerimine hõlbustas andmete valikulist mahalaadimist, minimeerides EDW koormust, eraldades ainult vajalikud andmed.

Kasutades Apache Sparki Amazon Redshifti integratsiooni, on Capitec sillutanud teed täiustatud andmetöötlusele, suuremale tootlikkusele ja tõhusamale funktsioonitehnilisele ökosüsteemile.

Järeldus

Selles postituses arutasime, kuidas Capiteci meeskond edukalt rakendas Apache Sparki jaoks Apache Spark Amazon Redshift integratsiooni, et lihtsustada nende funktsioonide arvutamise töövooge. Nad rõhutasid detsentraliseeritud ja modulaarsete PySparki andmekanalite kasutamise tähtsust ennustavate mudelifunktsioonide loomiseks.

Praegu kasutavad Apache Sparki Amazon Redshift integratsiooni 7 tootmisandmekonveieri ja 20 arendustoru, mis näitab selle tõhusust Capiteci keskkonnas.

Edaspidi plaanib Capiteci jagatud teenuste funktsioonide platvormi meeskond laiendada Amazon Redshifti integratsiooni kasutuselevõttu Apache Sparki jaoks erinevates ärivaldkondades, eesmärgiga täiustada veelgi andmetöötlusvõimalusi ja edendada tõhusaid funktsioonide väljatöötamise tavasid.

Lisateavet Apache Sparki Amazon Redshift integratsiooni kasutamise kohta leiate järgmistest ressurssidest.

Autoritest

Preshen Goobiah on Capiteci funktsiooniplatvormi juhtiv masinõppeinsener. Ta on keskendunud Feature Store'i komponentide kavandamisele ja ehitamisele ettevõttes kasutamiseks. Vabal ajal meeldib talle lugeda ja reisida.

Johan Olivier on Capiteci mudeliplatvormi masinõppe vaneminsener. Ta on ettevõtja ja probleemide lahendamise entusiast. Ta naudib muusikat ja vabal ajal suhtlemist.

Sudipta Bagchi on Amazon Web Services'i lahenduste vanemspetsialist. Tal on üle 12-aastane kogemus andmete ja analüütika vallas ning ta aitab klientidel kavandada ja luua skaleeritavaid ja suure jõudlusega analüüsilahendusi. Väljaspool tööd armastab ta joosta, reisida ja kriketit mängida. Ühendage temaga LinkedIn.

Syed Humair on Amazon Web Servicesi (AWS) vanemanalüüsispetsialisti lahenduste arhitekt. Tal on üle 17-aastane kogemus ettevõttearhitektuuris, mis keskendub andmetele ja AI/ML-ile, aidates AWS-i klientidel kogu maailmas täita oma äri- ja tehnilisi nõudeid. Saate temaga ühendust võtta LinkedIn.

Vuyisa Maswana on Kaplinnas asuva AWSi vanemlahenduste arhitekt. Vuyisa keskendub tugevalt sellele, et aidata klientidel luua tehnilisi lahendusi äriprobleemide lahendamiseks. Ta on toetanud Capitecit nende AWS-i teekonnal alates 2019. aastast.

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
Allikas: https://aws.amazon.com/blogs/big-data/simplifying-data-processing-at-capitec-with-amazon-redshift-integration-for-apache-spark/

Ajatempel: November 10, 2023

Ajatempel: August 23, 2023

Andmetöötluse lihtsustamine Capitecis Amazon Redshift integratsiooniga Apache Spark | Amazoni veebiteenused

Taasavaldanud Platon

Ärivõimalus

Andmeallika probleem

Eelmine lahendusprotsess

Praeguse lahenduse ülevaade

Amazon Redshifti integratsiooni kasutamine Apache Sparki jaoks AWS Glue 4.0-s

Kuidas Apache Sparki Amazon Redshift integratsioon lahendab andmeallika probleemi

Parima soorituse saavutamine

Lahenduse eelised

Järeldus

Autoritest

Veel alates AWSi suured andmed

Suurendage oma AWS-liimi Apache Sparki töökohtade jaoks uute suuremate töötajate tüüpidega G.4X ja G.8X | Amazoni veebiteenused

Voogesitage andmeid Amazon MSK Connectiga, kasutades avatud lähtekoodiga JDBC-pistikut | Amazoni veebiteenused

1. ulatuse süsiniku jalajälje hindamine Amazon Athenaga | Amazoni veebiteenused

Kasutage AWS Glue DataBrew retsepte oma AWS Glue Studio visuaalsetes ETL-i töödes | Amazoni veebiteenused

Amazon EMR Serverless Sparki tööde korraldamine Amazon MWAA abil ja andmete valideerimine Amazon Athena abil | Amazoni veebiteenused

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto