Poenostavitev obdelave podatkov pri Capitecu z integracijo Amazon Redshift za Apache Spark | Spletne storitve Amazon

Ponovno objavil Platon

Spremljevalci: 0

Ta objava je napisana skupaj s Preshenom Goobiahom in Johanom Olivierjem iz podjetja Capitec.

Apache Spark je široko uporabljen odprtokodni sistem za porazdeljeno obdelavo, znan po obvladovanju obsežnih delovnih obremenitev podatkov. Pogosto se uporablja med razvijalci Spark, ki delajo s Amazonski EMR, Amazon SageMaker, AWS lepilo in aplikacije Spark po meri.

Amazon RedShift ponuja brezhibno integracijo z Apache Spark, kar vam omogoča preprost dostop do vaših podatkov Redshift v obeh gručah, ki jih zagotavlja Amazon Redshift, in Amazon Redshift brez strežnika. Ta integracija razširja možnosti za rešitve za analitiko in strojno učenje (ML) AWS, zaradi česar je podatkovno skladišče dostopno širšemu naboru aplikacij.

Z Integracija Amazon Redshift za Apache Spark, lahko hitro začnete in brez truda razvijate aplikacije Spark z uporabo priljubljenih jezikov, kot so Java, Scala, Python, SQL in R. Vaše aplikacije lahko nemoteno berejo iz vašega podatkovnega skladišča Amazon Redshift in pišejo vanj, hkrati pa ohranjajo optimalno zmogljivost in doslednost transakcij. Poleg tega boste imeli koristi od izboljšav zmogljivosti prek potisnih optimizacij, kar še dodatno poveča učinkovitost vaših operacij.

Capitec, največja banka za prebivalstvo v Južni Afriki z več kot 21 milijoni strank bančnega poslovanja s prebivalstvom, želi zagotoviti preproste, cenovno ugodne in dostopne finančne storitve, da bi Južnoafričanom pomagala pri boljšem bančnem poslovanju, da bi lahko bolje živeli. V tem prispevku razpravljamo o uspešni integraciji odprtokodnega konektorja Amazon Redshift s strani Capitecove skupine Feature Services Platform. Kot rezultat uporabe integracije Amazon Redshift za Apache Spark se je produktivnost razvijalcev povečala za faktor 10, cevovodi za generiranje funkcij so bili poenostavljeni, podvajanje podatkov pa zmanjšano na nič.

Poslovna priložnost

Na voljo je 19 napovednih modelov za uporabo 93 funkcij, ustvarjenih z AWS Glue v oddelkih Capitec Retail Credit. Zapisi funkcij so obogateni z dejstvi in dimenzijami, shranjenimi v Amazon Redshift. Apache PySpark je bil izbran za ustvarjanje funkcij, ker ponuja hiter, decentraliziran in razširljiv mehanizem za prepiranje podatkov iz različnih virov.

Te produkcijske funkcije igrajo ključno vlogo pri omogočanju vlog za posojilo za določen čas v realnem času, vlog za kreditne kartice, paketnega mesečnega spremljanja kreditnega vedenja in paketnega identifikacije dnevnih plač znotraj podjetja.

Težava pri pridobivanju podatkov

Da bi zagotovili zanesljivost podatkovnih cevovodov PySpark, je nujno imeti dosledne podatke na ravni zapisov iz dimenzionalnih in faktografskih tabel, shranjenih v Enterprise Data Warehouse (EDW). Te tabele se nato med izvajanjem združijo s tabelami iz Enterprise Data Lake (EDL).

Med razvojem funkcij podatkovni inženirji potrebujejo brezhiben vmesnik za EDW. Ta vmesnik jim omogoča dostop in integracijo potrebnih podatkov iz EDW v podatkovne kanale, kar omogoča učinkovit razvoj in testiranje funkcij.

Prejšnji postopek rešitve

V prejšnji rešitvi so podatkovni inženirji skupine izdelkov porabili 30 minut na zagon, da so podatke Redshift ročno izpostavili Sparku. Koraki so vključevali naslednje:

Konstruirajte predikirano poizvedbo v Pythonu.
Pošljite RAZTORAM poizvedba prek Amazon Redshift Data API.
Kataloški podatki v katalogu podatkov AWS Glue prek AWS SDK za Pandas z uporabo vzorčenja.

Ta pristop je povzročil težave pri velikih naborih podatkov, zahteval je ponavljajoče se vzdrževanje skupine platforme in je bil zapleten za avtomatizacijo.

Pregled trenutne rešitve

Capitec je te težave lahko rešil z integracijo Amazon Redshift za Apache Spark v okviru cevovodov za generiranje funkcij. Arhitektura je definirana v naslednjem diagramu.

Potek dela vključuje naslednje korake:

Notranje knjižnice so nameščene v opravilo AWS Glue PySpark prek Artefakt kode AWS.
Opravilo AWS Glue pridobi poverilnice gruče Redshift iz Upravitelj skrivnosti AWS in nastavi povezavo Amazon Redshift (vstavi poverilnice gruče, lokacije za razkladanje, formate datotek) prek skupne notranje knjižnice. Integracija Amazon Redshift za Apache Spark prav tako podpira uporabo AWS upravljanje identitete in dostopa (IAM) do pridobite poverilnice in se povežite z Amazon Redshift.
Poizvedba Spark je prevedena v poizvedbo, optimizirano za Amazon Redshift, in predložena v EDW. To je doseženo z integracijo Amazon Redshift za Apache Spark.
Nabor podatkov EDW se razloži v začasno predpono v an Preprosta storitev shranjevanja Amazon (Amazon S3) vedro.
Nabor podatkov EDW iz vedra S3 se naloži v izvajalce Spark prek integracije Amazon Redshift za Apache Spark.
Nabor podatkov EDL se naloži v izvajalce Spark prek kataloga podatkov AWS Glue Data Catalog.

Te komponente delujejo skupaj, da zagotovijo, da imajo podatkovni inženirji in cevovodi proizvodnih podatkov potrebna orodja za implementacijo integracije Amazon Redshift za Apache Spark, izvajanje poizvedb in olajšanje prenosa podatkov iz Amazon Redshift v EDL.

Uporaba integracije Amazon Redshift za Apache Spark v AWS Glue 4.0

V tem razdelku prikazujemo uporabnost integracije Amazon Redshift za Apache Spark z obogatitvijo tabele vloge za posojilo, ki se nahaja v podatkovnem jezeru S3, s podatki o strankah iz podatkovnega skladišča Redshift v PySpark.

O dimclient tabela v Amazon Redshift vsebuje naslednje stolpce:

ClientKey – INT8
ClientAltKey – VARCHAR50
PartyIdentifierNumber – VARCHAR20
ClientCreateDate – DATUM
Je preklicano – INT2
RowIsCurrent – INT2

O loanapplication tabela v katalogu podatkov o lepilu AWS vsebuje naslednje stolpce:

ID zapisa – BIGINT
LogDate – ČASOVNI ŽIG
PartyIdentifierNumber - VRVICA

Tabela Redshift se prebere prek integracije Amazon Redshift za Apache Spark in se shrani v predpomnilnik. Oglejte si naslednjo kodo:

import pyspark.sql.functions as F
from pyspark.sql import SQLContext
sc = # existing SparkContext
sql_context = SQLContext(sc) secretsmanager_client = boto3.client('secretsmanager')
secret_manager_response = secretsmanager_client.get_secret_value( SecretId='string', VersionId='string', VersionStage='string'
)
username = # get username from secret_manager_response
password = # get password from secret_manager_response
url = "jdbc:redshift://redshifthost:5439/database?user=" + username + "&password=" + password read_config = { "url": url, "tempdir": "s3://<capitec-redshift-temp-bucket>/<uuid>/", "unload_s3_format": "PARQUET"
} d_client = ( spark.read.format("io.github.spark_redshift_community.spark.redshift") .options(**read_config) .option("query", f"select * from edw_core.dimclient") .load() .where((F.col("RowIsCurrent") == 1) & (F.col("isCancelled") == 0)) .select( F.col("PartyIdentifierNumber"), F.col("ClientCreateDate") ) .cache()
)

Zapisi vloge za posojilo se preberejo iz podatkovnega jezera S3 in obogatijo z dimclient tabela o informacijah Amazon Redshift:

import pyspark.sql.functions as F
from awsglue.context import GlueContext
from pyspark import SparkContext glue_ctx = GlueContext(SparkContext.getOrCreate()) push_down_predicate = ( f"meta_extract_start_utc_ms between " f"'2023-07-12" f" 18:00:00.000000' and " f"'2023-07-13 06:00:00.000000'"
) database_name="loan_application_system"
table_name="dbo_view_loan_applications"
catalog_id = # Glue Data Catalog # Selecting only the following columns
initial_select_cols=[ "RecordID", "LogDate", "PartyIdentifierNumber" ] d_controller = (glue_ctx.create_dynamic_frame.from_catalog(catalog_id=catalog_id, database=database_name, table_name=table_name, push_down_predicate=push_down_predicate) .toDF() .select(*initial_select_cols) .withColumn("LogDate", F.date_format("LogDate", "yyyy-MM-dd").cast("string")) .dropDuplicates()) # Left Join on PartyIdentifierNumber and enriching the loan application record
d_controller_enriched = d_controller.join(d_client, on=["PartyIdentifierNumber"], how="left").cache()

Posledično je zapis vloge za posojilo (iz podatkovnega jezera S3) obogaten z ClientCreateDate stolpec (iz Amazon Redshift).

Kako integracija Amazon Redshift za Apache Spark rešuje problem pridobivanja podatkov

Integracija Amazon Redshift za Apache Spark učinkovito rešuje problem pridobivanja podatkov prek naslednjih mehanizmov:

Pravočasno branje – Integracija Amazon Redshift za priključek Apache Spark bere tabele Redshift pravočasno, kar zagotavlja skladnost podatkov in sheme. To je še posebej dragoceno za Tip 2 počasi spreminjajoče se dimenzije (SCD) in časovno obdobje zbiranja posnetkov dejstev. S kombiniranjem teh tabel Redshift s tabelami izvornega sistema AWS Glue Data Catalog iz EDL znotraj produkcijskih cevovodov PySpark konektor omogoča brezhibno integracijo podatkov iz več virov, hkrati pa ohranja celovitost podatkov.
Optimizirane poizvedbe Redshift – Integracija Amazon Redshift za Apache Spark igra ključno vlogo pri pretvorbi načrta poizvedbe Spark v optimizirano poizvedbo Redshift. Ta postopek pretvorbe poenostavi razvojno izkušnjo za skupino izdelkov z upoštevanjem načela lokalnosti podatkov. Optimizirane poizvedbe uporabljajo zmožnosti in optimizacije delovanja Amazon Redshift, kar zagotavlja učinkovito pridobivanje in obdelavo podatkov iz Amazon Redshift za cevovode PySpark. To pomaga racionalizirati razvojni proces, hkrati pa izboljša splošno učinkovitost operacij pridobivanja podatkov.

Pridobivanje najboljše uspešnosti

Integracija Amazon Redshift za Apache Spark samodejno uporabi predikat in potisni poizvedbe za optimizacijo delovanja. Z uporabo privzetega formata Parquet, ki se uporablja za razkladanje s to integracijo, lahko izboljšate zmogljivost.

Za dodatne podrobnosti in vzorce kode glejte Novo – integracija Amazon Redshift z Apache Spark.

Prednosti rešitve

Sprejetje integracije je ekipi prineslo več pomembnih koristi:

Izboljšana produktivnost razvijalcev – Vmesnik PySpark, ki ga zagotavlja integracija, je povečal produktivnost razvijalcev za faktor 10, kar omogoča bolj gladko interakcijo z Amazon Redshift.
Odprava podvajanja podatkov – Podvojene tabele in tabele Redshift, katalogizirane z AWS Glue, v podatkovnem jezeru so bile odpravljene, kar je povzročilo bolj poenostavljeno podatkovno okolje.
Zmanjšana obremenitev EDW – Integracija je olajšala selektivno razkladanje podatkov, kar je zmanjšalo obremenitev EDW z ekstrakcijo samo potrebnih podatkov.

Z uporabo integracije Amazon Redshift za Apache Spark je Capitec utrl pot za izboljšano obdelavo podatkov, večjo produktivnost in učinkovitejši ekosistem inženiringa funkcij.

zaključek

V tem prispevku smo razpravljali o tem, kako je ekipa Capitec uspešno implementirala integracijo Apache Spark Amazon Redshift za Apache Spark, da bi poenostavila potek dela za izračun funkcij. Poudarili so pomen uporabe decentraliziranih in modularnih podatkovnih cevovodov PySpark za ustvarjanje funkcij napovednega modela.

Trenutno se integracija Amazon Redshift za Apache Spark uporablja v 7 produkcijskih podatkovnih cevovodih in 20 razvojnih cevovodih, ki prikazujejo njeno učinkovitost v okolju Capitec.

V nadaljevanju skupina za platformo funkcij za skupne storitve pri Capitecu načrtuje razširitev sprejemanja integracije Amazon Redshift za Apache Spark na različnih poslovnih področjih, s ciljem nadaljnje izboljšave zmogljivosti obdelave podatkov in spodbujanja učinkovitih praks inženiringa funkcij.

Za dodatne informacije o uporabi integracije Amazon Redshift za Apache Spark glejte naslednje vire:

O avtorjih

Preshen Goobiah je vodilni inženir strojnega učenja za platformo funkcij pri Capitecu. Osredotočen je na načrtovanje in gradnjo komponent Feature Store za poslovno uporabo. V prostem času rada bere in potuje.

Johan Olivier je višji inženir strojnega učenja za Capitecovo modelno platformo. Je podjetnik in navdušenec nad reševanjem problemov. V prostem času uživa v glasbi in druženju.

Sudipta Bagchi je višji specialist za rešitve pri Amazon Web Services. Ima več kot 12 let izkušenj na področju podatkov in analitike ter strankam pomaga oblikovati in zgraditi razširljive in visoko zmogljive analitične rešitve. Zunaj službe rad teče, potuje in igra kriket. Povežite se z njim LinkedIn.

Syed Humair je višji arhitekt za rešitve strokovnjaka za analitiko pri Amazon Web Services (AWS). Ima več kot 17 let izkušenj s podjetniško arhitekturo, ki se osredotoča na podatke in AI/ML, ter strankam AWS po vsem svetu pomaga pri izpolnjevanju njihovih poslovnih in tehničnih zahtev. Z njim se lahko povežete na LinkedIn.

Vuyisa Maswana je višji arhitekt za rešitve pri AWS s sedežem v Cape Townu. Vuyisa se močno osredotoča na pomoč strankam pri izgradnji tehničnih rešitev za reševanje poslovnih težav. Od leta 2019 podpira Capitec na njihovi poti AWS.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
vir: https://aws.amazon.com/blogs/big-data/simplifying-data-processing-at-capitec-with-amazon-redshift-integration-for-apache-spark/

Časovni žig: November 10, 2023

Časovni žig: Maj 9, 2023

Poenostavitev obdelave podatkov v podjetju Capitec z integracijo Amazon Redshift za Apache Spark | Spletne storitve Amazon

Ponovno objavil Platon

Poslovna priložnost

Težava pri pridobivanju podatkov

Prejšnji postopek rešitve

Pregled trenutne rešitve

Uporaba integracije Amazon Redshift za Apache Spark v AWS Glue 4.0

Kako integracija Amazon Redshift za Apache Spark rešuje problem pridobivanja podatkov

Pridobivanje najboljše uspešnosti

Prednosti rešitve

zaključek

O avtorjih

Več od Veliki podatki AWS

Poglobite se v AWS Glue 4.0 za Apache Spark | Spletne storitve Amazon

Poizvedujte po svojih tabelah Iceberg v podatkovnem jezeru z uporabo Amazon Redshift (predogled) | Spletne storitve Amazon

Predstavljamo trajno medpomnjenje za Amazon OpenSearch Ingestion | Spletne storitve Amazon

BWH Hotels povečuje sprejemanje poslovne inteligence v podjetjih, hkrati pa zmanjšuje stroške z Amazon QuickSight | Spletne storitve Amazon

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun