Adatfeldolgozás egyszerűsítése a Capitecnél az Amazon Redshift integrációjával az Apache Spark | Amazon Web Services

Újra kiadta Platón

Követő: 0

Ezt a bejegyzést Preshen Goobiah-val és Johan Olivier-rel közösen írták a Capitectől.

Az Apache Spark egy széles körben használt nyílt forráskódú elosztott feldolgozó rendszer, amely a nagyszabású adatterhelések kezeléséről híres. Gyakran alkalmazzák a Sparkkal dolgozó fejlesztők körében Amazon EMR, Amazon SageMaker, AWS ragasztó és egyedi Spark alkalmazások.

Amazon RedShift zökkenőmentes integrációt kínál az Apache Sparkkal, lehetővé téve a Redshift-adatok egyszerű elérését mind az Amazon Redshift által kiépített klasztereken, mind a Amazon Redshift Serverless. Ez az integráció kiterjeszti az AWS-analitikai és gépi tanulási (ML) megoldások lehetőségeit, így az adattárház az alkalmazások szélesebb köre számára elérhetővé válik.

Aktivitáskövető Amazon Redshift integráció az Apache Sparkhoz, gyorsan elkezdheti és könnyedén fejlesztheti a Spark-alkalmazásokat olyan népszerű nyelvek használatával, mint a Java, Scala, Python, SQL és R. Alkalmazásai zökkenőmentesen tudnak olvasni és írni az Amazon Redshift adattárházából, miközben megőrzik az optimális teljesítményt és tranzakciós konzisztenciát. Ezenkívül előnyt jelent a teljesítménynövekedés a pushdown optimalizálás révén, ami tovább növeli a műveletek hatékonyságát.

Capitec, Dél-Afrika legnagyobb lakossági bankja több mint 21 millió lakossági banki ügyféllel, egyszerű, megfizethető és elérhető pénzügyi szolgáltatásokat kíván nyújtani annak érdekében, hogy segítse a dél-afrikaiakat, hogy jobb életet élhessenek. Ebben a bejegyzésben a nyílt forráskódú Amazon Redshift csatlakozó sikeres integrációját tárgyaljuk a Capitec megosztott szolgáltatások Feature Platform csapata által. Az Amazon Redshift integrációjának az Apache Sparkhoz való felhasználásának eredményeként a fejlesztői termelékenység 10-szeresére nőtt, a szolgáltatásgeneráló folyamatok áramvonalasabbá váltak, és az adatkettőzés nullára csökkent.

Az üzleti lehetőség

19 prediktív modell áll rendelkezésre az AWS Glue segítségével épített 93 funkció használatára a Capitec lakossági hiteldivízióin. A szolgáltatásrekordokat az Amazon Redshiftben tárolt tények és dimenziók gazdagítják. Az Apache PySparkot azért választották ki a szolgáltatások létrehozására, mert gyors, decentralizált és méretezhető mechanizmust kínál a különböző forrásokból származó adatok vitatására.

Ezek a termelési funkciók kulcsfontosságú szerepet játszanak a valós idejű, határozott lejáratú hitelkérelmek, hitelkártya-igénylések, kötegelt havi hitelviselkedés figyelés és kötegelt napi fizetés azonosítás lehetővé tételében az üzleten belül.

Az adatbeszerzési probléma

A PySpark adatfolyamok megbízhatóságának biztosítása érdekében elengedhetetlen, hogy az Enterprise Data Warehouse-ban (EDW) tárolt dimenziós és ténytáblákból is konzisztens rekordszintű adatok legyenek. Ezek a táblák ezután futás közben egyesülnek az Enterprise Data Lake (EDL) tábláival.

A szolgáltatások fejlesztése során az adatmérnökök zökkenőmentes interfészt igényelnek az EDW-hez. Ez az interfész lehetővé teszi számukra a szükséges adatok elérését és integrálását az EDW-ből az adatfolyamokba, lehetővé téve a szolgáltatások hatékony fejlesztését és tesztelését.

Korábbi megoldási folyamat

Az előző megoldásban a termékcsapat adatmérnökei 30 percet töltöttek futásonként a Redshift adatok manuális feltárására a Spark számára. A lépések a következőket tartalmazták:

Hozzon létre egy predikált lekérdezést Pythonban.
Küldj egy KITÖLTÉS lekérdezés a Amazon Redshift Data API.
Katalógusadatok az AWS ragasztóadat-katalógusában az AWS SDK for Pandas segítségével, mintavételezéssel.

Ez a megközelítés problémákat vet fel a nagy adatkészleteknél, rendszeres karbantartást igényelt a platform csapatától, és bonyolult volt automatizálni.

A jelenlegi megoldás áttekintése

A Capitec meg tudta oldani ezeket a problémákat az Apache Spark Amazon Redshift integrációjával a szolgáltatásgeneráló folyamatokon belül. Az architektúrát a következő diagram határozza meg.

A munkafolyamat a következő lépéseket tartalmazza:

A belső könyvtárak telepítése az AWS Glue PySpark feladatba keresztül történik AWS CodeArtifact.
Egy AWS-ragasztófeladat lekéri a Redshift-fürt hitelesítő adatait innen AWS Secrets Manager és beállítja az Amazon Redshift kapcsolatot (injektálja a fürt hitelesítő adatait, a kitöltési helyeket, a fájlformátumokat) a megosztott belső könyvtáron keresztül. Az Apache Spark Amazon Redshift integrációja is támogatja a használatát AWS Identity and Access Management (IAM) a lekérni a hitelesítő adatokat, és csatlakozni az Amazon Redshifthez.
A Spark lekérdezést Amazon Redshift optimalizált lekérdezéssé fordítja le, és elküldi az EDW-nek. Ezt az Apache Spark Amazon Redshift integrációja éri el.
Az EDW adatkészlet egy ideiglenes előtagba betöltődik egy Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör.
Az S3 tárolóból származó EDW adatkészlet betöltődik a Spark végrehajtóiba az Apache Spark Amazon Redshift integrációján keresztül.
Az EDL-adatkészlet betöltődik a Spark végrehajtóiba az AWS ragasztóadat-katalógusán keresztül.

Ezek az összetevők együttműködve biztosítják, hogy az adatmérnökök és a termelési adatfolyamatok rendelkezzenek a szükséges eszközökkel az Amazon Redshift integrációjának megvalósításához az Apache Spark számára, lekérdezések futtatásához, és megkönnyítsék az adatok Amazon Redshiftből az EDL-be való kitöltését.

Az Amazon Redshift integráció használata az Apache Sparkhoz az AWS Glue 4.0-ban

Ebben a részben bemutatjuk az Amazon Redshift integráció hasznosságát az Apache Spark számára az S3 adattóban található hitelkérelem-táblázatot a PySpark Redshift adattárházából származó ügyféladatokkal gazdagítva.

A dimclient Az Amazon Redshift táblázata a következő oszlopokat tartalmazza:

ClientKey – INT8
ClientAltKey – VARCHAR50
PartyIdentifierNumber – VARCHAR20
ClientCreateDate – DÁTUM
Törölve – INT2
RowIsCurrent – INT2

A loanapplication Az AWS ragasztóadat-katalógus táblázata a következő oszlopokat tartalmazza:

RecordID – BIGINT
LogDate - IDŐBÉLYEG
PartyIdentifierNumber - HÚR

A Redshift táblázatot az Amazon Redshift integrációja olvassa be az Apache Sparkhoz, és gyorsítótárazza. Lásd a következő kódot:

import pyspark.sql.functions as F
from pyspark.sql import SQLContext
sc = # existing SparkContext
sql_context = SQLContext(sc) secretsmanager_client = boto3.client('secretsmanager')
secret_manager_response = secretsmanager_client.get_secret_value( SecretId='string', VersionId='string', VersionStage='string'
)
username = # get username from secret_manager_response
password = # get password from secret_manager_response
url = "jdbc:redshift://redshifthost:5439/database?user=" + username + "&password=" + password read_config = { "url": url, "tempdir": "s3://<capitec-redshift-temp-bucket>/<uuid>/", "unload_s3_format": "PARQUET"
} d_client = ( spark.read.format("io.github.spark_redshift_community.spark.redshift") .options(**read_config) .option("query", f"select * from edw_core.dimclient") .load() .where((F.col("RowIsCurrent") == 1) & (F.col("isCancelled") == 0)) .select( F.col("PartyIdentifierNumber"), F.col("ClientCreateDate") ) .cache()
)

A hiteligénylési rekordokat beolvassák az S3 adattóból, és gazdagítják a dimclient táblázat az Amazon Redshift információiról:

import pyspark.sql.functions as F
from awsglue.context import GlueContext
from pyspark import SparkContext glue_ctx = GlueContext(SparkContext.getOrCreate()) push_down_predicate = ( f"meta_extract_start_utc_ms between " f"'2023-07-12" f" 18:00:00.000000' and " f"'2023-07-13 06:00:00.000000'"
) database_name="loan_application_system"
table_name="dbo_view_loan_applications"
catalog_id = # Glue Data Catalog # Selecting only the following columns
initial_select_cols=[ "RecordID", "LogDate", "PartyIdentifierNumber" ] d_controller = (glue_ctx.create_dynamic_frame.from_catalog(catalog_id=catalog_id, database=database_name, table_name=table_name, push_down_predicate=push_down_predicate) .toDF() .select(*initial_select_cols) .withColumn("LogDate", F.date_format("LogDate", "yyyy-MM-dd").cast("string")) .dropDuplicates()) # Left Join on PartyIdentifierNumber and enriching the loan application record
d_controller_enriched = d_controller.join(d_client, on=["PartyIdentifierNumber"], how="left").cache()

Ennek eredményeként a hiteligénylési nyilvántartás (az S3 adattóból) gazdagodik a ClientCreateDate oszlop (az Amazon Redshifttől).

Hogyan oldja meg az Apache Spark Amazon Redshift integrációja az adatbeszerzési problémát

Az Apache Spark Amazon Redshift integrációja hatékonyan kezeli az adatbeszerzési problémát a következő mechanizmusokon keresztül:

Just-in-time olvasás – Az Amazon Redshift integrációja az Apache Spark csatlakozóhoz a Redshift táblákat éppen időben olvassa be, biztosítva az adatok és a séma konzisztenciáját. Ez különösen értékes 2-es típusú lassan változó dimenzió (SCD) és időtávon felhalmozódó pillanatfelvételi tényeket. Azáltal, hogy ezeket a Redshift táblákat kombinálja a forrásrendszer AWS Glue Data Catalog tábláival az EDL-ből az éles PySpark folyamatokon belül, az összekötő lehetővé teszi a több forrásból származó adatok zökkenőmentes integrációját, miközben megőrzi az adatok integritását.
Optimalizált Redshift lekérdezések – Az Apache Spark Amazon Redshift integrációja döntő szerepet játszik a Spark lekérdezési terv optimalizált Redshift lekérdezéssé alakításában. Ez az átalakítási folyamat leegyszerűsíti a fejlesztési tapasztalatot a termékcsapat számára az adatlokalitás elvének betartásával. Az optimalizált lekérdezések az Amazon Redshift képességeit és teljesítményoptimalizálását használják, biztosítva a hatékony adatlekérést és -feldolgozást az Amazon Redshiftből a PySpark-folyamatokhoz. Ez segít a fejlesztési folyamat egyszerűsítésében, miközben javítja az adatbeszerzési műveletek általános teljesítményét.

A legjobb teljesítmény elérése

Az Apache Spark Amazon Redshift integrációja automatikusan alkalmaz predikátumot és lekérdezést a teljesítmény optimalizálása érdekében. A teljesítménynövekedést az integrálással a kirakodáshoz használt alapértelmezett parketta formátum használatával érheti el.

További részletekért és kódmintákért lásd: Új – Amazon Redshift integráció az Apache Sparkkal.

Megoldás előnyei

Az integráció átvétele számos jelentős előnnyel járt a csapat számára:

Fokozott fejlesztői termelékenység – Az integráció által biztosított PySpark interfész 10-szeresére növelte a fejlesztői termelékenységet, lehetővé téve az Amazon Redshifttel való gördülékenyebb interakciót.
Az adatok megkettőzésének megszüntetése – A duplikált és AWS Glue katalógusba sorolt Redshift táblák megszűntek az adattóban, ami egy egyszerűbb adatkörnyezetet eredményezett.
Csökkentett EDW terhelés – Az integráció elősegítette a szelektív adatkiürítést, minimálisra csökkentve az EDW terhelését azzal, hogy csak a szükséges adatokat kinyerjük.

Az Apache Spark Amazon Redshift integrációjának használatával a Capitec megnyitotta az utat a jobb adatfeldolgozás, a nagyobb termelékenység és a hatékonyabb szolgáltatástervezési ökoszisztéma felé.

Következtetés

Ebben a bejegyzésben megvitattuk, hogy a Capitec csapata hogyan valósította meg sikeresen az Apache Spark Amazon Redshift integrációját az Apache Spark számára, hogy egyszerűsítse a funkciók számítási munkafolyamatait. Hangsúlyozták a decentralizált és moduláris PySpark adatfolyamok alkalmazásának fontosságát a prediktív modellfunkciók létrehozásához.

Jelenleg az Apache Spark Amazon Redshift integrációját 7 termelési adatfolyam és 20 fejlesztési folyamat használja, bemutatva annak hatékonyságát a Capitec környezetében.

A jövőben a Capitec megosztott szolgáltatások Feature Platform csapata azt tervezi, hogy kiterjeszti az Apache Spark Amazon Redshift integrációjának alkalmazását a különböző üzleti területeken, az adatfeldolgozási képességek továbbfejlesztése és a hatékony funkciótervezési gyakorlatok előmozdítása érdekében.

Az Apache Spark Amazon Redshift integrációjával kapcsolatos további információkért tekintse meg a következő forrásokat:

A szerzőkről

Preshen Goobiah a Capitec Feature Platform vezető gépi tanulási mérnöke. A Feature Store komponensek tervezésére és építésére összpontosít vállalati használatra. Szabadidejében szívesen olvas és utazik.

Johan Olivier a Capitec Model Platform vezető gépi tanulási mérnöke. Vállalkozó és problémamegoldó rajongó. Szabadidejében szereti a zenét és a társasági életet.

Sudipta Bagchi az Amazon Web Services vezető specialista megoldások építésze. Több mint 12 éves tapasztalattal rendelkezik az adatok és az elemzés területén, és segít ügyfeleinek skálázható és nagy teljesítményű elemzési megoldások tervezésében és kivitelezésében. A munkán kívül szeret futni, utazni és krikettezni. Kapcsolatba lépni vele LinkedIn.

Syed Humair az Amazon Web Services (AWS) analitikai megoldásokra specializálódott vezető építésze. Több mint 17 éves tapasztalattal rendelkezik az adatokra és az AI/ML-re összpontosító vállalati architektúrában, világszerte segítve az AWS ügyfeleit üzleti és műszaki követelményeik kielégítésében. Kapcsolatba léphet vele LinkedIn.

Vuyisa Maswana az AWS vezető építészmérnöke, székhelye Fokvárosban van. A Vuyisa nagy hangsúlyt fektet arra, hogy segítse ügyfeleit műszaki megoldások kidolgozásában az üzleti problémák megoldására. 2019 óta támogatja a Capitecet az AWS-útjukban.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/big-data/simplifying-data-processing-at-capitec-with-amazon-redshift-integration-for-apache-spark/

Időbélyeg: November 10, 2023

Időbélyeg: May 9, 2023

Az adatfeldolgozás egyszerűsítése a Capitecnél az Amazon Redshift integrációjával az Apache Spark | Amazon webszolgáltatások

Újra kiadta Platón

Az üzleti lehetőség

Az adatbeszerzési probléma

Korábbi megoldási folyamat

A jelenlegi megoldás áttekintése

Az Amazon Redshift integráció használata az Apache Sparkhoz az AWS Glue 4.0-ban

Hogyan oldja meg az Apache Spark Amazon Redshift integrációja az adatbeszerzési problémát

A legjobb teljesítmény elérése

Megoldás előnyei

Következtetés

A szerzőkről

Még több AWS Big Data

Merüljön el az AWS Glue 4.0 for Apache Spark | Amazon webszolgáltatások

Kérdezze le Iceberg-táblázatait a Data Lake-ben az Amazon Redshift segítségével (Előnézet) | Amazon webszolgáltatások

Bemutatjuk a perzisztens pufferelést az Amazon OpenSearch Ingestion | Amazon webszolgáltatások

A BWH Hotels növeli a vállalati üzleti intelligencia alkalmazását, miközben csökkenti a költségeket az Amazon QuickSight | segítségével Amazon webszolgáltatások

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók