Ezt a bejegyzést Preshen Goobiah-val és Johan Olivier-rel közösen írták a Capitectől.
Az Apache Spark egy széles körben használt nyílt forráskódú elosztott feldolgozó rendszer, amely a nagyszabású adatterhelések kezeléséről híres. Gyakran alkalmazzák a Sparkkal dolgozó fejlesztők körében Amazon EMR, Amazon SageMaker, AWS ragasztó és egyedi Spark alkalmazások.
Amazon RedShift zökkenőmentes integrációt kínál az Apache Sparkkal, lehetővé téve a Redshift-adatok egyszerű elérését mind az Amazon Redshift által kiépített klasztereken, mind a Amazon Redshift Serverless. Ez az integráció kiterjeszti az AWS-analitikai és gépi tanulási (ML) megoldások lehetőségeit, így az adattárház az alkalmazások szélesebb köre számára elérhetővé válik.
Aktivitáskövető Amazon Redshift integráció az Apache Sparkhoz, gyorsan elkezdheti és könnyedén fejlesztheti a Spark-alkalmazásokat olyan népszerű nyelvek használatával, mint a Java, Scala, Python, SQL és R. Alkalmazásai zökkenőmentesen tudnak olvasni és írni az Amazon Redshift adattárházából, miközben megőrzik az optimális teljesítményt és tranzakciós konzisztenciát. Ezenkívül előnyt jelent a teljesítménynövekedés a pushdown optimalizálás révén, ami tovább növeli a műveletek hatékonyságát.
Capitec, Dél-Afrika legnagyobb lakossági bankja több mint 21 millió lakossági banki ügyféllel, egyszerű, megfizethető és elérhető pénzügyi szolgáltatásokat kíván nyújtani annak érdekében, hogy segítse a dél-afrikaiakat, hogy jobb életet élhessenek. Ebben a bejegyzésben a nyílt forráskódú Amazon Redshift csatlakozó sikeres integrációját tárgyaljuk a Capitec megosztott szolgáltatások Feature Platform csapata által. Az Amazon Redshift integrációjának az Apache Sparkhoz való felhasználásának eredményeként a fejlesztői termelékenység 10-szeresére nőtt, a szolgáltatásgeneráló folyamatok áramvonalasabbá váltak, és az adatkettőzés nullára csökkent.
Az üzleti lehetőség
19 prediktív modell áll rendelkezésre az AWS Glue segítségével épített 93 funkció használatára a Capitec lakossági hiteldivízióin. A szolgáltatásrekordokat az Amazon Redshiftben tárolt tények és dimenziók gazdagítják. Az Apache PySparkot azért választották ki a szolgáltatások létrehozására, mert gyors, decentralizált és méretezhető mechanizmust kínál a különböző forrásokból származó adatok vitatására.
Ezek a termelési funkciók kulcsfontosságú szerepet játszanak a valós idejű, határozott lejáratú hitelkérelmek, hitelkártya-igénylések, kötegelt havi hitelviselkedés figyelés és kötegelt napi fizetés azonosítás lehetővé tételében az üzleten belül.
Az adatbeszerzési probléma
A PySpark adatfolyamok megbízhatóságának biztosítása érdekében elengedhetetlen, hogy az Enterprise Data Warehouse-ban (EDW) tárolt dimenziós és ténytáblákból is konzisztens rekordszintű adatok legyenek. Ezek a táblák ezután futás közben egyesülnek az Enterprise Data Lake (EDL) tábláival.
A szolgáltatások fejlesztése során az adatmérnökök zökkenőmentes interfészt igényelnek az EDW-hez. Ez az interfész lehetővé teszi számukra a szükséges adatok elérését és integrálását az EDW-ből az adatfolyamokba, lehetővé téve a szolgáltatások hatékony fejlesztését és tesztelését.
Korábbi megoldási folyamat
Az előző megoldásban a termékcsapat adatmérnökei 30 percet töltöttek futásonként a Redshift adatok manuális feltárására a Spark számára. A lépések a következőket tartalmazták:
- Hozzon létre egy predikált lekérdezést Pythonban.
- Küldj egy KITÖLTÉS lekérdezés a Amazon Redshift Data API.
- Katalógusadatok az AWS ragasztóadat-katalógusában az AWS SDK for Pandas segítségével, mintavételezéssel.
Ez a megközelítés problémákat vet fel a nagy adatkészleteknél, rendszeres karbantartást igényelt a platform csapatától, és bonyolult volt automatizálni.
A jelenlegi megoldás áttekintése
A Capitec meg tudta oldani ezeket a problémákat az Apache Spark Amazon Redshift integrációjával a szolgáltatásgeneráló folyamatokon belül. Az architektúrát a következő diagram határozza meg.
A munkafolyamat a következő lépéseket tartalmazza:
- A belső könyvtárak telepítése az AWS Glue PySpark feladatba keresztül történik AWS CodeArtifact.
- Egy AWS-ragasztófeladat lekéri a Redshift-fürt hitelesítő adatait innen AWS Secrets Manager és beállítja az Amazon Redshift kapcsolatot (injektálja a fürt hitelesítő adatait, a kitöltési helyeket, a fájlformátumokat) a megosztott belső könyvtáron keresztül. Az Apache Spark Amazon Redshift integrációja is támogatja a használatát AWS Identity and Access Management (IAM) a lekérni a hitelesítő adatokat, és csatlakozni az Amazon Redshifthez.
- A Spark lekérdezést Amazon Redshift optimalizált lekérdezéssé fordítja le, és elküldi az EDW-nek. Ezt az Apache Spark Amazon Redshift integrációja éri el.
- Az EDW adatkészlet egy ideiglenes előtagba betöltődik egy Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör.
- Az S3 tárolóból származó EDW adatkészlet betöltődik a Spark végrehajtóiba az Apache Spark Amazon Redshift integrációján keresztül.
- Az EDL-adatkészlet betöltődik a Spark végrehajtóiba az AWS ragasztóadat-katalógusán keresztül.
Ezek az összetevők együttműködve biztosítják, hogy az adatmérnökök és a termelési adatfolyamatok rendelkezzenek a szükséges eszközökkel az Amazon Redshift integrációjának megvalósításához az Apache Spark számára, lekérdezések futtatásához, és megkönnyítsék az adatok Amazon Redshiftből az EDL-be való kitöltését.
Az Amazon Redshift integráció használata az Apache Sparkhoz az AWS Glue 4.0-ban
Ebben a részben bemutatjuk az Amazon Redshift integráció hasznosságát az Apache Spark számára az S3 adattóban található hitelkérelem-táblázatot a PySpark Redshift adattárházából származó ügyféladatokkal gazdagítva.
A dimclient
Az Amazon Redshift táblázata a következő oszlopokat tartalmazza:
- ClientKey – INT8
- ClientAltKey – VARCHAR50
- PartyIdentifierNumber – VARCHAR20
- ClientCreateDate – DÁTUM
- Törölve – INT2
- RowIsCurrent – INT2
A loanapplication
Az AWS ragasztóadat-katalógus táblázata a következő oszlopokat tartalmazza:
- RecordID – BIGINT
- LogDate - IDŐBÉLYEG
- PartyIdentifierNumber - HÚR
A Redshift táblázatot az Amazon Redshift integrációja olvassa be az Apache Sparkhoz, és gyorsítótárazza. Lásd a következő kódot:
A hiteligénylési rekordokat beolvassák az S3 adattóból, és gazdagítják a dimclient
táblázat az Amazon Redshift információiról:
Ennek eredményeként a hiteligénylési nyilvántartás (az S3 adattóból) gazdagodik a ClientCreateDate
oszlop (az Amazon Redshifttől).
Hogyan oldja meg az Apache Spark Amazon Redshift integrációja az adatbeszerzési problémát
Az Apache Spark Amazon Redshift integrációja hatékonyan kezeli az adatbeszerzési problémát a következő mechanizmusokon keresztül:
- Just-in-time olvasás – Az Amazon Redshift integrációja az Apache Spark csatlakozóhoz a Redshift táblákat éppen időben olvassa be, biztosítva az adatok és a séma konzisztenciáját. Ez különösen értékes 2-es típusú lassan változó dimenzió (SCD) és időtávon felhalmozódó pillanatfelvételi tényeket. Azáltal, hogy ezeket a Redshift táblákat kombinálja a forrásrendszer AWS Glue Data Catalog tábláival az EDL-ből az éles PySpark folyamatokon belül, az összekötő lehetővé teszi a több forrásból származó adatok zökkenőmentes integrációját, miközben megőrzi az adatok integritását.
- Optimalizált Redshift lekérdezések – Az Apache Spark Amazon Redshift integrációja döntő szerepet játszik a Spark lekérdezési terv optimalizált Redshift lekérdezéssé alakításában. Ez az átalakítási folyamat leegyszerűsíti a fejlesztési tapasztalatot a termékcsapat számára az adatlokalitás elvének betartásával. Az optimalizált lekérdezések az Amazon Redshift képességeit és teljesítményoptimalizálását használják, biztosítva a hatékony adatlekérést és -feldolgozást az Amazon Redshiftből a PySpark-folyamatokhoz. Ez segít a fejlesztési folyamat egyszerűsítésében, miközben javítja az adatbeszerzési műveletek általános teljesítményét.
A legjobb teljesítmény elérése
Az Apache Spark Amazon Redshift integrációja automatikusan alkalmaz predikátumot és lekérdezést a teljesítmény optimalizálása érdekében. A teljesítménynövekedést az integrálással a kirakodáshoz használt alapértelmezett parketta formátum használatával érheti el.
További részletekért és kódmintákért lásd: Új – Amazon Redshift integráció az Apache Sparkkal.
Megoldás előnyei
Az integráció átvétele számos jelentős előnnyel járt a csapat számára:
- Fokozott fejlesztői termelékenység – Az integráció által biztosított PySpark interfész 10-szeresére növelte a fejlesztői termelékenységet, lehetővé téve az Amazon Redshifttel való gördülékenyebb interakciót.
- Az adatok megkettőzésének megszüntetése – A duplikált és AWS Glue katalógusba sorolt Redshift táblák megszűntek az adattóban, ami egy egyszerűbb adatkörnyezetet eredményezett.
- Csökkentett EDW terhelés – Az integráció elősegítette a szelektív adatkiürítést, minimálisra csökkentve az EDW terhelését azzal, hogy csak a szükséges adatokat kinyerjük.
Az Apache Spark Amazon Redshift integrációjának használatával a Capitec megnyitotta az utat a jobb adatfeldolgozás, a nagyobb termelékenység és a hatékonyabb szolgáltatástervezési ökoszisztéma felé.
Következtetés
Ebben a bejegyzésben megvitattuk, hogy a Capitec csapata hogyan valósította meg sikeresen az Apache Spark Amazon Redshift integrációját az Apache Spark számára, hogy egyszerűsítse a funkciók számítási munkafolyamatait. Hangsúlyozták a decentralizált és moduláris PySpark adatfolyamok alkalmazásának fontosságát a prediktív modellfunkciók létrehozásához.
Jelenleg az Apache Spark Amazon Redshift integrációját 7 termelési adatfolyam és 20 fejlesztési folyamat használja, bemutatva annak hatékonyságát a Capitec környezetében.
A jövőben a Capitec megosztott szolgáltatások Feature Platform csapata azt tervezi, hogy kiterjeszti az Apache Spark Amazon Redshift integrációjának alkalmazását a különböző üzleti területeken, az adatfeldolgozási képességek továbbfejlesztése és a hatékony funkciótervezési gyakorlatok előmozdítása érdekében.
Az Apache Spark Amazon Redshift integrációjával kapcsolatos további információkért tekintse meg a következő forrásokat:
A szerzőkről
Preshen Goobiah a Capitec Feature Platform vezető gépi tanulási mérnöke. A Feature Store komponensek tervezésére és építésére összpontosít vállalati használatra. Szabadidejében szívesen olvas és utazik.
Johan Olivier a Capitec Model Platform vezető gépi tanulási mérnöke. Vállalkozó és problémamegoldó rajongó. Szabadidejében szereti a zenét és a társasági életet.
Sudipta Bagchi az Amazon Web Services vezető specialista megoldások építésze. Több mint 12 éves tapasztalattal rendelkezik az adatok és az elemzés területén, és segít ügyfeleinek skálázható és nagy teljesítményű elemzési megoldások tervezésében és kivitelezésében. A munkán kívül szeret futni, utazni és krikettezni. Kapcsolatba lépni vele LinkedIn.
Syed Humair az Amazon Web Services (AWS) analitikai megoldásokra specializálódott vezető építésze. Több mint 17 éves tapasztalattal rendelkezik az adatokra és az AI/ML-re összpontosító vállalati architektúrában, világszerte segítve az AWS ügyfeleit üzleti és műszaki követelményeik kielégítésében. Kapcsolatba léphet vele LinkedIn.
Vuyisa Maswana az AWS vezető építészmérnöke, székhelye Fokvárosban van. A Vuyisa nagy hangsúlyt fektet arra, hogy segítse ügyfeleit műszaki megoldások kidolgozásában az üzleti problémák megoldására. 2019 óta támogatja a Capitecet az AWS-útjukban.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/big-data/simplifying-data-processing-at-capitec-with-amazon-redshift-integration-for-apache-spark/
- :van
- :is
- $ UP
- 06
- 1
- 10
- 100
- 12
- 16
- 17
- 19
- 20
- 2019
- 30
- 7
- a
- Képes
- hozzáférés
- hozzáférhető
- megvalósítható
- át
- További
- további információ
- Ezen kívül
- cím
- címek
- ragaszkodva
- Örökbefogadás
- megfizethető
- AI / ML
- Célzás
- célok
- lehetővé téve
- lehetővé teszi, hogy
- Is
- amazon
- Az Amazon Web Services
- Amazon Web Services (AWS)
- között
- an
- analitika
- és a
- Apache
- Apache Spark
- Alkalmazás
- alkalmazások
- alkalmazandó
- megközelítés
- építészet
- VANNAK
- területek
- AS
- At
- automatizált
- automatikusan
- AWS
- AWS ragasztó
- Bank
- Banking
- alapján
- mert
- viselkedés
- haszon
- Előnyök
- BEST
- Jobb
- között
- Legnagyobb
- Javítottak
- mindkét
- tágabb
- épít
- Épület
- épült
- üzleti
- by
- TUD
- képességek
- köpeny
- kártya
- katalógus
- változó
- vásárló
- ügyfél részére
- Fürt
- CO
- kód
- Oszlop
- Oszlopok
- kombinálása
- bonyolult
- alkatrészek
- számítás
- Csatlakozás
- kapcsolat
- következetes
- tartalmaz
- kontextus
- Átalakítás
- konvertáló
- teremt
- létrehozása
- Hitelesítő adatok
- hitel
- hitelkártya
- krikett
- kritikus
- szokás
- Ügyfelek
- napi
- dátum
- adattó
- adatfeldolgozás
- adattárház
- adatkészletek
- decentralizált
- alapértelmezett
- meghatározott
- bizonyítani
- Design
- tervezés
- részletek
- Fejleszt
- Fejlesztő
- fejlesztők
- Fejlesztés
- különböző
- Dimenzió
- méretek
- megvitatni
- tárgyalt
- megosztott
- számos
- könnyen
- ökoszisztéma
- hatékonyan
- hatékonyság
- hatékonyság
- hatékony
- erőfeszítés nélkül
- Eltüntetett
- hangsúlyozta
- lehetővé teszi
- lehetővé téve
- mérnök
- Mérnöki
- Mérnökök
- növelése
- fokozása
- dúsított
- gazdagító
- biztosítására
- biztosítása
- Vállalkozás
- rajongó
- Vállalkozó
- Környezet
- alapvető
- Eter (ETH)
- létező
- Bontsa
- kitágul
- tapasztalat
- megkönnyítése
- megkönnyítette
- tény
- tényező
- tények
- GYORS
- Funkció
- Jellemzők
- filé
- pénzügyi
- pénzügyi szolgáltatások
- leletek
- Összpontosít
- összpontosított
- összpontosítás
- következő
- A
- formátum
- Előre
- gyakori
- ból ből
- funkciók
- további
- Nyereség
- generáció
- kap
- GitHub
- globálisan
- Kezelés
- Legyen
- he
- segít
- segít
- segít
- őt
- övé
- Hogyan
- HTML
- http
- HTTPS
- IAM
- Azonosítás
- Identitás
- végre
- végre
- importál
- fontosság
- javított
- fejlesztések
- in
- beleértve
- magában foglalja a
- <p></p>
- információ
- integrálni
- integráció
- sértetlenség
- kölcsönhatás
- Felület
- belső
- bele
- kérdések
- IT
- ITS
- Jáva
- Munka
- csatlakozik
- csatlakozott
- utazás
- tó
- Nyelvek
- nagy
- nagyarányú
- vezet
- tanulás
- balra
- könyvtárak
- könyvtár
- mint
- él
- kiszámításának
- hitel
- helyszínek
- szeret
- gép
- gépi tanulás
- fenntartása
- karbantartás
- Gyártás
- mód
- kézzel
- mechanizmus
- mechanizmusok
- millió
- minimalizálása
- jegyzőkönyv
- ML
- modell
- modellek
- moduláris
- ellenőrzés
- havi
- több
- hatékonyabb
- többszörös
- zene
- elengedhetetlen
- of
- Ajánlatok
- Olíva
- on
- csak
- nyitva
- nyílt forráskódú
- Művelet
- optimálisan
- Optimalizálja
- optimalizált
- érdekében
- kívül
- felett
- átfogó
- pandák
- különösen
- Jelszó
- mert
- teljesítmény
- terv
- tervek
- emelvény
- Plató
- Platón adatintelligencia
- PlatoData
- játszani
- játék
- játszik
- Népszerű
- jelent
- lehetőségek
- állás
- gyakorlat
- jósló
- előző
- alapelv
- Probléma
- problémamegoldás
- problémák
- folyamat
- feldolgozás
- Termékek
- Termelés
- termelékenység
- kellene támogatnia,
- ad
- feltéve,
- Piton
- lekérdezések
- gyorsan
- R
- hatótávolság
- Olvass
- Olvasás
- real-time
- rekord
- nyilvántartások
- ismétlődő
- Csökkent
- utal
- megbízhatóság
- Híres
- szükség
- kötelező
- követelmények
- megoldása
- Tudástár
- eredményez
- kapott
- kiskereskedelem
- Lakossági banki szolgáltatások
- Szerep
- futás
- futás
- fizetés
- SC
- Scala
- skálázható
- hatálya
- sdk
- zökkenőmentes
- zökkenőmentesen
- titkok
- Rész
- lát
- kiválasztott
- kiválasztása
- szelektív
- idősebb
- Szolgáltatások
- Szettek
- számos
- megosztott
- kirakatba
- jelentős
- Egyszerű
- egyszerűsítése
- egyszerűsítése
- óta
- Lassan
- simább
- Pillanatkép
- So
- társasági élet
- megoldások
- Megoldások
- SOLVE
- Megoldja
- forrás
- Források
- Sourcing
- Dél
- Szikra
- szakember
- költött
- SQL
- kezdődött
- Lépései
- tárolás
- memorizált
- áramvonal
- áramvonalas
- Húr
- erős
- benyújtott
- sikeres
- sikeresen
- Támogatott
- Támogatja
- rendszer
- táblázat
- csapat
- Műszaki
- ideiglenes
- Tesztelés
- hogy
- A
- The Source
- azok
- Őket
- akkor
- Ezek
- ők
- ezt
- Keresztül
- idő
- nak nek
- együtt
- szerszámok
- város
- ügyleti
- Utazó
- URL
- használ
- használt
- segítségével
- hasznosság
- hasznosított
- kihasználva
- Értékes
- keresztül
- Raktár
- volt
- Út..
- we
- háló
- webes szolgáltatások
- voltak
- míg
- val vel
- belül
- Munka
- együtt dolgozni
- munkafolyamat
- munkafolyamatok
- dolgozó
- ír
- év
- engedett
- te
- A te
- zephyrnet
- nulla