Spark için Amazon Redshift Entegrasyonu ile Capitec'te Veri İşlemeyi Basitleştirme | Amazon Web Hizmetleri

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Bu yazı Capitec'ten Preshen Goobiah ve Johan Olivier ile birlikte yazılmıştır.

Apache Spark, büyük ölçekli veri iş yüklerini yönetmesiyle tanınan, yaygın olarak kullanılan açık kaynaklı bir dağıtılmış işleme sistemidir. Spark ile çalışan geliştiriciler arasında sıklıkla uygulama bulur. Amazon EMR'si, Amazon Adaçayı Yapıcı, AWS Tutkal ve özel Spark uygulamaları.

Amazon Kırmızıya Kaydırma Apache Spark ile sorunsuz entegrasyon sunarak hem Amazon Redshift tarafından sağlanan kümelerde hem de Redshift verilerinize kolayca erişmenizi sağlar. Amazon Redshift Sunucusuz. Bu entegrasyon, AWS analitiği ve makine öğrenimi (ML) çözümlerine yönelik olanakları genişleterek veri ambarının daha geniş bir uygulama yelpazesi için erişilebilir olmasını sağlar.

İle Apache Spark için Amazon Redshift entegrasyonuJava, Scala, Python, SQL ve R gibi popüler dilleri kullanarak Spark uygulamalarını hızlı bir şekilde başlatabilir ve zahmetsizce geliştirebilirsiniz. Uygulamalarınız, optimum performansı ve işlem tutarlılığını korurken Amazon Redshift veri ambarınızdan sorunsuz bir şekilde okuma ve yazma işlemi gerçekleştirebilir. Ayrıca, operasyonlarınızın verimliliğini daha da artıran, aşağı açılan optimizasyonlar aracılığıyla performans iyileştirmelerinden yararlanacaksınız.

Capitec21 milyondan fazla bireysel bankacılık müşterisiyle Güney Afrika'nın en büyük bireysel bankası olan , Güney Afrikalıların daha iyi yaşayabilmeleri için daha iyi bankacılık yapmasına yardımcı olmak amacıyla basit, uygun fiyatlı ve erişilebilir finansal hizmetler sunmayı amaçlıyor. Bu yazıda açık kaynak Amazon Redshift bağlayıcısının Capitec'in paylaşılan hizmetler Özellik Platformu ekibi tarafından başarılı entegrasyonunu tartışıyoruz. Apache Spark için Amazon Redshift entegrasyonunun kullanılması sonucunda geliştirici üretkenliği 10 kat arttı, özellik oluşturma hatları kolaylaştırıldı ve veri tekrarı sıfıra indirildi.

iş fırsatı

Capitec'in Perakende Kredi bölümleri genelinde AWS Glue ile oluşturulmuş 19 özelliğin kullanımına yönelik 93 tahmine dayalı model bulunmaktadır. Özellik kayıtları Amazon Redshift'te depolanan gerçekler ve boyutlarla zenginleştirilmiştir. Apache PySpark, çeşitli kaynaklardan gelen verileri düzenlemek için hızlı, merkezi olmayan ve ölçeklenebilir bir mekanizma sunduğu için özellikler oluşturmak üzere seçildi.

Bu üretim özellikleri, işletme içinde gerçek zamanlı sabit vadeli kredi başvurularının, kredi kartı başvurularının, toplu aylık kredi davranışlarının izlenmesinin ve toplu günlük maaş tanımlamasının sağlanmasında önemli bir rol oynamaktadır.

Veri kaynağı sorunu

PySpark veri hatlarının güvenilirliğini sağlamak için Kurumsal Veri Ambarında (EDW) depolanan hem boyut hem de olgu tablolarından kayıt düzeyinde tutarlı verilere sahip olmak önemlidir. Bu tablolar daha sonra çalışma zamanında Kurumsal Veri Gölü'ndeki (EDL) tablolarla birleştirilir.

Özellik geliştirme sırasında veri mühendisleri EDW için kusursuz bir arayüze ihtiyaç duyar. Bu arayüz, EDW'deki gerekli verilere erişmelerine ve bunları veri hatlarına entegre etmelerine olanak tanıyarak özelliklerin verimli bir şekilde geliştirilmesine ve test edilmesine olanak tanır.

Önceki çözüm süreci

Önceki çözümde ürün ekibi veri mühendisleri, Redshift verilerini Spark'a manuel olarak sunmak için çalıştırma başına 30 dakika harcıyordu. Adımlar aşağıdakileri içeriyordu:

Python'da önceden belirlenmiş bir sorgu oluşturun.
Bir gönder BOŞALT aracılığıyla sorgulama Amazon Redshift Veri API'sı.
Örnekleme kullanılarak AWS SDK for Pandas aracılığıyla AWS Glue Data Catalog'daki katalog verileri.

Bu yaklaşım büyük veri kümeleri için sorunlara yol açıyordu, platform ekibinin yinelenen bakım yapmasını gerektiriyordu ve otomatikleştirilmesi karmaşıktı.

Mevcut çözüme genel bakış

Capitec, özellik oluşturma ardışık düzenleri kapsamında Apache Spark için Amazon Redshift entegrasyonuyla bu sorunları çözmeyi başardı. Mimari aşağıdaki diyagramda tanımlanmıştır.

İş akışı aşağıdaki adımları içerir:

Dahili kütüphaneler AWS Glue PySpark işine şu adresten yüklenir: AWS Kodu Yapısı.
Bir AWS Glue işi, Redshift kümesi kimlik bilgilerini şuradan alır: AWS Sırları Yöneticisi ve paylaşılan dahili kitaplık aracılığıyla Amazon Redshift bağlantısını kurar (küme kimlik bilgilerini, kaldırma konumlarını, dosya formatlarını enjekte eder). Apache Spark için Amazon Redshift entegrasyonu aynı zamanda aşağıdakilerin kullanımını da destekler: AWS Kimlik ve Erişim Yönetimi (IAM)'e kimlik bilgilerini alın ve Amazon Redshift'e bağlanın.
Spark sorgusu Amazon Redshift için optimize edilmiş bir sorguya çevrilir ve EDW'ye gönderilir. Bu, Apache Spark için Amazon Redshift entegrasyonuyla gerçekleştirilir.
EDW veri kümesi geçici bir önek içine boşaltılır. Amazon Basit Depolama Hizmeti (Amazon S3) kovası.
S3 klasöründeki EDW veri kümesi, Apache Spark için Amazon Redshift entegrasyonu aracılığıyla Spark yürütücülerine yüklenir.
EDL veri kümesi, AWS Glue Veri Kataloğu aracılığıyla Spark yürütücülerine yüklenir.

Bu bileşenler, veri mühendislerinin ve üretim veri işlem hatlarının Apache Spark için Amazon Redshift entegrasyonunu uygulamak, sorguları çalıştırmak ve verilerin Amazon Redshift'ten EDL'ye boşaltılmasını kolaylaştırmak için gerekli araçlara sahip olmasını sağlamak üzere birlikte çalışır.

AWS Glue 4.0'da Apache Spark için Amazon Redshift entegrasyonunu kullanma

Bu bölümde, S3 veri gölünde bulunan bir kredi başvuru tablosunu PySpark'taki Redshift veri ambarındaki müşteri bilgileriyle zenginleştirerek Apache Spark için Amazon Redshift entegrasyonunun faydasını gösteriyoruz.

The dimclient Amazon Redshift'teki tablo aşağıdaki sütunları içerir:

Müşteri Anahtarı – INT8
İstemciAltKey – VARCHAR50
Parti Tanımlayıcı Numarası – VARCHAR20
MüşteriOluşturmaTarihi - TARİH
İptal edildi – INT2
RowIsCurrent – INT2

The loanapplication AWS Glue Data Catalog'daki tablo aşağıdaki sütunları içerir:

Kayıt Kimliği – BÜYÜK
Günlük Tarihi – ZAMAN DAMGASI
Parti Tanımlayıcı Numarası - SİCİM

Redshift tablosu, Apache Spark için Amazon Redshift entegrasyonu aracılığıyla okunur ve önbelleğe alınır. Aşağıdaki koda bakın:

import pyspark.sql.functions as F
from pyspark.sql import SQLContext
sc = # existing SparkContext
sql_context = SQLContext(sc) secretsmanager_client = boto3.client('secretsmanager')
secret_manager_response = secretsmanager_client.get_secret_value( SecretId='string', VersionId='string', VersionStage='string'
)
username = # get username from secret_manager_response
password = # get password from secret_manager_response
url = "jdbc:redshift://redshifthost:5439/database?user=" + username + "&password=" + password read_config = { "url": url, "tempdir": "s3://<capitec-redshift-temp-bucket>/<uuid>/", "unload_s3_format": "PARQUET"
} d_client = ( spark.read.format("io.github.spark_redshift_community.spark.redshift") .options(**read_config) .option("query", f"select * from edw_core.dimclient") .load() .where((F.col("RowIsCurrent") == 1) & (F.col("isCancelled") == 0)) .select( F.col("PartyIdentifierNumber"), F.col("ClientCreateDate") ) .cache()
)

Kredi başvuru kayıtları S3 veri gölünden okunarak zenginleştirilir. dimclient Amazon Redshift bilgilerine ilişkin tablo:

import pyspark.sql.functions as F
from awsglue.context import GlueContext
from pyspark import SparkContext glue_ctx = GlueContext(SparkContext.getOrCreate()) push_down_predicate = ( f"meta_extract_start_utc_ms between " f"'2023-07-12" f" 18:00:00.000000' and " f"'2023-07-13 06:00:00.000000'"
) database_name="loan_application_system"
table_name="dbo_view_loan_applications"
catalog_id = # Glue Data Catalog # Selecting only the following columns
initial_select_cols=[ "RecordID", "LogDate", "PartyIdentifierNumber" ] d_controller = (glue_ctx.create_dynamic_frame.from_catalog(catalog_id=catalog_id, database=database_name, table_name=table_name, push_down_predicate=push_down_predicate) .toDF() .select(*initial_select_cols) .withColumn("LogDate", F.date_format("LogDate", "yyyy-MM-dd").cast("string")) .dropDuplicates()) # Left Join on PartyIdentifierNumber and enriching the loan application record
d_controller_enriched = d_controller.join(d_client, on=["PartyIdentifierNumber"], how="left").cache()

Sonuç olarak, kredi başvuru kaydı (S3 veri gölünden) aşağıdakilerle zenginleştirilmiştir: ClientCreateDate sütun (Amazon Redshift'ten).

Apache Spark için Amazon Redshift entegrasyonu veri kaynağı sorununu nasıl çözüyor?

Apache Spark için Amazon Redshift entegrasyonu, aşağıdaki mekanizmalar aracılığıyla veri kaynağı sorununu etkili bir şekilde giderir:

Tam zamanında okuma – Apache Spark bağlayıcısı için Amazon Redshift entegrasyonu, Redshift tablolarını tam zamanında okuyarak veri ve şema tutarlılığını sağlar. Bu özellikle değerlidir Tip 2 yavaş değişen boyut (SCD) ve anlık görüntü gerçeklerini biriktiren zaman aralığı. Bu Redshift tablolarını, üretim PySpark ardışık düzenleri içindeki EDL'deki kaynak sistem AWS Glue Data Catalog tablolarıyla birleştiren bağlayıcı, veri bütünlüğünü korurken birden fazla kaynaktan gelen verilerin sorunsuz entegrasyonunu sağlar.
Optimize edilmiş Redshift sorguları – Apache Spark için Amazon Redshift entegrasyonu, Spark sorgu planının optimize edilmiş bir Redshift sorgusuna dönüştürülmesinde önemli bir rol oynar. Bu dönüştürme süreci, veri yerelliği ilkesine bağlı kalarak ürün ekibinin geliştirme deneyimini basitleştirir. Optimize edilmiş sorgular, Amazon Redshift'in yeteneklerini ve performans optimizasyonlarını kullanarak PySpark ardışık düzenleri için Amazon Redshift'ten verimli veri alımı ve işleme sağlar. Bu, veri kaynağı operasyonlarının genel performansını artırırken geliştirme sürecini kolaylaştırmaya yardımcı olur.

En iyi performansı elde etmek

Apache Spark için Amazon Redshift entegrasyonu, performansı optimize etmek için yüklemeyi ve sorgu aşağı itmeyi otomatik olarak uygular. Bu entegrasyonla boşaltma için kullanılan varsayılan Parke formatını kullanarak performans iyileştirmeleri elde edebilirsiniz.

Ek ayrıntılar ve kod örnekleri için bkz. Yeni – Apache Spark ile Amazon Redshift Entegrasyonu.

Çözüm Faydaları

Entegrasyonun benimsenmesi ekip için birçok önemli fayda sağladı:

Geliştirilmiş geliştirici üretkenliği – Entegrasyon tarafından sağlanan PySpark arayüzü, geliştirici üretkenliğini 10 kat artırarak Amazon Redshift ile daha sorunsuz etkileşime olanak sağladı.
Veri tekrarının ortadan kaldırılması – Veri gölündeki yinelenen ve AWS Glue kataloglu Redshift tabloları ortadan kaldırılarak daha akıcı bir veri ortamı sağlandı.
Azaltılmış EDW yükü – Entegrasyon, yalnızca gerekli verileri çıkararak EDW üzerindeki yükü en aza indirerek seçici veri boşaltmayı kolaylaştırdı.

Capitec, Apache Spark için Amazon Redshift entegrasyonunu kullanarak gelişmiş veri işlemenin, artan üretkenliğin ve daha verimli bir özellik mühendisliği ekosisteminin yolunu açtı.

Sonuç

Bu yazıda Capitec ekibinin özellik hesaplama iş akışlarını basitleştirmek amacıyla Apache Spark için Amazon Redshift entegrasyonunu Apache Spark'ı nasıl başarıyla uyguladığını tartıştık. Tahmine dayalı model özellikleri oluşturmak için merkezi olmayan ve modüler PySpark veri hatlarını kullanmanın önemini vurguladılar.

Şu anda Apache Spark için Amazon Redshift entegrasyonu, 7 üretim veri hattı ve 20 geliştirme hattı tarafından kullanılıyor ve bu da onun Capitec ortamındaki etkinliğini gösteriyor.

Capitec'teki paylaşımlı hizmetler Özellik Platformu ekibi, gelecekte veri işleme yeteneklerini daha da geliştirmeyi ve verimli özellik mühendisliği uygulamalarını teşvik etmeyi amaçlayarak Apache Spark için Amazon Redshift entegrasyonunun farklı iş alanlarında benimsenmesini genişletmeyi planlıyor.

Apache Spark için Amazon Redshift entegrasyonunu kullanma hakkında ek bilgi için aşağıdaki kaynaklara bakın:

Yazarlar Hakkında

Preshen Goobiah Capitec'teki Özellik Platformunun Baş Makine Öğrenimi Mühendisidir. Kurumsal kullanıma yönelik Özellik Mağazası bileşenleri tasarlamaya ve oluşturmaya odaklanmıştır. Boş zamanlarında kitap okumaktan ve seyahat etmekten hoşlanıyor.

johan olivier Capitec'in Model Platformunda Kıdemli Makine Öğrenimi Mühendisidir. Girişimci ve problem çözme meraklısıdır. Boş zamanlarında müzikten ve sosyalleşmekten hoşlanıyor.

sudipta bagchi Amazon Web Services'te Kıdemli Uzman Çözüm Mimarıdır. Veri ve analitik alanında 12 yıldan fazla deneyime sahiptir ve müşterilerin ölçeklenebilir ve yüksek performanslı analitik çözümler tasarlamasına ve oluşturmasına yardımcı olur. İş dışında koşmayı, seyahat etmeyi ve kriket oynamayı seviyor. Onunla iletişime geç LinkedIn.

Seyyid Humair Amazon Web Services'te (AWS) Kıdemli Analitik Uzmanı Çözüm Mimarıdır. Veri ve AI/ML'ye odaklanan kurumsal mimaride 17 yıldan fazla deneyime sahip olup, dünya çapındaki AWS müşterilerinin iş ve teknik gereksinimlerini karşılamalarına yardımcı olmaktadır. Onunla bağlantı kurabilirsin LinkedIn.

Vuyisa Masvana Cape Town merkezli AWS'de Kıdemli Çözüm Mimarıdır. Vuyisa, müşterilerin iş sorunlarını çözmek için teknik çözümler oluşturmalarına yardımcı olmaya güçlü bir şekilde odaklanıyor. Capitec'i 2019'dan bu yana AWS yolculuğunda destekliyor.

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://aws.amazon.com/blogs/big-data/simplifying-data-processing-at-capitec-with-amazon-redshift-integration-for-apache-spark/

Zaman Damgası: 10 Kasım 2023

Zaman Damgası: Mayıs 9, 2023

Apache Spark için Amazon Redshift entegrasyonuyla Capitec'te veri işlemeyi basitleştirme | Amazon Web Hizmetleri

Plato tarafından yeniden yayınlandı

iş fırsatı

Veri kaynağı sorunu

Önceki çözüm süreci

Mevcut çözüme genel bakış

AWS Glue 4.0'da Apache Spark için Amazon Redshift entegrasyonunu kullanma

Apache Spark için Amazon Redshift entegrasyonu veri kaynağı sorununu nasıl çözüyor?

En iyi performansı elde etmek

Çözüm Faydaları

Sonuç

Yazarlar Hakkında

Den fazla AWS Büyük Veri

Apache Spark için AWS Glue 4.0'ı derinlemesine inceleyin | Amazon Web Hizmetleri

Amazon Redshift'i (Önizleme) kullanarak veri gölündeki Iceberg tablolarınızı sorgulama | Amazon Web Hizmetleri

Amazon OpenSearch Ingestion için kalıcı arabelleğe alma özelliğiyle tanışın | Amazon Web Hizmetleri

BWH Hotels, Amazon QuickSight | Amazon Web Hizmetleri

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap