تمت كتابة هذا المنشور بالاشتراك مع بريشين جوبيا ويوهان أوليفييه من شركة Capitec.
Apache Spark هو نظام معالجة موزع مفتوح المصدر يستخدم على نطاق واسع ويشتهر بمعالجة أعباء عمل البيانات واسعة النطاق. يجد تطبيقًا متكررًا بين مطوري Spark الذين يعملون معهم أمازون EMR, الأمازون SageMaker, غراء AWS وتطبيقات سبارك المخصصة.
الأمازون الأحمر يوفر تكاملًا سلسًا مع Apache Spark، مما يتيح لك الوصول بسهولة إلى بيانات Redshift الخاصة بك على كل من مجموعات Amazon Redshift المتوفرة و أمازون Redshift Serverless. يعمل هذا التكامل على توسيع إمكانيات تحليلات AWS وحلول التعلم الآلي (ML)، مما يجعل مستودع البيانات متاحًا لمجموعة واسعة من التطبيقات.
مع تكامل Amazon Redshift لـ Apache Spark، يمكنك البدء بسرعة وتطوير تطبيقات Spark دون عناء باستخدام اللغات الشائعة مثل Java وScala وPython وSQL وR. ويمكن لتطبيقاتك القراءة والكتابة من مستودع بيانات Amazon Redshift الخاص بك بسلاسة مع الحفاظ على الأداء الأمثل واتساق المعاملات. بالإضافة إلى ذلك، ستستفيد من تحسينات الأداء من خلال تحسينات الضغط لأسفل، مما يعزز كفاءة عملياتك.
Capitec، وهو أكبر بنك تجزئة في جنوب إفريقيا يضم أكثر من 21 مليون عميل من عملاء الخدمات المصرفية للأفراد، ويهدف إلى تقديم خدمات مالية بسيطة وبأسعار معقولة ويمكن الوصول إليها من أجل مساعدة مواطني جنوب إفريقيا على تقديم الخدمات المصرفية بشكل أفضل حتى يتمكنوا من العيش بشكل أفضل. في هذا المنشور، نناقش التكامل الناجح لموصل Amazon Redshift مفتوح المصدر بواسطة فريق منصة ميزات الخدمات المشتركة في Capitec. نتيجة لاستخدام تكامل Amazon Redshift مع Apache Spark، زادت إنتاجية المطورين بعامل 10، وتم تبسيط مسارات إنشاء الميزات، وتقليل تكرار البيانات إلى الصفر.
فرصة العمل
يوجد 19 نموذجًا تنبؤيًا في نطاق استخدام 93 ميزة تم إنشاؤها باستخدام AWS Glue عبر أقسام ائتمان التجزئة في Capitec. يتم إثراء سجلات الميزات بالحقائق والأبعاد المخزنة في Amazon Redshift. تم اختيار Apache PySpark لإنشاء ميزات لأنه يوفر آلية سريعة ولا مركزية وقابلة للتطوير لتبادل البيانات من مصادر متنوعة.
تلعب ميزات الإنتاج هذه دورًا حاسمًا في تمكين طلبات القروض محددة المدة في الوقت الفعلي، وتطبيقات بطاقات الائتمان، ومراقبة السلوك الائتماني الشهري للدفعة، وتحديد الراتب اليومي للدفعة داخل الشركة.
مشكلة مصادر البيانات
لضمان موثوقية خطوط بيانات PySpark، من الضروري أن يكون لديك بيانات متسقة على مستوى السجل من كل من جداول الأبعاد وجداول الحقائق المخزنة في مستودع بيانات المؤسسة (EDW). يتم بعد ذلك ربط هذه الجداول بجداول من Enterprise Data Lake (EDL) في وقت التشغيل.
أثناء تطوير الميزات، يحتاج مهندسو البيانات إلى واجهة سلسة لـ EDW. تسمح لهم هذه الواجهة بالوصول إلى البيانات الضرورية من EDW ودمجها في خطوط أنابيب البيانات، مما يتيح التطوير الفعال واختبار الميزات.
عملية الحل السابقة
في الحل السابق، أمضى مهندسو بيانات فريق المنتج 30 دقيقة في كل عملية تشغيل لكشف بيانات Redshift يدويًا إلى Spark. وتضمنت الخطوات ما يلي:
- إنشاء استعلام مسند في بايثون.
- إرسال تفريغ الاستعلام عبر واجهة برمجة تطبيقات بيانات Amazon Redshift.
- بيانات الكتالوج في كتالوج بيانات AWS Glue عبر AWS SDK لـ Pandas باستخدام أخذ العينات.
أثار هذا النهج مشكلات بالنسبة لمجموعات البيانات الكبيرة، وتطلب صيانة متكررة من فريق النظام الأساسي، وكان معقدًا للتشغيل الآلي.
نظرة عامة على الحل الحالي
تمكنت Capitec من حل هذه المشكلات من خلال تكامل Amazon Redshift لـ Apache Spark ضمن مسارات إنشاء الميزات. يتم تعريف الهندسة المعمارية في الرسم البياني التالي.
يتضمن سير العمل الخطوات التالية:
- يتم تثبيت المكتبات الداخلية في مهمة AWS Glue PySpark عبر AWS CodeArtifact.
- تسترد مهمة AWS Glue بيانات اعتماد مجموعة Redshift من مدير أسرار AWS ويقوم بإعداد اتصال Amazon Redshift (إدخال بيانات اعتماد المجموعة، وتفريغ المواقع، وتنسيقات الملفات) عبر المكتبة الداخلية المشتركة. يدعم تكامل Amazon Redshift لـ Apache Spark أيضًا استخدام إدارة الهوية والوصول AWS (إيام) ل استرداد بيانات الاعتماد والاتصال بـ Amazon Redshift.
- تتم ترجمة استعلام Spark إلى استعلام Amazon Redshift المحسّن وإرساله إلى EDW. يتم تحقيق ذلك من خلال تكامل Amazon Redshift مع Apache Spark.
- يتم إلغاء تحميل مجموعة بيانات EDW في بادئة مؤقتة في ملف خدمة تخزين أمازون البسيطة دلو (أمازون S3).
- يتم تحميل مجموعة بيانات EDW من حاوية S3 إلى منفذي Spark عبر تكامل Amazon Redshift لـ Apache Spark.
- يتم تحميل مجموعة بيانات EDL إلى منفذي Spark عبر كتالوج بيانات AWS Glue.
تعمل هذه المكونات معًا للتأكد من أن مهندسي البيانات وخطوط أنابيب بيانات الإنتاج لديهم الأدوات اللازمة لتنفيذ تكامل Amazon Redshift لـ Apache Spark، وتشغيل الاستعلامات، وتسهيل تفريغ البيانات من Amazon Redshift إلى EDL.
استخدام تكامل Amazon Redshift لـ Apache Spark في AWS Glue 4.0
في هذا القسم، نوضح فائدة تكامل Amazon Redshift لـ Apache Spark من خلال إثراء جدول طلبات القروض الموجود في بحيرة بيانات S3 بمعلومات العميل من مستودع بيانات Redshift في PySpark.
• dimclient
يحتوي الجدول في Amazon Redshift على الأعمدة التالية:
- مفتاح العميل – إنت8
- ClientAltKey – فارتشار50
- رقم معرف الحزب – فارتشار20
- تاريخ إنشاء العميل - تاريخ
- تم إلغاء – إنت2
- الصف الحالي – إنت2
• loanapplication
يحتوي الجدول الموجود في كتالوج بيانات AWS Glue على الأعمدة التالية:
- معرف السجل - كبير
- تاريخ التسجيل - الطابع الزمني
- رقم معرف الحزب - خيط
تتم قراءة جدول Redshift عبر تكامل Amazon Redshift لـ Apache Spark وتخزينه مؤقتًا. انظر الكود التالي:
تتم قراءة سجلات طلبات القروض من بحيرة بيانات S3 وإثرائها بـ dimclient
الجدول الخاص بمعلومات Amazon Redshift:
ونتيجة لذلك، يتم إثراء سجل طلب القرض (من بحيرة بيانات S3) بـ ClientCreateDate
العمود (من Amazon Redshift).
كيف يعمل تكامل Amazon Redshift مع Apache Spark على حل مشكلة مصادر البيانات
يعالج تكامل Amazon Redshift لـ Apache Spark مشكلة مصادر البيانات بشكل فعال من خلال الآليات التالية:
- القراءة في الوقت المناسب - يقوم تكامل Amazon Redshift لموصل Apache Spark بقراءة جداول Redshift في الوقت المناسب، مما يضمن اتساق البيانات والمخطط. وهذا أمر ذو قيمة خاصة ل النوع 2 البعد المتغير ببطء (SCD) والفترة الزمنية لتجميع الحقائق السريعة. من خلال دمج جداول Redshift هذه مع جداول كتالوج بيانات AWS Glue Data Catalog للنظام المصدر من EDL داخل خطوط أنابيب PySpark للإنتاج، يتيح الموصل التكامل السلس للبيانات من مصادر متعددة مع الحفاظ على سلامة البيانات.
- استعلامات التحول الأحمر الأمثل - يلعب تكامل Amazon Redshift مع Apache Spark دورًا حاسمًا في تحويل خطة استعلام Spark إلى استعلام Redshift محسّن. تعمل عملية التحويل هذه على تبسيط تجربة التطوير لفريق المنتج من خلال الالتزام بمبدأ محلية البيانات. تستخدم الاستعلامات المحسنة إمكانات Amazon Redshift وتحسينات أدائها، مما يضمن استرجاع البيانات ومعالجتها بكفاءة من Amazon Redshift لخطوط أنابيب PySpark. ويساعد ذلك في تبسيط عملية التطوير مع تحسين الأداء العام لعمليات تحديد مصادر البيانات.
الحصول على أفضل أداء
يطبق تكامل Amazon Redshift لـ Apache Spark تلقائيًا الضغط على المسند والاستعلام لتحسين الأداء. يمكنك الحصول على تحسينات في الأداء باستخدام تنسيق الباركيه الافتراضي المستخدم للتفريغ باستخدام هذا التكامل.
للحصول على تفاصيل إضافية ونماذج التعليمات البرمجية، راجع جديد - تكامل Amazon Redshift مع Apache Spark.
فوائد الحل
أدى اعتماد التكامل إلى العديد من الفوائد المهمة للفريق:
- تعزيز إنتاجية المطور - عززت واجهة PySpark التي يوفرها التكامل إنتاجية المطورين بعامل 10، مما يتيح تفاعلًا أكثر سلاسة مع Amazon Redshift.
- القضاء على ازدواجية البيانات - تم التخلص من جداول Redshift المكررة والمفهرسة بواسطة AWS في بحيرة البيانات، مما أدى إلى بيئة بيانات أكثر انسيابية.
- تقليل حمل EDW - سهّل التكامل تفريغ البيانات الانتقائية، مما أدى إلى تقليل الحمل على EDW عن طريق استخراج البيانات الضرورية فقط.
باستخدام تكامل Amazon Redshift مع Apache Spark، مهدت شركة Capitec الطريق لتحسين معالجة البيانات، وزيادة الإنتاجية، ونظام بيئي أكثر كفاءة لهندسة الميزات.
وفي الختام
في هذا المنشور، ناقشنا كيف نجح فريق Capitec في تنفيذ تكامل Apache Spark Amazon Redshift لـ Apache Spark لتبسيط سير عمل حساب الميزات. وشددوا على أهمية استخدام خطوط أنابيب بيانات PySpark اللامركزية والمعيارية لإنشاء ميزات النموذج التنبؤي.
حاليًا، يتم استخدام تكامل Amazon Redshift لـ Apache Spark من خلال 7 مسارات لبيانات الإنتاج و20 مسارًا للتطوير، مما يعرض فعاليته داخل بيئة Capitec.
للمضي قدمًا، يخطط فريق منصة ميزات الخدمات المشتركة في Capitec لتوسيع اعتماد تكامل Amazon Redshift لـ Apache Spark في مجالات الأعمال المختلفة، بهدف زيادة تعزيز قدرات معالجة البيانات وتعزيز ممارسات هندسة الميزات الفعالة.
للحصول على معلومات إضافية حول استخدام تكامل Amazon Redshift لـ Apache Spark، راجع الموارد التالية:
حول المؤلف
بريشين جوبيا هو مهندس التعلم الآلي الرئيسي لمنصة الميزات في Capitec. إنه يركز على تصميم وبناء مكونات متجر الميزات لاستخدام المؤسسات. وفي أوقات فراغه يستمتع بالقراءة والسفر.
جوهان اوليفر هو أحد كبار مهندسي التعلم الآلي في منصة Capitec النموذجية. إنه رجل أعمال ومتحمس لحل المشكلات. يستمتع بالموسيقى والتواصل الاجتماعي في أوقات فراغه.
سوديبتا باجشي هو مهندس حلول متخصص أول في Amazon Web Services. يتمتع بخبرة تزيد عن 12 عامًا في مجال البيانات والتحليلات، ويساعد العملاء على تصميم وبناء حلول تحليلية قابلة للتطوير وعالية الأداء. خارج العمل، يحب الجري والسفر ولعب الكريكيت. تواصل معه على لينكدين:.
سيد حمير هو أحد كبار مهندسي الحلول المتخصصة في التحليلات في Amazon Web Services (AWS). يتمتع بخبرة تزيد عن 17 عامًا في مجال هندسة المؤسسات مع التركيز على البيانات والذكاء الاصطناعي/تعلم الآلة، مما يساعد عملاء AWS على مستوى العالم على تلبية متطلبات أعمالهم والمتطلبات الفنية. يمكنك التواصل معه على لينكدين:.
فويسا ماسوانا هو مهندس حلول أول في AWS، ومقره في كيب تاون. تركز Vuyisa بشدة على مساعدة العملاء على بناء حلول تقنية لحل مشكلات العمل. لقد دعم Capitec في رحلة AWS الخاصة بهم منذ عام 2019.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/big-data/simplifying-data-processing-at-capitec-with-amazon-redshift-integration-for-apache-spark/
- :لديها
- :يكون
- $ UP
- 06
- 1
- 10
- 100
- 12
- 16
- 17
- 19
- 20
- 2019
- 30
- 7
- a
- ماهرون
- الوصول
- يمكن الوصول
- إنجاز
- في
- إضافي
- معلومات اضافية
- وبالإضافة إلى ذلك
- العنوان
- عناوين
- الانضمام
- تبني
- بأسعار معقولة
- AI / ML
- تهدف
- وتهدف
- السماح
- يسمح
- أيضا
- أمازون
- أمازون ويب سيرفيسز
- أمازون ويب سيرفيسز (أوس)
- من بين
- an
- تحليلات
- و
- أباتشي
- أباتشي سبارك
- تطبيق
- التطبيقات
- ينطبق
- نهج
- هندسة معمارية
- هي
- المناطق
- AS
- At
- أتمتة
- تلقائيا
- AWS
- غراء AWS
- مصرف
- البنوك والمصارف
- على أساس
- لان
- سلوك
- تستفيد
- الفوائد
- أفضل
- أفضل
- ما بين
- أكبر
- عززت
- على حد سواء
- أوسع
- نساعدك في بناء
- ابني
- بنيت
- الأعمال
- by
- CAN
- قدرات
- كيب تاون
- فيزا وماستركارد
- الأقسام
- متغير
- زبون
- عميل
- كتلة
- CO
- الكود
- عمود
- الأعمدة
- الجمع بين
- مجمع
- مكونات
- حساب
- التواصل
- صلة
- ثابتة
- يحتوي
- سياق الكلام
- تحويل
- التحول
- خلق
- خلق
- أوراق اعتماد
- ائتمان
- بطاقة إئتمان
- كريكيت
- حاسم
- على
- العملاء
- يوميا
- البيانات
- بحيرة البيانات
- معالجة المعلومات
- مستودع البيانات
- قواعد البيانات
- اللامركزية
- الترتيب
- تعريف
- شرح
- تصميم
- تصميم
- تفاصيل
- تطوير
- المطور
- المطورين
- التطوير التجاري
- مختلف
- بعد
- الأبعاد
- بحث
- ناقش
- وزعت
- عدة
- بسهولة
- النظام الإيكولوجي
- على نحو فعال
- فعالية
- كفاءة
- فعال
- جهد
- اقصاء
- وأكد
- تمكن
- تمكين
- مهندس
- الهندسة
- المهندسين
- تعزيز
- تعزيز
- المخصب
- إثراء
- ضمان
- ضمان
- مشروع
- متحمس
- ريادي
- البيئة
- أساسي
- الأثير (ETH)
- القائمة
- وسع
- توسع
- الخبره في مجال الغطس
- تسهيل
- يسر
- حقيقة
- عامل
- حقائق
- FAST
- الميزات
- المميزات
- قم بتقديم
- مالي
- الخدمات المالية
- ويرى
- تركز
- ركز
- التركيز
- متابعيك
- في حالة
- شكل
- إلى الأمام
- متكرر
- تبدأ من
- وظائف
- إضافي
- ربح
- جيل
- دولار فقط واحصل على خصم XNUMX% على جميع
- GitHub جيثب:
- على الصعيد العالمي
- معالجة
- يملك
- he
- مساعدة
- مساعدة
- يساعد
- وسلم
- له
- كيفية
- HTML
- HTTP
- HTTPS
- IAM
- هوية
- هوية
- تنفيذ
- نفذت
- استيراد
- أهمية
- تحسن
- تحسينات
- in
- شامل
- يشمل
- زيادة
- معلومات
- دمج
- التكامل
- سلامة
- تفاعل
- السطح البيني
- داخلي
- إلى
- مسائل
- IT
- انها
- جافا
- وظيفة
- الانضمام
- انضم
- رحلة
- بحيرة
- اللغات
- كبير
- على نطاق واسع
- قيادة
- تعلم
- اليسار
- المكتبات
- المكتبة
- مثل
- لينكدين:
- حي
- تحميل
- قرض
- المواقع
- يحب
- آلة
- آلة التعلم
- المحافظة
- صيانة
- القيام ب
- أسلوب
- يدويا
- آلية
- آليات
- مليون
- التقليل
- دقائق
- ML
- نموذج
- عارضات ازياء
- وحدات
- مراقبة
- شهريا
- الأكثر من ذلك
- أكثر فعالية
- متعدد
- موسيقى
- ضروري
- of
- عروض
- أوليفييه
- on
- فقط
- جاكيت
- المصدر المفتوح
- عمليات
- الأمثل
- الأمثل
- الأمثل
- طلب
- في الخارج
- على مدى
- الكلي
- الباندا
- خاصة
- كلمة المرور
- إلى
- أداء
- خطة
- خطط
- المنصة
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- بلايستشن
- لعب
- يلعب
- الرائج
- طرح
- إمكانيات
- منشور
- الممارسات
- تنبؤي
- سابق
- مبدأ
- المشكلة
- حل المشاكل
- مشاكل
- عملية المعالجة
- معالجة
- المنتج
- الإنتــاج
- إنتاجية
- تعزيز
- تزود
- المقدمة
- بايثون
- الاستفسارات
- بسرعة
- R
- نطاق
- عرض
- نادي القراءة
- في الوقت الحقيقي
- سجل
- تسجيل
- متكرر
- عقار مخفض
- الرجوع
- الموثوقية
- مشهور
- تطلب
- مطلوب
- المتطلبات الأساسية
- حل
- الموارد
- نتيجة
- مما أدى
- بيع بالتجزئة
- الخدمات المصرفية للأفراد
- النوع
- يجري
- تشغيل
- راتب
- SC
- سكالا
- تحجيم
- نطاق
- الإستراحة
- سلس
- بسلاسة
- أسرار
- القسم
- انظر تعريف
- مختار
- اختيار
- انتقائي
- كبير
- خدماتنا
- باكجات
- عدة
- شاركت
- التفضيل
- هام
- الاشارات
- تبسيط
- تبسيط
- منذ
- ببطء
- سلاسة
- لقطة
- So
- التنشئة الاجتماعية
- حل
- الحلول
- حل
- يحل
- مصدر
- مصادر
- مصادر
- جنوب
- شرارة
- متخصص
- قضى
- SQL
- بدأت
- خطوات
- تخزين
- تخزين
- تبسيط
- تبسيط
- خيط
- قوي
- المقدمة
- ناجح
- بنجاح
- مدعومة
- الدعم
- نظام
- جدول
- فريق
- تقني
- مؤقت
- الاختبار
- أن
- •
- المصدر
- من مشاركة
- منهم
- then
- تشبه
- هم
- عبر
- الوقت
- إلى
- سويا
- أدوات
- بلدة
- المعاملات
- السفر
- URL
- تستخدم
- مستعمل
- استخدام
- سهل حياتك
- تستخدم
- استخدام
- القيمة
- بواسطة
- المخزن
- وكان
- طريق..
- we
- الويب
- خدمات ويب
- كان
- في حين
- مع
- في غضون
- للعمل
- العمل معا
- سير العمل
- سير العمل
- عامل
- اكتب
- سنوات
- أسفرت
- لصحتك!
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت
- صفر