הפוסט הזה נכתב בשיתוף עם Preshen Goobiah ו-Johan Olivier מ-Capitec.
Apache Spark היא מערכת עיבוד מבוזרת בשימוש נרחב בקוד פתוח הידועה בטיפול בעומסי עבודה בקנה מידה גדול של נתונים. זה מוצא יישומים תכופים בקרב מפתחי Spark שעובדים איתם אמזון EMR, אמזון SageMaker, דבק AWS ויישומי Spark מותאמים אישית.
האדום של אמזון מציע אינטגרציה חלקה עם Apache Spark, המאפשר לך לגשת בקלות לנתוני Redshift שלך בשני אשכולות אספקת אמזון Redshift וגם אמזון ללא שרתים לאדום. אינטגרציה זו מרחיבה את האפשרויות לפתרונות AWS ניתוח ולמידת מכונה (ML), מה שהופך את מחסן הנתונים לנגיש למגוון רחב יותר של יישומים.
עם אינטגרציה של אמזון Redshift עבור Apache Spark, אתה יכול להתחיל במהירות ולפתח ללא מאמץ יישומי Spark תוך שימוש בשפות פופולריות כמו Java, Scala, Python, SQL ו-R. היישומים שלך יכולים לקרוא ולכתוב בצורה חלקה ממחסן הנתונים של Amazon Redshift שלך תוך שמירה על ביצועים מיטביים ועקביות עסקה. בנוסף, תוכל להפיק תועלת משיפורי ביצועים באמצעות אופטימיזציות של דחיפה, תוך שיפור היעילות של הפעילות שלך.
קפיטק, הבנק הקמעונאי הגדול ביותר בדרום אפריקה עם למעלה מ-21 מיליון לקוחות בנקאות קמעונאית, שואף לספק שירותים פיננסיים פשוטים, סבירים ונגישים על מנת לעזור לדרום אפריקה לבנק טוב יותר כדי שיוכלו לחיות טוב יותר. בפוסט זה, אנו דנים בשילוב המוצלח של מחבר הקוד הפתוח של Amazon Redshift על ידי צוות השירותים המשותפים של Capitec Feature Platform. כתוצאה משימוש באינטגרציה של Amazon Redshift עבור Apache Spark, פרודוקטיביות המפתחים עלתה בפקטור של 10, צינורות ייצור התכונות יועלו ושכפול הנתונים הצטמצם לאפס.
ההזדמנות העסקית
ישנם 19 מודלים חזויים בטווח של שימוש ב-93 תכונות שנבנו עם AWS Glue על פני חטיבות האשראי הקמעונאי של Capitec. רשומות תכונות מועשרות בעובדות וממדים המאוחסנים באמזון Redshift. Apache PySpark נבחרה ליצור תכונות מכיוון שהיא מציעה מנגנון מהיר, מבוזר וניתן להרחבה לסכסוך נתונים ממקורות מגוונים.
תכונות הייצור הללו ממלאות תפקיד מכריע בהפעלת בקשות להלוואות לזמן קצוב בזמן אמת, בקשות לכרטיסי אשראי, ניטור התנהגות אשראי חודשי של אצווה וזיהוי משכורת יומית אצווה בתוך העסק.
בעיית מיקור הנתונים
כדי להבטיח את המהימנות של צינורות הנתונים של PySpark, חיוני שיהיו נתונים עקביים ברמת הרשומה הן מטבלאות ממדים והן מטבלאות עובדות המאוחסנים במחסן הנתונים הארגוני (EDW). לאחר מכן, טבלאות אלו מצטרפות לטבלאות מ- Enterprise Data Lake (EDL) בזמן ריצה.
במהלך פיתוח תכונות, מהנדסי נתונים דורשים ממשק חלק ל-EDW. ממשק זה מאפשר להם לגשת ולשלב את הנתונים הדרושים מה-EDW לתוך צינורות הנתונים, מה שמאפשר פיתוח ובדיקה יעילים של תכונות.
תהליך פתרון קודם
בפתרון הקודם, מהנדסי נתונים של צוות מוצר השקיעו 30 דקות בכל ריצה כדי לחשוף באופן ידני נתוני Redshift ל-Spark. השלבים כללו את הדברים הבאים:
- בנה שאילתה מבוססת ב- Python.
- שלח לִפְרוֹק שאילתה דרך ה ממשק API של Redshift Data של אמזון.
- נתוני קטלוג בקטלוג נתוני הדבק של AWS דרך AWS SDK עבור פנדות באמצעות דגימה.
גישה זו הציבה בעיות עבור מערכי נתונים גדולים, דרשה תחזוקה חוזרת מצוות הפלטפורמה והייתה מורכבת לאוטומציה.
סקירת פתרונות נוכחית
Capitec הצליחה לפתור את הבעיות הללו עם האינטגרציה של Amazon Redshift עבור Apache Spark בתוך צינורות יצירת תכונות. הארכיטקטורה מוגדרת בתרשים הבא.
זרימת העבודה כוללת את השלבים הבאים:
- ספריות פנימיות מותקנות בעבודת AWS Glue PySpark באמצעות AWS קוד חפץ.
- עבודת דבק של AWS מאחזרת את אישורי אשכול האדום מנהל סודות AWS ומגדיר את החיבור של Amazon Redshift (מזריק אישורי אשכול, פריקת מיקומים, פורמטים של קבצים) באמצעות הספרייה הפנימית המשותפת. השילוב של Amazon Redshift עבור Apache Spark תומך גם בשימוש AWS זהות וניהול גישה (גם אני לאחזר אישורים ולהתחבר לאמזון Redshift.
- שאילתת Spark מתורגמת לשאילתה מותאמת ל-Amazon Redshift ומוגשת ל-EDW. זה מושג על ידי השילוב של Amazon Redshift עבור Apache Spark.
- מערך הנתונים של EDW נפרק לתוך קידומת זמנית ב-an שירות אחסון פשוט של אמזון (אמזון S3) דלי.
- מערך הנתונים של EDW מ-S3 נטען למבצעי Spark באמצעות האינטגרציה של Amazon Redshift עבור Apache Spark.
- מערך הנתונים של EDL נטען למבצעי Spark באמצעות קטלוג הנתונים של דבק של AWS.
רכיבים אלה פועלים יחד כדי להבטיח שלמהנדסי נתונים ולצינורות נתוני ייצור יש את הכלים הדרושים כדי ליישם את האינטגרציה של Amazon Redshift עבור Apache Spark, להריץ שאילתות ולהקל על פריקת הנתונים מאמזון Redshift ל-EDL.
שימוש באינטגרציה של Amazon Redshift עבור Apache Spark ב-AWS Glue 4.0
בסעיף זה, אנו מדגימים את התועלת של האינטגרציה של Amazon Redshift עבור Apache Spark על ידי העשרת טבלת בקשת הלוואות השוכנת באגם הנתונים S3 במידע על הלקוח ממחסן הנתונים Redshift ב-PySpark.
השמיים dimclient
הטבלה באמזון Redshift מכילה את העמודות הבאות:
- ClientKey - INT8
- ClientAltKey – VARCHAR50
- PartyIdentifierNumber – VARCHAR20
- ClientCreateDate – DATE
- זה בוטל - INT2
- RowIsCurrent - INT2
השמיים loanapplication
הטבלה בקטלוג הנתונים של דבק AWS מכילה את העמודות הבאות:
- מזהה רשומה – BIGINT
- LogDate – חותמת זמן
- PartyIdentifierNumber – STRING
הטבלה לאדום נקראת באמצעות האינטגרציה של Amazon Redshift עבור Apache Spark ונשמרת במטמון. ראה את הקוד הבא:
רשומות בקשות להלוואה נקראות מאגם הנתונים S3 ומועשרות ב- dimclient
טבלה על מידע על היסט לאדום של אמזון:
כתוצאה מכך, רשומת הבקשה להלוואה (מאגם הנתונים S3) מועשרת ב- ClientCreateDate
עמודה (מאמזון Redshift).
כיצד השילוב של Amazon Redshift עבור Apache Spark פותר את בעיית מיקור הנתונים
האינטגרציה של Amazon Redshift עבור Apache Spark מטפלת ביעילות בבעיית מיקור הנתונים באמצעות המנגנונים הבאים:
- קריאה בדיוק בזמן - השילוב של Amazon Redshift עבור מחבר Apache Spark קורא טבלאות Redshift בצורה בדיוק בזמן, ומבטיח את העקביות של הנתונים והסכימה. זה חשוב במיוחד עבור סוג 2 ממד משתנה לאט (SCD) ותוחלת זמן צבירת עובדות תמונת מצב. על ידי שילוב טבלאות Redshift אלה עם טבלאות ה-AWS Glue Data Catalog של מערכת המקור מה-EDL בתוך צינורות PySpark בייצור, המחבר מאפשר אינטגרציה חלקה של נתונים ממקורות מרובים תוך שמירה על שלמות הנתונים.
- שאילתות אופטימליות של היסט לאדום - השילוב של Amazon Redshift עבור Apache Spark ממלא תפקיד מכריע בהמרת תוכנית השאילתות Spark לשאילתת Redshift אופטימלית. תהליך המרה זה מפשט את חווית הפיתוח עבור צוות המוצר על ידי הקפדה על עקרון מקומיות הנתונים. השאילתות המוטבות משתמשות ביכולות ובאופטימיזציות של הביצועים של Amazon Redshift, מה שמבטיח אחזור ועיבוד נתונים יעילים מאמזון Redshift עבור צינורות PySpark. זה עוזר לייעל את תהליך הפיתוח תוך שיפור הביצועים הכוללים של פעולות מיקור הנתונים.
להשיג את הביצועים הטובים ביותר
האינטגרציה של Amazon Redshift עבור Apache Spark מפעילה אוטומטית פרדיקטים ודחיפה של שאילתה כדי לייעל את הביצועים. אתה יכול להשיג שיפורי ביצועים על ידי שימוש בפורמט הפרקט המוגדר כברירת מחדל המשמש לפריקה עם שילוב זה.
לפרטים נוספים ודוגמאות קוד, עיין ב חדש - אינטגרציה של אמזון לאדום עם Apache Spark.
יתרונות פתרון
אימוץ האינטגרציה הניב מספר יתרונות משמעותיים לצוות:
- פרודוקטיביות מפתחים משופרת - ממשק PySpark שסופק על ידי האינטגרציה הגביר את פרודוקטיביות המפתחים בפקטור של 10, ואיפשר אינטראקציה חלקה יותר עם Amazon Redshift.
- ביטול כפילות נתונים - טבלאות Redshift מקוטלגות כפולות ו-AWS Glue באגם הנתונים בוטלו, וכתוצאה מכך סביבת נתונים יעילה יותר.
- עומס EDW מופחת – האינטגרציה הקלה על פריקת נתונים סלקטיבית, תוך מזעור העומס על ה-EDW על ידי חילוץ הנתונים הדרושים בלבד.
על ידי שימוש באינטגרציה של Amazon Redshift עבור Apache Spark, Capitec סללה את הדרך לשיפור עיבוד הנתונים, פרודוקטיביות מוגברת ומערכת אקולוגית הנדסית תכונות יעילה יותר.
סיכום
בפוסט זה, דנו כיצד צוות Capitec הטמיע בהצלחה את השילוב של Apache Spark Amazon Redshift עבור Apache Spark כדי לפשט את זרימות העבודה של חישוב התכונות שלהם. הם הדגישו את החשיבות של שימוש בצינורות נתונים מבוזרים ומודולריים של PySpark ליצירת תכונות מודל חזוי.
נכון לעכשיו, האינטגרציה של Amazon Redshift עבור Apache Spark מנוצלת על ידי 7 צינורות נתוני ייצור ו-20 צינורות פיתוח, מה שמציג את יעילותה בתוך הסביבה של Capitec.
בהמשך, צוות Feature Platform של השירותים המשותפים ב-Capitec מתכנן להרחיב את האימוץ של האינטגרציה של Amazon Redshift עבור Apache Spark בתחומים עסקיים שונים, במטרה לשפר עוד יותר את יכולות עיבוד הנתונים ולקדם שיטות הנדסת תכונות יעילות.
למידע נוסף על שימוש באינטגרציה של Amazon Redshift עבור Apache Spark, עיין במשאבים הבאים:
על הכותבים
פרשן גוביה הוא מהנדס למידת מכונה המוביל עבור פלטפורמת התכונות ב-Capitec. הוא מתמקד בתכנון ובניית רכיבי Feature Store לשימוש ארגוני. בזמנו הפנוי הוא נהנה לקרוא ולטייל.
יוהאן אוליבייה הוא מהנדס בכיר למידת מכונה עבור פלטפורמת המודלים של Capitec. הוא יזם וחובב פתרון בעיות. הוא נהנה ממוזיקה ומפגשים חברתיים בזמנו הפנוי.
סודיפטה באגצ'י הוא ארכיטקט פתרונות מומחה בכיר בשירותי האינטרנט של אמזון. יש לו למעלה מ-12 שנות ניסיון בנתונים ואנליטיקה, והוא עוזר ללקוחות לעצב ולבנות פתרונות אנליטיקה ניתנים להרחבה ובעלי ביצועים גבוהים. מחוץ לעבודה, הוא אוהב לרוץ, לטייל ולשחק קריקט. התחבר אליו הלאה לינקדין.
סייד הומאיר הוא ארכיטקט פתרונות מומחה באנליטיקה בכיר בשירותי האינטרנט של אמזון (AWS). יש לו למעלה מ-17 שנות ניסיון בארכיטקטורה ארגונית תוך התמקדות ב-Data ו-AI/ML, ועוזר ללקוחות AWS ברחבי העולם לתת מענה לדרישות העסקיות והטכניות שלהם. אתה יכול להתחבר אליו הלאה לינקדין.
ווייסה מסוואנה הוא אדריכל פתרונות בכיר ב-AWS, שבסיסו בקייפטאון. ל-Vuyisa יש התמקדות חזקה בסיוע ללקוחות לבנות פתרונות טכניים לפתרון בעיות עסקיות. הוא תמך בקפיטק במסע ה-AWS שלהם מאז 2019.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/big-data/simplifying-data-processing-at-capitec-with-amazon-redshift-integration-for-apache-spark/
- :יש ל
- :הוא
- $ למעלה
- 06
- 1
- 10
- 100
- 12
- 16
- 17
- 19
- 20
- 2019
- 30
- 7
- a
- יכול
- גישה
- נגיש
- מושלם
- לרוחב
- נוסף
- מידע נוסף
- בנוסף
- כתובת
- כתובות
- דבקות
- אימוץ
- מחיר סביר
- AI / ML
- מכוון
- מטרות
- מאפשר
- מאפשר
- גם
- אמזון בעברית
- אמזון שירותי אינטרנט
- אמזון שירותי אינטרנט (AWS)
- בין
- an
- ניתוח
- ו
- אַפָּשׁ
- אפאצ 'י ספארק
- בקשה
- יישומים
- חל
- גישה
- ארכיטקטורה
- ARE
- אזורים
- AS
- At
- אוטומטי
- באופן אוטומטי
- AWS
- דבק AWS
- בנק
- בנקאות
- מבוסס
- כי
- התנהגות
- תועלת
- הטבות
- הטוב ביותר
- מוטב
- בֵּין
- הגדול ביותר
- שיפרה
- שניהם
- רחב
- לִבנוֹת
- בִּניָן
- נבנה
- עסקים
- by
- CAN
- יכולות
- כובע
- כרטיס
- קטלוג
- משתנה
- לקוחות
- לקוחות
- אשכול
- CO
- קוד
- טור
- עמודות
- שילוב
- מורכב
- רכיבים
- חישוב
- לְחַבֵּר
- הקשר
- עִקבִי
- מכיל
- הקשר
- המרה
- המרת
- לִיצוֹר
- יוצרים
- אישורים
- אשראי
- כרטיס אשראי
- קריקט
- מכריע
- מנהג
- לקוחות
- יומי
- נתונים
- אגם דאטה
- עיבוד נתונים
- מחסן נתונים
- מערכי נתונים
- מבוזר
- בְּרִירַת מֶחדָל
- מוגדר
- להפגין
- עיצוב
- תכנון
- פרטים
- לפתח
- מפתח
- מפתחים
- צעצועי התפתחות
- אחר
- מֵמַד
- ממדים
- לדון
- נָדוֹן
- מופץ
- שונה
- בקלות
- המערכת האקולוגית
- יעילות
- יְעִילוּת
- יְעִילוּת
- יעיל
- ללא מאמץ
- בוטלו
- הדגיש
- מאפשר
- מה שמאפשר
- מהנדס
- הנדסה
- מהנדסים
- להגביר את
- שיפור
- מועשר
- מעשיר
- לְהַבטִיחַ
- הבטחתי
- מִפְעָל
- נלהב
- יזם
- סביבה
- חיוני
- Ether (ETH)
- קיימים
- לְהַרְחִיב
- מתרחב
- ניסיון
- לְהַקֵל
- הקל
- עובדה
- גורם
- עובדות
- מהר
- מאפיין
- תכונות
- שלח
- כספי
- שירותים פיננסיים
- ממצאים
- להתמקד
- מרוכז
- התמקדות
- הבא
- בעד
- פוּרמָט
- קדימה
- תכוף
- החל מ-
- פונקציות
- נוסף
- לְהַשִׂיג
- דור
- לקבל
- GitHub
- ברחבי עולם
- טיפול
- יש
- he
- לעזור
- עזרה
- עוזר
- לו
- שֶׁלוֹ
- איך
- HTML
- http
- HTTPS
- IAM
- הזדהות
- זהות
- ליישם
- יושם
- לייבא
- חשיבות
- משופר
- שיפורים
- in
- כלול
- כולל
- גדל
- מידע
- לשלב
- השתלבות
- שלמות
- אינטראקציה
- מִמְשָׁק
- פנימי
- אל תוך
- בעיות
- IT
- שֶׁלָה
- Java
- עבודה
- להצטרף
- הצטרף
- מסע
- אגם
- שפות
- גָדוֹל
- בקנה מידה גדול
- עוֹפֶרֶת
- למידה
- עזבו
- ספריות
- סִפְרִיָה
- כמו
- לינקדין
- לחיות
- לִטעוֹן
- להלוות
- מקומות
- אוהב
- מכונה
- למידת מכונה
- שמירה
- תחזוקה
- עשייה
- דרך
- באופן ידני
- מנגנון
- מנגנוני
- מִילִיוֹן
- מזעור
- דקות
- ML
- מודל
- מודלים
- מודולרי
- ניטור
- אחת לחודש
- יותר
- יותר יעיל
- מספר
- כלי נגינה
- הכרחי
- of
- המיוחדות שלנו
- זית
- on
- רק
- לפתוח
- קוד פתוח
- תפעול
- אופטימלי
- מטב
- אופטימיזציה
- להזמין
- בחוץ
- יותר
- מקיף
- דובי פנדה
- במיוחד
- סיסמה
- עבור
- ביצועים
- תכנית
- תוכניות
- פלטפורמה
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- לְשַׂחֵק
- משחק
- משחק
- פופולרי
- הנשקף
- אפשרויות
- הודעה
- פרקטיקות
- מנבא
- קודם
- עקרון
- בעיה
- פתרון בעיות
- בעיות
- תהליך
- תהליך
- המוצר
- הפקה
- פִּריוֹן
- לקדם
- לספק
- ובלבד
- פיתון
- שאילתות
- מהירות
- R
- רכס
- חומר עיוני
- קריאה
- זמן אמת
- שיא
- רשום
- חוזר
- מופחת
- להתייחס
- אמינות
- ידוע
- לדרוש
- נדרש
- דרישות
- לפתור
- משאבים
- תוצאה
- וכתוצאה מכך
- קמעוני
- בנקאות קמעונאית
- תפקיד
- הפעלה
- ריצה
- משכורת
- SC
- סולם
- להרחבה
- היקף
- Sdk
- בצורה חלקה
- בצורה חלקה
- סודות
- סעיף
- לִרְאוֹת
- נבחר
- בחירה
- סֶלֶקטִיבִי
- לחצני מצוקה לפנסיונרים
- שירותים
- סטים
- כמה
- משותף
- לראווה
- משמעותי
- פָּשׁוּט
- לפשט
- מפשט
- since
- לאט
- חלק יותר
- תמונת בזק
- So
- חברתי
- פִּתָרוֹן
- פתרונות
- לפתור
- פותר
- מָקוֹר
- מקורות
- המקור
- דרום
- לעורר
- מומחה
- בילה
- SQL
- החל
- צעדים
- אחסון
- מאוחסן
- לייעל
- זִרמִי
- מחרוזת
- חזק
- הוגש
- מוצלח
- בהצלחה
- נתמך
- תומך
- מערכת
- שולחן
- נבחרת
- טכני
- זמני
- בדיקות
- זֶה
- השמיים
- המקור
- שֶׁלָהֶם
- אותם
- אז
- אלה
- הֵם
- זֶה
- דרך
- זמן
- ל
- יַחַד
- כלים
- עיר
- טרנזקציות
- נסיעה
- כתובת האתר
- להשתמש
- מְשׁוּמָשׁ
- באמצעות
- תועלת
- מנוצל
- ניצול
- בעל ערך
- באמצעות
- מחסן
- היה
- דֶרֶך..
- we
- אינטרנט
- שירותי אינטרנט
- היו
- בזמן
- עם
- בתוך
- תיק עבודות
- לעבוד יחד
- זרימת עבודה
- זרימות עבודה
- עובד
- לכתוב
- שנים
- הניב
- אתה
- זפירנט
- אפס