חבר את משרות ה-ETL שלך עבור MongoDB Atlas עם AWS Glue

חבר את משרות ה-ETL שלך עבור MongoDB Atlas עם AWS Glue

צומת המקור: 2634433

בסביבה העסקית מונעת הנתונים של ימינו, ארגונים מתמודדים עם האתגר של הכנה יעילה ושינוי של כמויות גדולות של נתונים למטרות ניתוח ומדעי נתונים. עסקים צריכים לבנות מחסני נתונים ואגמי נתונים על בסיס נתונים תפעוליים. זה מונע על ידי הצורך לרכז ולשלב נתונים המגיעים ממקורות שונים.

יחד עם זאת, נתונים תפעוליים מגיעים לרוב מיישומים המגובים על ידי מאגרי מידע מדור קודם. מודרניזציה של יישומים דורשת ארכיטקטורת שירות מיקרו, אשר בתורה מחייבת איחוד נתונים ממקורות מרובים כדי לבנות מאגר נתונים תפעולי. ללא מודרניזציה, יישומים מדור קודם עשויים לגרור עלויות תחזוקה גוברת. מודרניזציה של יישומים כרוכה בשינוי מנוע מסד הנתונים הבסיסי למסד נתונים מודרני מבוסס מסמכים כמו MongoDB.

שתי המשימות הללו (בניית אגמי נתונים או מחסני נתונים ומודרניזציה של יישומים) כוללות תנועת נתונים, המשתמשת בתהליך חילוץ, טרנספורמציה וטעינה (ETL). עבודת ה-ETL היא פונקציונליות מפתח לקיום תהליך מובנה היטב כדי להצליח.

דבק AWS הוא שירות שילוב נתונים ללא שרת המאפשר לגלות, להכין, להעביר ולשלב נתונים ממקורות מרובים לניתוח, למידת מכונה (ML) ופיתוח יישומים. MongoDB אטלס היא חבילה משולבת של מסדי נתונים בענן ושירותי נתונים המשלבת עיבוד עסקאות, חיפוש מבוסס רלוונטיות, ניתוח בזמן אמת וסנכרון נתונים מהנייד לענן בארכיטקטורה אלגנטית ומשולבת.

על ידי שימוש ב-AWS Glue עם MongoDB Atlas, ארגונים יכולים לייעל את תהליכי ה-ETL שלהם. עם פתרון מסד הנתונים המנוהל, הניתן להרחבה והמאובטח שלו, MongoDB Atlas מספק סביבה גמישה ואמינה לאחסון וניהול נתונים תפעוליים. יחד, AWS Glue ETL ו-MongoDB Atlas הם פתרון רב עוצמה עבור ארגונים המעוניינים לייעל את האופן שבו הם בונים אגמי נתונים ומחסני נתונים, ולחדש את היישומים שלהם, על מנת לשפר את הביצועים העסקיים, להפחית עלויות ולהניע צמיחה והצלחה.

בפוסט זה, אנו מדגימים כיצד להעביר נתונים מ שירות אחסון פשוט של אמזון (Amazon S3) דליים ל-MongoDB Atlas באמצעות AWS Glue ETL, וכיצד לחלץ נתונים מ-MongoDB Atlas לתוך אגם נתונים מבוסס אמזון S3.

סקירת פתרונות

בפוסט זה, אנו בוחנים את מקרי השימוש הבאים:

  • חילוץ נתונים מ- MongoDB - MongoDB הוא מסד נתונים פופולרי המשמש אלפי לקוחות לאחסון נתוני יישומים בקנה מידה. לקוחות ארגוניים יכולים לרכז ולשלב נתונים המגיעים ממספר מאגרי נתונים על ידי בניית אגמי נתונים ומחסני נתונים. תהליך זה כולל חילוץ נתונים ממאגרי הנתונים התפעוליים. כאשר הנתונים נמצאים במקום אחד, לקוחות יכולים להשתמש בהם במהירות לצרכי בינה עסקית או עבור ML.
  • הטמעת נתונים לתוך MongoDB - MongoDB משמש גם כבסיס נתונים ללא SQL לאחסון נתוני יישומים ובניית מאגרי נתונים תפעוליים. מודרניזציה של יישומים כרוכה לרוב בהעברה של החנות התפעולית ל- MongoDB. לקוחות יצטרכו לחלץ נתונים קיימים מבסיסי נתונים יחסיים או מקבצים שטוחים. אפליקציות מובייל ואינטרנט דורשות לעתים קרובות מהנדסי נתונים לבנות צינורות נתונים כדי ליצור תצוגה יחידה של נתונים ב-Atlas תוך הכנסת נתונים ממקורות סגורים מרובים. במהלך הגירה זו, הם יצטרכו להצטרף למאגרי מידע שונים כדי ליצור מסמכים. פעולת הצטרפות מורכבת זו תזדקק לכוח מחשוב חד פעמי משמעותי. מפתחים יצטרכו גם לבנות את זה במהירות כדי להעביר את הנתונים.

AWS Glue שימושי במקרים אלה עם מודל ה-pay-as-you-go והיכולת שלו להריץ טרנספורמציות מורכבות על פני מערכי נתונים ענקיים. מפתחים יכולים להשתמש ב-AWS Glue Studio כדי ליצור ביעילות צינורות נתונים כאלה.

התרשים הבא מציג את זרימת העבודה של חילוץ הנתונים מ- MongoDB Atlas לתוך דלי S3 באמצעות AWS Glue Studio.

חילוץ נתונים מ- MongoDB Atlas לתוך Amazon S3

על מנת ליישם ארכיטקטורה זו, תזדקק לאשכול MongoDB Atlas, דלי S3 ו- AWS זהות וניהול גישה (IAM) תפקיד עבור AWS Glue. כדי להגדיר משאבים אלה, עיין בשלבים המוקדמים להלן GitHub ריפו.

האיור הבא מציג את זרימת העבודה של טעינת הנתונים מדלי S3 לתוך MongoDB Atlas באמצעות דבק AWS.

טעינת נתונים מאמזון S3 לתוך MongoDB Atlas

יש צורך באותם תנאים מוקדמים כאן: דלי S3, תפקיד IAM ואשכול MongoDB Atlas.

טען נתונים מאמזון S3 ל- MongoDB Atlas באמצעות דבק AWS

השלבים הבאים מתארים כיצד לטעון נתונים מדלי S3 לתוך MongoDB Atlas באמצעות עבודת דבק של AWS. תהליך החילוץ מ- MongoDB Atlas לאמזון S3 דומה מאוד, למעט הסקריפט שבו נעשה שימוש. אנו קוראים להבדלים בין שני התהליכים.

  1. צור אשכול בחינם ב- MongoDB Atlas.
  2. העלה את ה- קובץ JSON לדוגמה לדלי S3 שלך.
  3. צור עבודה חדשה של AWS Glue Studio עם עורך תסריט של Spark אוֹפְּצִיָה.

Glue Studio Job Creation UI

  1. תלוי אם ברצונך לטעון או לחלץ נתונים מאשכול MongoDB Atlas, הזן את טען סקריפט or לחלץ סקריפט בעורך התסריט של AWS Glue Studio.

צילום המסך הבא מציג קטע קוד לטעינת נתונים לתוך אשכול MongoDB Atlas.

קטע קוד לטעינת נתונים לתוך MongoDB Atlas

הקוד משתמש מנהל סודות AWS כדי לאחזר את שם אשכול MongoDB Atlas, שם משתמש וסיסמה. לאחר מכן, זה יוצר א DynamicFrame עבור דלי S3 ושם הקובץ שהועברו לסקריפט כפרמטרים. הקוד מאחזר את שמות מסד הנתונים והאוסף מתצורת פרמטרי העבודה. לבסוף, הקוד כותב את DynamicFrame לאשכול MongoDB Atlas באמצעות הפרמטרים שאוחזרו.

  1. צור תפקיד IAM עם ההרשאות כפי שמוצג בצילום המסך הבא.

לפרטים נוספים עיין ב הגדר תפקיד IAM עבור עבודת ה-ETL שלך.

הרשאות תפקיד של IAM

  1. תן שם למשרה וספק את תפקיד IAM שנוצר בשלב הקודם ב- פרטי עבודה TAB.
  2. אתה יכול להשאיר את שאר הפרמטרים כברירת מחדל, כפי שמוצג בצילומי המסך הבאים.
    פרטי עבודהפרטי המשרה המשיכו
  3. לאחר מכן, הגדר את פרמטרי העבודה שבהם הסקריפט משתמש וספק את ערכי ברירת המחדל.
    פרמטרים של קלט עבודה
  4. שמור את העבודה והפעל אותה.
  5. כדי לאשר הפעלה מוצלחת, צפה בתוכן של אוסף מסד הנתונים של MongoDB Atlas אם אתה טוען את הנתונים, או בדלי S3 אם אתה מבצע חילוץ.

צילום המסך הבא מציג את התוצאות של טעינת נתונים מוצלחת מדלי של Amazon S3 לתוך אשכול MongoDB Atlas. הנתונים זמינים כעת עבור שאילתות בממשק המשתמש של MongoDB Atlas.
נתונים נטענו לתוך MongoDB Atlas Cluster

  1. כדי לפתור בעיות בריצות שלך, עיין ב- אמזון CloudWatch יומנים באמצעות הקישור על העבודה הפעלה TAB.

צילום המסך הבא מראה שהעבודה רצה בהצלחה, עם פרטים נוספים כגון קישורים ליומני CloudWatch.

פרטי ריצת עבודה מוצלחת

סיכום

בפוסט זה, תיארנו כיצד לחלץ ולהטמיע נתונים ל- MongoDB Atlas באמצעות דבק AWS.

עם משרות AWS Glue ETL, אנו יכולים כעת להעביר את הנתונים מ- MongoDB Atlas למקורות התואמים AWS Glue, ולהיפך. אתה יכול גם להרחיב את הפתרון לבניית אנליטיקה באמצעות שירותי AWS AI ו-ML.

למידע נוסף, עיין ב- מאגר GitHub להוראות שלב אחר שלב וקוד לדוגמה. אתה יכול לרכוש MongoDB אטלס ב-AWS Marketplace.


על הכותבים

איגור אלכסייב הוא ארכיטקט פתרונות שותפים בכיר ב-AWS בתחום הנתונים והאנליטיקס. בתפקידו איגור עובד עם שותפים אסטרטגיים המסייעים להם לבנות ארכיטקטורות מורכבות ומותאמות ל-AWS. לפני שהצטרף ל-AWS, כאדריכל Data/Solution הוא יישם פרויקטים רבים בתחום הביג דאטה, כולל מספר אגמי נתונים באקוסיסטם של Hadoop. כמהנדס נתונים הוא היה מעורב ביישום AI/ML לאיתור הונאה ואוטומציה משרדית.


באבו סריניוואסן
הוא אדריכל פתרונות שותפים בכיר ב- MongoDB. בתפקידו הנוכחי, הוא עובד עם AWS כדי לבנות את האינטגרציות הטכניות וארכיטקטורות ההתייחסות לפתרונות AWS ו-MongoDB. יש לו יותר משני עשורים של ניסיון בטכנולוגיות מסדי נתונים וענן. הוא נלהב לספק פתרונות טכניים ללקוחות העובדים עם מספר אינטגרטורים גלובליים (GSIs) ברחבי גיאוגרפיות מרובות.

בול זמן:

עוד מ AWS Big Data