בסביבה העסקית מונעת הנתונים של ימינו, ארגונים מתמודדים עם האתגר של הכנה יעילה ושינוי של כמויות גדולות של נתונים למטרות ניתוח ומדעי נתונים. עסקים צריכים לבנות מחסני נתונים ואגמי נתונים על בסיס נתונים תפעוליים. זה מונע על ידי הצורך לרכז ולשלב נתונים המגיעים ממקורות שונים.
יחד עם זאת, נתונים תפעוליים מגיעים לרוב מיישומים המגובים על ידי מאגרי מידע מדור קודם. מודרניזציה של יישומים דורשת ארכיטקטורת שירות מיקרו, אשר בתורה מחייבת איחוד נתונים ממקורות מרובים כדי לבנות מאגר נתונים תפעולי. ללא מודרניזציה, יישומים מדור קודם עשויים לגרור עלויות תחזוקה גוברת. מודרניזציה של יישומים כרוכה בשינוי מנוע מסד הנתונים הבסיסי למסד נתונים מודרני מבוסס מסמכים כמו MongoDB.
שתי המשימות הללו (בניית אגמי נתונים או מחסני נתונים ומודרניזציה של יישומים) כוללות תנועת נתונים, המשתמשת בתהליך חילוץ, טרנספורמציה וטעינה (ETL). עבודת ה-ETL היא פונקציונליות מפתח לקיום תהליך מובנה היטב כדי להצליח.
דבק AWS הוא שירות שילוב נתונים ללא שרת המאפשר לגלות, להכין, להעביר ולשלב נתונים ממקורות מרובים לניתוח, למידת מכונה (ML) ופיתוח יישומים. MongoDB אטלס היא חבילה משולבת של מסדי נתונים בענן ושירותי נתונים המשלבת עיבוד עסקאות, חיפוש מבוסס רלוונטיות, ניתוח בזמן אמת וסנכרון נתונים מהנייד לענן בארכיטקטורה אלגנטית ומשולבת.
על ידי שימוש ב-AWS Glue עם MongoDB Atlas, ארגונים יכולים לייעל את תהליכי ה-ETL שלהם. עם פתרון מסד הנתונים המנוהל, הניתן להרחבה והמאובטח שלו, MongoDB Atlas מספק סביבה גמישה ואמינה לאחסון וניהול נתונים תפעוליים. יחד, AWS Glue ETL ו-MongoDB Atlas הם פתרון רב עוצמה עבור ארגונים המעוניינים לייעל את האופן שבו הם בונים אגמי נתונים ומחסני נתונים, ולחדש את היישומים שלהם, על מנת לשפר את הביצועים העסקיים, להפחית עלויות ולהניע צמיחה והצלחה.
בפוסט זה, אנו מדגימים כיצד להעביר נתונים מ שירות אחסון פשוט של אמזון (Amazon S3) דליים ל-MongoDB Atlas באמצעות AWS Glue ETL, וכיצד לחלץ נתונים מ-MongoDB Atlas לתוך אגם נתונים מבוסס אמזון S3.
סקירת פתרונות
בפוסט זה, אנו בוחנים את מקרי השימוש הבאים:
- חילוץ נתונים מ- MongoDB - MongoDB הוא מסד נתונים פופולרי המשמש אלפי לקוחות לאחסון נתוני יישומים בקנה מידה. לקוחות ארגוניים יכולים לרכז ולשלב נתונים המגיעים ממספר מאגרי נתונים על ידי בניית אגמי נתונים ומחסני נתונים. תהליך זה כולל חילוץ נתונים ממאגרי הנתונים התפעוליים. כאשר הנתונים נמצאים במקום אחד, לקוחות יכולים להשתמש בהם במהירות לצרכי בינה עסקית או עבור ML.
- הטמעת נתונים לתוך MongoDB - MongoDB משמש גם כבסיס נתונים ללא SQL לאחסון נתוני יישומים ובניית מאגרי נתונים תפעוליים. מודרניזציה של יישומים כרוכה לרוב בהעברה של החנות התפעולית ל- MongoDB. לקוחות יצטרכו לחלץ נתונים קיימים מבסיסי נתונים יחסיים או מקבצים שטוחים. אפליקציות מובייל ואינטרנט דורשות לעתים קרובות מהנדסי נתונים לבנות צינורות נתונים כדי ליצור תצוגה יחידה של נתונים ב-Atlas תוך הכנסת נתונים ממקורות סגורים מרובים. במהלך הגירה זו, הם יצטרכו להצטרף למאגרי מידע שונים כדי ליצור מסמכים. פעולת הצטרפות מורכבת זו תזדקק לכוח מחשוב חד פעמי משמעותי. מפתחים יצטרכו גם לבנות את זה במהירות כדי להעביר את הנתונים.
AWS Glue שימושי במקרים אלה עם מודל ה-pay-as-you-go והיכולת שלו להריץ טרנספורמציות מורכבות על פני מערכי נתונים ענקיים. מפתחים יכולים להשתמש ב-AWS Glue Studio כדי ליצור ביעילות צינורות נתונים כאלה.
התרשים הבא מציג את זרימת העבודה של חילוץ הנתונים מ- MongoDB Atlas לתוך דלי S3 באמצעות AWS Glue Studio.
על מנת ליישם ארכיטקטורה זו, תזדקק לאשכול MongoDB Atlas, דלי S3 ו- AWS זהות וניהול גישה (IAM) תפקיד עבור AWS Glue. כדי להגדיר משאבים אלה, עיין בשלבים המוקדמים להלן GitHub ריפו.
האיור הבא מציג את זרימת העבודה של טעינת הנתונים מדלי S3 לתוך MongoDB Atlas באמצעות דבק AWS.
יש צורך באותם תנאים מוקדמים כאן: דלי S3, תפקיד IAM ואשכול MongoDB Atlas.
טען נתונים מאמזון S3 ל- MongoDB Atlas באמצעות דבק AWS
השלבים הבאים מתארים כיצד לטעון נתונים מדלי S3 לתוך MongoDB Atlas באמצעות עבודת דבק של AWS. תהליך החילוץ מ- MongoDB Atlas לאמזון S3 דומה מאוד, למעט הסקריפט שבו נעשה שימוש. אנו קוראים להבדלים בין שני התהליכים.
- צור אשכול בחינם ב- MongoDB Atlas.
- העלה את ה- קובץ JSON לדוגמה לדלי S3 שלך.
- צור עבודה חדשה של AWS Glue Studio עם עורך תסריט של Spark אוֹפְּצִיָה.
- תלוי אם ברצונך לטעון או לחלץ נתונים מאשכול MongoDB Atlas, הזן את טען סקריפט or לחלץ סקריפט בעורך התסריט של AWS Glue Studio.
צילום המסך הבא מציג קטע קוד לטעינת נתונים לתוך אשכול MongoDB Atlas.
הקוד משתמש מנהל סודות AWS כדי לאחזר את שם אשכול MongoDB Atlas, שם משתמש וסיסמה. לאחר מכן, זה יוצר א DynamicFrame
עבור דלי S3 ושם הקובץ שהועברו לסקריפט כפרמטרים. הקוד מאחזר את שמות מסד הנתונים והאוסף מתצורת פרמטרי העבודה. לבסוף, הקוד כותב את DynamicFrame
לאשכול MongoDB Atlas באמצעות הפרמטרים שאוחזרו.
- צור תפקיד IAM עם ההרשאות כפי שמוצג בצילום המסך הבא.
לפרטים נוספים עיין ב הגדר תפקיד IAM עבור עבודת ה-ETL שלך.
- תן שם למשרה וספק את תפקיד IAM שנוצר בשלב הקודם ב- פרטי עבודה TAB.
- אתה יכול להשאיר את שאר הפרמטרים כברירת מחדל, כפי שמוצג בצילומי המסך הבאים.
- לאחר מכן, הגדר את פרמטרי העבודה שבהם הסקריפט משתמש וספק את ערכי ברירת המחדל.
- שמור את העבודה והפעל אותה.
- כדי לאשר הפעלה מוצלחת, צפה בתוכן של אוסף מסד הנתונים של MongoDB Atlas אם אתה טוען את הנתונים, או בדלי S3 אם אתה מבצע חילוץ.
צילום המסך הבא מציג את התוצאות של טעינת נתונים מוצלחת מדלי של Amazon S3 לתוך אשכול MongoDB Atlas. הנתונים זמינים כעת עבור שאילתות בממשק המשתמש של MongoDB Atlas.
- כדי לפתור בעיות בריצות שלך, עיין ב- אמזון CloudWatch יומנים באמצעות הקישור על העבודה הפעלה TAB.
צילום המסך הבא מראה שהעבודה רצה בהצלחה, עם פרטים נוספים כגון קישורים ליומני CloudWatch.
סיכום
בפוסט זה, תיארנו כיצד לחלץ ולהטמיע נתונים ל- MongoDB Atlas באמצעות דבק AWS.
עם משרות AWS Glue ETL, אנו יכולים כעת להעביר את הנתונים מ- MongoDB Atlas למקורות התואמים AWS Glue, ולהיפך. אתה יכול גם להרחיב את הפתרון לבניית אנליטיקה באמצעות שירותי AWS AI ו-ML.
למידע נוסף, עיין ב- מאגר GitHub להוראות שלב אחר שלב וקוד לדוגמה. אתה יכול לרכוש MongoDB אטלס ב-AWS Marketplace.
על הכותבים
איגור אלכסייב הוא ארכיטקט פתרונות שותפים בכיר ב-AWS בתחום הנתונים והאנליטיקס. בתפקידו איגור עובד עם שותפים אסטרטגיים המסייעים להם לבנות ארכיטקטורות מורכבות ומותאמות ל-AWS. לפני שהצטרף ל-AWS, כאדריכל Data/Solution הוא יישם פרויקטים רבים בתחום הביג דאטה, כולל מספר אגמי נתונים באקוסיסטם של Hadoop. כמהנדס נתונים הוא היה מעורב ביישום AI/ML לאיתור הונאה ואוטומציה משרדית.
באבו סריניוואסן הוא אדריכל פתרונות שותפים בכיר ב- MongoDB. בתפקידו הנוכחי, הוא עובד עם AWS כדי לבנות את האינטגרציות הטכניות וארכיטקטורות ההתייחסות לפתרונות AWS ו-MongoDB. יש לו יותר משני עשורים של ניסיון בטכנולוגיות מסדי נתונים וענן. הוא נלהב לספק פתרונות טכניים ללקוחות העובדים עם מספר אינטגרטורים גלובליים (GSIs) ברחבי גיאוגרפיות מרובות.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoAiStream. Web3 Data Intelligence. הידע מוגבר. גישה כאן.
- הטבעת העתיד עם אדריאן אשלי. גישה כאן.
- קנה ומכירה של מניות בחברות PRE-IPO עם PREIPO®. גישה כאן.
- מקור: https://aws.amazon.com/blogs/big-data/compose-your-etl-jobs-for-mongodb-atlas-with-aws-glue/
- :יש ל
- :הוא
- 100
- 11
- a
- יכולת
- אודות
- גישה
- לרוחב
- נוסף
- AI
- AI / ML
- גם
- אמזון בעברית
- כמויות
- an
- ניתוח
- ו
- בקשה
- פיתוח אפליקציות
- יישומים
- מריחה
- אפליקציות
- ארכיטקטורה
- ARE
- AS
- At
- אטלס
- אוטומציה
- זמין
- AWS
- דבק AWS
- AWS שוק
- מגובה
- מבוסס
- להיות
- בֵּין
- גָדוֹל
- נתונים גדולים
- לִבנוֹת
- בִּניָן
- עסקים
- מודיעין עסקי
- תפקוד עסקי
- עסקים
- by
- שיחה
- CAN
- מקרים
- לאתגר
- משתנה
- ענן
- אשכול
- קוד
- אוסף
- משלב
- מגיע
- מגיע
- מורכב
- לחשב
- תְצוּרָה
- לאשר
- קונסולידציה
- לבנות
- תוכן
- נמשך
- עלויות
- לִיצוֹר
- נוצר
- יוצר
- יצירה
- נוֹכְחִי
- לקוחות
- נתונים
- מהנדס נתונים
- שילוב נתונים
- אגם דאטה
- מדע נתונים
- מחסני נתונים
- נתונים מונחים
- מסד נתונים
- מאגרי מידע
- מערכי נתונים
- עשרות שנים
- בְּרִירַת מֶחדָל
- להפגין
- לתאר
- מְתוּאָר
- פרטים
- איתור
- מפתחים
- צעצועי התפתחות
- ההבדלים
- אחר
- לגלות
- שונה
- מסמכים
- תחום
- נהיגה
- מונע
- בְּמַהֲלָך
- המערכת האקולוגית
- עורך
- יעילות
- מנוע
- מהנדס
- מהנדסים
- זן
- מִפְעָל
- לקוחות ארגוניים
- סביבה
- Ether (ETH)
- יוצא מן הכלל
- קיימים
- ניסיון
- לחקור
- להאריך
- תמצית
- הוֹצָאָה
- פָּנִים
- תרשים
- שלח
- קבצים
- בסופו של דבר
- דירה
- גמיש
- הבא
- בעד
- הונאה
- גילוי הונאה
- חופשי
- החל מ-
- לגמרי
- פונקציונלי
- גיאוגרפיות
- גלוֹבָּלִי
- צמיחה
- Hadoop
- שימושי
- יש
- he
- עזרה
- כאן
- שֶׁלוֹ
- איך
- איך
- HTML
- http
- HTTPS
- עצום
- IAM
- זהות
- if
- ליישם
- יושם
- לשפר
- in
- כולל
- גדל
- קלט
- הוראות
- לשלב
- משולב
- השתלבות
- ואינטגרציות
- מוֹדִיעִין
- אל תוך
- לערב
- מעורב
- IT
- שֶׁלָה
- עבודה
- מקומות תעסוקה
- להצטרף
- הצטרפות
- ג'סון
- מפתח
- אגם
- גָדוֹל
- לִלמוֹד
- למידה
- יציאה
- מוֹרֶשֶׁת
- כמו
- קשר
- קישורים
- לִטעוֹן
- טוען
- הסתכלות
- מכונה
- למידת מכונה
- תחזוקה
- עושה
- הצליח
- ניהול
- רב
- שוק
- מאי..
- נודד
- הֲגִירָה
- ML
- סלולרי
- מודל
- מודרני
- מוֹדֶרנִיזָצִיָה
- לְחַדֵשׁ
- MongoDB
- יותר
- המהלך
- תנועה
- מספר
- שם
- שמות
- צורך
- נחוץ
- צרכי
- חדש
- עַכשָׁיו
- להתבונן
- of
- Office
- לעתים קרובות
- on
- ONE
- מבצע
- מבצעי
- מטב
- אפשרות
- or
- להזמין
- ארגונים
- הַחוּצָה
- פרמטרים
- שותף
- שותפים
- עבר
- לוהט
- סיסמה
- ביצועים
- ביצוע
- הרשאות
- מקום
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- פופולרי
- הודעה
- כּוֹחַ
- חזק
- להכין
- העריכה
- תנאים מוקדמים
- קודם
- קודם
- תהליך
- תהליכים
- תהליך
- פרויקטים
- מספק
- מתן
- למטרות
- שאילתות
- מהירות
- זמן אמת
- להפחית
- אָמִין
- לדרוש
- דורש
- משאבים
- REST
- תוצאות
- סקירה
- תפקיד
- הפעלה
- אותו
- להרחבה
- סולם
- מדע
- צילומי מסך
- חיפוש
- לבטח
- לחצני מצוקה לפנסיונרים
- ללא שרת
- משמש
- שרות
- שירותים
- כמה
- הראה
- הופעות
- משמעותי
- דומה
- פָּשׁוּט
- יחיד
- פִּתָרוֹן
- פתרונות
- מקורות
- שלב
- צעדים
- אחסון
- חנות
- חנויות
- פשוט
- אסטרטגי
- שותפים אסטרטגיים
- לייעל
- סטודיו
- להצליח
- הצלחה
- מוצלח
- בהצלחה
- כזה
- מערכת
- לספק
- סִנכְּרוּן
- מערכת
- משימות
- טכני
- טכנולוגיות
- מֵאֲשֶׁר
- זֶה
- השמיים
- שֶׁלָהֶם
- אותם
- אז
- אלה
- הֵם
- זֶה
- אלפים
- זמן
- ל
- של היום
- יַחַד
- טרנזקציות
- להעביר
- לשנות
- טרנספורמציות
- הפיכה
- תור
- שתיים
- ui
- בְּסִיסִי
- להשתמש
- מְשׁוּמָשׁ
- משתמש
- באמצעות
- ערכים
- מאוד
- לצפיה
- רוצה
- היה
- we
- אינטרנט
- היו
- מתי
- אם
- אשר
- בזמן
- יצטרך
- עם
- לְלֹא
- זרימת עבודה
- עובד
- היה
- אתה
- זפירנט