أنشئ وظائف ETL الخاصة بك لـ MongoDB Atlas باستخدام AWS Glue

أنشئ وظائف ETL الخاصة بك لـ MongoDB Atlas باستخدام AWS Glue

عقدة المصدر: 2634433

في بيئة الأعمال القائمة على البيانات اليوم ، تواجه المؤسسات التحدي المتمثل في إعداد كميات كبيرة من البيانات وتحويلها بكفاءة لأغراض التحليل وعلم البيانات. تحتاج الشركات إلى بناء مستودعات البيانات وبحيرات البيانات بناءً على البيانات التشغيلية. هذا مدفوع بالحاجة إلى مركزية ودمج البيانات الواردة من مصادر متباينة.

في الوقت نفسه ، غالبًا ما تنشأ البيانات التشغيلية من التطبيقات المدعومة بمخازن البيانات القديمة. يتطلب تحديث التطبيقات بنية الخدمات المصغرة ، والتي تتطلب بدورها دمج البيانات من مصادر متعددة لإنشاء مخزن بيانات تشغيلي. بدون التحديث ، قد تتكبد التطبيقات القديمة تكاليف صيانة متزايدة. يتضمن تحديث التطبيقات تغيير محرك قاعدة البيانات الأساسي إلى قاعدة بيانات حديثة قائمة على المستندات مثل MongoDB.

تتضمن هاتان المهمتان (بناء بحيرات البيانات أو مستودعات البيانات وتحديث التطبيقات) حركة البيانات ، والتي تستخدم عملية استخراج وتحويل وتحميل (ETL). وظيفة ETL هي وظيفة أساسية للحصول على عملية جيدة التنظيم من أجل النجاح.

غراء AWS هي خدمة تكامل بيانات بدون خادم تجعل من السهل اكتشاف وإعداد ونقل ودمج البيانات من مصادر متعددة للتحليلات والتعلم الآلي (ML) وتطوير التطبيقات. MongoDB أطلس هي مجموعة متكاملة من قواعد البيانات السحابية وخدمات البيانات التي تجمع بين معالجة المعاملات والبحث المستند إلى الصلة والتحليلات في الوقت الفعلي ومزامنة البيانات من الهاتف المحمول إلى السحابة في بنية أنيقة ومتكاملة.

باستخدام AWS Glue مع MongoDB Atlas ، يمكن للمؤسسات تبسيط عمليات ETL الخاصة بهم. بفضل حل قواعد البيانات المُدار بالكامل والقابل للتطوير والآمن ، يوفر MongoDB Atlas بيئة مرنة وموثوقة لتخزين البيانات التشغيلية وإدارتها. يُعد كل من AWS Glue ETL و MongoDB Atlas معًا حلاً فعالاً للمؤسسات التي تتطلع إلى تحسين كيفية إنشاء بحيرات البيانات ومخازن البيانات وتحديث تطبيقاتها من أجل تحسين أداء الأعمال وتقليل التكاليف ودفع النمو والنجاح.

في هذا المنشور ، نوضح كيفية ترحيل البيانات من خدمة تخزين أمازون البسيطة (Amazon S3) إلى MongoDB Atlas باستخدام AWS Glue ETL ، وكيفية استخراج البيانات من MongoDB Atlas إلى بحيرة البيانات المستندة إلى Amazon S3.

حل نظرة عامة

في هذا المنشور ، نستكشف حالات الاستخدام التالية:

  • استخراج البيانات من MongoDB - MongoDB هي قاعدة بيانات شائعة يستخدمها آلاف العملاء لتخزين بيانات التطبيق على نطاق واسع. يمكن لعملاء المؤسسات جعل البيانات الواردة من مخازن بيانات متعددة مركزية ودمجها من خلال إنشاء بحيرات البيانات ومستودعات البيانات. تتضمن هذه العملية استخراج البيانات من مخازن البيانات التشغيلية. عندما تكون البيانات في مكان واحد ، يمكن للعملاء استخدامها بسرعة لاحتياجات ذكاء الأعمال أو لتعلم الآلة.
  • استيعاب البيانات في MongoDB - يعمل MongoDB أيضًا كقاعدة بيانات بدون SQL لتخزين بيانات التطبيق وبناء مخازن بيانات تشغيلية. غالبًا ما يتضمن تحديث التطبيقات ترحيل المخزن التشغيلي إلى MongoDB. سيحتاج العملاء إلى استخراج البيانات الموجودة من قواعد البيانات العلائقية أو من الملفات الثابتة. غالبًا ما تتطلب تطبيقات الجوال والويب مهندسي البيانات لبناء خطوط بيانات لإنشاء عرض واحد للبيانات في Atlas أثناء استيعاب البيانات من مصادر منفصلة متعددة. أثناء هذا الترحيل ، سيحتاجون إلى الانضمام إلى قواعد بيانات مختلفة لإنشاء المستندات. ستحتاج عملية الانضمام المعقدة هذه إلى قوة حسابية كبيرة لمرة واحدة. سيحتاج المطورون أيضًا إلى إنشاء هذا بسرعة لترحيل البيانات.

يكون AWS Glue مفيدًا في هذه الحالات من خلال نموذج الدفع عند الاستخدام وقدرته على إجراء تحويلات معقدة عبر مجموعات بيانات ضخمة. يمكن للمطورين استخدام AWS Glue Studio لإنشاء خطوط أنابيب البيانات هذه بكفاءة.

يُظهر الرسم التخطيطي التالي سير عمل استخراج البيانات من MongoDB Atlas إلى حاوية S3 باستخدام AWS Glue Studio.

استخراج البيانات من MongoDB Atlas إلى Amazon S3

من أجل تنفيذ هذه البنية ، ستحتاج إلى مجموعة MongoDB Atlas ودلو S3 و إدارة الهوية والوصول AWS (IAM) لـ AWS Glue. لتكوين هذه الموارد ، ارجع إلى خطوات المتطلبات الأساسية في ما يلي جيثب ريبو.

يوضح الشكل التالي سير عمل تحميل البيانات من حاوية S3 إلى MongoDB Atlas باستخدام AWS Glue.

تحميل البيانات من Amazon S3 إلى MongoDB Atlas

المتطلبات الأساسية نفسها مطلوبة هنا: حاوية S3 ودور IAM ومجموعة MongoDB Atlas.

تحميل البيانات من Amazon S3 إلى MongoDB Atlas باستخدام AWS Glue

تصف الخطوات التالية كيفية تحميل البيانات من حاوية S3 إلى MongoDB Atlas باستخدام وظيفة AWS Glue. عملية الاستخراج من MongoDB Atlas إلى Amazon S3 متشابهة جدًا ، باستثناء البرنامج النصي المستخدم. ندعو الاختلافات بين العمليتين.

  1. إنشاء كتلة حرة في MongoDB Atlas.
  2. تحميل نموذج لملف JSON إلى دلو S3 الخاص بك.
  3. أنشئ وظيفة AWS Glue Studio جديدة باستخدام ملف محرر Spark النصي الخيار.

واجهة مستخدم Glue Studio لإنشاء الوظائف

  1. اعتمادًا على ما إذا كنت تريد تحميل البيانات أو استخراجها من مجموعة MongoDB Atlas ، أدخل ملف تحميل البرنامج النصي or استخراج البرنامج النصي في محرر البرنامج النصي AWS Glue Studio.

تُظهر لقطة الشاشة التالية مقتطفًا من التعليمات البرمجية لتحميل البيانات في مجموعة MongoDB Atlas.

مقتطف رمز لتحميل البيانات في MongoDB Atlas

يستخدم الرمز مدير أسرار AWS لاسترداد اسم مجموعة MongoDB Atlas واسم المستخدم وكلمة المرور. ثم يقوم بإنشاء ملف DynamicFrame لحاوية S3 واسم الملف الذي تم تمريره إلى البرنامج النصي كمعلمات. يسترد الرمز قاعدة البيانات وأسماء المجموعات من تكوين معلمات الوظيفة. أخيرًا ، يكتب الكود ملف DynamicFrame إلى كتلة MongoDB Atlas باستخدام المعلمات المسترجعة.

  1. قم بإنشاء دور IAM مع الأذونات كما هو موضح في لقطة الشاشة التالية.

لمزيد من التفاصيل ، يرجى الرجوع إلى تكوين دور IAM لوظيفة ETL الخاصة بك.

أذونات دور IAM

  1. امنح الوظيفة اسمًا وقم بتوفير دور IAM الذي تم إنشاؤه في الخطوة السابقة في تفاصيل الوظيفة علامة التبويب.
  2. يمكنك ترك باقي المعلمات كإعداد افتراضي ، كما هو موضح في لقطات الشاشة التالية.
    تفاصيل الوظيفةتابع تفاصيل الوظيفة
  3. بعد ذلك ، حدد معلمات الوظيفة التي يستخدمها البرنامج النصي وقم بتوفير القيم الافتراضية.
    معلمات إدخال الوظيفة
  4. حفظ الوظيفة وتشغيلها.
  5. لتأكيد التشغيل الناجح ، راقب محتويات مجموعة قاعدة بيانات MongoDB Atlas في حالة تحميل البيانات ، أو دلو S3 إذا كنت تجري عملية استخراج.

تُظهر لقطة الشاشة التالية نتائج تحميل بيانات ناجح من حاوية Amazon S3 إلى مجموعة MongoDB Atlas. البيانات متاحة الآن للاستعلامات في MongoDB Atlas UI.
تم تحميل البيانات في مجموعة أطلس MongoDB

  1. لاستكشاف أخطاء الجري وإصلاحها ، راجع ملف الأمازون CloudWatch السجلات باستخدام الارتباط الموجود على الوظيفة يجري علامة التبويب.

تُظهر لقطة الشاشة التالية أن الوظيفة تم تشغيلها بنجاح ، مع تفاصيل إضافية مثل الروابط إلى سجلات CloudWatch.

تفاصيل تشغيل الوظيفة الناجحة

وفي الختام

في هذا المنشور ، وصفنا كيفية استخراج البيانات واستيعابها في MongoDB Atlas باستخدام AWS Glue.

من خلال وظائف AWS Glue ETL ، يمكننا الآن نقل البيانات من MongoDB Atlas إلى مصادر متوافقة مع AWS Glue ، والعكس صحيح. يمكنك أيضًا توسيع الحل لإنشاء تحليلات باستخدام خدمات AWS AI و ML.

لمعرفة المزيد ، راجع مستودع جيثب للحصول على إرشادات خطوة بخطوة ونموذج التعليمات البرمجية. يمكنك شراء MongoDB أطلس على AWS Marketplace.


حول المؤلف

ايغور الكسيف هو مهندس حلول شريك أول في AWS في مجال البيانات والتحليلات. في دوره ، يعمل إيغور مع شركاء استراتيجيين يساعدونهم في بناء بنى معقدة ومحسّنة لـ AWS. قبل انضمامه إلى AWS ، بصفته مهندس بيانات / حلول ، قام بتنفيذ العديد من المشاريع في مجال البيانات الضخمة ، بما في ذلك العديد من بحيرات البيانات في نظام Hadoop البيئي. كمهندس بيانات ، شارك في تطبيق AI / ML لاكتشاف الاحتيال وأتمتة المكاتب.


بابو سرينيفاسان
هو مهندس حلول شريك أول في MongoDB. في منصبه الحالي ، يعمل مع AWS لبناء عمليات التكامل التقنية والبنى المرجعية لحلول AWS و MongoDB. لديه أكثر من عقدين من الخبرة في قواعد البيانات وتقنيات السحابة. إنه متحمس لتقديم الحلول التقنية للعملاء الذين يعملون مع العديد من شركات تكامل الأنظمة العالمية (GSIs) عبر مناطق جغرافية متعددة.

الطابع الزمني:

اكثر من بيانات AWS الضخمة