एडब्ल्यूएस गोंद के साथ मोंगोडीबी एटलस के लिए अपनी ईटीएल नौकरियों की रचना करें

एडब्ल्यूएस गोंद के साथ मोंगोडीबी एटलस के लिए अपनी ईटीएल नौकरियों की रचना करें

स्रोत नोड: 2634433

आज के डेटा-संचालित कारोबारी माहौल में, संगठनों को एनालिटिक्स और डेटा साइंस उद्देश्यों के लिए बड़ी मात्रा में डेटा को कुशलतापूर्वक तैयार करने और बदलने की चुनौती का सामना करना पड़ता है। कारोबारियों को ऑपरेशनल डेटा के आधार पर डेटा वेयरहाउस और डेटा लेक बनाने की जरूरत है। यह अलग-अलग स्रोतों से आने वाले डेटा को केंद्रीकृत और एकीकृत करने की आवश्यकता से प्रेरित है।

उसी समय, परिचालन डेटा अक्सर लीगेसी डेटा स्टोर द्वारा समर्थित अनुप्रयोगों से उत्पन्न होता है। अनुप्रयोगों के आधुनिकीकरण के लिए एक माइक्रोसर्विस आर्किटेक्चर की आवश्यकता होती है, जो एक परिचालन डेटा स्टोर के निर्माण के लिए कई स्रोतों से डेटा के समेकन की आवश्यकता होती है। आधुनिकीकरण के बिना, पुराने अनुप्रयोगों में रखरखाव की लागत में वृद्धि हो सकती है। अनुप्रयोगों के आधुनिकीकरण में अंतर्निहित डेटाबेस इंजन को MongoDB जैसे आधुनिक दस्तावेज़-आधारित डेटाबेस में बदलना शामिल है।

इन दो कार्यों (डेटा झीलों या डेटा वेयरहाउस और एप्लिकेशन आधुनिकीकरण का निर्माण) में डेटा मूवमेंट शामिल है, जो एक्सट्रैक्ट, ट्रांसफ़ॉर्म और लोड (ETL) प्रक्रिया का उपयोग करता है। सफल होने के लिए एक अच्छी तरह से संरचित प्रक्रिया होने के लिए ईटीएल नौकरी एक महत्वपूर्ण कार्यक्षमता है।

एडब्ल्यूएस गोंद एक सर्वर रहित डेटा इंटीग्रेशन सेवा है जो एनालिटिक्स, मशीन लर्निंग (एमएल), और एप्लिकेशन डेवलपमेंट के लिए कई स्रोतों से डेटा को खोजने, तैयार करने, स्थानांतरित करने और एकीकृत करने में आसान बनाती है। MongoDB एटलस क्लाउड डेटाबेस और डेटा सेवाओं का एक एकीकृत सूट है जो लेनदेन प्रसंस्करण, प्रासंगिकता-आधारित खोज, रीयल-टाइम एनालिटिक्स और मोबाइल-टू-क्लाउड डेटा सिंक्रनाइज़ेशन को एक सुरुचिपूर्ण और एकीकृत आर्किटेक्चर में जोड़ता है।

मोंगोडीबी एटलस के साथ एडब्ल्यूएस गोंद का उपयोग करके, संगठन अपनी ईटीएल प्रक्रियाओं को सुव्यवस्थित कर सकते हैं। अपने पूर्ण प्रबंधित, स्केलेबल और सुरक्षित डेटाबेस समाधान के साथ, मोंगोडीबी एटलस परिचालन डेटा को संग्रहीत करने और प्रबंधित करने के लिए एक लचीला और विश्वसनीय वातावरण प्रदान करता है। साथ में, AWS Glue ETL और MongoDB एटलस उन संगठनों के लिए एक शक्तिशाली समाधान हैं, जो डेटा लेक और डेटा वेयरहाउस बनाने के तरीके को अनुकूलित करना चाहते हैं, और अपने अनुप्रयोगों को आधुनिक बनाना चाहते हैं, ताकि व्यावसायिक प्रदर्शन में सुधार हो, लागत कम हो, और विकास और सफलता बढ़े।

इस पोस्ट में, हम प्रदर्शित करते हैं कि डेटा को माइग्रेट कैसे करें अमेज़न सरल भंडारण सेवा (Amazon S3) AWS Glue ETL का उपयोग करके MongoDB एटलस को बकेट, और MongoDB एटलस से Amazon S3-आधारित डेटा लेक में डेटा कैसे निकालें।

समाधान अवलोकन

इस पोस्ट में, हम निम्नलिखित उपयोग मामलों का पता लगाते हैं:

  • MongoDB से डेटा निकालना - MongoDB एक लोकप्रिय डेटाबेस है जिसका उपयोग हजारों ग्राहक बड़े पैमाने पर एप्लिकेशन डेटा को स्टोर करने के लिए करते हैं। एंटरप्राइज़ ग्राहक डेटा झीलों और डेटा वेयरहाउस का निर्माण करके कई डेटा स्टोर से आने वाले डेटा को केंद्रीकृत और एकीकृत कर सकते हैं। इस प्रक्रिया में ऑपरेशनल डेटा स्टोर्स से डेटा निकालना शामिल है। जब डेटा एक ही स्थान पर होता है, तो ग्राहक इसे व्यावसायिक खुफिया जरूरतों या एमएल के लिए जल्दी से उपयोग कर सकते हैं।
  • MongoDB में डेटा डालना - मोंगोडीबी एप्लिकेशन डेटा स्टोर करने और ऑपरेशनल डेटा स्टोर बनाने के लिए नो-एसक्यूएल डेटाबेस के रूप में भी कार्य करता है। अनुप्रयोगों के आधुनिकीकरण में अक्सर परिचालन स्टोर का MongoDB में स्थानांतरण शामिल होता है। ग्राहकों को मौजूदा डेटा को रिलेशनल डेटाबेस या फ्लैट फाइलों से निकालने की आवश्यकता होगी। मोबाइल और वेब ऐप्स को अक्सर डेटा इंजीनियरों की आवश्यकता होती है ताकि वे कई साइलेड स्रोतों से डेटा प्राप्त करते समय एटलस में डेटा का एक दृश्य बनाने के लिए डेटा पाइपलाइन का निर्माण कर सकें। इस माइग्रेशन के दौरान, दस्तावेज़ बनाने के लिए उन्हें अलग-अलग डेटाबेस से जुड़ना होगा। इस जटिल ज्वाइन ऑपरेशन के लिए महत्वपूर्ण, एक बार की गणना शक्ति की आवश्यकता होगी। डेवलपर्स को डेटा माइग्रेट करने के लिए इसे जल्दी से बनाने की भी आवश्यकता होगी।

एडब्ल्यूएस ग्लू इन मामलों में पे-एज़-यू-गो मॉडल और विशाल डेटासेट में जटिल परिवर्तनों को चलाने की क्षमता के साथ काम आता है। ऐसे डेटा पाइपलाइनों को कुशलतापूर्वक बनाने के लिए डेवलपर्स AWS Glue Studio का उपयोग कर सकते हैं।

निम्नलिखित आरेख एडब्ल्यूएस गोंद स्टूडियो का उपयोग करके मोंगोडीबी एटलस से डेटा निष्कर्षण वर्कफ़्लो को एस 3 बाल्टी में दिखाता है।

Amazon S3 में MongoDB एटलस से डेटा निकालना

इस आर्किटेक्चर को लागू करने के लिए, आपको एक MongoDB एटलस क्लस्टर, एक S3 बकेट और एक की आवश्यकता होगी AWS पहचान और अभिगम प्रबंधन (आईएएम) एडब्ल्यूएस गोंद के लिए भूमिका। इन संसाधनों को कॉन्फ़िगर करने के लिए, निम्न में आवश्यक चरणों का संदर्भ लें गीथहब रेपो.

निम्नलिखित आंकड़ा AWS गोंद का उपयोग करके MongoDB एटलस में S3 बकेट से डेटा लोड वर्कफ़्लो दिखाता है।

MongoDB एटलस में Amazon S3 से डेटा लोड हो रहा है

यहाँ वही पूर्वापेक्षाएँ आवश्यक हैं: एक S3 बकेट, IAM भूमिका और एक MongoDB एटलस क्लस्टर।

AWS गोंद का उपयोग करके Amazon S3 से MongoDB एटलस में डेटा लोड करें

निम्नलिखित चरणों का वर्णन है कि AWS ग्लू जॉब का उपयोग करके S3 बकेट से डेटा को MongoDB एटलस में कैसे लोड किया जाए। उपयोग की जा रही स्क्रिप्ट के अपवाद के साथ, MongoDB एटलस से Amazon S3 तक निष्कर्षण प्रक्रिया बहुत समान है। हम दो प्रक्रियाओं के बीच अंतर कहते हैं।

  1. फ्री क्लस्टर बनाएं MongoDB एटलस में।
  2. अपलोड करें नमूना JSON फ़ाइल अपने S3 बाल्टी के लिए।
  3. के साथ एक नया AWS Glue Studio जॉब बनाएं स्पार्क स्क्रिप्ट संपादक विकल्प.

ग्लू स्टूडियो जॉब क्रिएशन यूआई

  1. आप MongoDB एटलस क्लस्टर से डेटा लोड करना चाहते हैं या निकालना चाहते हैं, इसके आधार पर, दर्ज करें लोड स्क्रिप्ट or स्क्रिप्ट निकालें एडब्ल्यूएस गोंद स्टूडियो स्क्रिप्ट संपादक में।

निम्न स्क्रीनशॉट MongoDB एटलस क्लस्टर में डेटा लोड करने के लिए एक कोड स्निपेट दिखाता है।

मोंगोडीबी एटलस में डेटा लोड करने के लिए कोड स्निपेट

कोड का उपयोग करता है AWS राज प्रबंधक मोंगोडीबी एटलस क्लस्टर नाम, उपयोगकर्ता नाम और पासवर्ड पुनर्प्राप्त करने के लिए। फिर, यह एक बनाता है DynamicFrame S3 बकेट और फ़ाइल नाम के लिए स्क्रिप्ट को पैरामीटर के रूप में पास किया गया। कोड कार्य पैरामीटर कॉन्फ़िगरेशन से डेटाबेस और संग्रह नाम पुनर्प्राप्त करता है। अंत में, कोड लिखता है DynamicFrame पुनर्प्राप्त पैरामीटर का उपयोग करके मोंगोडीबी एटलस क्लस्टर में।

  1. निम्नलिखित स्क्रीनशॉट में दिखाए अनुसार अनुमतियों के साथ एक IAM भूमिका बनाएँ।

अधिक जानकारी के लिए देखें अपने ETL कार्य के लिए IAM भूमिका कॉन्फ़िगर करें.

आईएएम भूमिका अनुमतियां

  1. कार्य को एक नाम दें और पिछले चरण में बनाए गए IAM भूमिका की आपूर्ति करें नौकरी विवरण टैब.
  2. आप शेष पैरामीटर को डिफ़ॉल्ट के रूप में छोड़ सकते हैं, जैसा कि निम्न स्क्रीनशॉट में दिखाया गया है।
    नौकरी विवरणनौकरी का विवरण जारी रहा
  3. अगला, स्क्रिप्ट द्वारा उपयोग किए जाने वाले कार्य मापदंडों को परिभाषित करें और डिफ़ॉल्ट मानों की आपूर्ति करें।
    जॉब इनपुट पैरामीटर
  4. नौकरी बचाओ और इसे चलाओ।
  5. एक सफल रन की पुष्टि करने के लिए, MongoDB एटलस डेटाबेस संग्रह की सामग्री का निरीक्षण करें यदि डेटा लोड हो रहा है, या S3 बकेट यदि आप एक्सट्रैक्ट कर रहे हैं।

निम्न स्क्रीनशॉट एक Amazon S3 बकेट से MongoDB एटलस क्लस्टर में एक सफल डेटा लोड के परिणाम दिखाता है। डेटा अब MongoDB एटलस UI में प्रश्नों के लिए उपलब्ध है।
मोंगोडीबी एटलस क्लस्टर में डेटा लोड किया गया

  1. अपने रनों का निवारण करने के लिए, समीक्षा करें अमेज़ॅन क्लाउडवॉच कार्य पर लिंक का उपयोग करके लॉग करता है रन टैब.

निम्न स्क्रीनशॉट दिखाता है कि क्लाउडवॉच लॉग के लिंक जैसे अतिरिक्त विवरण के साथ कार्य सफलतापूर्वक चला।

सफल जॉब रन विवरण

निष्कर्ष

इस पोस्ट में, हमने एडब्ल्यूएस गोंद का उपयोग करके मोंगोडीबी एटलस में डेटा निकालने और निगलना का वर्णन किया है।

एडब्ल्यूएस गोंद ईटीएल नौकरियों के साथ, अब हम डेटा को मोंगोडीबी एटलस से एडब्ल्यूएस गोंद-संगत स्रोतों में स्थानांतरित कर सकते हैं, और इसके विपरीत। आप AWS AI और ML सेवाओं का उपयोग करके एनालिटिक्स बनाने के लिए समाधान का विस्तार भी कर सकते हैं।

अधिक जानने के लिए, देखें गिटहब भंडार चरण-दर-चरण निर्देश और नमूना कोड के लिए। आप खरीद सकते हैं MongoDB एटलस AWS मार्केटप्लेस पर।


लेखक के बारे में

इगोर अलेक्सेव डेटा और एनालिटिक्स डोमेन में AWS में सीनियर पार्टनर सॉल्यूशन आर्किटेक्ट हैं। अपनी भूमिका में इगोर रणनीतिक साझेदारों के साथ काम कर रहे हैं, जिससे उन्हें जटिल, एडब्ल्यूएस-अनुकूलित आर्किटेक्चर बनाने में मदद मिल रही है। AWS में शामिल होने से पहले, एक डेटा/समाधान वास्तुकार के रूप में उन्होंने Hadoop पारिस्थितिकी तंत्र में कई डेटा झीलों सहित बिग डेटा डोमेन में कई परियोजनाओं को लागू किया। डेटा इंजीनियर के रूप में वह धोखाधड़ी का पता लगाने और कार्यालय स्वचालन के लिए एआई/एमएल लगाने में शामिल थे।


बाबू श्रीनिवासन
MongoDB में सीनियर पार्टनर सॉल्यूशंस आर्किटेक्ट हैं। अपनी वर्तमान भूमिका में, वह AWS और MongoDB समाधानों के लिए तकनीकी एकीकरण और संदर्भ आर्किटेक्चर बनाने के लिए AWS के साथ काम कर रहा है। उनके पास डेटाबेस और क्लाउड प्रौद्योगिकियों में दो दशकों से अधिक का अनुभव है। उन्हें कई भौगोलिक क्षेत्रों में मल्टीपल ग्लोबल सिस्टम इंटीग्रेटर्स (जीएसआई) के साथ काम करने वाले ग्राहकों को तकनीकी समाधान प्रदान करने का शौक है।

समय टिकट:

से अधिक एडब्ल्यूएस बिग डेटा

AWS मार्केटप्लेस सेलर इनसाइट्स टीम विक्रेताओं को कार्रवाई योग्य व्यावसायिक अंतर्दृष्टि के साथ सशक्त बनाने के लिए Amazon QuickSight एम्बेडेड का उपयोग करती है

स्रोत नोड: 1776347
समय टिकट: दिसम्बर 16, 2022