अमेज़ॅन ईएमआर लागत प्रभावी तरीके से स्केलेबल डेटा पाइपलाइन बनाने के लिए AWS पर Apache Spark और अन्य ओपन-सोर्स एप्लिकेशन चलाने के लिए AWS द्वारा दी जाने वाली एक बड़ी डेटा सेवा है। वास्तविक समय में महत्वपूर्ण मुद्दों का पता लगाने और मूल कारणों की शीघ्रता से पहचान करने में मदद करने के लिए ईएमआर क्लस्टर्स पर तैनात नौकरियों से उत्पन्न लॉग की निगरानी करना आवश्यक है।
उन लॉग को पुश करना अमेज़ॅन क्लाउडवॉच सर्वरों को व्यवस्थित करने या सॉफ़्टवेयर प्रबंधित करने की आवश्यकता के बिना परिचालन संबंधी समस्याओं को हल करने के लिए आपको अपने लॉग से कार्रवाई योग्य इंटेलिजेंस को केंद्रीकृत करने और ड्राइव करने में सक्षम बनाता है। आप एकत्रीकरण, फ़िल्टर और रेगुलर एक्सप्रेशन के साथ प्रश्नों को तुरंत लिखना शुरू कर सकते हैं। इसके अलावा, आप समय श्रृंखला डेटा की कल्पना कर सकते हैं, अलग-अलग लॉग इवेंट में ड्रिल डाउन कर सकते हैं और क्लाउडवॉच डैशबोर्ड पर क्वेरी परिणाम निर्यात कर सकते हैं।
उन लॉग को निगलने के लिए जो पर कायम हैं अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (Amazon EC2) CloudWatch में एक EMR क्लस्टर के उदाहरण, आप इसका उपयोग कर सकते हैं क्लाउडवॉच एजेंट. यह एक EC2 उदाहरण से CloudWatch में लॉग को पुश करने का आसान तरीका प्रदान करता है।
क्लाउडवॉच एजेंट एक सॉफ्टवेयर पैकेज है जो स्वायत्तता से और लगातार आपके सर्वर पर चलता है। आप EC2 इंस्टेंस, ऑन-प्रिमाइसेस होस्ट और कंटेनरीकृत एप्लिकेशन से सिस्टम और एप्लिकेशन लॉग एकत्र करने के लिए CloudWatch एजेंट को इंस्टॉल और कॉन्फ़िगर कर सकते हैं। CloudWatch, CloudWatch एजेंट द्वारा एकत्र किए गए लॉग को संसाधित और संग्रहीत करता है, जो आपके बुनियादी ढांचे और अनुप्रयोगों के प्रदर्शन और स्वास्थ्य निगरानी में मदद करता है।
इस पोस्ट में, हम एक EMR क्लस्टर बनाते हैं और CloudWatch में नौकरियों के EMR स्टेप लॉग को केंद्रीकृत करते हैं। इससे आपके लिए अपने EMR क्लस्टर को प्रबंधित करना, समस्याओं का निवारण करना और प्रदर्शन की निगरानी करना आसान हो जाएगा। यह समाधान विशेष रूप से सहायक है यदि आप क्लाउडवॉच का उपयोग रीयल-टाइम लॉग, मेट्रिक्स और ईवेंट डेटा को एकत्रित करने और देखने के लिए करना चाहते हैं, जिससे आपके आधारभूत संरचना और एप्लिकेशन रखरखाव को व्यवस्थित किया जा सके।
समाधान का अवलोकन
इस पोस्ट में प्रस्तुत समाधान एक विशिष्ट कॉन्फ़िगरेशन पर आधारित है जहां ईएमआर चरण समवर्ती स्तर 1 पर सेट है। इसका मतलब है कि क्लस्टर पर एक समय में केवल एक चरण चलाया जाता है। यह नोट करना महत्वपूर्ण है कि यदि EMR चरण संगामिति स्तर 1 से अधिक मान पर सेट है, तो समाधान अपेक्षित रूप से कार्य नहीं कर सकता है। हम आपको सत्यापित करने की अत्यधिक अनुशंसा करते हैं ईएमआर कदम समवर्ती इस पोस्ट में प्रस्तुत समाधान को लागू करने से पहले कॉन्फ़िगरेशन।
निम्नलिखित चित्र समाधान वास्तुकला को दर्शाता है।
वर्कफ़्लो में निम्न चरण शामिल हैं:
- उपयोगकर्ता EMR क्लस्टर पर एक कदम बनाते हुए Apache Spark EMR जॉब शुरू करते हैं। अपाचे स्पार्क का उपयोग करते हुए, वर्कलोड को ईएमआर क्लस्टर के विभिन्न नोड्स में वितरित किया जाता है।
- क्लस्टर के प्रत्येक नोड (EC2 उदाहरण) में, CloudWatch एजेंट विभिन्न लॉग निर्देशिकाओं को देखता है, लॉग फ़ाइलों में नई प्रविष्टियों को कैप्चर करता है और उन्हें CloudWatch पर धकेलता है।
- उपयोगकर्ता CloudWatch कंसोल से विभिन्न लॉग समूहों तक पहुँचने वाले चरण लॉग देख सकते हैं। Amazon EMR द्वारा लिखे गए चरण लॉग इस प्रकार हैं:
- नियंत्रक - चरण के प्रसंस्करण के बारे में जानकारी। यदि लोड करते समय आपका चरण विफल हो जाता है, तो आप इस लॉग में स्टैक ट्रेस पा सकते हैं।
- stderr - स्पार्क का मानक त्रुटि चैनल जब यह चरण को संसाधित करता है।
- stdout - स्पार्क का मानक आउटपुट चैनल, जबकि यह चरण को संसाधित करता है।
हम एक प्रदान करते हैं एडब्ल्यूएस CloudFormation इस पोस्ट में टेम्पलेट एक सामान्य गाइड के रूप में। टेम्प्लेट प्रदर्शित करता है कि स्पार्क लॉग को क्लाउडवॉच पर पुश करने के लिए Amazon EMR पर क्लाउडवॉच एजेंट को कैसे कॉन्फ़िगर किया जाए। आप अपने Amazon EMR सुरक्षा कॉन्फ़िगरेशन को शामिल करने के लिए आवश्यकतानुसार इसकी समीक्षा और कस्टमाइज़ कर सकते हैं। सर्वोत्तम अभ्यास के रूप में, हम आपके Amazon EMR सुरक्षा कॉन्फ़िगरेशन को टेम्प्लेट में शामिल करने की सलाह देते हैं पारगमन में डेटा एन्क्रिप्ट करें.
आपको इस बात की भी जानकारी होनी चाहिए कि इस स्टैक द्वारा तैनात किए गए कुछ संसाधन उपयोग में रहने पर खर्च होते हैं।
अगले खंडों में, हम निम्नलिखित चरणों से गुजरते हैं:
- बूटस्ट्रैप स्क्रिप्ट बनाएं और एक पर अपलोड करें अमेज़न सरल भंडारण सेवा (अमेज़न S3) बाल्टी।
- निम्न संसाधनों को बनाने के लिए CloudFormation टेम्प्लेट का उपयोग करें:
- क्लाउडवॉच कंसोल पर स्पार्क लॉग की निगरानी करें।
.. पूर्वापेक्षाएँ
यह पोस्ट मानता है कि आपके पास निम्नलिखित हैं:
बूटस्ट्रैप स्क्रिप्ट को S3 बकेट में बनाएं और अपलोड करें
अधिक जानकारी के लिए देखें वस्तुओं को अपलोड करना और क्लाउडवॉच एजेंट को अपने सर्वर पर इंस्टॉल करना और चलाना.
बूटस्ट्रैप स्क्रिप्ट बनाने और अपलोड करने के लिए, निम्न चरणों को पूरा करें:
- नामक एक स्थानीय फ़ाइल बनाएँ
bootstrap_cloudwatch_agent.sh
निम्न सामग्री के साथ: - Amazon S3 कंसोल पर, अपनी S3 बकेट चुनें।
- पर वस्तुएँ टैब चुनें अपलोड.
- चुनें फाइलें जोड़ो, फिर बूटस्ट्रैप स्क्रिप्ट चुनें।
- चुनें अपलोड, फिर फ़ाइल का नाम चुनें:
bootstrap_cloudwatch_agent.sh
. - चुनें S3 URI कॉपी करें. हम इस मान का उपयोग बाद के चरण में करते हैं।
CloudFormation टेम्प्लेट के साथ संसाधनों का प्रावधान करें
चुनें स्टैक लॉन्च करें अपने खाते में क्लाउडफॉर्मेशन स्टैक लॉन्च करने और टेम्पलेट को परिनियोजित करने के लिए:
यह साँचा एक IAM भूमिका, IAM आवृत्ति प्रोफ़ाइल, सिस्टम मैनेजर पैरामीटर, और EMR क्लस्टर बनाता है। क्लस्टर शुरू करता है स्पार्क पीआई आकलन उदाहरण आवेदन. यदि आप इस टेम्प्लेट से स्टैक बनाते हैं तो आपको उपयोग किए गए AWS संसाधनों के लिए बिल भेजा जाएगा।
क्लाउडफ़ॉर्मेशन विज़ार्ड आपको इन पैरामीटरों को संशोधित करने या प्रदान करने के लिए कहेगा:
- इंस्टेंस टाइप - उदाहरण का प्रकार सभी उदाहरण समूहों के लिए। डिफ़ॉल्ट m4.xबड़ा है।
- इंस्टेंसकाउंटकोर - कोर उदाहरण समूह में उदाहरणों की संख्या। डिफ़ॉल्ट 2 है।
- ईएमआर रिलीज लेबल - अमेज़न ईएमआर रिलीज लेबल आप उपयोग करना चाहते हैं। डिफ़ॉल्ट ईएमआर-6.9.0 है।
- बूटस्ट्रैपस्क्रिप्टपाथ - आपके CloudWatch एजेंट इंस्टॉलेशन बूटस्ट्रैप स्क्रिप्ट का S3 पथ जिसे आपने पहले कॉपी किया था।
- सबनेट - EC2 सबनेट जहां क्लस्टर लॉन्च होता है। आपको यह पैरामीटर प्रदान करना होगा।
- EC2KeyPairName - सत्र प्रबंधक के विकल्प के रूप में, क्लस्टर नोड्स से कनेक्ट करने के लिए एक वैकल्पिक ईसी2 कुंजी जोड़ी।
लॉग स्ट्रीम की निगरानी करें
CloudFormation स्टैक सफलतापूर्वक तैनात होने के बाद, CloudWatch कंसोल पर, चुनें लॉग समूह नेविगेशन फलक में। फिर लॉग समूहों को उपसर्ग द्वारा फ़िल्टर करें /aws/emr/master
.
लॉग समूह में आईडी ईएमआर प्राथमिक नोड की ईसी 2 इंस्टेंस आईडी से मेल खाती है। यदि आपके पास एकाधिक ईएमआर क्लस्टर हैं, तो आप प्राथमिक नोड आईडी के आधार पर एक विशेष ईएमआर क्लस्टर की पहचान करने के लिए इस आईडी का उपयोग कर सकते हैं।
लॉग ग्रुप में, आपको तीन अलग-अलग लॉग स्ट्रीम मिलेंगे।
लॉग स्ट्रीम में निम्न जानकारी होती है:
- स्टेप-स्टडआउट - चरण को संसाधित करते समय स्पार्क का मानक आउटपुट चैनल।
- stepsterr - चरण को संसाधित करते समय स्पार्क का मानक त्रुटि चैनल।
- कदम नियंत्रक - चरण के प्रसंस्करण के बारे में जानकारी। यदि लोड करते समय आपका चरण विफल हो जाता है, तो आप इस लॉग में स्टैक ट्रेस पा सकते हैं।
क्लीन अप
अपने खाते में भविष्य के शुल्कों से बचने के लिए, इस पूर्वाभ्यास में आपके द्वारा बनाए गए संसाधनों को हटा दें। EMR क्लस्टर तब तक शुल्क लेगा जब तक क्लस्टर सक्रिय है, इसलिए काम पूरा होने पर इसे बंद कर दें।
- CloudFormation कंसोल पर, नेविगेशन फलक में, चुनें ढेर.
- आपके द्वारा लॉन्च किया गया स्टैक चुनें (
EMR-CloudWatch-Demo
), उसके बाद चुनो मिटाना. - S3 बाल्टी खाली करें तुमने बनाया।
- S3 बकेट हटाएं तुमने बनाया।
निष्कर्ष
अब जब आपने इस पूर्वाभ्यास में चरणों को पूरा कर लिया है, तो आपके पास क्लाउडवॉच एजेंट आपके क्लस्टर होस्ट पर चल रहा है और ईएमआर चरण लॉग को क्लाउडवॉच पर पुश करने के लिए कॉन्फ़िगर किया गया है। इस सुविधा के साथ, आप प्रभावी रूप से Amazon EMR पर चल रहे अपने स्पार्क जॉब्स के स्वास्थ्य और प्रदर्शन की निगरानी कर सकते हैं, वास्तविक समय में महत्वपूर्ण मुद्दों का पता लगा सकते हैं और मूल कारणों की शीघ्र पहचान कर सकते हैं।
आप इस समाधान को इस उदाहरण टेम्पलेट जैसे CloudFormation टेम्पलेट के माध्यम से पैकेज और परिनियोजित कर सकते हैं, जो IAM उदाहरण प्रोफ़ाइल भूमिका, सिस्टम प्रबंधक पैरामीटर और EMR क्लस्टर बनाता है।
इसे और आगे ले जाने के लिए, निम्न पर अलर्ट के लिए क्लाउडवॉच अलार्म में इन लॉग का उपयोग करने पर विचार करें लॉग समूह-मीट्रिक फ़िल्टर. आप उन्हें अन्य अलार्म के साथ एक में एकत्र कर सकते हैं समग्र अलार्म या भेजने जैसी अलार्म क्रियाओं को कॉन्फ़िगर करें अमेज़न सरल अधिसूचना सेवा (अमेज़ॅन एसएनएस) इवेंट-संचालित प्रक्रियाओं को ट्रिगर करने के लिए सूचनाएं जैसे AWS लाम्बा कार्य करता है.
लेखक के बारे में
एन्नियो पास्टर AWS डेटा लैब टीम में एक वरिष्ठ डेटा वास्तुकार हैं। वह नई तकनीकों से संबंधित हर चीज के प्रति उत्साही हैं जिनका व्यवसायों और सामान्य आजीविका पर सकारात्मक प्रभाव पड़ता है। Ennio को डेटा एनालिटिक्स में 10 से अधिक वर्षों का अनुभव है। वह दूरसंचार, बैंकिंग, गेमिंग, खुदरा और बीमा जैसे उद्योगों में डेटा प्लेटफ़ॉर्म को परिभाषित करने और लागू करने में कंपनियों की मदद करता है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/big-data/push-amazon-emr-step-logs-from-amazon-ec2-instances-to-amazon-cloudwatch-logs/
- :है
- 1
- 10
- 100
- 9
- a
- About
- तक पहुँचने
- लेखा
- के पार
- कार्रवाई
- सक्रिय
- इसके अलावा
- पता
- एजेंट
- अलार्म
- अलर्ट
- सब
- वैकल्पिक
- वीरांगना
- अमेज़ॅन EC2
- अमेज़ॅन ईएमआर
- विश्लेषिकी
- और
- अपाचे
- अपाचे स्पार्क
- आवेदन
- अनुप्रयोगों
- स्थापत्य
- हैं
- AS
- At
- स्वायत्त
- एडब्ल्यूएस
- बैंकिंग
- आधारित
- BE
- से पहले
- शुरू करना
- BEST
- बड़ा
- बड़ा डेटा
- जूते का फीता
- निर्माण
- व्यवसायों
- by
- कर सकते हैं
- कैप्चरिंग
- का कारण बनता है
- चैनल
- प्रभार
- चुनें
- समूह
- इकट्ठा
- कंपनियों
- पूरा
- पूरा
- गणना करना
- विन्यास
- कनेक्ट कर रहा है
- विचार करना
- कंसोल
- सामग्री
- लगातार
- मूल
- मेल खाती है
- प्रभावी लागत
- लागत
- सका
- बनाना
- बनाया
- बनाता है
- बनाना
- महत्वपूर्ण
- अनुकूलित
- तिथि
- डेटा विश्लेषण
- चूक
- दर्शाता
- तैनात
- तैनात
- तैनात
- विभिन्न
- निर्देशिकाओं
- वितरित
- नीचे
- ड्राइव
- से प्रत्येक
- पूर्व
- आसान
- गूंज
- प्रभावी रूप से
- सक्षम बनाता है
- सरगर्म
- त्रुटि
- आवश्यक
- ईथर (ईटीएच)
- कार्यक्रम
- घटनाओं
- सब कुछ
- उदाहरण
- अपेक्षित
- अनुभव
- निर्यात
- भाव
- विफल रहता है
- Feature
- पट्टिका
- फ़ाइलें
- फ़िल्टर
- फ़िल्टर
- खोज
- निम्नलिखित
- इस प्रकार है
- के लिए
- से
- कार्यों
- आगे
- भविष्य
- जुआ
- सामान्य जानकारी
- उत्पन्न
- Go
- अधिक से अधिक
- समूह
- समूह की
- गाइड
- है
- स्वास्थ्य
- मदद
- सहायक
- मदद करता है
- अत्यधिक
- मेजबान
- कैसे
- How To
- एचटीएमएल
- http
- HTTPS
- आई ए एम
- ID
- पहचान करना
- पहचान
- प्रभाव
- लागू करने के
- कार्यान्वयन
- महत्वपूर्ण
- in
- शामिल
- शामिल
- सहित
- व्यक्ति
- उद्योगों
- करें-
- इंफ्रास्ट्रक्चर
- स्थापित
- स्थापित कर रहा है
- उदाहरण
- बीमा
- बुद्धि
- मुद्दों
- IT
- काम
- नौकरियां
- जेपीजी
- JSON
- प्रयोगशाला
- लांच
- शुभारंभ
- शुरूआत
- स्तर
- पसंद
- लोड हो रहा है
- स्थानीय
- लंबा
- रखरखाव
- बनाना
- प्रबंधन
- प्रबंधक
- ढंग
- साधन
- मेट्रिक्स
- संशोधित
- मॉनिटर
- निगरानी
- अधिक
- विभिन्न
- नाम
- नामांकित
- पथ प्रदर्शन
- जरूरत
- ज़रूरत
- नया
- नयी तकनीकें
- अगला
- नोड
- नोड्स
- अधिसूचना
- सूचनाएं
- संख्या
- of
- प्रस्तुत
- on
- ONE
- खुला स्रोत
- परिचालन
- अन्य
- उत्पादन
- पैकेज
- फलक
- प्राचल
- पैरामीटर
- विशेष
- विशेष रूप से
- पथ
- प्रदर्शन
- प्लेटफार्म
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- सकारात्मक
- पद
- अभ्यास
- प्रस्तुत
- प्राथमिक
- प्रक्रियाओं
- प्रसंस्करण
- प्रोफाइल
- प्रदान करना
- प्रदान करता है
- प्रावधान
- धक्का
- धक्का
- जल्दी से
- वास्तविक
- वास्तविक समय
- की सिफारिश
- नियमित
- सम्बंधित
- और
- रहना
- उपयुक्त संसाधन चुनें
- परिणाम
- खुदरा
- की समीक्षा
- भूमिका
- जड़
- रन
- दौड़ना
- स्केलेबल
- वर्गों
- सुरक्षा
- भेजना
- वरिष्ठ
- कई
- सेवा
- सत्र
- सेट
- चाहिए
- सरल
- So
- सॉफ्टवेयर
- समाधान
- कुछ
- स्पार्क
- विशिष्ट
- धुआँरा
- मानक
- प्रारंभ
- शुरुआत में
- शुरू होता है
- कदम
- कदम
- रुकें
- भंडारण
- भंडार
- व्यवस्थित बनाने
- नदियों
- उप - जाल
- सफलतापूर्वक
- ऐसा
- sudo
- प्रणाली
- सिस्टम
- लेना
- टीम
- टेक्नोलॉजीज
- दूरसंचार
- टेम्पलेट
- कि
- RSI
- उन
- इन
- तीन
- यहाँ
- पहर
- समय श्रृंखला
- सेवा मेरे
- निशान
- ट्रिगर
- उपयोग
- मूल्य
- पुष्टि करने
- देखें
- walkthrough
- घड़ियों
- मार्ग..
- कौन कौन से
- जब
- मर्जी
- साथ में
- बिना
- काम
- वर्कफ़्लो
- लिख रहे हैं
- लिखा हुआ
- यमलो
- साल
- आपका
- जेफिरनेट