स्पार्क एप्लिकेशन की दक्षता में सुधार करने के लिए, इसके प्रदर्शन और व्यवहार की निगरानी करना आवश्यक है। इस पोस्ट में, हम प्रदर्शित करते हैं कि विस्तृत स्पार्क मेट्रिक्स कैसे प्रकाशित करें अमेज़ॅन ईएमआर सेवा मेरे अमेज़ॅन क्लाउडवॉच. यह आपको संसाधन उपयोग को अनुकूलित करते समय बाधाओं की पहचान करने की क्षमता देगा।
क्लाउडवॉच AWS संसाधनों और अनुप्रयोगों के लिए शक्तिशाली अनुकूलन विकल्पों और अन्य AWS सेवाओं के साथ सहज एकीकरण के साथ एक मजबूत, स्केलेबल और लागत प्रभावी निगरानी समाधान प्रदान करता है। डिफ़ॉल्ट रूप से, अमेज़न EMR भेजता है बुनियादी मेट्रिक्स किसी क्लस्टर की गतिविधि और स्वास्थ्य को ट्रैक करने के लिए क्लाउडवॉच। स्पार्क की कॉन्फ़िगर करने योग्य मेट्रिक्स प्रणाली मेट्रिक्स को HTTP, JMX और CSV फ़ाइलों सहित विभिन्न प्रकार के सिंक में एकत्र करने की अनुमति देती है, लेकिन स्पार्क को क्लाउडवॉच पर मेट्रिक्स प्रकाशित करने में सक्षम करने के लिए अतिरिक्त कॉन्फ़िगरेशन की आवश्यकता होती है।
समाधान अवलोकन
इस समाधान में कस्टम सिंक पर मेट्रिक्स भेजने के लिए स्पार्क कॉन्फ़िगरेशन शामिल है। कस्टम सिंक केवल Metricfilter.json फ़ाइल में परिभाषित मेट्रिक्स एकत्र करता है। यह कस्टम क्लाउडवॉच नेमस्पेस पर मेट्रिक्स प्रकाशित करने के लिए क्लाउडवॉच एजेंट का उपयोग करता है। शामिल बूटस्ट्रैप एक्शन स्क्रिप्ट क्लाउडवॉच एजेंट और मीट्रिक लाइब्रेरी को स्थापित और कॉन्फ़िगर करने के लिए जिम्मेदार है अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन ईसी2) ईएमआर उदाहरण। क्लाउडवॉच डैशबोर्ड किसी एप्लिकेशन के प्रदर्शन के बारे में तुरंत जानकारी प्रदान कर सकता है।
निम्नलिखित आरेख समाधान वास्तुकला और कार्यप्रवाह को दर्शाता है।
वर्कफ़्लो में निम्न चरण शामिल हैं:
- उपयोगकर्ता ईएमआर क्लस्टर पर एक कदम बनाते हुए स्पार्क ईएमआर कार्य शुरू करते हैं। अपाचे स्पार्क के साथ, कार्यभार को ईएमआर क्लस्टर के विभिन्न नोड्स में वितरित किया जाता है।
- क्लस्टर के प्रत्येक नोड (EC2 इंस्टेंस) में, एक स्पार्क लाइब्रेरी मीट्रिक डेटा को कैप्चर करती है और क्लाउडवॉच एजेंट को भेजती है, जो मीट्रिक डेटा को क्लाउडवॉच पर भेजने से पहले एकत्रित करता है। हर 30 सेकंड.
- उपयोगकर्ता क्लाउडवॉच कंसोल पर कस्टम नेमस्पेस तक पहुंच कर मेट्रिक्स देख सकते हैं।
हम एक प्रदान करते हैं एडब्ल्यूएस CloudFormation एक सामान्य मार्गदर्शक के रूप में इस पोस्ट में टेम्पलेट। टेम्प्लेट दर्शाता है कि स्पार्क मेट्रिक्स को क्लाउडवॉच पर पुश करने के लिए अमेज़ॅन ईएमआर पर क्लाउडवॉच एजेंट को कैसे कॉन्फ़िगर किया जाए। आप अपने अमेज़ॅन ईएमआर सुरक्षा कॉन्फ़िगरेशन को शामिल करने के लिए आवश्यकतानुसार इसकी समीक्षा और अनुकूलित कर सकते हैं। सर्वोत्तम अभ्यास के रूप में, हम आपके अमेज़ॅन ईएमआर सुरक्षा कॉन्फ़िगरेशन को टेम्पलेट में शामिल करने की अनुशंसा करते हैं पारगमन में डेटा एन्क्रिप्ट करें.
आपको यह भी पता होना चाहिए कि इस स्टैक द्वारा तैनात कुछ संसाधनों पर लागत तब आती है जब वे उपयोग में रहते हैं। इसके अतिरिक्त, ईएमआर मेट्रिक्स CloudWatch की लागत न लें. हालाँकि, कस्टम मेट्रिक्स पर क्लाउडवॉच मेट्रिक्स मूल्य निर्धारण के आधार पर शुल्क लगता है। अधिक जानकारी के लिए देखें अमेज़ॅन क्लाउडवॉच मूल्य निर्धारण.
अगले खंडों में, हम निम्नलिखित चरणों से गुजरते हैं:
- मेट्रिक्स लाइब्रेरी, इंस्टॉलेशन स्क्रिप्ट और फ़िल्टर परिभाषा बनाएं और अपलोड करें अमेज़न सरल भंडारण सेवा (अमेज़न S3) बाल्टी।
- निम्न संसाधनों को बनाने के लिए CloudFormation टेम्प्लेट का उपयोग करें:
- क्लाउडवॉच कंसोल पर स्पार्क मेट्रिक्स की निगरानी करें।
.. पूर्वापेक्षाएँ
यह पोस्ट मानता है कि आपके पास निम्नलिखित हैं:
- An AWS खाता.
- बूटस्ट्रैप स्क्रिप्ट, लाइब्रेरी और मीट्रिक फ़िल्टर परिभाषा को संग्रहीत करने के लिए एक S3 बकेट।
- में एक वीपीसी बनाई गई अमेज़ॅन वर्चुअल प्राइवेट क्लाउड (अमेज़ॅन वीपीसी), जहां आपका ईएमआर क्लस्टर लॉन्च किया जाएगा।
- AWS सेवाओं और संसाधनों के लिए Amazon EMR अनुमतियों के लिए डिफ़ॉल्ट IAM सेवा भूमिकाएँ। आप इन भूमिकाओं को aws emr create-default-roles कमांड के साथ बना सकते हैं AWS कमांड लाइन इंटरफ़ेस (AWS CLI)।
- एक वैकल्पिक EC2 कुंजी जोड़ी, यदि आप इसके बजाय SSH के माध्यम से अपने क्लस्टर से कनेक्ट करने की योजना बना रहे हैं सत्र प्रबंधक, की क्षमता एडब्ल्यूएस सिस्टम मैनेजर.
आवश्यक मेट्रिक्स परिभाषित करें
क्लाउडवॉच पर अनावश्यक डेटा भेजने से बचने के लिए, हमारा समाधान एक मीट्रिक फ़िल्टर लागू करता है। की समीक्षा करें स्पार्क प्रलेखन नामस्थानों और उनसे संबंधित मेट्रिक्स से परिचित होने के लिए। निर्धारित करें कि कौन से मेट्रिक्स आपके विशिष्ट एप्लिकेशन और प्रदर्शन लक्ष्यों के लिए प्रासंगिक हैं। कार्यभार, डेटा प्रोसेसिंग आवश्यकताओं और अनुकूलन उद्देश्यों के आधार पर, विभिन्न अनुप्रयोगों की निगरानी के लिए अलग-अलग मैट्रिक्स की आवश्यकता हो सकती है। जिन मीट्रिक नामों की आप निगरानी करना चाहते हैं, उन्हें उनके संबंधित नामस्थानों के साथ, Metricfilter.json फ़ाइल में परिभाषित किया जाना चाहिए।
हमने एक उदाहरण मेट्रिकफिल्टर.जेसन परिभाषा बनाई है, जिसमें डेटा I/O, कचरा संग्रहण, मेमोरी और सीपीयू दबाव, और स्पार्क जॉब, स्टेज और टास्क मेट्रिक्स से संबंधित मेट्रिक्स कैप्चर करना शामिल है।
ध्यान दें कि कुछ मेट्रिक्स सभी स्पार्क रिलीज़ संस्करणों में उपलब्ध नहीं हैं (उदाहरण के लिए, ऐपस्टैटस को स्पार्क 3.0 में पेश किया गया था)।
आवश्यक फ़ाइलें S3 बकेट में बनाएं और अपलोड करें
अधिक जानकारी के लिए देखें वस्तुओं को अपलोड करना और क्लाउडवॉच एजेंट को अपने सर्वर पर इंस्टॉल करना और चलाना.
बूटस्ट्रैप स्क्रिप्ट बनाने और अपलोड करने के लिए, निम्न चरणों को पूरा करें:
- Amazon S3 कंसोल पर, अपनी S3 बकेट चुनें।
- पर वस्तुएँ टैब चुनें अपलोड.
- चुनें फाइलें जोड़ो, फिर चुनें मेट्रिकफिल्टर.जसन, इंस्टॉलर.sh, तथा examplejob.sh फाइलें.
- इसके अतिरिक्त, अपलोड करें
emr-custom-cw-sink-0.0.1.jar
मेट्रिक्स लाइब्रेरी फ़ाइल जो आपके द्वारा उपयोग किए जा रहे अमेज़ॅन ईएमआर रिलीज़ संस्करण से मेल खाती है: - चुनें अपलोड, और फ़ाइलों के लिए S3 URI का ध्यान रखें।
CloudFormation टेम्प्लेट के साथ संसाधनों का प्रावधान करें
चुनें स्टैक लॉन्च करें अपने खाते में क्लाउडफॉर्मेशन स्टैक लॉन्च करने और टेम्पलेट को परिनियोजित करने के लिए:
यह टेम्प्लेट एक IAM भूमिका, IAM इंस्टेंस प्रोफ़ाइल, EMR क्लस्टर और क्लाउडवॉच डैशबोर्ड बनाता है। क्लस्टर एक बुनियादी प्रारंभ करता है स्पार्क उदाहरण अनुप्रयोग. यदि आप इस टेम्प्लेट से स्टैक बनाते हैं तो आपको उपयोग किए गए AWS संसाधनों के लिए बिल भेजा जाएगा।
क्लाउडफ़ॉर्मेशन विज़ार्ड आपको इन पैरामीटरों को संशोधित करने या प्रदान करने के लिए कहेगा:
- इंस्टेंस टाइप - उदाहरण का प्रकार सभी उदाहरण समूहों के लिए. डिफ़ॉल्ट m5.2xlarge है।
- इंस्टेंसकाउंटकोर - कोर उदाहरण समूह में उदाहरणों की संख्या। डिफ़ॉल्ट 4 है।
- ईएमआर रिलीज लेबल - अमेज़न ईएमआर रिलीज लेबल आप उपयोग करना चाहते हैं। डिफ़ॉल्ट ईएमआर-6.9.0 है।
- बूटस्ट्रैपस्क्रिप्टपाथ - installer.sh इंस्टालेशन बूटस्ट्रैप स्क्रिप्ट का S3 पथ जिसे आपने पहले कॉपी किया था।
- मेट्रिकफ़िल्टरपाथ - आपके Metricfilter.json परिभाषा का S3 पथ जिसे आपने पहले कॉपी किया था।
- मेट्रिक्सलाइब्रेरीपाथ - आपकी CloudWatch emr-custom-cw-sink-3.jar लाइब्रेरी का S0.0.1 पथ जिसे आपने पहले कॉपी किया था।
- क्लाउडवॉचनेमस्पेस - उपयोग किए जाने वाले कस्टम क्लाउडवॉच नेमस्पेस का नाम।
- स्पार्कडेमोएप्लिकेशनपाथ - आपकी examplejob.sh स्क्रिप्ट का S3 पथ जिसे आपने पहले कॉपी किया था।
- सबनेट - EC2 सबनेट जहां क्लस्टर लॉन्च होता है। आपको यह पैरामीटर प्रदान करना होगा।
- EC2KeyPairName - सत्र प्रबंधक के विकल्प के रूप में, क्लस्टर नोड्स से कनेक्ट करने के लिए एक वैकल्पिक EC2 कुंजी जोड़ी।
मेट्रिक्स देखें
क्लाउडफॉर्मेशन स्टैक सफलतापूर्वक तैनात होने के बाद, उदाहरण कार्य स्वचालित रूप से शुरू होता है और पूरा होने में लगभग 15 मिनट लगते हैं। क्लाउडवॉच कंसोल पर, चुनें डैशबोर्ड नेविगेशन फलक में. फिर सूची को उपसर्ग SparkMonitoring द्वारा फ़िल्टर करें।
उदाहरण डैशबोर्ड में क्लस्टर पर जानकारी और स्पार्क नौकरियों, चरणों और कार्यों का अवलोकन शामिल है। मेट्रिक्स एक कस्टम नेमस्पेस के अंतर्गत भी उपलब्ध हैं, जिसकी शुरुआत होती है EMRCustomSparkCloudWatchSink
.
मेमोरी, सीपीयू, आई/ओ और अतिरिक्त कार्य वितरण मेट्रिक्स भी शामिल हैं।
अंत में, प्रत्येक निष्पादक के लिए विस्तृत जावा कचरा संग्रहण मेट्रिक्स उपलब्ध हैं।
क्लीन अप
अपने खाते में भविष्य के शुल्कों से बचने के लिए, इस वॉकथ्रू में आपके द्वारा बनाए गए संसाधनों को हटा दें। जब तक क्लस्टर सक्रिय है तब तक ईएमआर क्लस्टर पर शुल्क लगेगा, इसलिए जब आपका काम पूरा हो जाए तो इसे रोक दें। निम्नलिखित चरणों को पूरा करें:
- CloudFormation कंसोल पर, नेविगेशन फलक में, चुनें ढेर.
- आपके द्वारा लॉन्च किया गया स्टैक चुनें (
EMR-CloudWatch-Demo
), उसके बाद चुनो मिटाना. - S3 बाल्टी खाली करें तुमने बनाया।
- S3 बकेट हटाएं तुमने बनाया।
निष्कर्ष
अब जब आपने इस वॉकथ्रू में चरण पूरे कर लिए हैं, तो क्लाउडवॉच एजेंट आपके क्लस्टर होस्ट पर चल रहा है और स्पार्क मेट्रिक्स को क्लाउडवॉच पर पुश करने के लिए कॉन्फ़िगर किया गया है। इस सुविधा के साथ, आप अमेज़ॅन ईएमआर पर चल रहे अपने स्पार्क जॉब्स के स्वास्थ्य और प्रदर्शन की प्रभावी ढंग से निगरानी कर सकते हैं, वास्तविक समय में महत्वपूर्ण मुद्दों का पता लगा सकते हैं और मूल कारणों की तुरंत पहचान कर सकते हैं।
आप इस उदाहरण टेम्पलेट की तरह क्लाउडफ़ॉर्मेशन टेम्पलेट के माध्यम से इस समाधान को पैकेज और तैनात कर सकते हैं, जो IAM इंस्टेंस प्रोफ़ाइल भूमिका, क्लाउडवॉच डैशबोर्ड और EMR क्लस्टर बनाता है। लाइब्रेरी के लिए स्रोत कोड यहां उपलब्ध है GitHub अनुकूलन के लिए।
इसे आगे बढ़ाने के लिए, क्लाउडवॉच अलार्म में इन मेट्रिक्स का उपयोग करने पर विचार करें। आप उन्हें अन्य अलार्मों के साथ एकत्रित कर सकते हैं समग्र अलार्म या भेजने जैसी अलार्म क्रियाओं को कॉन्फ़िगर करें अमेज़न सरल अधिसूचना सेवा (अमेज़ॅन एसएनएस) इवेंट-संचालित प्रक्रियाओं को ट्रिगर करने के लिए सूचनाएं जैसे AWS लाम्बा कार्य करता है.
लेखक के बारे में
ले क्लू लुब्बे AWS में प्रधान अभियंता हैं। वह हमारे सबसे बड़े उद्यम ग्राहकों के साथ उनकी कुछ सबसे जटिल तकनीकी समस्याओं को हल करने के लिए काम करता है। वह हमारे ग्राहकों के जीवन को प्रभावित करने और बेहतर बनाने के लिए नवाचार के माध्यम से व्यापक समाधान चलाते हैं।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. ऑटोमोटिव/ईवीएस, कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- चार्टप्राइम. चार्टप्राइम के साथ अपने ट्रेडिंग गेम को उन्नत करें। यहां पहुंचें।
- BlockOffsets. पर्यावरणीय ऑफसेट स्वामित्व का आधुनिकीकरण। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/big-data/monitor-apache-spark-applications-on-amazon-emr-with-amazon-cloudwatch/
- :है
- :नहीं
- :कहाँ
- 1
- 100
- 107
- 15% तक
- 20
- 30
- 9
- a
- क्षमता
- तक पहुँचने
- लेखा
- परिचित
- के पार
- कार्य
- कार्रवाई
- सक्रिय
- गतिविधि
- अतिरिक्त
- इसके अतिरिक्त
- एजेंट
- अलार्म
- सब
- की अनुमति देता है
- साथ में
- भी
- वैकल्पिक
- वीरांगना
- अमेज़ॅन EC2
- अमेज़ॅन ईएमआर
- अमेज़ॅन वेब सेवा
- an
- और
- अपाचे
- अपाचे स्पार्क
- आवेदन
- अनुप्रयोगों
- लगभग
- वास्तु
- स्थापत्य
- हैं
- AS
- जुड़े
- मान लिया गया है
- At
- लेखक
- स्वतः
- उपलब्ध
- से बचने
- जागरूक
- एडब्ल्यूएस
- आधारित
- बुनियादी
- BE
- से पहले
- BEST
- जूते का फीता
- विस्तृत
- लेकिन
- by
- कर सकते हैं
- क्षमता
- कब्जा
- कैप्चरिंग
- का कारण बनता है
- कुछ
- प्रभार
- चुनें
- समूह
- कोड
- इकट्ठा
- संग्रह
- एकत्र
- पूरा
- पूरा
- जटिल
- गणना करना
- विन्यास
- कॉन्फ़िगर किया गया
- जुडिये
- कनेक्ट कर रहा है
- विचार करना
- कंसोल
- मूल
- मेल खाती है
- प्रभावी लागत
- लागत
- सका
- सी पी यू
- बनाना
- बनाया
- बनाता है
- बनाना
- महत्वपूर्ण
- रिवाज
- ग्राहक
- अनुकूलन
- अनुकूलित
- डैशबोर्ड
- तिथि
- डेटा संसाधन
- चूक
- परिभाषित
- परिभाषा
- दिखाना
- दर्शाता
- निर्भर करता है
- तैनात
- तैनात
- तैनात
- विस्तृत
- निर्धारित करना
- विभिन्न
- वितरित
- वितरण
- किया
- dont
- ड्राइव
- से प्रत्येक
- पूर्व
- प्रभावी रूप से
- दक्षता
- सक्षम
- इंजीनियर
- उद्यम
- उद्यम ग्राहकों
- आवश्यक
- ईथर (ईटीएच)
- उदाहरण
- Feature
- पट्टिका
- फ़ाइलें
- फ़िल्टर
- निम्नलिखित
- के लिए
- से
- कार्यों
- आगे
- भविष्य
- सामान्य जानकारी
- मिल
- देना
- Go
- लक्ष्यों
- समूह
- समूह की
- गाइड
- है
- he
- स्वास्थ्य
- मेजबान
- कैसे
- How To
- तथापि
- एचटीएमएल
- http
- HTTPS
- आई ए एम
- पहचान करना
- पहचान
- if
- दिखाता है
- illustrating
- प्रभाव
- औजार
- में सुधार
- in
- शामिल
- शामिल
- शामिल
- सहित
- करें-
- नवोन्मेष
- अन्तर्दृष्टि
- स्थापना
- स्थापित कर रहा है
- उदाहरण
- तुरंत
- एकीकरण
- में
- शुरू की
- मुद्दों
- IT
- आईटी इस
- जावा
- काम
- नौकरियां
- JSON
- कुंजी
- सबसे बड़ा
- लांच
- शुभारंभ
- शुरूआत
- पुस्तकालय
- जीवन
- पसंद
- लाइन
- सूची
- लंबा
- प्रबंधक
- मई..
- याद
- मीट्रिक
- मेट्रिक्स
- मिनट
- संशोधित
- मॉनिटर
- निगरानी
- अधिक
- अधिकांश
- चाहिए
- नाम
- नामों
- पथ प्रदर्शन
- जरूरत
- अगला
- नोड
- नोड्स
- नोट
- अधिसूचना
- सूचनाएं
- संख्या
- उद्देश्य
- of
- on
- केवल
- इष्टतमीकरण
- के अनुकूलन के
- ऑप्शंस
- or
- अन्य
- हमारी
- सिंहावलोकन
- पैकेज
- जोड़ा
- फलक
- प्राचल
- पैरामीटर
- पथ
- प्रति
- प्रदर्शन
- अनुमतियाँ
- योजना
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- चित्र
- पद
- शक्तिशाली
- अभ्यास
- दबाव
- कीमत निर्धारण
- प्रिंसिपल
- निजी
- समस्याओं
- प्रक्रियाओं
- प्रसंस्करण
- प्रोफाइल
- प्रदान करना
- प्रदान करता है
- प्रकाशित करना
- धक्का
- धक्का
- धक्का
- जल्दी से
- बल्कि
- वास्तविक
- वास्तविक समय
- की सिफारिश
- सम्बंधित
- और
- प्रासंगिक
- रहना
- की आवश्यकता होती है
- अपेक्षित
- आवश्यकताएँ
- संसाधन
- संसाधन प्रयोग
- उपयुक्त संसाधन चुनें
- जिम्मेदार
- की समीक्षा
- मजबूत
- भूमिका
- भूमिकाओं
- जड़
- दौड़ना
- स्केलेबल
- निर्बाध
- अनुभाग
- वर्गों
- सुरक्षा
- देखना
- भेजें
- भेजना
- भेजता
- सेवा
- सेवाएँ
- सत्र
- चाहिए
- सरल
- So
- समाधान
- समाधान ढूंढे
- हल
- कुछ
- स्रोत
- स्रोत कोड
- स्पार्क
- विशिष्ट
- धुआँरा
- ट्रेनिंग
- चरणों
- प्रारंभ
- शुरुआत में
- शुरू होता है
- कदम
- कदम
- रुकें
- भंडारण
- उप - जाल
- सफलतापूर्वक
- ऐसा
- सारांश
- प्रणाली
- सिस्टम
- लेना
- लेता है
- कार्य
- कार्य
- तकनीकी
- टेम्पलेट
- से
- कि
- RSI
- स्रोत
- लेकिन हाल ही
- उन
- फिर
- इन
- वे
- इसका
- यहाँ
- पहर
- सेवा मेरे
- ट्रैक
- ट्रिगर
- के अंतर्गत
- उपयोग
- प्रयुक्त
- का उपयोग
- इस्तेमाल
- विविधता
- संस्करण
- देखें
- वास्तविक
- walkthrough
- करना चाहते हैं
- था
- we
- वेब
- वेब सेवाओं
- कब
- कौन कौन से
- जब
- मर्जी
- साथ में
- वर्कफ़्लो
- कार्य
- X
- यमलो
- इसलिए आप
- आपका
- जेफिरनेट