Amazon EMR ने स्पार्क वर्कलोड के लिए लागत प्रदर्शन को 2-7% तक बेहतर बनाने के लिए Amazon EC3 C7g (Graviton13) उदाहरणों के लिए समर्थन शुरू किया

Amazon EMR ने स्पार्क वर्कलोड के लिए लागत प्रदर्शन को 2-7% तक बेहतर बनाने के लिए Amazon EC3 C7g (Graviton13) उदाहरणों के लिए समर्थन शुरू किया

स्रोत नोड: 1935298

अमेज़ॅन ईएमआर Apache Spark, Hive, Presto, Trino, HBase, और Flink जैसे ओपन-सोर्स फ्रेमवर्क का उपयोग करके एनालिटिक्स एप्लिकेशन को आसानी से चलाने के लिए एक प्रबंधित सेवा प्रदान करता है। के लिए अमेज़न ईएमआर रनटाइम स्पार्क और हाथ की सफ़ाई अनुकूलन शामिल हैं जो ओपन-सोर्स अपाचे स्पार्क और प्रेस्टो की तुलना में प्रदर्शन में दोगुने से अधिक सुधार प्रदान करते हैं।

Amazon EMR रिलीज़ 6.7 के साथ, अब आप उपयोग कर सकते हैं अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़न EC2) C7g इंस्टेंसेस, जो एडब्ल्यूएस ग्रेविटॉन3 प्रोसेसर। ये उदाहरण उदाहरण आकार के आधार पर पिछली पीढ़ी के उदाहरणों की तुलना में अमेज़ॅन ईएमआर पर स्पार्क वर्कलोड चलाने के मूल्य-प्रदर्शन में 7.93–13.35% सुधार करते हैं। इस पोस्ट में, हम वर्णन करते हैं कि हमने मूल्य-प्रदर्शन लाभ का अनुमान कैसे लगाया।

EC2 C7g उदाहरणों के साथ Amazon EMR रनटाइम प्रदर्शन

हमने C3g उदाहरणों के साथ Apache Spark (Apache Spark 6.9 के साथ संगत) के लिए Amazon EMR रनटाइम का उपयोग करके Amazon EMR 3.3 पर TPC-DS 7 TB बेंचमार्क क्वेरीज़ चलाईं। में डाटा संग्रहित किया गया था अमेज़न सरल भंडारण सेवा (अमेज़न S3), और परिणामों की तुलना पिछली पीढ़ी के उदाहरण परिवार के समकक्ष C6g समूहों से की गई। हमने टीपीसी-डीएस 3 टीबी बेंचमार्क प्रश्नों में क्वेरी रनटाइम के कुल क्वेरी रनटाइम और ज्यामितीय माध्य का उपयोग करके प्रदर्शन सुधारों को मापा।

हमारे परिणामों ने कुल क्वेरी रनटाइम प्रदर्शन में 13.65–18.73% सुधार और C16.98g के साथ EMR क्लस्टर पर ज्यामितीय माध्य में 20.28–7% सुधार दिखाया, उदाहरण के आकार के आधार पर C6g उदाहरणों के साथ समकक्ष EMR क्लस्टर की तुलना में। लागतों की तुलना करने पर, हमने उदाहरण के आकार के आधार पर C7.93g के समतुल्य की तुलना में C13.35g के साथ EMR क्लस्टर पर लागत में 7–6% की कमी देखी। हमने C6g xlarge उदाहरण को बेंचमार्क नहीं किया क्योंकि इसमें प्रश्नों को चलाने के लिए पर्याप्त मेमोरी नहीं थी।

निम्न तालिका समतुल्य C3g और C6.9g उदाहरण EMR क्लस्टर की तुलना में Amazon EMR 7 का उपयोग करके TPC-DS 6 TB बेंचमार्क क्वेरी चलाने के परिणाम दिखाती है।

उदाहरण का आकार 16 एक्स्ट्रा लार्ज 12 एक्स्ट्रा लार्ज 8 एक्स्ट्रा लार्ज 4 एक्स्ट्रा लार्ज 2 एक्स्ट्रा लार्ज
क्लस्टर का कुल आकार (1 लीडर + 5 कोर नोड) 6 6 6 6 6
C6g पर कुल क्वेरी रनटाइम (सेकंड) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
C7g पर कुल क्वेरी रनटाइम (सेकंड) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
C7g के साथ कुल क्वेरी रनटाइम सुधार 13.65% तक 15.13% तक 14.95% तक 18.73% तक 16.64% तक
ज्यामितीय माध्य क्वेरी रनटाइम C6g (सेकंड) 22.2113 21.75459 23.38081 31.97192 45.41656
ज्यामितीय माध्य क्वेरी रनटाइम C7g (सेकंड) 18.43905 17.65898 19.01684 25.48695 37.43737
C7g के साथ ज्यामितीय माध्य क्वेरी रनटाइम सुधार 16.98% तक 18.83% तक 18.66% तक 20.28% तक 17.57% तक
EC2 C6g उदाहरण मूल्य ($ प्रति घंटा) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
EMR C6g उदाहरण मूल्य ($ प्रति घंटा) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) उदाहरण मूल्य ($ प्रति घंटा) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
C6g पर चलने की लागत ($ प्रति उदाहरण) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
EC2 C7g उदाहरण मूल्य ($ प्रति घंटा) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
EMR C7g मूल्य ($ प्रति घंटा प्रति उदाहरण) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) C7g उदाहरण मूल्य ($ प्रति घंटा) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
C7g पर चलने की लागत ($ प्रति उदाहरण) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
प्रदर्शन सुधार सहित C7g के साथ कुल लागत में कमी -7.93% -9.52% -9.32% -13.35% -11.13%

निम्नलिखित ग्राफ समतुल्य C7g पीढ़ियों की तुलना में C2g 6xबड़े उदाहरणों पर देखे गए प्रति-क्वेरी सुधारों को दर्शाता है।

बेंचमार्किंग पद्धति

इस पोस्ट में प्रयुक्त बेंचमार्क उद्योग-मानक टीपीसी-डीएस बेंचमार्क से लिया गया है, और प्रश्नों का उपयोग करता है स्पार्क एसक्यूएल परफॉर्मेंस टेस्ट गिटहब रेपो निम्नलिखित के साथ स्थिर लागू।

हमने प्रति घंटे की लागत को क्लस्टर में उदाहरणों की संख्या और क्लस्टर पर प्रश्नों को चलाने में लगने वाले समय से गुणा करके TCO की गणना की। हमने सभी उदाहरणों के लिए यूएस ईस्ट (एन। वर्जीनिया) क्षेत्र में ऑन-डिमांड मूल्य निर्धारण का उपयोग किया।

निष्कर्ष

इस पोस्ट में, हमने वर्णन किया है कि कैसे हमने पिछली पीढ़ी के समतुल्य उदाहरणों की तुलना में C7g उदाहरणों के साथ Amazon EMR का उपयोग करने से लागत-प्रदर्शन लाभ का अनुमान लगाया। अमेज़ॅन ईएमआर के साथ इन नए उदाहरणों का उपयोग करने से अतिरिक्त 7-13% लागत-प्रदर्शन में सुधार होता है।


लेखक के बारे में

लक्ष्यअल एम.एस Amazon Web Services पर Amazon EMR के लिए एक उत्पाद प्रबंधक है।

क्योंघ्युन रयू Amazon Web Services में EMR के लिए एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। वह मुख्य रूप से आंतरिक टीमों और ग्राहकों के लिए उनकी उत्पादकता को अधिकतम करने के लिए ऑटोमेशन टूल्स के डिजाइन और निर्माण पर काम करता है। काम के बाहर, वह पेशेवर गेमिंग में एक सेवानिवृत्त विश्व चैंपियन हैं जो अभी भी वीडियो गेम खेलना पसंद करते हैं।

युझोउ सन Amazon Web Services पर EMR के लिए एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है।

स्टीव कूनसे Amazon Web Services में EMR के लिए इंजीनियरिंग मैनेजर हैं।

समय टिकट:

से अधिक एडब्ल्यूएस बिग डेटा