Amazon SageMaker Data Wrangler का उपयोग करके कुछ ही क्लिक के साथ प्रोसेसिंग जॉब लॉन्च करें

स्रोत नोड: 1600104

अमेज़न SageMaker डेटा रैंगलर दृश्य इंटरफ़ेस का उपयोग करके डेटा वैज्ञानिकों और इंजीनियरों के लिए मशीन लर्निंग (एमएल) अनुप्रयोगों के लिए डेटा तैयार करना तेज़ बनाता है। पहले, जब आप डेटा रैंगलर डेटा प्रवाह बनाते थे, तो आप उस डेटा प्रवाह को अपनी डेटा प्रोसेसिंग पाइपलाइन में आसानी से एकीकृत करने के लिए अलग-अलग निर्यात विकल्प चुन सकते थे। डेटा रैंगलर को निर्यात विकल्प प्रदान करता है अमेज़न सरल भंडारण सेवा (अमेज़न S3), SageMaker पाइपलाइन, तथा SageMaker फ़ीचर स्टोर, या पायथन कोड के रूप में। निर्यात विकल्प एक ज्यूपिटर नोटबुक बनाते हैं और इसके द्वारा सुविधा प्रदान करने वाले प्रसंस्करण कार्य को शुरू करने के लिए आपको कोड चलाने की आवश्यकता होती है SageMaker प्रसंस्करण.

हम डेटा रैंगलर में डेस्टिनेशन नोड्स और क्रिएट जॉब फीचर की सामान्य रिलीज की घोषणा करते हुए उत्साहित हैं। यह सुविधा आपको उन सभी परिवर्तनों को निर्यात करने की क्षमता देती है जिन्हें आपने डेटासेट में गंतव्य नोड पर कुछ ही क्लिक के साथ निर्यात किया था। यह आपको ज्यूपिटर नोटबुक को उत्पन्न करने, चलाने या प्रबंधित किए बिना विज़ुअल इंटरफ़ेस के माध्यम से डेटा प्रोसेसिंग जॉब बनाने और Amazon S3 को निर्यात करने की अनुमति देता है, जिससे निम्न-कोड अनुभव में वृद्धि होती है। इस नई सुविधा को प्रदर्शित करने के लिए, हम इसका उपयोग करते हैं टाइटैनिक डेटासेट और दिखाएँ कि अपने परिवर्तनों को गंतव्य नोड में कैसे निर्यात करें।

.. पूर्वापेक्षाएँ

इससे पहले कि हम डेटा रैंगलर के साथ डेस्टिनेशन नोड्स का उपयोग करना सीखें, आपको पहले ही समझ लेना चाहिए कि कैसे करना है एक्सेस करें और डेटा रैंगलर के साथ शुरुआत करें. आपको यह भी जानने की जरूरत है कि क्या ए डाटा प्रवाह मतलब डेटा रैंगलर के संदर्भ में और डेटा रैंगलर द्वारा समर्थित विभिन्न डेटा स्रोतों से अपने डेटा को आयात करके इसे कैसे बनाया जाए।

समाधान अवलोकन

नाम के निम्नलिखित डेटा प्रवाह पर विचार करें example-titanic.flow:

  • यह टाइटैनिक डेटासेट को तीन बार आयात करता है। आप इन विभिन्न आयातों को डेटा प्रवाह में अलग-अलग शाखाओं के रूप में देख सकते हैं।
  • प्रत्येक शाखा के लिए, यह परिवर्तन और विज़ुअलाइज़ेशन का एक सेट लागू करता है।
  • यह सभी परिवर्तनों और विज़ुअलाइज़ेशन के साथ शाखाओं को एक नोड में जोड़ता है।

इस प्रवाह के साथ, हो सकता है कि आप अपने डेटा के कुछ हिस्सों को किसी विशिष्ट शाखा या स्थान पर संसाधित करना और सहेजना चाहें.

निम्नलिखित चरणों में, हम प्रदर्शित करते हैं कि गंतव्य नोड्स कैसे बनाएं, उन्हें अमेज़ॅन एस 3 में निर्यात करें, और प्रसंस्करण कार्य बनाएं और लॉन्च करें।

एक गंतव्य नोड बनाएँ

आप गंतव्य नोड बनाने और उन्हें S3 बकेट में निर्यात करने के लिए निम्न कार्यविधि का उपयोग कर सकते हैं:

  1. निर्धारित करें कि प्रवाह फ़ाइल (रूपांतरण) के किन भागों को आप सहेजना चाहते हैं।
  2. नोड्स के बगल में धन चिह्न चुनें जो उन परिवर्तनों का प्रतिनिधित्व करते हैं जिन्हें आप निर्यात करना चाहते हैं। (यदि यह एक संक्षिप्त नोड है, तो आपको नोड के लिए विकल्प आइकन (तीन बिंदु) का चयन करना होगा)।
  3. निलंबित करें गंतव्य जोड़ें.
  4. चुनें अमेज़न S3.
  5. निम्न स्क्रीनशॉट में दिखाए अनुसार फ़ील्ड निर्दिष्ट करें।
  6. दूसरे जुड़ने वाले नोड के लिए, Amazon S3 को गंतव्य के रूप में जोड़ने और फ़ील्ड निर्दिष्ट करने के लिए समान चरणों का पालन करें।

आप अपने डेटा प्रवाह में जितने चाहें उतने नोड के लिए इन चरणों को जितनी बार चाहें उतनी बार दोहरा सकते हैं। बाद में, आप अपने प्रसंस्करण कार्य में शामिल करने के लिए कौन से गंतव्य नोड चुनते हैं।

एक प्रसंस्करण कार्य शुरू करें

प्रसंस्करण कार्य बनाने के लिए निम्नलिखित प्रक्रिया का उपयोग करें और उस गंतव्य नोड को चुनें जहाँ आप निर्यात करना चाहते हैं:

  1. पर डाटा प्रवाह टैब चुनें नौकरी पैदा करो.
  2. के लिए कार्य नाम¸ निर्यात कार्य का नाम दर्ज करें।
  3. उस गंतव्य नोड का चयन करें जिसे आप निर्यात करना चाहते हैं।
  4. वैकल्पिक रूप से निर्दिष्ट करें AWS प्रमुख प्रबंधन सेवा (AWS KMS) कुंजी ARN।

KMS कुंजी एक क्रिप्टोग्राफ़िक कुंजी है जिसका उपयोग आप अपने डेटा की सुरक्षा के लिए कर सकते हैं। KMS कुंजियों के बारे में अधिक जानकारी के लिए, देखें एडब्ल्यूएस कुंजी डेवलपर गाइड.

  1. चुनें अगला, 2. कार्य कॉन्फ़िगर करें.
  2. वैकल्पिक रूप से, आप उदाहरण प्रकार या गिनती को बदलकर, या कार्य से संबद्ध करने के लिए कोई टैग जोड़कर अपनी आवश्यकताओं के अनुसार कार्य को कॉन्फ़िगर कर सकते हैं।
  3. चुनें रन नौकरी चलाने के लिए।

जब कार्य सफलतापूर्वक बनाया जाता है तो एक सफल संदेश प्रकट होता है।

अंतिम डेटा देखें

अंत में, आप निर्यात किए गए डेटा को देखने के लिए निम्न चरणों का उपयोग कर सकते हैं:

  1. आपके द्वारा कार्य सृजित करने के बाद, प्रदान किया गया लिंक चुनें।

SageMaker कंसोल पर प्रोसेसिंग जॉब दिखाते हुए एक नया टैब खुलता है।

  1. जब काम पूरा हो जाए, तो Amazon S3 कंसोल पर निर्यात किए गए डेटा की समीक्षा करें।

आपके द्वारा चुने गए कार्य के नाम के साथ आपको एक नया फ़ोल्डर दिखाई देना चाहिए।

  1. अंतिम डेटा के साथ CSV फ़ाइल (या एकाधिक फ़ाइलें) देखने के लिए कार्य का नाम चुनें।

सामान्य प्रश्न

इस खंड में, हम इस नई सुविधा के बारे में अक्सर पूछे जाने वाले कुछ प्रश्नों को संबोधित करते हैं:

  • निर्यात टैब का क्या हुआ? इस नई सुविधा के साथ, हमने हटा दिया निर्यात डेटा रैंगलर से टैब। आप अभी भी निम्न चरणों के साथ डेटा प्रवाह में आपके द्वारा बनाए गए किसी भी नोड से डेटा रैंगलर जनरेट किए गए ज्यूपिटर नोटबुक के माध्यम से निर्यात कार्यक्षमता की सुविधा प्रदान कर सकते हैं:
    1. उस नोड के आगे धन चिह्न चुनें जिसे आप निर्यात करना चाहते हैं।
    2. चुनें को निर्यात.
    3. चुनें अमेज़न S3 (जुपिटर नोटबुक के माध्यम से).
    4. ज्यूपिटर नोटबुक चलाएँ।
  • मैं एक कार्य में कितने गंतव्य नोड शामिल कर सकता हूँ? प्रति प्रसंस्करण कार्य अधिकतम 10 गंतव्य हैं।
  • प्रवाह फ़ाइल में मेरे कितने गंतव्य नोड हो सकते हैं? आप जितने चाहें उतने गंतव्य नोड रख सकते हैं।
  • क्या मैं अपने गंतव्य नोड के बाद परिवर्तन जोड़ सकता हूँ? नहीं, विचार यह है कि गंतव्य नोड टर्मिनल नोड हैं जिनके बाद कोई और कदम नहीं है।
  • वे कौन से समर्थित स्रोत हैं जिनका मैं गंतव्य नोड्स के साथ उपयोग कर सकता हूं? इस लेखन के अनुसार, हम केवल गंतव्य स्रोत के रूप में Amazon S3 का समर्थन करते हैं। भविष्य में और गंतव्य स्रोत प्रकारों के लिए समर्थन जोड़ा जाएगा। कृपया संपर्क करें यदि कोई विशिष्ट है जिसे आप देखना चाहते हैं।

सारांश

इस पोस्ट में, हमने प्रदर्शित किया कि प्रोसेसिंग जॉब बनाने के लिए नए लॉन्च किए गए डेस्टिनेशन नोड्स का उपयोग कैसे करें और डेटा रैंगलर विज़ुअल इंटरफ़ेस के माध्यम से अपने रूपांतरित डेटासेट को सीधे Amazon S3 में कैसे सेव करें। इस अतिरिक्त सुविधा के साथ, हमने डेटा रैंगलर के टूल-संचालित लो-कोड अनुभव को बढ़ाया है।

अगले चरणों के रूप में, हम अनुशंसा करते हैं कि आप इस पोस्ट में दिखाए गए उदाहरण को आज़माएँ। यदि आपके कोई प्रश्न हैं या अधिक सीखना चाहते हैं, तो देखें निर्यात या टिप्पणी अनुभाग में एक प्रश्न छोड़ दें।


लेखक के बारे में

अल्फोंसो ऑस्टिन-रिवेरा Amazon SageMaker Data Wrangler में फ्रंट एंड इंजीनियर हैं। वह ऐसे सहज उपयोगकर्ता अनुभव के निर्माण के बारे में भावुक हैं जो खुशी बिखेरते हैं। अपने खाली समय में, आप उसे रॉक-क्लाइम्बिंग जिम में या अपने ड्रोन को उड़ाते हुए गुरुत्वाकर्षण से लड़ते हुए पा सकते हैं।

परसा शाहबोधघी मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस में विशेषज्ञता वाले AWS में एक तकनीकी लेखक हैं। वह Amazon SageMaker Data Wrangler और Amazon SageMaker Feature Store के लिए तकनीकी दस्तावेज लिखता है। अपने खाली समय में, उन्हें ध्यान करना, ऑडियोबुक सुनना, भारोत्तोलन करना और स्टैंड-अप कॉमेडी देखना पसंद है। वह कभी स्टैंड-अप कॉमेडियन नहीं होंगे, लेकिन कम से कम उनकी मां को लगता है कि वह मजाकिया हैं।

बालाजी तुम्माला Amazon SageMaker में एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। वह अमेज़ॅन सैजमेकर डेटा रैंगलर का समर्थन करने में मदद करता है और प्रदर्शनकारी और स्केलेबल सॉफ़्टवेयर बनाने के लिए भावुक है। काम के बाहर, उन्हें फिक्शन पढ़ने और वॉलीबॉल खेलने में मजा आता है।

अरुणाप्रसथ शंकर AWS के साथ आर्टिफिशियल इंटेलिजेंस एंड मशीन लर्निंग (AI / ML) स्पेशलिस्ट सॉल्यूशन आर्किटेक्ट है, जो वैश्विक ग्राहकों को क्लाउड में प्रभावी ढंग से और कुशलता से अपने AI समाधानों को स्केल करने में मदद करता है। अपने खाली समय में, अरुण को विज्ञान-फाई फिल्में देखने और शास्त्रीय संगीत सुनने का आनंद मिलता है।

स्रोत: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-use-amazon-sagemaker-data-wrangler/

समय टिकट:

से अधिक एडब्ल्यूएस मशीन लर्निंग ब्लॉग