Amazon SageMaker डेटा रैंगलर के साथ JSON और ORC डेटा तैयार करें और उसका विश्लेषण करें

स्रोत नोड: 1600106

अमेज़न SageMaker डेटा रैंगलर की एक नई क्षमता है अमेज़न SageMaker यह डेटा वैज्ञानिकों और इंजीनियरों के लिए विज़ुअल इंटरफ़ेस के माध्यम से मशीन लर्निंग (एमएल) अनुप्रयोगों के लिए डेटा तैयार करना तेज़ बनाता है। डेटा तैयारी एमएल जीवनचक्र का एक महत्वपूर्ण चरण है, और डेटा रैंगलर एक सहज, दृश्य, कम-कोड अनुभव में एमएल के लिए डेटा आयात, तैयार, रूपांतरित, फीचर और विश्लेषण करने के लिए एंड-टू-एंड समाधान प्रदान करता है। यह आपको एडब्ल्यूएस घटकों जैसे आसानी से और जल्दी से कनेक्ट करने देता है अमेज़न सरल भंडारण सेवा (अमेज़न S3), अमेज़न एथेना, अमेज़न रेडशिफ्ट, तथा AWS झील निर्माण, और बाहरी स्रोत जैसे स्नोफ्लेक। डेटा रैंगलर CSV और Parquet जैसे मानक डेटा प्रकारों का भी समर्थन करता है।

डेटा रैंगलर अब अतिरिक्त रूप से ऑप्टिमाइज्ड रो कॉलमनार (ओआरसी), जावास्क्रिप्ट ऑब्जेक्ट नोटेशन (JSON), और JSON लाइन्स (JSONL) फ़ाइल स्वरूप:

  • ओआरसी - ओआरसी फ़ाइल प्रारूप हाइव डेटा को स्टोर करने का एक बेहद कुशल तरीका प्रदान करता है। इसे अन्य हाइव फ़ाइल स्वरूपों की सीमाओं को दूर करने के लिए डिज़ाइन किया गया था। जब हाइव डेटा पढ़ रहा है, लिख रहा है और संसाधित कर रहा है, तो ORC फ़ाइलों का उपयोग करने से प्रदर्शन में सुधार होता है। Hadoop पारिस्थितिकी तंत्र में ORC का व्यापक रूप से उपयोग किया जाता है।
  • JSON - JSON फाइल फॉर्मेट एक हल्का, आमतौर पर इस्तेमाल किया जाने वाला डेटा इंटरचेंज फॉर्मेट है।
  • जेएसओएनएल - JSON लाइन्स, जिसे न्यूलाइन-सीमांकित JSON भी कहा जाता है, संरचित डेटा को संग्रहीत करने के लिए एक सुविधाजनक प्रारूप है जिसे एक समय में एक रिकॉर्ड संसाधित किया जा सकता है।

डेटा रैंगलर में डेटासेट आयात करने से पहले आप ORC, JSON, और JSONL डेटा का पूर्वावलोकन कर सकते हैं। आपके द्वारा डेटा आयात करने के बाद, आप नए लॉन्च किए गए ट्रांसफॉर्मर में से एक का उपयोग उन स्तंभों के साथ काम करने के लिए भी कर सकते हैं जिनमें JSON स्ट्रिंग्स या सरणियाँ होती हैं जो आमतौर पर नेस्टेड JSONs में पाई जाती हैं।

डेटा रैंगलर के साथ ORC डेटा आयात और विश्लेषण करें

डेटा रैंगलर में ओआरसी डेटा आयात करना आसान है और किसी भी अन्य समर्थित स्वरूपों में फ़ाइलों को आयात करने के समान है। Amazon S3 और में अपनी ORC फ़ाइल ब्राउज़ करें विवरण फलक, आयात के दौरान फ़ाइल प्रकार के रूप में ORC चुनें।

यदि आप डेटा रैंगलर के लिए नए हैं, तो समीक्षा करें डेटा रैंगलर के साथ शुरुआत करें। और देखें आयात विभिन्न आयात विकल्पों के बारे में जानने के लिए।

डेटा रैंगलर के साथ JSON डेटा आयात और विश्लेषण करें

अब डेटा रैंगलर के साथ JSON प्रारूप में फ़ाइलें आयात करते हैं और JSON स्ट्रिंग्स या सरणियों वाले कॉलम के साथ काम करते हैं। हम यह भी प्रदर्शित करते हैं कि नेस्टेड JSON से कैसे निपटें। डेटा रैंगलर के साथ, Amazon S3 से JSON फ़ाइलें आयात करना एक सहज प्रक्रिया है। यह किसी अन्य समर्थित स्वरूपों में फ़ाइलें आयात करने के समान है। फ़ाइलें आयात करने के बाद, आप JSON फ़ाइलों का पूर्वावलोकन कर सकते हैं जैसा कि निम्न स्क्रीनशॉट में दिखाया गया है। फ़ाइल प्रकार को JSON में सेट करना सुनिश्चित करें विवरण फलक।

अगला, आयातित JSON फ़ाइल में संरचित कॉलम पर काम करते हैं।

JSON फ़ाइलों में संरचित स्तंभों से निपटने के लिए, डेटा रैंगलर दो नए परिवर्तन प्रस्तुत कर रहा है: समतल संरचित स्तंभ और सरणी स्तंभ विस्फोट करेंके अंतर्गत पाया जा सकता है संरचित स्तंभ संभालें में विकल्प रूपांतरण जोड़ें फलक।

आइए लागू करके शुरू करें सरणी स्तंभ विस्फोट करें हमारे आयातित डेटा में से किसी एक कॉलम में रूपांतरित करें। ट्रांस्फ़ॉर्म लागू करने से पहले, हम कॉलम देख सकते हैं topping JSON ऑब्जेक्ट्स की एक सरणी है id और type चांबियाँ।

परिवर्तन लागू करने के बाद, हम परिणाम के रूप में जोड़ी गई नई पंक्तियों को देख सकते हैं। सरणी में प्रत्येक तत्व अब परिणामी डेटाफ़्रेम में एक नई पंक्ति है।

अब अप्लाई करते हैं समतल संरचित स्तंभ पर रूपांतरित करें topping_flattened स्तंभ जो के परिणामस्वरूप बनाया गया था सरणी स्तंभ विस्फोट करें परिवर्तन हमने पिछले चरण में लागू किया था।

परिवर्तन लागू करने से पहले, हम कुंजियाँ देख सकते हैं id और type में topping_flattened स्तंभ.

परिवर्तन लागू करने के बाद, अब हम कुंजियाँ देख सकते हैं id और type नीचे topping_flattened नए कॉलम के रूप में कॉलम topping_flattened_id और topping_flattened_type, जो परिवर्तन के परिणामस्वरूप निर्मित होते हैं। आपके पास अल्पविराम से अलग किए गए कुंजी नामों को दर्ज करके केवल विशिष्ट कुंजियों को समतल करने का विकल्प भी है चपटा करने के लिए चाबियां. यदि खाली छोड़ दिया जाता है, तो JSON स्ट्रिंग या स्ट्रक्चर के अंदर की सभी कुंजियाँ चपटी हो जाती हैं।

निष्कर्ष

इस पोस्ट में, हमने डेटा रैंगलर के साथ आसानी से ORC और JSON में फ़ाइल स्वरूपों को आयात करने का तरीका दिखाया। हमने नए लॉन्च किए गए ट्रांसफ़ॉर्मेशन को भी लागू किया है जो हमें JSON डेटा में किसी भी संरचित कॉलम को बदलने की अनुमति देता है। यह JSON स्ट्रिंग्स या सरणियों वाले स्तंभों के साथ काम करना एक सहज अनुभव बनाता है।

अगले चरणों के रूप में, हम अनुशंसा करते हैं कि आप अपने स्वयं के डेटा रैंगलर विज़ुअल इंटरफ़ेस में प्रदर्शित उदाहरणों को दोहराएं। यदि आपके पास डेटा रैंगलर से संबंधित कोई प्रश्न हैं, तो बेझिझक उन्हें टिप्पणी अनुभाग में छोड़ दें।


लेखक के बारे में

बालाजी तुम्माला Amazon SageMaker में एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। वह अमेज़ॅन सैजमेकर डेटा रैंगलर का समर्थन करने में मदद करता है और प्रदर्शनकारी और स्केलेबल सॉफ़्टवेयर बनाने के लिए भावुक है। काम के बाहर, उन्हें फिक्शन पढ़ने और वॉलीबॉल खेलने में मजा आता है।

अरुणाप्रसथ शंकर AWS के साथ आर्टिफिशियल इंटेलिजेंस एंड मशीन लर्निंग (AI / ML) स्पेशलिस्ट सॉल्यूशन आर्किटेक्ट है, जो वैश्विक ग्राहकों को क्लाउड में प्रभावी ढंग से और कुशलता से अपने AI समाधानों को स्केल करने में मदद करता है। अपने खाली समय में, अरुण को विज्ञान-फाई फिल्में देखने और शास्त्रीय संगीत सुनने का आनंद मिलता है।

स्रोत: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

समय टिकट:

से अधिक एडब्ल्यूएस मशीन लर्निंग ब्लॉग