अमेज़न SageMaker डेटा रैंगलर की एक नई क्षमता है अमेज़न SageMaker यह डेटा वैज्ञानिकों और इंजीनियरों के लिए विज़ुअल इंटरफ़ेस के माध्यम से मशीन लर्निंग (एमएल) अनुप्रयोगों के लिए डेटा तैयार करना तेज़ बनाता है। डेटा तैयारी एमएल जीवनचक्र का एक महत्वपूर्ण चरण है, और डेटा रैंगलर एक सहज, दृश्य, कम-कोड अनुभव में एमएल के लिए डेटा आयात, तैयार, रूपांतरित, फीचर और विश्लेषण करने के लिए एंड-टू-एंड समाधान प्रदान करता है। यह आपको एडब्ल्यूएस घटकों जैसे आसानी से और जल्दी से कनेक्ट करने देता है अमेज़न सरल भंडारण सेवा (अमेज़न S3), अमेज़न एथेना, अमेज़न रेडशिफ्ट, तथा AWS झील निर्माण, और बाहरी स्रोत जैसे स्नोफ्लेक। डेटा रैंगलर CSV और Parquet जैसे मानक डेटा प्रकारों का भी समर्थन करता है।
डेटा रैंगलर अब अतिरिक्त रूप से ऑप्टिमाइज्ड रो कॉलमनार (ओआरसी), जावास्क्रिप्ट ऑब्जेक्ट नोटेशन (JSON), और JSON लाइन्स (JSONL) फ़ाइल स्वरूप:
- ओआरसी - ओआरसी फ़ाइल प्रारूप हाइव डेटा को स्टोर करने का एक बेहद कुशल तरीका प्रदान करता है। इसे अन्य हाइव फ़ाइल स्वरूपों की सीमाओं को दूर करने के लिए डिज़ाइन किया गया था। जब हाइव डेटा पढ़ रहा है, लिख रहा है और संसाधित कर रहा है, तो ORC फ़ाइलों का उपयोग करने से प्रदर्शन में सुधार होता है। Hadoop पारिस्थितिकी तंत्र में ORC का व्यापक रूप से उपयोग किया जाता है।
- JSON - JSON फाइल फॉर्मेट एक हल्का, आमतौर पर इस्तेमाल किया जाने वाला डेटा इंटरचेंज फॉर्मेट है।
- जेएसओएनएल - JSON लाइन्स, जिसे न्यूलाइन-सीमांकित JSON भी कहा जाता है, संरचित डेटा को संग्रहीत करने के लिए एक सुविधाजनक प्रारूप है जिसे एक समय में एक रिकॉर्ड संसाधित किया जा सकता है।
डेटा रैंगलर में डेटासेट आयात करने से पहले आप ORC, JSON, और JSONL डेटा का पूर्वावलोकन कर सकते हैं। आपके द्वारा डेटा आयात करने के बाद, आप नए लॉन्च किए गए ट्रांसफॉर्मर में से एक का उपयोग उन स्तंभों के साथ काम करने के लिए भी कर सकते हैं जिनमें JSON स्ट्रिंग्स या सरणियाँ होती हैं जो आमतौर पर नेस्टेड JSONs में पाई जाती हैं।
डेटा रैंगलर के साथ ORC डेटा आयात और विश्लेषण करें
डेटा रैंगलर में ओआरसी डेटा आयात करना आसान है और किसी भी अन्य समर्थित स्वरूपों में फ़ाइलों को आयात करने के समान है। Amazon S3 और में अपनी ORC फ़ाइल ब्राउज़ करें विवरण फलक, आयात के दौरान फ़ाइल प्रकार के रूप में ORC चुनें।
यदि आप डेटा रैंगलर के लिए नए हैं, तो समीक्षा करें डेटा रैंगलर के साथ शुरुआत करें। और देखें आयात विभिन्न आयात विकल्पों के बारे में जानने के लिए।
डेटा रैंगलर के साथ JSON डेटा आयात और विश्लेषण करें
अब डेटा रैंगलर के साथ JSON प्रारूप में फ़ाइलें आयात करते हैं और JSON स्ट्रिंग्स या सरणियों वाले कॉलम के साथ काम करते हैं। हम यह भी प्रदर्शित करते हैं कि नेस्टेड JSON से कैसे निपटें। डेटा रैंगलर के साथ, Amazon S3 से JSON फ़ाइलें आयात करना एक सहज प्रक्रिया है। यह किसी अन्य समर्थित स्वरूपों में फ़ाइलें आयात करने के समान है। फ़ाइलें आयात करने के बाद, आप JSON फ़ाइलों का पूर्वावलोकन कर सकते हैं जैसा कि निम्न स्क्रीनशॉट में दिखाया गया है। फ़ाइल प्रकार को JSON में सेट करना सुनिश्चित करें विवरण फलक।
अगला, आयातित JSON फ़ाइल में संरचित कॉलम पर काम करते हैं।
JSON फ़ाइलों में संरचित स्तंभों से निपटने के लिए, डेटा रैंगलर दो नए परिवर्तन प्रस्तुत कर रहा है: समतल संरचित स्तंभ और सरणी स्तंभ विस्फोट करेंके अंतर्गत पाया जा सकता है संरचित स्तंभ संभालें में विकल्प रूपांतरण जोड़ें फलक।
आइए लागू करके शुरू करें सरणी स्तंभ विस्फोट करें हमारे आयातित डेटा में से किसी एक कॉलम में रूपांतरित करें। ट्रांस्फ़ॉर्म लागू करने से पहले, हम कॉलम देख सकते हैं topping
JSON ऑब्जेक्ट्स की एक सरणी है id
और type
चांबियाँ।
परिवर्तन लागू करने के बाद, हम परिणाम के रूप में जोड़ी गई नई पंक्तियों को देख सकते हैं। सरणी में प्रत्येक तत्व अब परिणामी डेटाफ़्रेम में एक नई पंक्ति है।
अब अप्लाई करते हैं समतल संरचित स्तंभ पर रूपांतरित करें topping_flattened
स्तंभ जो के परिणामस्वरूप बनाया गया था सरणी स्तंभ विस्फोट करें परिवर्तन हमने पिछले चरण में लागू किया था।
परिवर्तन लागू करने से पहले, हम कुंजियाँ देख सकते हैं id
और type
में topping_flattened
स्तंभ.
परिवर्तन लागू करने के बाद, अब हम कुंजियाँ देख सकते हैं id
और type
नीचे topping_flattened
नए कॉलम के रूप में कॉलम topping_flattened_id
और topping_flattened_type
, जो परिवर्तन के परिणामस्वरूप निर्मित होते हैं। आपके पास अल्पविराम से अलग किए गए कुंजी नामों को दर्ज करके केवल विशिष्ट कुंजियों को समतल करने का विकल्प भी है चपटा करने के लिए चाबियां. यदि खाली छोड़ दिया जाता है, तो JSON स्ट्रिंग या स्ट्रक्चर के अंदर की सभी कुंजियाँ चपटी हो जाती हैं।
निष्कर्ष
इस पोस्ट में, हमने डेटा रैंगलर के साथ आसानी से ORC और JSON में फ़ाइल स्वरूपों को आयात करने का तरीका दिखाया। हमने नए लॉन्च किए गए ट्रांसफ़ॉर्मेशन को भी लागू किया है जो हमें JSON डेटा में किसी भी संरचित कॉलम को बदलने की अनुमति देता है। यह JSON स्ट्रिंग्स या सरणियों वाले स्तंभों के साथ काम करना एक सहज अनुभव बनाता है।
अगले चरणों के रूप में, हम अनुशंसा करते हैं कि आप अपने स्वयं के डेटा रैंगलर विज़ुअल इंटरफ़ेस में प्रदर्शित उदाहरणों को दोहराएं। यदि आपके पास डेटा रैंगलर से संबंधित कोई प्रश्न हैं, तो बेझिझक उन्हें टिप्पणी अनुभाग में छोड़ दें।
लेखक के बारे में
बालाजी तुम्माला Amazon SageMaker में एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। वह अमेज़ॅन सैजमेकर डेटा रैंगलर का समर्थन करने में मदद करता है और प्रदर्शनकारी और स्केलेबल सॉफ़्टवेयर बनाने के लिए भावुक है। काम के बाहर, उन्हें फिक्शन पढ़ने और वॉलीबॉल खेलने में मजा आता है।
अरुणाप्रसथ शंकर AWS के साथ आर्टिफिशियल इंटेलिजेंस एंड मशीन लर्निंग (AI / ML) स्पेशलिस्ट सॉल्यूशन आर्किटेक्ट है, जो वैश्विक ग्राहकों को क्लाउड में प्रभावी ढंग से और कुशलता से अपने AI समाधानों को स्केल करने में मदद करता है। अपने खाली समय में, अरुण को विज्ञान-फाई फिल्में देखने और शास्त्रीय संगीत सुनने का आनंद मिलता है।
- '
- 100
- About
- AI
- सब
- वीरांगना
- अमेज़न SageMaker
- अपाचे
- अनुप्रयोगों
- कृत्रिम
- कृत्रिम बुद्धिमत्ता
- आर्टिफिशियल इंटेलिजेंस एंड मशीन लर्निंग
- एडब्ल्यूएस
- इमारत
- बादल
- स्तंभ
- ग्राहक
- तिथि
- सौदा
- विकास
- दौरान
- आसानी
- पारिस्थितिकी तंत्र
- इंजीनियर
- इंजीनियर्स
- अनुभव
- और तेज
- कल्पना
- प्रारूप
- पाया
- मुक्त
- वैश्विक
- Hadoop
- मदद करता है
- अत्यधिक
- करंड
- कैसे
- How To
- HTTPS
- का आयात
- बुद्धि
- IT
- जावास्क्रिप्ट
- कुंजी
- Instagram पर
- जानें
- सीख रहा हूँ
- सुनना
- यंत्र अधिगम
- ML
- चलचित्र
- संगीत
- नामों
- विकल्प
- ऑप्शंस
- अन्य
- प्रदर्शन
- पूर्वावलोकन
- प्रक्रिया
- प्रदान करता है
- पढ़ना
- की सिफारिश
- रिकॉर्ड
- की समीक्षा
- sagemaker
- स्केलेबल
- स्केल
- वैज्ञानिकों
- निर्बाध
- सेट
- समान
- सरल
- सॉफ्टवेयर
- सॉफ्टवेयर विकास
- समाधान ढूंढे
- प्रारंभ
- शुरू
- भंडारण
- की दुकान
- समर्थन
- समर्थित
- समर्थन करता है
- पहर
- बदालना
- परिवर्तन
- us
- व्यापक रूप से
- काम
- काम कर रहे
- लिख रहे हैं