Run AutoML Experiments With Large Parquet Datasets Using Amazon SageMaker Autopilot

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

आज से आप प्रयोग कर सकते हैं अमेज़ॅन सैजमेकर ऑटोपायलट 100 जीबी तक के बड़े डेटासेट पर प्रतिगमन और वर्गीकरण कार्यों से निपटने के लिए। इसके अतिरिक्त, अब आप अपने डेटासेट CSV या में प्रदान कर सकते हैं अपाचे लकड़ी की छत सामग्री प्रकार।

व्यवसाय पहले से कहीं अधिक डेटा उत्पन्न कर रहे हैं। व्यावसायिक निर्णयों को आकार देने के लिए इन बड़े डेटासेट से अंतर्दृष्टि उत्पन्न करने के लिए एक संगत माँग बढ़ रही है। हालांकि, इन बड़े डेटासेट पर अत्याधुनिक मशीन लर्निंग (एमएल) एल्गोरिदम को सफलतापूर्वक प्रशिक्षित करना चुनौतीपूर्ण हो सकता है। ऑटोपायलट इस प्रक्रिया को स्वचालित करता है और 100 जीबी तक के बड़े डेटासेट पर स्वचालित मशीन लर्निंग (ऑटोएमएल) चलाने के लिए एक सहज अनुभव प्रदान करता है।

ऑटोपायलट आपके बड़े डेटासेट को स्वचालित रूप से अधिकतम समर्थित सीमा में फिट करने के लिए दुर्लभ वर्ग को संरक्षित करते हुए उप-नमूना करता है वर्ग असंतुलन. वर्ग असंतुलन एमएल में जागरूक होने के लिए एक महत्वपूर्ण समस्या है, खासकर बड़े डेटासेट के साथ काम करते समय। धोखाधड़ी का पता लगाने वाले डेटासेट पर विचार करें जहां लेन-देन का केवल एक छोटा अंश धोखाधड़ी होने की उम्मीद है। इस मामले में, दुर्लभ वर्ग, कपटपूर्ण लेनदेन को संरक्षित करते हुए, ऑटोपायलट केवल बहुसंख्यक वर्ग, गैर-धोखाधड़ी वाले लेनदेन को घटाता है।

जब आप ऑटोपायलट का उपयोग करके एक ऑटोएमएल जॉब चलाते हैं, तो सबसैंपलिंग के लिए सभी प्रासंगिक जानकारी इसमें संग्रहीत होती है अमेज़ॅन क्लाउडवॉच. के लिए लॉग समूह पर नेविगेट करें /aws/sagemaker/ProcessingJobs, अपने AutoML जॉब का नाम खोजें, और CloudWatch लॉग स्ट्रीम चुनें जिसमें शामिल हैं -db- इसके नाम पर.

हमारे कई ग्राहक अपने बड़े डेटासेट को स्टोर करने के लिए Parquet सामग्री प्रकार पसंद करते हैं। यह आम तौर पर इसकी संकुचित प्रकृति, उन्नत डेटा संरचनाओं के लिए समर्थन, दक्षता और कम लागत वाले संचालन के कारण होता है। यह डेटा अक्सर दसियों या सैकड़ों जीबी तक पहुंच सकता है। अब, आप इन Parquet डेटासेट को सीधे Autopilot में ला सकते हैं। आप या तो हमारे एपीआई का उपयोग कर सकते हैं या नेविगेट कर सकते हैं अमेज़ॅन सैजमेकर स्टूडियो कुछ ही क्लिक के साथ एक ऑटोपायलट जॉब बनाने के लिए। आप अपने Parquet डेटासेट के इनपुट स्थान को एक फ़ाइल के रूप में निर्दिष्ट कर सकते हैं या एक मेनिफेस्ट फ़ाइल के रूप में निर्दिष्ट एकाधिक फ़ाइलें निर्दिष्ट कर सकते हैं। ऑटोपायलट स्वचालित रूप से आपके डेटासेट के सामग्री प्रकार का पता लगाता है, इसे पार्स करता है, सार्थक सुविधाओं को निकालता है और कई एमएल एल्गोरिदम को प्रशिक्षित करता है।

आप हमारा उपयोग करना शुरू कर सकते हैं नमूना नोटबुक Parquet डेटासेट पर ऑटोपायलट का उपयोग करके AutoML चलाने के लिए।

लेखक के बारे में

एच. फुरकान बोजकर्ट, मशीन लर्निंग इंजीनियर, अमेज़न सैजमेकर ऑटोपायलट।

वैलेरियो पेरोन, एप्लाइड साइंस मैनेजर, अमेज़न सैजमेकर ऑटोपायलट।

स्रोत: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

समय टिकट: जनवरी ७,२०२१

समय टिकट: नवम्बर 2, 2021

Amazon SageMaker Autopilot का उपयोग करके बड़े लकड़ी के डेटासेट के साथ AutoML प्रयोग चलाएं

प्लेटो द्वारा पुनर्प्रकाशित

लेखक के बारे में

से अधिक एडब्ल्यूएस मशीन लर्निंग ब्लॉग

Amazon Athena, Amazon Translate और Amazon Comprehend के साथ SQL फ़ंक्शन का उपयोग करके पाठ का अनुवाद और विश्लेषण करें

उपकरण के लिए अमेज़न लुकआउट का उपयोग करके ध्वनिक विसंगति का पता लगाना

OneLogin SSO उपयोगकर्ताओं को Amazon SageMaker Studio में शामिल करें

Amazon SageMaker पर Detectron2 के साथ वस्तु का पता लगाना

AWS नेटवर्क फ़ायरवॉल का उपयोग करके Amazon SageMaker Studio इंटरनेट ट्रैफ़िक सुरक्षित करना

पेश है ओपन-सोर्स क्यूबफ्लो पाइपलाइन के लिए अमेज़ॅन सैजमेकर रीइनफोर्समेंट लर्निंग कंपोनेंट्स

AWS पर मशीन लर्निंग के साथ Xactware पर स्वचालित दावा प्रसंस्करण

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा