Amazon SageMaker Autopilot का उपयोग करके बड़े लकड़ी के डेटासेट के साथ AutoML प्रयोग चलाएं

स्रोत नोड: 1596421

आज से आप प्रयोग कर सकते हैं अमेज़ॅन सैजमेकर ऑटोपायलट 100 जीबी तक के बड़े डेटासेट पर प्रतिगमन और वर्गीकरण कार्यों से निपटने के लिए। इसके अतिरिक्त, अब आप अपने डेटासेट CSV या में प्रदान कर सकते हैं अपाचे लकड़ी की छत सामग्री प्रकार।

व्यवसाय पहले से कहीं अधिक डेटा उत्पन्न कर रहे हैं। व्यावसायिक निर्णयों को आकार देने के लिए इन बड़े डेटासेट से अंतर्दृष्टि उत्पन्न करने के लिए एक संगत माँग बढ़ रही है। हालांकि, इन बड़े डेटासेट पर अत्याधुनिक मशीन लर्निंग (एमएल) एल्गोरिदम को सफलतापूर्वक प्रशिक्षित करना चुनौतीपूर्ण हो सकता है। ऑटोपायलट इस प्रक्रिया को स्वचालित करता है और 100 जीबी तक के बड़े डेटासेट पर स्वचालित मशीन लर्निंग (ऑटोएमएल) चलाने के लिए एक सहज अनुभव प्रदान करता है।

ऑटोपायलट आपके बड़े डेटासेट को स्वचालित रूप से अधिकतम समर्थित सीमा में फिट करने के लिए दुर्लभ वर्ग को संरक्षित करते हुए उप-नमूना करता है वर्ग असंतुलन. वर्ग असंतुलन एमएल में जागरूक होने के लिए एक महत्वपूर्ण समस्या है, खासकर बड़े डेटासेट के साथ काम करते समय। धोखाधड़ी का पता लगाने वाले डेटासेट पर विचार करें जहां लेन-देन का केवल एक छोटा अंश धोखाधड़ी होने की उम्मीद है। इस मामले में, दुर्लभ वर्ग, कपटपूर्ण लेनदेन को संरक्षित करते हुए, ऑटोपायलट केवल बहुसंख्यक वर्ग, गैर-धोखाधड़ी वाले लेनदेन को घटाता है।

जब आप ऑटोपायलट का उपयोग करके एक ऑटोएमएल जॉब चलाते हैं, तो सबसैंपलिंग के लिए सभी प्रासंगिक जानकारी इसमें संग्रहीत होती है अमेज़ॅन क्लाउडवॉच. के लिए लॉग समूह पर नेविगेट करें /aws/sagemaker/ProcessingJobs, अपने AutoML जॉब का नाम खोजें, और CloudWatch लॉग स्ट्रीम चुनें जिसमें शामिल हैं -db- इसके नाम पर.

हमारे कई ग्राहक अपने बड़े डेटासेट को स्टोर करने के लिए Parquet सामग्री प्रकार पसंद करते हैं। यह आम तौर पर इसकी संकुचित प्रकृति, उन्नत डेटा संरचनाओं के लिए समर्थन, दक्षता और कम लागत वाले संचालन के कारण होता है। यह डेटा अक्सर दसियों या सैकड़ों जीबी तक पहुंच सकता है। अब, आप इन Parquet डेटासेट को सीधे Autopilot में ला सकते हैं। आप या तो हमारे एपीआई का उपयोग कर सकते हैं या नेविगेट कर सकते हैं अमेज़ॅन सैजमेकर स्टूडियो कुछ ही क्लिक के साथ एक ऑटोपायलट जॉब बनाने के लिए। आप अपने Parquet डेटासेट के इनपुट स्थान को एक फ़ाइल के रूप में निर्दिष्ट कर सकते हैं या एक मेनिफेस्ट फ़ाइल के रूप में निर्दिष्ट एकाधिक फ़ाइलें निर्दिष्ट कर सकते हैं। ऑटोपायलट स्वचालित रूप से आपके डेटासेट के सामग्री प्रकार का पता लगाता है, इसे पार्स करता है, सार्थक सुविधाओं को निकालता है और कई एमएल एल्गोरिदम को प्रशिक्षित करता है।

आप हमारा उपयोग करना शुरू कर सकते हैं नमूना नोटबुक Parquet डेटासेट पर ऑटोपायलट का उपयोग करके AutoML चलाने के लिए।


लेखक के बारे में

एच. फुरकान बोजकर्ट, मशीन लर्निंग इंजीनियर, अमेज़न सैजमेकर ऑटोपायलट।

वैलेरियो पेरोन, एप्लाइड साइंस मैनेजर, अमेज़न सैजमेकर ऑटोपायलट।

स्रोत: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

समय टिकट:

से अधिक एडब्ल्यूएस मशीन लर्निंग ब्लॉग