A Data Scientist’s Essential Guide To Exploratory Data Analysis - KDnuggets

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

खोजपूर्ण डेटा विश्लेषण के लिए एक डेटा वैज्ञानिक की आवश्यक मार्गदर्शिका
बिंग छवि निर्माता से छवि

खोजपूर्ण डेटा विश्लेषण (ईडीए) प्रत्येक डेटा विज्ञान परियोजना की शुरुआत में किया जाने वाला सबसे महत्वपूर्ण कार्य है।

संक्षेप में, इसमें आपके डेटा की अंतर्निहितता का पता लगाने के लिए उसकी पूरी तरह से जांच करना और उसका वर्णन करना शामिल है विशेषताएँ, मुमकिन असामान्यताएं, और छिपा हुआ पैटर्न उपयोग करें और रिश्तों.

आपके डेटा की यह समझ ही अंततः काम आएगी निम्नलिखित चरणों के माध्यम से मार्गदर्शन करें आपकी मशीन लर्निंग पाइपलाइन, डेटा प्रीप्रोसेसिंग से लेकर मॉडल निर्माण और परिणामों के विश्लेषण तक।

ईडीए की प्रक्रिया में मूल रूप से तीन मुख्य कार्य शामिल हैं:

चरण १: डेटासेट अवलोकन और वर्णनात्मक सांख्यिकी
चरण १: फ़ीचर मूल्यांकन और विज़ुअलाइज़ेशन, तथा
चरण १: डेटा गुणवत्ता मूल्यांकन

जैसा कि आपने अनुमान लगाया होगा, इनमें से प्रत्येक कार्य में काफी व्यापक मात्रा में विश्लेषण शामिल हो सकते हैं, जो आपको आसानी से समझने में मदद करेंगे। एक पागल आदमी की तरह अपने पांडा डेटाफ्रेम को काटना, प्रिंट करना और प्लॉट करना।

जब तक आप काम के लिए सही उपकरण नहीं चुनते।

इस लेख में, हम इसमें गोता लगाएँगे प्रभावी ईडीए प्रक्रिया का प्रत्येक चरण, और चर्चा करें कि आपको क्यों मुड़ना चाहिए ydata-प्रोफ़ाइलिंग इसमें महारत हासिल करने के लिए अपनी वन-स्टॉप शॉप में।

सेवा मेरे सर्वोत्तम प्रथाओं का प्रदर्शन करें और अंतर्दृष्टि की जांच करें, हम इसका उपयोग करेंगे वयस्क जनगणना आय डेटासेट, कागल या यूसीआई रिपोजिटरी पर निःशुल्क उपलब्ध (लाइसेंस: CC0: सार्वजनिक डोमेन).

जब हम पहली बार किसी अज्ञात डेटासेट पर हाथ डालते हैं, तो तुरंत एक स्वचालित विचार सामने आता है: मैं किसके साथ काम कर रहा हूँ?

भविष्य के मशीन लर्निंग कार्यों में इसे कुशलतापूर्वक संभालने के लिए हमें अपने डेटा की गहरी समझ होनी चाहिए

एक सामान्य नियम के रूप में, हम परंपरागत रूप से डेटा को संख्या के सापेक्ष चिह्नित करके शुरू करते हैं टिप्पणियों, संख्या और सुविधाओं के प्रकार, कुल मिलाकर गायब दर, और का प्रतिशत नक़ल टिप्पणियों.

कुछ पांडा हेरफेर और सही चीटशीट के साथ, हम अंततः कोड के कुछ छोटे स्निपेट के साथ उपरोक्त जानकारी प्रिंट कर सकते हैं:

डेटासेट अवलोकन: वयस्क जनगणना डेटासेट। अवलोकनों की संख्या, विशेषताएँ, सुविधा प्रकार, डुप्लिकेट पंक्तियाँ और लुप्त मान। लेखक द्वारा स्निपेट.

कुल मिलाकर, आउटपुट स्वरूप आदर्श नहीं है... यदि आप पांडा से परिचित हैं, तो आप मानक भी जानते होंगे कार्य करने का ढंग ईडीए प्रक्रिया शुरू करने की - df.describe():

खोजपूर्ण डेटा विश्लेषण के लिए एक डेटा वैज्ञानिक की आवश्यक मार्गदर्शिका
वयस्क डेटासेट: प्रस्तुत मुख्य आँकड़े df.वर्णन (). लेखक द्वारा छवि.

हालाँकि, यह केवल विचार करता है संख्यात्मक विशेषताएँ. हम एक का उपयोग कर सकते हैं df.describe(include='object') कुछ अतिरिक्त जानकारी प्रिंट करने के लिए श्रेणीबद्ध विशेषताएं (गणना, अद्वितीय, मोड, आवृत्ति), लेकिन मौजूदा श्रेणियों की एक साधारण जांच में कुछ अधिक क्रियात्मकता शामिल होगी:

डेटासेट अवलोकन: वयस्क जनगणना डेटासेट। डेटा में प्रत्येक श्रेणीगत सुविधा के लिए मौजूदा श्रेणियों और संबंधित आवृत्तियों को प्रिंट करना। लेखक द्वारा स्निपेट.

हालाँकि, हम यह कर सकते हैं - और अनुमान लगाओ, बाद के सभी ईडीए कार्य! - कोड की एक पंक्ति में, का उपयोग करते हुए ydata-प्रोफ़ाइलिंग:

यडेटा-प्रोफाइलिंग का उपयोग करके वयस्क जनगणना डेटासेट की प्रोफाइलिंग रिपोर्ट। लेखक द्वारा स्निपेट.

उपरोक्त कोड डेटा की संपूर्ण प्रोफ़ाइलिंग रिपोर्ट तैयार करता है, जिसका उपयोग हम अपनी ईडीए प्रक्रिया को आगे बढ़ाने के लिए कर सकते हैं, बिना किसी और कोड को लिखने की आवश्यकता के!

हम निम्नलिखित अनुभागों में रिपोर्ट के विभिन्न अनुभागों का अध्ययन करेंगे। किस संबंध में डेटा की समग्र विशेषताएँ, जो भी जानकारी हम खोज रहे थे वह इसमें शामिल है अवलोकन अनुभाग:

खोजपूर्ण डेटा विश्लेषण के लिए एक डेटा वैज्ञानिक की आवश्यक मार्गदर्शिका
ydata-प्रोफाइलिंग: डेटा प्रोफाइलिंग रिपोर्ट - डेटासेट अवलोकन। लेखक द्वारा छवि.

हम देख सकते हैं कि हमारे डेटासेट में शामिल हैं 15 विशेषताएँ और 32561 अवलोकन, साथ में 23 डुप्लिकेट रिकॉर्ड, और 0.9% की कुल गायब दर.

इसके अतिरिक्त, डेटासेट को सही ढंग से पहचाना गया है सारणीबद्ध डेटासेट, और बल्कि विषम, दोनों को प्रस्तुत करता है संख्यात्मक और श्रेणीबद्ध विशेषताएं. के लिए समय श्रृंखला डेटा, जिसमें समय की निर्भरता है और विभिन्न प्रकार के पैटर्न प्रस्तुत करता है, ydata-profiling शामिल होगा रिपोर्ट में अन्य आँकड़े और विश्लेषण.

हम आगे का निरीक्षण कर सकते हैं कच्चा डेटा और मौजूदा डुप्लिकेट रिकॉर्ड अधिक जटिल विश्लेषण में जाने से पहले, सुविधाओं की समग्र समझ प्राप्त करें:

खोजपूर्ण डेटा विश्लेषण के लिए एक डेटा वैज्ञानिक की आवश्यक मार्गदर्शिका
ydata-प्रोफ़ाइलिंग: डेटा प्रोफ़ाइलिंग रिपोर्ट - नमूना पूर्वावलोकन। लेखक द्वारा छवि.

संक्षिप्त नमूना पूर्वावलोकन से डेटा नमूने में, हम तुरंत देख सकते हैं कि हालाँकि डेटासेट में समग्र रूप से गायब डेटा का प्रतिशत कम है, कुछ सुविधाएँ इससे प्रभावित हो सकती हैं दूसरों से अधिक. हम एक बल्कि की पहचान भी कर सकते हैं श्रेणियों की पर्याप्त संख्या कुछ सुविधाओं के लिए, और 0-मूल्य वाली सुविधाओं के लिए (या कम से कम 0 की महत्वपूर्ण मात्रा के साथ)।

खोजपूर्ण डेटा विश्लेषण के लिए एक डेटा वैज्ञानिक की आवश्यक मार्गदर्शिका
ydata-प्रोफाइलिंग: डेटा प्रोफाइलिंग रिपोर्ट - डुप्लिकेट पंक्तियों का पूर्वावलोकन। लेखक द्वारा छवि.

डुप्लिकेट पंक्तियों के संबंध में, "दोहराई गई" टिप्पणियों को ढूंढना अजीब नहीं होगा, यह देखते हुए कि अधिकांश विशेषताएं उन श्रेणियों का प्रतिनिधित्व करती हैं जहां कई लोग एक साथ "फिट" हो सकते हैं।

फिर भी, शायद ए "डेटा गंध" हो सकता है कि ये अवलोकन समान हों age मान (जो प्रशंसनीय है) और बिल्कुल वही fnlwgt जिस पर, प्रस्तुत मूल्यों को देखते हुए, विश्वास करना कठिन लगता है। इसलिए आगे के विश्लेषण की आवश्यकता होगी, लेकिन हमें करना चाहिए सबसे अधिक संभावना है कि इन डुप्लिकेट को छोड़ दें बाद में।

कुल मिलाकर, डेटा अवलोकन एक साधारण विश्लेषण हो सकता है, लेकिन एक अत्यंत प्रभावशाली, क्योंकि यह हमारी पाइपलाइन में आगामी कार्यों को परिभाषित करने में हमारी मदद करेगा।

समग्र डेटा डिस्क्रिप्टर पर एक नज़र डालने के बाद, हमें इसकी आवश्यकता है हमारे डेटासेट की सुविधाओं पर ज़ूम इन करें, उनकी व्यक्तिगत संपत्तियों पर कुछ अंतर्दृष्टि प्राप्त करने के लिए - वस्तु के एक प्रकार विश्लेषण - साथ ही उनकी बातचीत और रिश्ते - बहुभिन्नरूपी विश्लेषण.

दोनों कार्य बहुत अधिक निर्भर हैं पर्याप्त आँकड़ों और विज़ुअलाइज़ेशन की जाँच करना, जो होना आवश्यक है सुविधा के प्रकार के अनुरूप बनाया गया हाथ में (जैसे, संख्यात्मक, श्रेणीबद्ध), और व्यवहार हम विच्छेदन करना चाह रहे हैं (जैसे, अंतःक्रिया, सहसंबंध)।

आइए प्रत्येक कार्य के लिए सर्वोत्तम प्रथाओं पर एक नज़र डालें।

वस्तु के एक प्रकार विश्लेषण

प्रत्येक विशेषता की व्यक्तिगत विशेषताओं का विश्लेषण करना महत्वपूर्ण है क्योंकि इससे हमें उनके बारे में निर्णय लेने में मदद मिलेगी विश्लेषण के लिए प्रासंगिकता और डेटा तैयारी का प्रकार उन्हें इष्टतम परिणाम प्राप्त करने की आवश्यकता हो सकती है।

उदाहरण के लिए, हमें ऐसे मान मिल सकते हैं जो सीमा से बेहद बाहर हैं और उनका संदर्भ हो सकता है विसंगतियों or बाहरी कारकों के कारण. हमें इसकी आवश्यकता हो सकती है मानकीकरण करना संख्यात्मक तिथि या एक प्रदर्शन श्रेणीबद्ध का एक-हॉट एन्कोडिंग मौजूदा श्रेणियों की संख्या के आधार पर सुविधाएँ। या हमें संख्यात्मक विशेषताओं को संभालने के लिए अतिरिक्त डेटा तैयार करना पड़ सकता है स्थानांतरित या तिरछा, यदि हम जिस मशीन लर्निंग एल्गोरिदम का उपयोग करना चाहते हैं वह एक विशेष वितरण (सामान्य रूप से गाऊसी) की अपेक्षा करता है।

इसलिए सर्वोत्तम प्रथाओं में वर्णनात्मक सांख्यिकी और डेटा वितरण जैसी व्यक्तिगत संपत्तियों की गहन जांच की आवश्यकता होती है।

ये बाहरी निष्कासन, मानकीकरण, लेबल एन्कोडिंग, डेटा प्रतिरूपण, डेटा संवर्द्धन और अन्य प्रकार के प्रीप्रोसेसिंग के बाद के कार्यों की आवश्यकता पर प्रकाश डालेंगे।

चलिए जांच करते हैं race और capital.gain विस्तृत रूप में। हम तुरंत क्या पहचान सकते हैं?

खोजपूर्ण डेटा विश्लेषण के लिए एक डेटा वैज्ञानिक की आवश्यक मार्गदर्शिका
ydata-प्रोफाइलिंग: प्रोफाइलिंग रिपोर्ट (रेस और कैपिटल.गेन)। लेखक द्वारा छवि.

का मूल्यांकन पूंजी लाभ सीधा है:

डेटा वितरण को देखते हुए, हम सवाल कर सकते हैं कि क्या सुविधा हमारे विश्लेषण में कोई मूल्य जोड़ती है, क्योंकि 91.7% मान "0" हैं।

का विश्लेषण दौड़ थोड़ा अधिक जटिल है:

इसके अलावा अन्य जातियों का स्पष्ट रूप से कम प्रतिनिधित्व है White. इससे दो मुख्य मुद्दे दिमाग में आते हैं:

एक मशीन लर्निंग एल्गोरिदम की सामान्य प्रवृत्ति है कम प्रतिनिधित्व वाली अवधारणाओं को नज़रअंदाज़ करेंकी समस्या के रूप में जाना जाता है छोटे विच्छेद, जिससे सीखने का प्रदर्शन कम हो जाता है;
दूसरा इस मुद्दे से कुछ हद तक व्युत्पन्न है: चूंकि हम एक संवेदनशील विशेषता से निपट रहे हैं, इस "अनदेखी प्रवृत्ति" के ऐसे परिणाम हो सकते हैं जो सीधे संबंधित हैं पूर्वाग्रह और निष्पक्षता मुद्दों. कुछ ऐसा जिसे हम निश्चित रूप से अपने मॉडलों में शामिल नहीं करना चाहते।

इसे ध्यान में रखते हुए, शायद हमें ऐसा करना चाहिए डेटा संवर्द्धन करने पर विचार करें कम प्रतिनिधित्व वाली श्रेणियों पर विचार करने के साथ-साथ उन पर विचार भी किया गया मॉडल मूल्यांकन के लिए निष्पक्षता-जागरूक मेट्रिक्स, प्रदर्शन से संबंधित किसी भी विसंगति की जांच करने के लिए race मूल्यों.

जब हम डेटा गुणवत्ता सर्वोत्तम प्रथाओं (चरण 3) पर चर्चा करते हैं तो हम अन्य डेटा विशेषताओं पर अधिक विस्तार से चर्चा करेंगे जिन पर ध्यान देने की आवश्यकता है। यह उदाहरण केवल यह दर्शाता है कि प्रत्येक व्यक्तिगत विशेषता का आकलन करके हम कितनी अंतर्दृष्टि प्राप्त कर सकते हैं गुण.

अंत में, ध्यान दें कि कैसे, जैसा कि पहले उल्लेख किया गया है, विभिन्न फीचर प्रकारों के लिए अलग-अलग आँकड़ों और विज़ुअलाइज़ेशन रणनीतियों की आवश्यकता होती है:

संख्यात्मक विशेषताएँ इनमें अक्सर माध्य, मानक विचलन, तिरछापन, कर्टोसिस और अन्य मात्रात्मक आँकड़ों के बारे में जानकारी शामिल होती है, और हिस्टोग्राम प्लॉट का उपयोग करके सबसे अच्छा प्रतिनिधित्व किया जाता है;
श्रेणीबद्ध विशेषताएं आमतौर पर मोड, माध्यिका और आवृत्ति तालिकाओं का उपयोग करके वर्णित किया जाता है, और श्रेणी विश्लेषण के लिए बार प्लॉट का उपयोग करके दर्शाया जाता है।

खोजपूर्ण डेटा विश्लेषण के लिए एक डेटा वैज्ञानिक की आवश्यक मार्गदर्शिका
ydata-प्रोफाइलिंग: प्रोफाइलिंग रिपोर्ट। प्रस्तुत आँकड़े और विज़ुअलाइज़ेशन प्रत्येक सुविधा प्रकार के अनुसार समायोजित किए जाते हैं। लेखक द्वारा स्क्रीनकास्ट।

इस तरह का विस्तृत विश्लेषण सामान्य पांडा हेरफेर के साथ करना बोझिल होगा, लेकिन सौभाग्य से ydata-profiling इसमें यह सारी कार्यक्षमता अंतर्निहित है ProfileReport हमारी सुविधा के लिए: स्निपेट में कोड की कोई अतिरिक्त पंक्तियाँ नहीं जोड़ी गईं!

बहुभिन्नरूपी विश्लेषण

बहुभिन्नरूपी विश्लेषण के लिए, सर्वोत्तम अभ्यास मुख्य रूप से दो रणनीतियों पर ध्यान केंद्रित करते हैं: विश्लेषण करना बातचीत सुविधाओं के बीच, और उनका विश्लेषण करना सहसंबंध.

इंटरैक्शन का विश्लेषण

बातचीत हमें करते हैं दृष्टिगत रूप से पता लगाएं कि सुविधाओं का प्रत्येक जोड़ा कैसे व्यवहार करता है, अर्थात, एक विशेषता के मूल्य दूसरे के मूल्यों से कैसे संबंधित हैं।

उदाहरण के लिए, वे प्रदर्शन कर सकते हैं सकारात्मक or नकारात्मक रिश्ते, इस पर निर्भर करते हैं कि किसी के मूल्यों में वृद्धि क्रमशः दूसरे के मूल्यों में वृद्धि या कमी के साथ जुड़ी हुई है या नहीं।

खोजपूर्ण डेटा विश्लेषण के लिए एक डेटा वैज्ञानिक की आवश्यक मार्गदर्शिका
ydata-प्रोफाइलिंग: प्रोफाइलिंग रिपोर्ट - इंटरैक्शन। लेखक द्वारा छवि.

के बीच बातचीत ले रहे हैं age और hours.per.weekउदाहरण के तौर पर, हम देख सकते हैं कि कार्यबल का बड़ा हिस्सा मानक 40 घंटे काम करता है। हालाँकि, कुछ "व्यस्त मधुमक्खियाँ" हैं जो 60 से 65 वर्ष की आयु के बीच (30 या 45 घंटों तक) काम करती हैं। सप्ताह.

सहसंबंधों का विश्लेषण

इसी तरह बातचीत के लिए, सहसंबंध हमें देते हैं रिश्ते का विश्लेषण करें सुविधाओं के बीच. हालाँकि, सहसंबंध उस पर "मूल्य डालते हैं", ताकि हमारे लिए उस रिश्ते की "ताकत" निर्धारित करना आसान हो।

ये "ताकत" है सहसंबंध गुणांक द्वारा मापा जाता है और इसका विश्लेषण संख्यात्मक रूप से किया जा सकता है (उदाहरण के लिए, ए का निरीक्षण करना)। सहसम्बंध मैट्रिक्स) या एक के साथ हीटमैप, जो दिलचस्प पैटर्न को स्पष्ट रूप से उजागर करने के लिए रंग और छायांकन का उपयोग करता है:

खोजपूर्ण डेटा विश्लेषण के लिए एक डेटा वैज्ञानिक की आवश्यक मार्गदर्शिका
ydata-प्रोफाइलिंग: प्रोफाइलिंग रिपोर्ट - हीटमैप और सहसंबंध मैट्रिक्स। लेखक द्वारा स्क्रीनकास्ट।

हमारे डेटासेट के संबंध में, ध्यान दें कि इनके बीच संबंध कैसा है education और education.num अलग दिखना। वास्तव में, वे समान जानकारी रखते हैं, तथा education.num का एक बिनिंग मात्र है education मूल्यों.

अन्य पैटर्न जो ध्यान आकर्षित करता है वह है बीच का संबंध sex और relationship हालाँकि यह फिर से बहुत जानकारीपूर्ण नहीं है: दोनों सुविधाओं के मूल्यों को देखते हुए, हमें एहसास होगा कि ये सुविधाएँ संभवतः संबंधित हैं क्योंकि male और female के अनुरूप होगा husband और wife, क्रमशः।

इस प्रकार की अतिरेक की जाँच यह देखने के लिए की जा सकती है कि क्या हम इनमें से कुछ विशेषताओं को विश्लेषण से हटा सकते हैं (marital.status से भी संबंधित है relationship और sex; native.country और race उदाहरण के लिए, दूसरों के बीच में)।

खोजपूर्ण डेटा विश्लेषण के लिए एक डेटा वैज्ञानिक की आवश्यक मार्गदर्शिका
ydata-प्रोफाइलिंग: प्रोफाइलिंग रिपोर्ट - सहसंबंध। लेखक द्वारा छवि.

हालाँकि, ऐसे अन्य सहसंबंध भी हैं जो सामने आते हैं और हमारे विश्लेषण के उद्देश्य से दिलचस्प हो सकते हैं।

उदाहरण के लिए, के बीच सहसंबंधsex और occupationया, sex और hours.per.week.

अंत में, के बीच सहसंबंध income और शेष विशेषताएं वास्तव में जानकारीपूर्ण हैं, विशेष रूप से उस स्थिति में जब हम किसी वर्गीकरण समस्या का पता लगाने का प्रयास कर रहे हों। क्या हैं ये जानना सर्वाधिक सहसंबद्ध हमारे लक्षित वर्ग की विशेषताएँ हमें पहचानने में मदद करती हैं सबसे अधिक भेदभावपूर्ण सुविधाएँ और साथ ही संभावित डेटा लीकर्स का पता लगाएं जो हमारे मॉडल को प्रभावित कर सकते हैं।

हीटमैप से ऐसा प्रतीत होता है marital.status or relationship जबकि, सबसे महत्वपूर्ण भविष्यवक्ताओं में से हैं fnlwgt उदाहरण के लिए, परिणाम पर कोई खास प्रभाव पड़ता नहीं दिख रहा है।

डेटा डिस्क्रिप्टर और विज़ुअलाइज़ेशन के समान, इंटरैक्शन और सहसंबंधों को भी मौजूदा सुविधाओं के प्रकार पर ध्यान देने की आवश्यकता है।

दूसरे शब्दों में, विभिन्न संयोजनों को विभिन्न सहसंबंध गुणांकों के साथ मापा जाएगा। डिफ़ॉल्ट रूप से, ydata-profiling सहसंबंध चलाता है auto, जिसका अर्थ है कि:

संख्यात्मक बनाम संख्यात्मक सहसंबंधों का उपयोग करके मापा जाता है स्पीयरमैन का पद सहसंबंध गुणांक;
श्रेणीबद्ध बनाम श्रेणीबद्ध सहसंबंधों का उपयोग करके मापा जाता है क्रैमर का वी;
संख्यात्मक बनाम श्रेणीबद्ध सहसंबंध क्रैमर वी का भी उपयोग करते हैं, जहां संख्यात्मक विशेषता को पहले विवेचित किया जाता है;

और अगर आप चेक करना चाहते हैं अन्य सहसंबंध गुणांक (उदाहरण के लिए, पियर्सन, केंडल, फी) आप आसानी से कर सकते हैं रिपोर्ट के पैरामीटर कॉन्फ़िगर करें.

जैसे ही हम ए की ओर बढ़ते हैं डेटा-केंद्रित प्रतिमान एआई विकास में शीर्ष पर है संभावित जटिल कारक हमारे डेटा में जो उत्पन्न होता है वह आवश्यक है।

"जटिल कारकों" के साथ, हम इसका उल्लेख करते हैं त्रुटियों जो प्रसंस्करण के डेटा संग्रह के दौरान हो सकता है, या डेटा की आंतरिक विशेषताएँ वह बस इसका एक प्रतिबिंब है प्रकृति डेटा का।

इसमें शामिल है लापता डेटा, असंतुलित डेटा, स्थिर मूल्यों, डुप्लिकेट, अत्यधिक सहसंबद्ध or निरर्थक विशेषताएं, शोर डेटा, दूसरों के बीच में।

खोजपूर्ण डेटा विश्लेषण के लिए एक डेटा वैज्ञानिक की आवश्यक मार्गदर्शिका
डेटा गुणवत्ता के मुद्दे: त्रुटियाँ और डेटा आंतरिक विशेषताएँ। लेखक द्वारा छवि.

किसी प्रोजेक्ट की शुरुआत में इन डेटा गुणवत्ता समस्याओं का पता लगाना (और विकास के दौरान उनकी लगातार निगरानी करना) महत्वपूर्ण है।

यदि मॉडल निर्माण चरण से पहले उनकी पहचान और समाधान नहीं किया जाता है, तो वे संपूर्ण एमएल पाइपलाइन और उसके बाद के विश्लेषणों और निष्कर्षों को खतरे में डाल सकते हैं।

एक स्वचालित प्रक्रिया के बिना, इन मुद्दों को पहचानने और संबोधित करने की क्षमता पूरी तरह से ईडीए विश्लेषण करने वाले व्यक्ति के व्यक्तिगत अनुभव और विशेषज्ञता पर छोड़ दी जाएगी, जो स्पष्ट रूप से आदर्श नहीं है। साथ ही, किसी के कंधों पर कितना भार होना चाहिए, विशेष रूप से उच्च-आयामी डेटासेट पर विचार करते हुए। आने वाली दुःस्वप्न चेतावनी!

यह इसकी सबसे अधिक प्रशंसित विशेषताओं में से एक है ydata-profiling, डेटा गुणवत्ता अलर्ट की स्वचालित पीढ़ी:

खोजपूर्ण डेटा विश्लेषण के लिए एक डेटा वैज्ञानिक की आवश्यक मार्गदर्शिका
ydata-प्रोफाइलिंग: प्रोफाइलिंग रिपोर्ट - डेटा गुणवत्ता अलर्ट। लेखक द्वारा छवि.

प्रोफ़ाइल कम से कम 5 विभिन्न प्रकार की डेटा गुणवत्ता समस्याओं को आउटपुट करती है, अर्थात् duplicates, high correlation, imbalance, missing, तथा zeros.

वास्तव में, हमने इनमें से कुछ की पहचान पहले ही कर ली थी, जब हम चरण 2 से गुजरे थे: race एक अत्यधिक असंतुलित विशेषता है और capital.gain मुख्य रूप से 0 से भरा हुआ है। हमने इनके बीच गहरा संबंध भी देखा है education और education.num, तथा relationship और sex.

गुम डेटा पैटर्न का विश्लेषण

अलर्ट के व्यापक दायरे पर विचार किया गया, ydata-profiling में विशेष रूप से सहायक है लुप्त डेटा पैटर्न का विश्लेषण.

चूँकि वास्तविक दुनिया के डोमेन में गुम डेटा एक बहुत ही आम समस्या है और यह कुछ क्लासिफायर के अनुप्रयोग को पूरी तरह से प्रभावित कर सकता है या उनकी भविष्यवाणियों को गंभीर रूप से प्रभावित कर सकता है, एक और सर्वोत्तम अभ्यास लापता डेटा का सावधानीपूर्वक विश्लेषण करना है प्रतिशत और व्यवहार जो हमारी सुविधाएँ प्रदर्शित कर सकती हैं:

खोजपूर्ण डेटा विश्लेषण के लिए एक डेटा वैज्ञानिक की आवश्यक मार्गदर्शिका
ydata-प्रोफ़ाइलिंग: प्रोफ़ाइलिंग रिपोर्ट - गुम मानों का विश्लेषण। लेखक द्वारा स्क्रीनकास्ट।

डेटा अलर्ट अनुभाग से, हमें यह पहले से ही पता था workclass, occupation, तथा native.country अनुपस्थित अवलोकन थे। हीटमैप हमें आगे बताता है कि गायब पैटर्न के साथ सीधा संबंध है in occupation और workclass: जब एक फीचर में कोई मान गायब है, तो दूसरे में भी कोई मान गायब होगा।

मुख्य अंतर्दृष्टि: डेटा प्रोफाइलिंग ईडीए से आगे जाती है!

अब तक, हम उन कार्यों पर चर्चा कर रहे हैं जो संपूर्ण ईडीए प्रक्रिया बनाते हैं और कैसे डेटा गुणवत्ता के मुद्दों और विशेषताओं का मूल्यांकन - एक प्रक्रिया जिसे हम डेटा प्रोफाइलिंग के रूप में संदर्भित कर सकते हैं - निश्चित रूप से एक सर्वोत्तम अभ्यास है।

फिर भी, यह स्पष्ट करना महत्वपूर्ण है डेटा प्रोफाइलिंग ईडीए से आगे चला जाता है. जबकि हम आम तौर पर ईडीए को किसी भी प्रकार की डेटा पाइपलाइन विकसित करने से पहले खोजपूर्ण, इंटरैक्टिव कदम के रूप में परिभाषित करते हैं, डेटा प्रोफाइलिंग एक पुनरावृत्तीय प्रक्रिया है हर कदम पर होना चाहिए डेटा प्रीप्रोसेसिंग और मॉडल बिल्डिंग का।

एक कुशल ईडीए एक सफल मशीन लर्निंग पाइपलाइन की नींव रखता है।

यह आपके डेटा पर एक डायग्नोसिस चलाने जैसा है, जिसमें आपको जो कुछ जानने की जरूरत है उसे सीखना - इसमें क्या शामिल है - यह गुण, रिश्तों, मुद्दों - ताकि आप बाद में उन्हें यथासंभव सर्वोत्तम तरीके से संबोधित कर सकें।

यह हमारे प्रेरणा चरण की शुरुआत भी है: यह ईडीए से है कि प्रश्न और परिकल्पनाएं उठने लगती हैं, और रास्ते में उन्हें मान्य या अस्वीकार करने के लिए विश्लेषण की योजना बनाई जाती है।

पूरे लेख में, हमने कवर किया है 3 मुख्य मूलभूत कदम जो आपको एक प्रभावी ईडीए के माध्यम से मार्गदर्शन करेंगे, और एक शीर्ष स्तरीय उपकरण के प्रभाव पर चर्चा की - ydata-profiling - हमें सही दिशा दिखाने के लिए, और हमारा भारी मात्रा में समय और मानसिक बोझ बचाएं।

मुझे आशा है कि यह मार्गदर्शिका आपको "डेटा जासूस खेलने" की कला में महारत हासिल करने में मदद करेगी और हमेशा की तरह, प्रतिक्रिया, प्रश्न और सुझावों की बहुत सराहना की जाती है। मुझे बताएं कि मैं किन अन्य विषयों पर लिखना चाहता हूं, या इससे भी बेहतर, यहां आकर मुझसे मिलें डेटा-केंद्रित एआई समुदाय और आइए सहयोग करें!

मिरियम सैंटोस डेटा साइंस और मशीन लर्निंग समुदायों को कच्चे, गंदे, "खराब" या अपूर्ण डेटा से स्मार्ट, बुद्धिमान, उच्च-गुणवत्ता वाले डेटा की ओर बढ़ने के बारे में शिक्षित करने पर ध्यान केंद्रित करें, जिससे मशीन लर्निंग क्लासिफायर कई उद्योगों (फिनटेक) में सटीक और विश्वसनीय निष्कर्ष निकालने में सक्षम हो सके। , हेल्थकेयर और फार्मा, टेलीकॉम और रिटेल)।

मूल। अनुमति के साथ पुनर्प्रकाशित।