डेटा इंप्यूटेशन के लिए दृष्टिकोण

डेटा इंप्यूटेशन के लिए दृष्टिकोण

स्रोत नोड: 1895750

डेटा इंप्यूटेशन के लिए दृष्टिकोण
द्वारा फोटो रॉन लाच
 

वास्तविक दुनिया के डेटा सेट शायद ही कभी सही होते हैं और अक्सर गायब मूल्यों या अधूरी जानकारी के साथ आते हैं। ये दोष मानवीय तत्व (गलत तरीके से भरे या अधूरे सर्वेक्षण) या प्रौद्योगिकी (खराबी वाले सेंसर) के कारण हो सकते हैं। जो भी मामला हो, आपके पास अक्सर गुम मूल्य या जानकारी रह जाती है।

निःसंदेह, यह एक समस्या प्रस्तुत करता है। लुप्त मानों के बिना, संपूर्ण डेटा सेट अनुपयोगी माना जा सकता है। लेकिन चूंकि इसमें काफी समय, प्रयास और (कई मामलों में) पैसा लगता है उच्च-गुणवत्ता वाला डेटा प्राप्त करें, गलत डेटा का निपटान और फिर से शुरू करना व्यवहार्य विकल्प नहीं हो सकता है। इसके बजाय, हमें इन लापता मूल्यों के आसपास काम करने या उन्हें बदलने का एक तरीका खोजना होगा। यहीं पर डेटा इंप्यूटेशन आता है। 

यह मार्गदर्शिका चर्चा करेगी कि डेटा प्रतिरूपण क्या है और साथ ही यह किस प्रकार के दृष्टिकोणों का समर्थन करता है।

हालाँकि हम गुम या भ्रष्ट डेटा को प्रतिस्थापित नहीं कर सकते हैं, लेकिन ऐसे तरीके हैं जिनका उपयोग हम डेटा सेट को अभी भी उपयोग करने योग्य बनाने के लिए कर सकते हैं। इसे प्राप्त करने के लिए डेटा प्रतिरूपण सबसे विश्वसनीय तकनीकों में से एक है। हालाँकि, हमें पहले यह पहचानना होगा कि किस प्रकार का डेटा गायब है और क्यों। 

सांख्यिकी और डेटा विज्ञान में, गायब डेटा के तीन मुख्य प्रकार हैं:

  • यादृच्छिक रूप से गुम (मार्च), जहां गायब डेटा एक चर से बंधा होता है और अंततः देखा या पता लगाया जा सकता है। कई मामलों में, यह आपको जनसांख्यिकी या डेटा विषयों के बारे में अधिक जानकारी प्रदान कर सकता है। उदाहरण के लिए, एक निश्चित उम्र के लोग किसी सर्वेक्षण में किसी प्रश्न को छोड़ने या निश्चित समय पर अपने उपकरणों से ट्रैकिंग सिस्टम को हटाने का निर्णय ले सकते हैं। 
  • यादृच्छिक रूप से पूरी तरह से गायब (एमसीएआर), जहां खोए आँकड़े किसी चर का अवलोकन या पता नहीं लगाया जा सकता। यह पता लगाना लगभग असंभव है कि डेटा गायब क्यों है।
  • गुम डेटा जो यादृच्छिक रूप से गायब नहीं है (NMAR), जहां गायब डेटा रुचि के एक चर से जुड़ा हुआ है। ज्यादातर मामलों में, इस गायब डेटा को नजरअंदाज किया जा सकता है। एनएमएआर तब हो सकता है जब कोई सर्वेक्षणकर्ता उस प्रश्न को छोड़ देता है जो उस पर लागू नहीं होता है।

गुम डेटा से निपटना

वर्तमान में, आपके पास गुम डेटा मानों से निपटने के लिए तीन प्राथमिक विकल्प हैं:

  • विलोपन
  • इलज़ाम
  • उपेक्षा

संपूर्ण डेटा सेट का निपटान करने के बजाय, आप जिसे सूची-वार विलोपन के रूप में जाना जाता है उसका उपयोग कर सकते हैं। इसमें गुम जानकारी या मूल्यों वाले रिकॉर्ड को हटाना शामिल है। सूची-वार विलोपन का मुख्य लाभ यह है कि यह गायब डेटा की सभी तीन श्रेणियों का समर्थन करता है। 

हालाँकि, इसके परिणामस्वरूप अतिरिक्त डेटा हानि हो सकती है। यह अनुशंसा की जाती है कि आप केवल इसका उपयोग करें सूचीवार विलोपन ऐसे उदाहरणों में जहां वर्तमान (अवलोकित) मानों की तुलना में गायब (अवलोकित) मानों की संख्या अधिक है, मुख्यतः क्योंकि उनका अनुमान लगाने या बदलने के लिए पर्याप्त डेटा नहीं है। 

यदि देखा गया गायब डेटा महत्वपूर्ण (अनदेखा करने योग्य) नहीं है और केवल कुछ मान गायब हैं, तो आप उन्हें अनदेखा कर सकते हैं और जो आपके पास है उसके साथ काम कर सकते हैं। हालाँकि, यह हमेशा संभावना नहीं होती है। डेटा प्रतिरूपण एक तीसरा और संभावित रूप से अधिक व्यवहार्य समाधान प्रदान करता है। 

डेटा प्रतिरूपण में अनुपस्थित मानों को प्रतिस्थापित करना शामिल है ताकि डेटा सेट अभी भी प्रयोग करने योग्य हो सकें। डेटा प्रतिरूपण दृष्टिकोण की दो श्रेणियां हैं:

  • एक
  • विभिन्न

माध्य प्रतिरूपण (एमआई) एकल-डेटा प्रतिरूपण के सबसे प्रसिद्ध रूपों में से एक है।

माध्य प्रतिरूपण (एमआई)

एमआई सरल आरोपण का एक रूप है। इसमें देखे गए मानों के माध्य की गणना करना और लुप्त मानों का अनुमान लगाने के लिए परिणामों का उपयोग करना शामिल है। दुर्भाग्य से, यह विधि अप्रभावी साबित हुई है। यह कई पक्षपातपूर्ण अनुमानों को जन्म दे सकता है, तब भी जब डेटा पूरी तरह से यादृच्छिक रूप से गायब हो। इसके अतिरिक्त, अनुमानों की "सटीकता" लुप्त मानों की संख्या पर निर्भर करती है। 

उदाहरण के लिए, यदि बहुत बड़ी संख्या में अवलोकित मान गायब हैं, माध्य आरोपण का उपयोग करना मूल्य कम आंकने का कारण बन सकता है। इस प्रकार, यह केवल कुछ लुप्त मानों वाले डेटा सेट और वेरिएबल्स के लिए बेहतर अनुकूल है। 

मैनुअल प्रतिस्थापन

इस स्थिति में, एक ऑपरेटर लापता मूल्यों को बदलने के लिए डेटा सेट के मूल्यों के पूर्व ज्ञान का उपयोग कर सकता है। यह एक एकल प्रतिरूपण विधि है जो ऑपरेटर की स्मृति या ज्ञान पर निर्भर करती है और कभी-कभी इसे आदर्श संख्या के पूर्व ज्ञान के रूप में संदर्भित किया जाता है। सटीकता ऑपरेटर की मूल्यों को याद करने की क्षमता पर निर्भर करती है, इसलिए यह विधि केवल कुछ गायब मूल्यों वाले डेटा सेट के लिए अधिक उपयुक्त हो सकती है।

K-निकटतम पड़ोसी (K-NN)

K-निकटतम पड़ोसी एक ऐसी तकनीक है जिसका उपयोग मशीन लर्निंग में प्रतिगमन और वर्गीकरण समस्याओं के समाधान के लिए किया जाता है। यह गणना करने और आरोपित करने के लिए लापता डेटा मान के पड़ोसियों के लापता डेटा मान के माध्य का उपयोग करता है। के-एनएन विधि सरल माध्य निरूपण से कहीं अधिक प्रभावी है और MCAR और MAR मूल्यों के लिए आदर्श है। 

प्रतिस्थापन

प्रतिस्थापन में सर्वेक्षण या परीक्षण के लिए एक नया व्यक्ति या विषय ढूंढना शामिल है। यह एक ऐसा विषय होना चाहिए जिसे मूल नमूने में नहीं चुना गया था।

प्रतिगमन आरोपण

प्रतिगमन स्वतंत्र चर (आमतौर पर एक्स के रूप में चिह्नित) के संग्रह के लिए एक आश्रित चर (आमतौर पर वाई के रूप में निर्दिष्ट) की ताकत निर्धारित करने का प्रयास करता है। रैखिक प्रतिगमन प्रतिगमन का सबसे प्रसिद्ध रूप है। यह लुप्त मूल्य की भविष्यवाणी या निर्धारण करने के लिए सर्वोत्तम फिट की रेखा का उपयोग करता है। नतीजतन, यह प्रतिगमन मॉडल के माध्यम से डेटा को दृश्य रूप से प्रस्तुत करने का सबसे अच्छा तरीका है।

जब रैखिक प्रतिगमन नियतात्मक प्रतिगमन का एक रूप है जहां लापता और वर्तमान मूल्यों के बीच एक सटीक संबंध स्थापित किया जाता है, तो लापता मूल्यों को प्रतिगमन मॉडल की 100% भविष्यवाणी के साथ बदल दिया जाता है। हालाँकि, इस पद्धति की एक सीमा है। नियतात्मक रैखिक प्रतिगमन के परिणामस्वरूप अक्सर मूल्यों के बीच संबंधों की निकटता का अधिक अनुमान लगाया जा सकता है।

Stochastic रेखीय प्रतिगमन एक (यादृच्छिक) त्रुटि शब्द को प्रस्तुत करके नियतात्मक प्रतिगमन की "अति-सटीकता" की भरपाई करता है क्योंकि दो स्थितियाँ या चर शायद ही कभी पूरी तरह से जुड़े होते हैं। यह प्रतिगमन का उपयोग करके लुप्त मानों को भरना अधिक उपयुक्त बनाता है।

हॉट डेक नमूनाकरण

इस दृष्टिकोण में किसी विषय से बेतरतीब ढंग से चुने गए मान का चयन करना शामिल है, जिसमें विषय के समान अन्य मान गायब हैं। इसके लिए आपको विषयों या व्यक्तियों की खोज करनी होगी और फिर उनके मूल्यों का उपयोग करके लापता डेटा भरना होगा। 

हॉट डेक सैंपलिंग विधि प्राप्य मूल्यों की सीमा को सीमित करती है। उदाहरण के लिए, यदि आपका नमूना 20 और 25 के बीच के आयु वर्ग तक सीमित है, तो आपका परिणाम हमेशा इन संख्याओं के बीच होगा, जिससे प्रतिस्थापन मूल्य की संभावित सटीकता बढ़ जाएगी। आरोपण की इस पद्धति के लिए विषयों/व्यक्तियों को यादृच्छिक रूप से चुना जाता है।

शीत डेक नमूनाकरण

इस पद्धति में किसी ऐसे व्यक्ति/विषय की खोज करना शामिल है जिसके डेटा सेट में अन्य सभी चर/पैरामीटरों के लिए समान या समान मान हैं। उदाहरण के लिए, विषय की ऊंचाई, सांस्कृतिक पृष्ठभूमि और उम्र उस विषय के समान हो सकती है जिसके मूल्य गायब हैं। यह हॉट डेक सैंपलिंग से अलग है जिसमें विषयों को व्यवस्थित रूप से चुना और पुन: उपयोग किया जाता है। 

हालाँकि गायब डेटा से निपटने के लिए कई विकल्प और तकनीकें हैं, रोकथाम हमेशा इलाज से बेहतर होती है। शोधकर्ताओं को सख्ती से अमल करना होगा प्रयोगों की योजना बनाना और पढ़ाई. अध्ययन के मन में एक स्पष्ट मिशन वक्तव्य या लक्ष्य होना चाहिए। 

अक्सर, शोधकर्ता अध्ययन को अत्यधिक जटिल बना देते हैं या बाधाओं के खिलाफ योजना बनाने में विफल हो जाते हैं, जिसके परिणामस्वरूप डेटा गायब या अपर्याप्त हो जाता है। डेटा संग्रह पर सटीक ध्यान केंद्रित करते हुए अध्ययन के डिज़ाइन को सरल बनाना हमेशा सर्वोत्तम होता है। 

अध्ययन के लक्ष्यों को पूरा करने के लिए केवल वही डेटा एकत्र करें जिसकी आपको आवश्यकता है और इससे अधिक कुछ नहीं। आपको यह भी सुनिश्चित करना चाहिए कि अध्ययन या प्रयोग में शामिल सभी उपकरण और सेंसर हर समय पूरी तरह कार्यात्मक हों। जैसे-जैसे अध्ययन आगे बढ़े, अपने डेटा/प्रतिक्रियाओं का नियमित बैकअप बनाने पर विचार करें। 

डेटा गुम होना एक सामान्य घटना है. भले ही आप सर्वोत्तम प्रथाओं को लागू करते हैं, फिर भी आप अधूरे डेटा से पीड़ित हो सकते हैं। सौभाग्य से, इस तथ्य के बाद इस समस्या का समाधान करने के तरीके मौजूद हैं।   

 
 
नहाला डेविस एक सॉफ्टवेयर डेवलपर और तकनीकी लेखक हैं। तकनीकी लेखन के लिए अपना पूरा समय समर्पित करने से पहले, वह - अन्य दिलचस्प चीजों के साथ - एक इंक 5,000 अनुभवात्मक ब्रांडिंग संगठन में एक प्रमुख प्रोग्रामर के रूप में काम करने में कामयाब रही, जिसके ग्राहकों में सैमसंग, टाइम वार्नर, नेटफ्लिक्स और सोनी शामिल हैं।
 

समय टिकट:

से अधिक केडनगेट्स

केडीनगेट्स न्यूज़, 16 अगस्त: टेक्स्ट को पावरपॉइंट प्रेजेंटेशन में बदलने के लिए चैटजीपीटी का उपयोग करें • जेनरेटिव एआई एप्लिकेशन चीट शीट बनाने के लिए सर्वश्रेष्ठ पायथन टूल्स - केडीनगेट्स

स्रोत नोड: 2826824
समय टिकट: अगस्त 16, 2023