महत्वपूर्ण सांख्यिकी डेटा वैज्ञानिकों को जानना आवश्यक है

स्रोत नोड: 1876637

महत्वपूर्ण सांख्यिकी डेटा वैज्ञानिकों को जानना आवश्यक है

उत्साही से लेकर पेशेवर तक - हर डेटा वैज्ञानिक द्वारा कई मौलिक सांख्यिकीय अवधारणाओं की सराहना की जानी चाहिए। यहां, हम आपके डेटा में शुरुआती अंतर्दृष्टि लाने वाले प्रमुख टूल लाने के लिए समझ बढ़ाने के लिए पायथन में कोड स्निपेट प्रदान करते हैं।


By लक्ष्मी एस सुनील, आईआईटी इंदौर '23 | जीएचसी '21 विद्वान.

सांख्यिकीय विश्लेषण हमें हाथ में डेटा से मूल्यवान अंतर्दृष्टि प्राप्त करने की अनुमति देता है। विभिन्न उपकरणों का उपयोग करके डेटा का विश्लेषण करने के लिए महत्वपूर्ण सांख्यिकीय अवधारणाओं और तकनीकों की एक अच्छी समझ नितांत आवश्यक है।

विवरण में जाने से पहले, आइए इस लेख में शामिल विषयों पर एक नज़र डालें:

  • वर्णनात्मक बनाम अनुमानात्मक सांख्यिकी
  • जानकारी का प्रकार
  • प्रायिकता और बेयस प्रमेय
  • केंद्रीय प्रवृत्ति के उपाय
  • तिरछापन
  • कुकुदता
  • फैलाव के उपाय
  • सहप्रसरण
  • सह - संबंध
  • संभाव्यता वितरण
  • परिकल्पना परीक्षण
  • प्रतीपगमन

वर्णनात्मक बनाम अनुमानात्मक सांख्यिकी

सांख्यिकी समग्र रूप से डेटा के संग्रह, संगठन, विश्लेषण, व्याख्या और प्रस्तुति से संबंधित है। आँकड़ों के भीतर, दो मुख्य शाखाएँ हैं:

  1. वर्णनात्मक आँकड़े: इसमें डेटा की विशेषताओं का वर्णन करना, डेटा को चार्ट/ग्राफ़ के माध्यम से या केंद्रीय प्रवृत्ति, परिवर्तनशीलता और वितरण के उपायों का उपयोग करके संख्यात्मक गणनाओं के माध्यम से व्यवस्थित और प्रस्तुत करना शामिल है। एक उल्लेखनीय बात यह है कि पहले से ज्ञात आंकड़ों के आधार पर निष्कर्ष निकाले जाते हैं।
  2. आनुमानिक आंकड़े: इसमें बड़ी आबादी से लिए गए नमूनों का उपयोग करके निष्कर्ष निकालना और उनके बारे में सामान्यीकरण करना शामिल है। इसलिए, अधिक जटिल गणनाओं की आवश्यकता है। परिकल्पना परीक्षण, सहसंबंध और प्रतिगमन विश्लेषण जैसी तकनीकों का उपयोग करके अंतिम परिणाम तैयार किए जाते हैं। अनुमानित भविष्य के परिणाम और निकाले गए निष्कर्ष उपलब्ध आंकड़ों के स्तर से परे हैं।

जानकारी का प्रकार

सबसे उपयुक्त सांख्यिकीय तकनीकों को लागू करते हुए उचित खोजपूर्ण डेटा विश्लेषण (ईडीए) करने के लिए, हमें यह समझने की जरूरत है कि हम किस प्रकार के डेटा पर काम कर रहे हैं।

  1. सुस्पष्ट डेटा

श्रेणीबद्ध डेटा किसी व्यक्ति के लिंग, रक्त समूह, मातृभाषा आदि जैसे गुणात्मक चर का प्रतिनिधित्व करता है। श्रेणीबद्ध डेटा भी बिना किसी गणितीय अर्थ के संख्यात्मक मानों के रूप में होता है। उदाहरण के लिए, यदि लिंग परिवर्तनशील है, तो एक महिला को 1 और पुरुष को 0 से दर्शाया जा सकता है।

  • नाममात्र का आकड़ा: मान चर को लेबल करते हैं, और श्रेणियों के बीच कोई परिभाषित पदानुक्रम नहीं है, अर्थात, कोई आदेश या दिशा नहीं है - उदाहरण के लिए, धर्म, लिंग आदि। केवल दो श्रेणियों वाले नाममात्र के पैमानों को "द्विभाजित" कहा जाता है।
  • सामान्य डेटा: श्रेणियों के बीच क्रम या पदानुक्रम मौजूद है- उदाहरण के लिए, गुणवत्ता रेटिंग, शिक्षा स्तर, छात्र पत्र ग्रेड आदि।
  1. संख्यात्मक डेटा

संख्यात्मक डेटा केवल संख्याओं के संदर्भ में व्यक्त मात्रात्मक चर का प्रतिनिधित्व करता है। उदाहरण के लिए, किसी व्यक्ति की ऊंचाई, वजन आदि।

  • असतत डेटा: मान गणनीय होते हैं और पूर्णांक होते हैं (अक्सर पूर्ण संख्याएं)। उदाहरण के लिए, पार्किंग में कारों की संख्या, देशों की संख्या आदि।
  • निरंतर डेटा: प्रेक्षणों को मापा जा सकता है लेकिन गिना नहीं जा सकता। डेटा एक सीमा के भीतर किसी भी मान को ग्रहण करता है - उदाहरण के लिए, वजन, ऊंचाई आदि। निरंतर डेटा को आगे अंतराल डेटा में विभाजित किया जा सकता है (उनके बीच समान अंतर वाले ऑर्डर किए गए मान लेकिन कोई वास्तविक शून्य नहीं है) और अनुपात डेटा (समान अंतर वाले ऑर्डर किए गए मान) उनके बीच और वास्तविक शून्य मौजूद है)।

प्रायिकता और बेयस प्रमेय

प्रायिकता किसी घटना के घटित होने की संभावना का माप है।

  • पी (ए) + पी (ए ') = 1
  • पी (ए∪बी) = पी (ए) + पी (बी) - पी (ए∩बी)
  • स्वतंत्र घटनाएँ: दो घटनाएँ स्वतंत्र होती हैं यदि एक की घटना दूसरे के घटित होने की संभावना को प्रभावित नहीं करती है। P(A∩B) = P(A)P(B) जहां P(A) != 0 और P(B) != 0.
  • पारस्परिक रूप से अनन्य घटनाएँ: दो घटनाएँ परस्पर अनन्य या असंबद्ध होती हैं यदि वे दोनों एक ही समय में नहीं हो सकती हैं। पी(ए∩बी) = 0 और पी(ए∪बी) = पी(ए)+पी(बी)।
  • सशर्त संभाव्यता: एक घटना ए की संभावना, यह देखते हुए कि एक और घटना बी पहले ही हो चुकी है। इसे P(A|B) द्वारा प्रदर्शित किया जाता है। P(A|B) = P(A∩B)/P(B), जब P(B)>0।
  • बेयस की प्रमेय

केंद्रीय प्रवृत्ति के उपाय

सांख्यिकी मॉड्यूल आयात करें।

  • मतलब: डेटासेट का औसत मूल्य।

numpy.mean() का भी उपयोग किया जा सकता है।

  • मंझला: डेटासेट का मध्य मान।

numpy.median() का भी उपयोग किया जा सकता है।

  • मोड: डेटासेट में सबसे अधिक बार आने वाला मान।

माध्य, माध्यिका और बहुलक का उपयोग कब करें?

माध्य, माध्यिका और बहुलक के बीच संबंध: बहुलक = 3 माध्यिका - 2 माध्य

तिरछापन

समरूपता का एक उपाय, या अधिक सटीक रूप से, समरूपता की कमी (विषमता)।

  • सामान्य/सममित बंटन: बहुलक = माध्यिका = माध्य
  • धनात्मक (दाएं) विषम वितरण: बहुलक <माध्य < माध्य
  • नकारात्मक (बाएं) विषम वितरण: माध्य <माध्य <मोड

कुकुदता

एक सामान्य वितरण के सापेक्ष डेटा भारी-पुच्छ या हल्का-पुच्छ है या नहीं, इसका एक माप, यानी, यह वितरण की "पूंछ" या "शिखरता" को मापता है।

  • लेप्टोकोर्टिक - सकारात्मक कुर्टोसिस
  • मेसोकोर्टिक - सामान्य वितरण
  • प्लेटीकुर्टिक - नकारात्मक कुर्टोसिस

पायथन का उपयोग करते हुए तिरछापन और कर्टोसिस।

फैलाव के उपाय

एक केंद्रीय मूल्य के आसपास डेटा के प्रसार/बिखरने का वर्णन करता है।

रेंज: डेटासेट में सबसे बड़े और सबसे छोटे मान के बीच का अंतर.

चतुर्थक विचलन: डेटा सेट का चतुर्थक डेटा को चार बराबर भागों में विभाजित करता है—पहला चतुर्थक (Q1) डेटा की सबसे छोटी संख्या और माध्यिका के बीच की मध्य संख्या है। दूसरा चतुर्थक (Q2) डेटा सेट का माध्यिका है। तीसरी चतुर्थक (Q3) माध्यिका और सबसे बड़ी संख्या के बीच की मध्य संख्या है। चतुर्थक विचलन है क्यू = ½ × (क्यू3 - क्यू1)

इंटरक्वेर्टाइल रेंज: IQR = Q3 - Q1

विचरण: प्रत्येक डेटा बिंदु और माध्य के बीच औसत चुकता अंतर। मापता है कि डेटासेट का प्रसार माध्य के सापेक्ष कैसे है।

मानक विचलन: विचरण का वर्गमूल।

पायथन का उपयोग करके भिन्नता और मानक विचलन।

सहप्रसरण

यह यादृच्छिक चर की एक जोड़ी के बीच का संबंध है जहां एक चर में परिवर्तन दूसरे चर में परिवर्तन का कारण बनता है।

ऋणात्मक, शून्य और धनात्मक सहप्रसरण।

पायथन का उपयोग करते हुए सहसंयोजक मैट्रिक्स और इसका हीटमैप प्रतिनिधित्व।

सह - संबंध

यह दर्शाता है कि चरों का एक युग्म एक-दूसरे से कितनी दृढ़ता से संबंधित है या नहीं।


सहप्रसरण के लिए उपयोग किए गए समान डेटा का उपयोग करते हुए सहसंबंध मैट्रिक्स।

सहप्रसरण बनाम सहसंबंध।

संभाव्यता वितरण

संभाव्यता वितरण के दो व्यापक प्रकार हैं - असतत और सतत संभाव्यता वितरण।

असतत संभावना वितरण:

  • बर्नौली वितरण

एक यादृच्छिक चर केवल दो संभावित परिणामों के साथ एक एकल परीक्षण लेता है: 1 (सफलता) संभाव्यता पी के साथ और 0 (विफलता) संभाव्यता 1-पी के साथ।

  • द्विपद वितरण

प्रत्येक परीक्षण स्वतंत्र है। एक परीक्षण में केवल दो संभावित परिणाम होते हैं- या तो एक सफलता या एक विफलता। n समान परीक्षणों की कुल संख्या आयोजित की जाती है। सभी परीक्षणों के लिए सफलता और विफलता की संभावना समान है। (परीक्षण समान हैं।)

  • पॉसों वितरण

एक निर्दिष्ट समय अवधि में होने वाली घटनाओं की एक निश्चित संख्या की संभावना को मापता है।

सतत संभावना वितरण:

  • वर्दी वितरण

इसे आयताकार वितरण भी कहते हैं। सभी परिणाम समान रूप से संभावित हैं।


  • सामान्य / गाऊसी वितरण

वितरण का माध्य, माध्यिका और बहुलक मेल खाता है। वितरण का वक्र रेखा के बारे में घंटी के आकार का और सममित है एक्स = μ. वक्र के नीचे का कुल क्षेत्रफल 1 है। ठीक आधा मान केंद्र के बाईं ओर और दूसरा आधा दाईं ओर है।

एक सामान्य वितरण द्विपद वितरण से अत्यधिक भिन्न होता है। हालांकि, अगर परीक्षणों की संख्या अनंत तक पहुंचती है, तो आकार काफी समान होंगे।

  • घातांकी रूप से वितरण

पॉइसन बिंदु प्रक्रिया में घटनाओं के बीच समय का संभाव्यता वितरण, यानी एक ऐसी प्रक्रिया जिसमें घटनाएं निरंतर और स्वतंत्र रूप से स्थिर औसत दर पर होती हैं।

परिकल्पना परीक्षण

सबसे पहले, आइए शून्य परिकल्पना और वैकल्पिक परिकल्पना के बीच के अंतर को देखें।

शून्य परिकल्पना: जनसंख्या पैरामीटर के बारे में कथन जिसे या तो सत्य माना जाता है या तर्क देने के लिए उपयोग किया जाता है जब तक कि इसे परिकल्पना परीक्षण द्वारा गलत नहीं दिखाया जा सकता है।

वैकल्पिक परिकल्पना: उस जनसंख्या के बारे में दावा जो शून्य परिकल्पना के विपरीत है और यदि हम शून्य परिकल्पना को अस्वीकार करते हैं तो हम क्या निष्कर्ष निकालते हैं।

टाइप I त्रुटि: एक सच्ची शून्य परिकल्पना की अस्वीकृति

टाइप II त्रुटि: एक झूठी शून्य परिकल्पना की अस्वीकृति

महत्व स्तर (α): शून्य परिकल्पना के सत्य होने पर अस्वीकृत होने की प्रायिकता।

पी-मान: परीक्षण आँकड़ों के कम से कम उतने ही चरम होने की प्रायिकता जितनी देखी गई, यह देखते हुए कि शून्य परिकल्पना सत्य है।

  • जब p-मान> α, हम शून्य परिकल्पना को अस्वीकार करने में विफल होते हैं।
  • जबकि पी-मान ≤ α, हम शून्य परिकल्पना को अस्वीकार करते हैं, और हम यह निष्कर्ष निकाल सकते हैं कि हमारे पास एक महत्वपूर्ण परिणाम है।

सांख्यिकीय परिकल्पना परीक्षण में, एक परिणाम का सांख्यिकीय महत्व होता है जब शून्य परिकल्पना को देखते हुए इसके घटित होने की संभावना बहुत कम होती है।

महत्वपूर्ण मान: परीक्षण आँकड़ों के पैमाने पर एक बिंदु जिसके आगे हम अशक्त परिकल्पना को अस्वीकार करते हैं। यह एक परीक्षण आंकड़े पर निर्भर करता है, जो परीक्षण के प्रकार के लिए विशिष्ट है, और महत्व स्तर, α, जो परीक्षण की संवेदनशीलता को परिभाषित करता है।

Linear Regression Slope

रैखिक प्रतिगमन आमतौर पर पहला एमएल एल्गोरिदम होता है जिसे हम देखते हैं। यह सरल है, और इसे समझना अन्य उन्नत एमएल एल्गोरिदम की नींव रखता है।

सरल रैखिक प्रतिगमन

एक आश्रित चर और एक स्वतंत्र चर के बीच संबंध मॉडलिंग के लिए रैखिक दृष्टिकोण।

हमें मापदंडों को खोजना होगा ताकि मॉडल डेटा के लिए सबसे उपयुक्त हो। प्रतिगमन रेखा (यानी, सबसे अच्छी फिट लाइन) वह रेखा है जिसके लिए त्रुटि अनुमानित मूल्यों और देखे गए मूल्यों के बीच न्यूनतम है।

प्रतिगमन लाइन।

अब, आइए इसे लागू करने का प्रयास करें।

एकाधिक रेखीय प्रतिगमन

एक आश्रित चर और दो या दो से अधिक स्वतंत्र चर के बीच संबंध मॉडलिंग के लिए रैखिक दृष्टिकोण।

मूल। अनुमति के साथ पुनर्प्रकाशित।

संबंधित:



शीर्ष आलेख पिछले 30 दिन
सबसे लोकप्रिय
  1. क्या आप पायथन के साथ एक्सेल फाइलें पढ़ते हैं? एक 1000x तेज़ तरीका है
  2. डेटा इंजीनियरिंग कौशल के बिना डेटा वैज्ञानिकों को कठोर सच्चाई का सामना करना पड़ेगा
  3. एक डेटा विज्ञान पोर्टफोलियो जो आपको नौकरी देगा
  4. Python का उपयोग करके Microsoft Excel और Word को स्वचालित करें
  5. अपने डेटा विज्ञान परियोजनाओं के लिए आश्चर्यजनक वेब ऐप्स कैसे बनाएं
सर्वाधिक साझा
  1. डेटा को फिर से संतुलित किए बिना असंतुलित वर्गीकरण से कैसे निपटें
  2. अपने मशीन लर्निंग मॉडल में कमजोरियों का पता कैसे लगाएं
  3. द मशीन एंड डीप लर्निंग कम्पेंडियम ओपन बुक
  4. डेटा इंजीनियरिंग कौशल के बिना डेटा वैज्ञानिकों को कठोर सच्चाई का सामना करना पड़ेगा
  5. परिकल्पना परीक्षण समझाया गया

स्रोत: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

समय टिकट:

से अधिक केडनगेट्स