बेस रेट फॉलसी और डेटा साइंस पर इसका प्रभाव

बेस रेट फॉलसी और डेटा साइंस पर इसका प्रभाव

स्रोत नोड: 2597848
बेस रेट फॉलसी और डेटा साइंस पर इसका प्रभाव
लेखक द्वारा छवि
 

डेटा और विभिन्न चरों के साथ कार्य करते समय, एक चर या मान को दूसरे से बड़ा निर्दिष्ट करना आसान होता है। हम मान सकते हैं कि एक विशिष्ट चर या डेटा बिंदु का आउटपुट पर अधिक प्रभाव पड़ता है, लेकिन हम कितने निश्चित हैं कि अन्य चर का समान प्रभाव पड़ता है?

In statistics, the base rate can be seen as probabilities of classes that are unconditional on "featural evidence". You can see the base rate as your prior probability assumption. 

अनुसंधान में आधार दर महत्वपूर्ण उपकरण हैं। उदाहरण के लिए, यदि हम एक दवा कंपनी हैं और एक नया टीकाकरण विकसित करने और भेजने की प्रक्रिया में हैं, तो हम उपचार की सफलता पर गौर करना चाहते हैं। यदि हमारे पास 4000 लोग हैं जो इस टीकाकरण को लेने के इच्छुक हैं, और हमारी आधार दर 1/25 है। 

यानी 160 लोगों में से सिर्फ 4000 लोग ही इलाज से ठीक हो पाएंगे. दवा की दुनिया में, यह बहुत कम सफलता दर है। इस तरह अनुसंधान और सटीकता में सुधार के लिए आधार दरों का उपयोग किया जा सकता है और यह सुनिश्चित किया जा सकता है कि उत्पाद अच्छा प्रदर्शन करेगा। 

यदि हम शब्दों को विभाजित करते हैं, तो यह हमें बेहतर समझ प्रदान करेगा। भ्रम का अर्थ है एक गलत विश्वास या दोषपूर्ण तर्क। अगर अब हम इसे उपरोक्त आधार दर की हमारी परिभाषा के साथ जोड़ते हैं। 

आधार दर की गिरावट, जिसे आधार दर पूर्वाग्रह और आधार दर की उपेक्षा के रूप में भी जाना जाता है, सभी प्रासंगिक डेटा को ध्यान में रखे बिना किसी विशिष्ट स्थिति का न्याय करने की संभावना है। 

बेस रेट फॉलसी में बेस रेट के साथ-साथ अन्य प्रासंगिक जानकारी के बारे में जानकारी होती है। यह विभिन्न कारणों से हो सकता है जैसे डेटा की पूरी तरह से जांच और विश्लेषण नहीं करना, या डेटा के किसी विशिष्ट भाग का पक्ष लेने की अज्ञानता। 

आधार दर की गिरावट किसी के लिए मौजूदा आधार दर की जानकारी की अवहेलना करने, धक्का देने और नई जानकारी के पक्ष में होने की प्रवृत्ति का वर्णन करती है। यह साक्ष्य-आधारित तर्क के मूलभूत नियमों के विरुद्ध जाता है।

You will typically hear about this happening in the financial industry. For example, investors will base their buying or sharing tactics on irrational information, which leads to fluctuation in the market - despite having the base rate to their knowledge. 

इसलिए अब हमें आधार दर और आधार दर की गिरावट की बेहतर समझ है। डेटा साइंस में इसकी प्रासंगिकता और प्रभाव क्या है?

We’ve spoken about ‘probabilities of classes’ and ‘taking into consideration all relevant data’. If you are a data scientist, or machine learning engineer, or getting your foot in the door - you will know how important probabilities and relevant data are to producing accurate outputs, the learning process of your machine learning model and producing high-performance models. 

To analyse and make predictions about data or for your machine learning model to produce accurate outputs - you need to take into consideration every bit of data. As you’re scanning through your data the first time you see it, you might consider some parts relevant and other parts irrelevant. However, this is your judgement and is not yet factual till proper analysis has taken place. 

जैसा कि ऊपर उल्लेख किया गया है, प्रारंभिक आधार दर आपको सटीकता सुनिश्चित करने और उच्च-प्रदर्शन मॉडल बनाने में मदद करती है। तो हम इसे डेटा साइंस में कैसे कर सकते हैं?

असमंजस का जाल

एक भ्रम मैट्रिक्स एक प्रदर्शन माप है जो वर्गीकरण समस्या पर पूर्वानुमान परिणामों का सारांश प्रदान करता है। भ्रम मैट्रिक्स सभी परिणाम पर आधारित होते हैं: सत्य, असत्य, सकारात्मक और नकारात्मक।

The confusion matrix represents our model's predictions during the testing phase. The false-negative and false-positive in the confusion matrix are examples of base rate fallacy.

  • True Positive (TP) - your model predicted positive and it’s positive 
  • True Negative (TN) - your model predicted negative and it’s negative
  • False Positive (FP) - your model predicted positive and it’s negative
  • False Negative (FN) - your model predicted negative and it’s positive 

हमारे मॉडल की वैधता को मापने में हमारी मदद करने के लिए एक भ्रम मैट्रिक्स 5 अलग-अलग मीट्रिक की गणना कर सकता है:

  1. गलत वर्गीकरण = एफपी + एफएन / टीपी + टीएन + एफपी + एफएन
  2. प्रेसिजन = टीपी / टीपी + एफपी
  3. शुद्धता = टीपी + टीएन / टीपी + टीएन + एफपी + एफएन
  4. विशिष्टता = टीएन / टीएन + एफपी
  5. संवेदनशीलता उर्फ ​​रिकॉल = टीपी / टीपी + एफएन

To better understand a confusion matrix, it's better to look at a visualisation: 
 

बेस रेट फॉलसी और डेटा साइंस पर इसका प्रभाव
लेखक द्वारा छवि

जैसा कि आप इस लेख के माध्यम से जा रहे हैं, आप शायद आधार दर की गिरावट के विभिन्न कारणों के बारे में सोच सकते हैं, जैसे कि सभी प्रासंगिक डेटा को ध्यान में नहीं रखना, मानवीय त्रुटि, या सटीकता की कमी। 

हालांकि ये सभी सच हैं और बेस रेट में गिरावट के कारण को जोड़ते हैं। वे सभी आधार दर की जानकारी को पहले स्थान पर अनदेखा करने की सबसे बड़ी समस्या से संबंधित हैं। आधार दर की जानकारी को अक्सर अनदेखा कर दिया जाता है क्योंकि इसे अप्रासंगिक माना जाता है, हालांकि, आधार दर की जानकारी लोगों का काफी समय और पैसा बचा सकती है। उपलब्ध आधार दर जानकारी का उपयोग करने से आप इस बारे में संभावनाएँ बनाने में अधिक सटीक हो सकते हैं कि कोई घटना घटित होगी या नहीं। 

आधार दर की जानकारी का उपयोग करने से आपको आधार दर में गिरावट से बचने में मदद मिलेगी। 

Being aware of fallacies such as opinions, automatic processes, etc - will allow you to combat the issue of base rate fallacy and reduce potential errors. When you are measuring the probability of a certain event occurring, Bayesian methods can help with this to reduce the base rate fallacy.  

The base rate is important in data science as it equips you with a base understanding of how to assess your study or project, and fine-tune your model - providing an overall increase in accuracy and performance.

यदि आप चिकित्सा क्षेत्र में आधार दर की गिरावट के बारे में वीडियो देखना चाहते हैं, तो इस वीडियो को देखें: मेडिकल टेस्ट विरोधाभास
 
 
निशा आर्य KDnuggets में एक डेटा वैज्ञानिक, स्वतंत्र तकनीकी लेखक और सामुदायिक प्रबंधक हैं। वह विशेष रूप से डेटा साइंस करियर सलाह या ट्यूटोरियल और डेटा साइंस के आसपास सिद्धांत आधारित ज्ञान प्रदान करने में रुचि रखती है। वह उन विभिन्न तरीकों का पता लगाना चाहती हैं जिनसे आर्टिफिशियल इंटेलिजेंस मानव जीवन की दीर्घायु को लाभ पहुंचा सकता है। एक उत्सुक शिक्षार्थी, दूसरों का मार्गदर्शन करने में मदद करते हुए, अपने तकनीकी ज्ञान और लेखन कौशल को व्यापक बनाना चाहती है।
 

समय टिकट:

से अधिक केडनगेट्स

गोरिल्ला से मिलें: यूसी बर्कले और माइक्रोसॉफ्ट का एपीआई-संवर्धित एलएलएम जीपीटी-4, चैट-जीपीटी और क्लाउड से बेहतर प्रदर्शन करता है - केडीनगेट्स

स्रोत नोड: 2721281
समय टिकट: जून 13, 2023