Eșecul ratei de bază și impactul acesteia asupra științei datelor

Eșecul ratei de bază și impactul acesteia asupra științei datelor

Nodul sursă: 2597848
Eșecul ratei de bază și impactul acesteia asupra științei datelor
Imagine de autor
 

Când lucrați cu date și variabile diferite, este ușor să atribuiți o variabilă sau o valoare mai mare decât cealaltă. Putem presupune că o anumită variabilă sau un punct de date a avut un impact mai mare asupra rezultatului, dar cât de sigur suntem că celelalte variabile au un impact egal?

In statistics, the base rate can be seen as probabilities of classes that are unconditional on "featural evidence". You can see the base rate as your prior probability assumption. 

Ratele de bază sunt instrumente importante în cercetare. De exemplu, dacă suntem o companie farmaceutică și suntem în proces de dezvoltare și expediere a unui nou vaccin, vrem să ne uităm la succesul tratamentului. Dacă avem 4000 de oameni care sunt dispuși să facă acest vaccin, iar rata noastră de bază este 1/25. 

Aceasta înseamnă că doar 160 de persoane vor fi vindecate cu succes prin tratament din 4000 de persoane. În lumea farmaceutică, aceasta este o rată de succes foarte scăzută. Acesta este modul în care tarifele de bază pot fi utilizate pentru a îmbunătăți cercetarea și acuratețea și pentru a se asigura că produsul va funcționa bine. 

Dacă împărțim cuvintele, ne va oferi o înțelegere mai bună. Eroare înseamnă o credință greșită sau un raționament greșit. Dacă acum combinăm asta cu definiția noastră a ratei de bază de mai sus. 

Eșecul ratei de bază, cunoscută și sub denumirea de părtinire a ratei de bază și neglijarea ratei de bază, este probabilitatea de a judeca o situație specifică, fără a lua în considerare toate datele relevante. 

Eșecul ratei de bază conține informații despre rata de bază, precum și alte informații relevante. Acest lucru se poate datora diverselor motive, cum ar fi neexaminarea și analizarea corectă a datelor sau ignorarea pentru a favoriza o anumită parte a datelor. 

Eșecul ratei de bază descrie tendința ca cineva să ignore informațiile existente despre rata de bază, să împingă și să fie în favoarea noilor informații. Acest lucru contravine regulilor fundamentale ale raționamentului bazat pe dovezi.

You will typically hear about this happening in the financial industry. For example, investors will base their buying or sharing tactics on irrational information, which leads to fluctuation in the market - despite having the base rate to their knowledge. 

Deci, acum avem o mai bună înțelegere a ratei de bază și a erorii ratei de bază. Care este relevanța și impactul acestuia în știința datelor?

We’ve spoken about ‘probabilities of classes’ and ‘taking into consideration all relevant data’. If you are a data scientist, or machine learning engineer, or getting your foot in the door - you will know how important probabilities and relevant data are to producing accurate outputs, the learning process of your machine learning model and producing high-performance models. 

To analyse and make predictions about data or for your machine learning model to produce accurate outputs - you need to take into consideration every bit of data. As you’re scanning through your data the first time you see it, you might consider some parts relevant and other parts irrelevant. However, this is your judgement and is not yet factual till proper analysis has taken place. 

După cum am menționat mai sus, rata de bază inițială vă ajută să asigurați acuratețea și să produceți modele de înaltă performanță. Deci, cum putem face asta în Data Science?

Matricea confuziei

O matrice de confuzie este o măsurare a performanței care oferă un rezumat al rezultatelor predicției pentru o problemă de clasificare. Matricele de confuzie sunt toate bazate pe rezultat: Adevărat, Fals, Pozitiv și Negativ.

The confusion matrix represents our model's predictions during the testing phase. The false-negative and false-positive in the confusion matrix are examples of base rate fallacy.

  • True Positive (TP) - your model predicted positive and it’s positive 
  • True Negative (TN) - your model predicted negative and it’s negative
  • False Positive (FP) - your model predicted positive and it’s negative
  • False Negative (FN) - your model predicted negative and it’s positive 

O matrice de confuzie poate calcula 5 metrici diferite pentru a ne ajuta să măsurăm validitatea modelului nostru:

  1. Clasificare greșită = FP + FN / TP + TN + FP + FN
  2. Precizie = TP / TP + FP
  3. Precizie = TP + TN / TP + TN + FP + FN
  4. Specificitate = TN / TN + FP
  5. Sensibilitate aka Recall = TP / TP + FN

To better understand a confusion matrix, it's better to look at a visualisation: 
 

Eșecul ratei de bază și impactul acesteia asupra științei datelor
Imagine de autor

Pe măsură ce parcurgeți acest articol, probabil că vă puteți gândi la o varietate de cauze ale erorii ratei de bază, cum ar fi neluarea în considerare a tuturor datelor relevante, eroarea umană sau lipsa de precizie. 

Deși toate acestea sunt adevărate și se adaugă la cauza erorii ratei de bază. Toate se referă la cea mai mare problemă de ignorare a informațiilor privind rata de bază, în primul rând. Informațiile despre tariful de bază sunt adesea ignorate, deoarece sunt considerate irelevante, cu toate acestea, informațiile despre tariful de bază pot economisi oameni mult timp și bani. Folosirea informațiilor disponibile despre rata de bază vă permite să fiți mai precis în stabilirea probabilităților dacă un anumit eveniment va avea loc. 

Utilizarea informațiilor privind rata de bază vă va ajuta să evitați eroarea ratei de bază. 

Being aware of fallacies such as opinions, automatic processes, etc - will allow you to combat the issue of base rate fallacy and reduce potential errors. When you are measuring the probability of a certain event occurring, Bayesian methods can help with this to reduce the base rate fallacy.  

The base rate is important in data science as it equips you with a base understanding of how to assess your study or project, and fine-tune your model - providing an overall increase in accuracy and performance.

Dacă doriți să vizionați un videoclip despre eroarea ratei de bază în domeniul medical, urmăriți acest videoclip: Paradoxul testului medical
 
 
Nisha Arya este Data Scientist, scriitor tehnic independent și Community Manager la KDnuggets. Este deosebit de interesată să ofere sfaturi în carieră în domeniul științei datelor sau tutoriale și cunoștințe bazate pe teorie în jurul științei datelor. De asemenea, dorește să exploreze diferitele moduri în care Inteligența Artificială este/poate aduce beneficii longevității vieții umane. O învățătoare dornică, care încearcă să-și extindă cunoștințele tehnice și abilitățile de scriere, ajutând în același timp să-i ghideze pe alții.
 

Timestamp-ul:

Mai mult de la KDnuggets