De Base Rate Fallacy en de impact ervan op datawetenschap

De Base Rate Fallacy en de impact ervan op datawetenschap

Bronknooppunt: 2597848
De Base Rate Fallacy en de impact ervan op datawetenschap
Afbeelding door auteur
 

Wanneer u met gegevens en verschillende variabelen werkt, is het eenvoudig om de ene variabele of waarde toe te wijzen die groter is dan de andere. We mogen ervan uitgaan dat een specifieke variabele of datapunt meer impact had op de output, maar hoe zeker zijn we dat de andere variabelen een even grote impact hebben?

In statistics, the base rate can be seen as probabilities of classes that are unconditional on "featural evidence". You can see the base rate as your prior probability assumption. 

Basistarieven zijn belangrijke instrumenten in onderzoek. Als we bijvoorbeeld een farmaceutisch bedrijf zijn en bezig zijn met het ontwikkelen en verzenden van een nieuwe vaccinatie, willen we het succes van de behandeling onderzoeken. Als we 4000 mensen hebben die bereid zijn om deze vaccinatie te nemen, en ons basistarief is 1/25. 

Dit betekent dat slechts 160 van de 4000 mensen met succes zullen genezen door de behandeling. In de farmaceutische wereld is dit een zeer laag slagingspercentage. Op deze manier kunnen basistarieven worden gebruikt om het onderzoek en de nauwkeurigheid te verbeteren en ervoor te zorgen dat het product goed zal presteren. 

Als we de woorden opsplitsen, krijgen we een beter begrip. Misvatting betekent een verkeerde overtuiging of verkeerde redenering. Als we dat nu combineren met onze definitie van het basistarief hierboven. 

De base rate misvatting, ook bekend als base rate bias en base rate verwaarlozing, is de waarschijnlijkheid dat een specifieke situatie wordt beoordeeld, terwijl niet met alle relevante gegevens rekening wordt gehouden. 

De misvatting over het basistarief bevat informatie over het basistarief en andere relevante informatie. Dit kan verschillende redenen hebben, zoals het niet grondig onderzoeken en analyseren van de gegevens, of onwetendheid om een ​​specifiek deel van de gegevens te bevoordelen. 

De base rate drogreden beschrijft de neiging van iemand om de bestaande basistariefinformatie te negeren, te pushen en voorstander te zijn van de nieuwe informatie. Dit druist in tegen de fundamentele regels van evidence-based redeneren.

You will typically hear about this happening in the financial industry. For example, investors will base their buying or sharing tactics on irrational information, which leads to fluctuation in the market - despite having the base rate to their knowledge. 

Dus nu hebben we een beter begrip van de basisrente en de misvatting van de basisrente. Wat is de relevantie en impact ervan in Data Science?

We’ve spoken about ‘probabilities of classes’ and ‘taking into consideration all relevant data’. If you are a data scientist, or machine learning engineer, or getting your foot in the door - you will know how important probabilities and relevant data are to producing accurate outputs, the learning process of your machine learning model and producing high-performance models. 

To analyse and make predictions about data or for your machine learning model to produce accurate outputs - you need to take into consideration every bit of data. As you’re scanning through your data the first time you see it, you might consider some parts relevant and other parts irrelevant. However, this is your judgement and is not yet factual till proper analysis has taken place. 

Zoals hierboven vermeld, helpt de initiële basissnelheid u om nauwkeurigheid te garanderen en hoogwaardige modellen te produceren. Dus hoe kunnen we dit doen in Data Science?

Verwarring Matrix

Een verwarringsmatrix is ​​een prestatiemeting die een samenvatting geeft van voorspellingsresultaten voor een classificatieprobleem. De verwarringsmatrices zijn allemaal gebaseerd op de uitkomst: Waar, Onwaar, Positief en Negatief.

The confusion matrix represents our model's predictions during the testing phase. The false-negative and false-positive in the confusion matrix are examples of base rate fallacy.

  • True Positive (TP) - your model predicted positive and it’s positive 
  • True Negative (TN) - your model predicted negative and it’s negative
  • False Positive (FP) - your model predicted positive and it’s negative
  • False Negative (FN) - your model predicted negative and it’s positive 

Een verwarringsmatrix kan 5 verschillende statistieken berekenen om ons te helpen de validiteit van ons model te meten:

  1. Misclassificatie = FP + FN / TP + TN + FP + FN
  2. Precisie = TP / TP + FP
  3. Nauwkeurigheid = TP + TN / TP + TN + FP + FN
  4. Specificiteit = TN / TN + FP
  5. Gevoeligheid oftewel Recall = TP / TP + FN

To better understand a confusion matrix, it's better to look at a visualisation: 
 

De Base Rate Fallacy en de impact ervan op datawetenschap
Afbeelding door auteur

Terwijl u dit artikel doorneemt, kunt u waarschijnlijk verschillende oorzaken bedenken voor de misvatting van het basistarief, zoals het niet in aanmerking nemen van alle relevante gegevens, menselijke fouten of gebrek aan precisie. 

Hoewel deze allemaal waar zijn en bijdragen aan de oorzaak van de misvatting van de basisrente. Ze hebben allemaal betrekking op het grootste probleem van het in de eerste plaats negeren van de basistariefinformatie. Basistariefinformatie wordt vaak genegeerd omdat het als irrelevant wordt beschouwd, maar de basistariefinformatie kan mensen veel tijd en geld besparen. Door gebruik te maken van de beschikbare basissnelheidsinformatie kunt u nauwkeuriger waarschijnlijkheden maken of een bepaalde gebeurtenis zal plaatsvinden. 

Door de informatie over het basistarief te gebruiken, kunt u misvattingen over het basistarief voorkomen. 

Being aware of fallacies such as opinions, automatic processes, etc - will allow you to combat the issue of base rate fallacy and reduce potential errors. When you are measuring the probability of a certain event occurring, Bayesian methods can help with this to reduce the base rate fallacy.  

The base rate is important in data science as it equips you with a base understanding of how to assess your study or project, and fine-tune your model - providing an overall increase in accuracy and performance.

Bekijk deze video als je een video wilt bekijken over base rate drogredenen in de medische wereld: Medische testparadox
 
 
Nisha Arja is een datawetenschapper, freelance technisch schrijver en communitymanager bij KDnuggets. Ze is met name geïnteresseerd in het geven van loopbaanadvies of tutorials over Data Science en op theorie gebaseerde kennis rond Data Science. Ze wil ook de verschillende manieren onderzoeken waarop kunstmatige intelligentie de levensduur van de mens ten goede komt/kan komen. Een enthousiaste leerling, die haar technische kennis en schrijfvaardigheid wil verbreden, terwijl ze anderen helpt te begeleiden.
 

Tijdstempel:

Meer van KDnuggets