Der Base Rate Fallacy und seine Auswirkungen auf die Datenwissenschaft

Der Base Rate Fallacy und seine Auswirkungen auf die Datenwissenschaft

Quellknoten: 2597848

Der Base Rate Fallacy und seine Auswirkungen auf die Datenwissenschaft
Bild vom Autor
 

Bei der Arbeit mit Daten und verschiedenen Variablen ist es einfach, eine Variable oder einen Wert größer als die andere zuzuweisen. Wir können davon ausgehen, dass eine bestimmte Variable oder ein Datenpunkt einen größeren Einfluss auf die Ausgabe hatte, aber wie sicher sind wir, dass die anderen Variablen den gleichen Einfluss haben?

In der Statistik kann die Basisrate als Wahrscheinlichkeit von Klassen angesehen werden, die auf „Merkmalsbeweisen“ unbedingt sind. Sie können den Basiszinssatz als Ihre vorherige Wahrscheinlichkeitsannahme ansehen. 

Basiszinsen sind wichtige Instrumente in der Forschung. Wenn wir beispielsweise ein Pharmaunternehmen sind und dabei sind, einen neuen Impfstoff zu entwickeln und zu versenden, möchten wir den Behandlungserfolg prüfen. Wenn wir 4000 Menschen haben, die bereit sind, diese Impfung zu nehmen, und unsere Basisrate 1/25 beträgt. 

Das bedeutet, dass von 160 Menschen nur 4000 Menschen durch die Behandlung erfolgreich geheilt werden. In der pharmazeutischen Welt ist dies eine sehr niedrige Erfolgsquote. Auf diese Weise können Basisraten verwendet werden, um die Forschung und Genauigkeit zu verbessern und sicherzustellen, dass das Produkt eine gute Leistung erbringt. 

Wenn wir die Wörter aufteilen, erhalten wir ein besseres Verständnis. Fehlschluss bedeutet ein Irrglaube oder eine fehlerhafte Argumentation. Wenn wir das jetzt mit unserer obigen Definition des Basiszinssatzes kombinieren. 

Der Base Rate Fallacy, auch bekannt als Base Rate Bias und Base Rate Neglect, ist die Wahrscheinlichkeit, eine bestimmte Situation zu beurteilen, ohne alle relevanten Daten zu berücksichtigen. 

Der Basisratenfehler enthält Informationen über die Basisrate sowie andere relevante Informationen. Dies kann verschiedene Gründe haben, z. B. eine nicht gründliche Untersuchung und Analyse der Daten oder die Unkenntnis, einen bestimmten Teil der Daten zu bevorzugen. 

Der Basisratenfehlschluss beschreibt die Tendenz einer Person, die bestehenden Basisrateninformationen zu missachten, zu pushen und die neuen Informationen zu befürworten. Dies widerspricht den Grundregeln des evidenzbasierten Denkens.

Sie werden normalerweise davon in der Finanzbranche hören. Beispielsweise werden Anleger ihre Kauf- oder Aktientaktik auf irrationale Informationen stützen, was zu Schwankungen im Markt führt – obwohl sie den Basiskurs ihres Wissens kennen. 

Jetzt haben wir also ein besseres Verständnis des Basiszinssatzes und des Fehlschlusses des Basiszinssatzes. Was ist seine Relevanz und Wirkung in Data Science?

Wir haben von „Klassenwahrscheinlichkeiten“ und „Berücksichtigung aller relevanten Daten“ gesprochen. Wenn Sie ein Datenwissenschaftler oder Ingenieur für maschinelles Lernen sind oder einen Fuß in die Tür bekommen, wissen Sie, wie wichtig Wahrscheinlichkeiten und relevante Daten sind, um genaue Ergebnisse, den Lernprozess Ihres maschinellen Lernmodells und die Erstellung von Hochleistungsmodellen zu erzeugen. 

Um Daten zu analysieren und Vorhersagen zu treffen oder damit Ihr maschinelles Lernmodell genaue Ergebnisse liefert, müssen Sie jedes Datenbit berücksichtigen. Wenn Sie Ihre Daten beim ersten Mal durchsehen, halten Sie möglicherweise einige Teile für relevant und andere für irrelevant. Dies ist jedoch Ihre Einschätzung und ist noch nicht sachlich, bis eine ordnungsgemäße Analyse stattgefunden hat. 

Wie oben erwähnt, hilft Ihnen die anfängliche Basisrate dabei, Genauigkeit sicherzustellen und leistungsstarke Modelle zu erstellen. Wie können wir das also in Data Science machen?

Verwirrung Matrix

Eine Konfusionsmatrix ist eine Leistungsmessung, die eine Zusammenfassung von Vorhersageergebnissen zu einem Klassifizierungsproblem liefert. Die Konfusionsmatrizen basieren alle auf dem Ergebnis: Wahr, Falsch, Positiv und Negativ.

Die Konfusionsmatrix repräsentiert die Vorhersagen unseres Modells während der Testphase. Falsch-negativ und falsch-positiv in der Verwirrungsmatrix sind Beispiele für einen Fehlschluss der Basisrate.

  • True Positive (TP) – Ihr Modell hat positiv vorhergesagt und es ist positiv 
  • True Negative (TN) – Ihr Modell hat negativ vorhergesagt und es ist negativ
  • Falsch positiv (FP) – Ihr Modell hat positiv vorhergesagt und es ist negativ
  • Falsch negativ (FN) – Ihr Modell hat negativ vorhergesagt und es ist positiv 

Eine Konfusionsmatrix kann 5 verschiedene Metriken berechnen, die uns helfen, die Gültigkeit unseres Modells zu messen:

  1. Fehlklassifikation = FP + FN / TP + TN + FP + FN
  2. Präzision = TP / TP + FP
  3. Genauigkeit = TP + TN / TP + TN + FP + FN
  4. Spezifität = TN / TN + FP
  5. Empfindlichkeit alias Recall = TP / TP + FN

Um eine Konfusionsmatrix besser zu verstehen, ist es besser, sich eine Visualisierung anzusehen: 
 

Der Base Rate Fallacy und seine Auswirkungen auf die Datenwissenschaft
Bild vom Autor

Während Sie diesen Artikel durchgehen, fallen Ihnen wahrscheinlich eine Vielzahl von Ursachen für einen Basisratenfehler ein, wie z. B. die Nichtberücksichtigung aller relevanten Daten, menschliches Versagen oder mangelnde Genauigkeit. 

Obwohl diese alle wahr sind und zur Ursache des Fehlschlusses der Basisrate beitragen. Sie alle beziehen sich auf das größte Problem, die Basistarifinformationen überhaupt zu ignorieren. Basistarifinformationen werden oft ignoriert, da sie als irrelevant angesehen werden, jedoch können die Basistarifinformationen den Menschen viel Zeit und Geld sparen. Die Verwendung der verfügbaren Basisrateninformationen ermöglicht es Ihnen, genauere Wahrscheinlichkeiten darüber zu treffen, ob ein bestimmtes Ereignis eintreten wird. 

Die Verwendung der Basisrateninformationen hilft Ihnen, Basisratenfehler zu vermeiden. 

Wenn Sie sich Täuschungen wie Meinungen, automatischen Prozessen usw. bewusst sind, können Sie das Problem der Täuschung der Basisrate bekämpfen und potenzielle Fehler reduzieren. Wenn Sie die Wahrscheinlichkeit des Eintretens eines bestimmten Ereignisses messen, können bayessche Methoden dabei helfen, den Basisratenfehler zu reduzieren.  

Die Basisrate ist in der Datenwissenschaft wichtig, da sie Ihnen ein grundlegendes Verständnis dafür vermittelt, wie Sie Ihre Studie oder Ihr Projekt bewerten und Ihr Modell verfeinern können – was zu einer allgemeinen Steigerung der Genauigkeit und Leistung führt.

Wenn Sie sich ein Video über Base Rate Fallacy im medizinischen Bereich ansehen möchten, sehen Sie sich dieses Video an: Medizinisches Testparadoxon
 
 
Nisha Arya ist Data Scientist, freiberuflicher technischer Redakteur und Community Manager bei KDnuggets. Sie ist besonders daran interessiert, Data Science Karriereberatung oder Tutorials und theoriebasiertes Wissen rund um Data Science anzubieten. Sie möchte auch die verschiedenen Möglichkeiten untersuchen, wie künstliche Intelligenz der Langlebigkeit des menschlichen Lebens zugute kommt/kann. Eine begeisterte Lernende, die ihr technisches Wissen und ihre Schreibfähigkeiten erweitern möchte, während sie anderen hilft, sie zu führen.
 

Zeitstempel:

Mehr von KDnuggets