Błąd stopy bazowej i jego wpływ na naukę o danych

Błąd stopy bazowej i jego wpływ na naukę o danych

Węzeł źródłowy: 2597848

Błąd stopy bazowej i jego wpływ na naukę o danych
Zdjęcie autora
 

Podczas pracy z danymi i różnymi zmiennymi przypisanie jednej zmiennej lub wartości jako większej od drugiej jest łatwe. Możemy założyć, że określona zmienna lub punkt danych miały większy wpływ na wynik, ale czy jesteśmy pewni, że inne zmienne mają taki sam wpływ?

W statystyce stopa bazowa może być postrzegana jako prawdopodobieństwa klas, które są bezwarunkowe w stosunku do „dowodów charakterystycznych”. Możesz zobaczyć stopę bazową jako swoje wcześniejsze założenie dotyczące prawdopodobieństwa. 

Stawki bazowe są ważnymi narzędziami w badaniach. Na przykład, jeśli jesteśmy firmą farmaceutyczną i jesteśmy w trakcie opracowywania i wysyłania nowej szczepionki, chcemy przyjrzeć się powodzeniu leczenia. Jeśli mamy 4000 osób, które są chętne na to szczepienie, a nasza stawka podstawowa to 1/25. 

Oznacza to, że z 160 osób tylko 4000 osób zostanie skutecznie wyleczonych. W świecie farmaceutycznym jest to bardzo niski wskaźnik sukcesu. W ten sposób można wykorzystać stawki podstawowe do poprawy badań i dokładności oraz zapewnienia, że ​​produkt będzie działał dobrze. 

Jeśli podzielimy słowa, da nam to lepsze zrozumienie. Błąd oznacza błędne przekonanie lub błędne rozumowanie. Jeśli teraz połączymy to z naszą powyższą definicją stopy bazowej. 

Błąd stopy bazowej, znany również jako błąd stopy bazowej i zaniedbanie stopy bazowej, polega na prawdopodobieństwie oceny konkretnej sytuacji bez uwzględnienia wszystkich istotnych danych. 

Błąd stopy bazowej zawiera informacje o stopie bazowej, a także inne istotne informacje. Może to wynikać z różnych przyczyn, takich jak niedokładne zbadanie i przeanalizowanie danych we właściwy sposób lub nieumiejętność faworyzowania określonej części danych. 

Błąd stopy bazowej opisuje tendencję kogoś do lekceważenia istniejących informacji o stopie bazowej, naciskania i opowiadania się za nowymi informacjami. Jest to sprzeczne z podstawowymi zasadami rozumowania opartego na dowodach.

Zazwyczaj słyszysz o tym, co dzieje się w branży finansowej. Na przykład inwestorzy będą opierać swoją taktykę kupowania lub udostępniania na irracjonalnych informacjach, co prowadzi do wahań na rynku – pomimo znajomości stopy bazowej. 

Więc teraz mamy lepsze zrozumienie stopy bazowej i mitu stopy bazowej. Jakie jest jego znaczenie i wpływ w Data Science?

Mówiliśmy o „prawdopodobieństwach klas” i „biorąc pod uwagę wszystkie istotne dane”. Jeśli jesteś naukowcem danych lub inżynierem uczenia maszynowego lub stawiasz pierwsze kroki w drzwiach – będziesz wiedział, jak ważne są prawdopodobieństwa i odpowiednie dane do generowania dokładnych danych wyjściowych, procesu uczenia się modelu uczenia maszynowego i tworzenia modeli o wysokiej wydajności. 

Aby analizować i przewidywać dane lub aby model uczenia maszynowego generował dokładne dane wyjściowe — musisz wziąć pod uwagę każdy bit danych. Gdy przeglądasz swoje dane po raz pierwszy, możesz uznać niektóre części za istotne, a inne za nieistotne. Jednak jest to twoja ocena i nie jest jeszcze oparta na faktach, dopóki nie zostanie przeprowadzona właściwa analiza. 

Jak wspomniano powyżej, początkowa stawka podstawowa pomaga zapewnić dokładność i tworzyć modele o wysokiej wydajności. Jak więc możemy to zrobić w Data Science?

Macierz zamieszania

Matryca zamieszania to pomiar wydajności, który zapewnia podsumowanie wyników przewidywania problemu klasyfikacji. Wszystkie macierze zamieszania są oparte na wyniku: Prawda, Fałsz, Pozytywny i Negatywny.

Macierz nieporozumień przedstawia przewidywania naszego modelu podczas fazy testowania. Wyniki fałszywie ujemne i fałszywie dodatnie w macierzy zamieszania to przykłady błędnej stopy bazowej.

  • True Positive (TP) – Twój model przewidywał wynik dodatni i jest dodatni 
  • True Negative (TN) – Twój model przewidywał ujemne i jest ujemne
  • False Positive (FP) – Twój model przewidywał wynik dodatni i jest ujemny
  • False Negative (FN) – Twój model przewidywał wynik ujemny i jest dodatni 

Macierz nieporozumień może obliczyć 5 różnych wskaźników, które pomogą nam zmierzyć ważność naszego modelu:

  1. Błędna klasyfikacja = FP + FN / TP + TN + FP + FN
  2. Precyzja = TP / TP + FP
  3. Dokładność = TP + TN / TP + TN + FP + FN
  4. Swoistość = TN / TN + FP
  5. Czułość czyli Recall = TP / TP + FN

Aby lepiej zrozumieć macierz nieporozumień, lepiej spojrzeć na wizualizację: 
 

Błąd stopy bazowej i jego wpływ na naukę o danych
Zdjęcie autora

Czytając ten artykuł, prawdopodobnie możesz pomyśleć o różnych przyczynach błędnej stopy bazowej, takich jak nieuwzględnienie wszystkich istotnych danych, błąd ludzki lub brak precyzji. 

Chociaż wszystkie one są prawdziwe i zwiększają przyczynę błędu stopy bazowej. Wszystkie dotyczą największego problemu, jakim jest ignorowanie informacji o stawce podstawowej. Informacje o stawce podstawowej są często ignorowane, ponieważ są uważane za nieistotne, jednak informacje o stopie podstawowej mogą zaoszczędzić ludziom dużo czasu i pieniędzy. Korzystanie z dostępnych informacji o stopie bazowej pozwala na dokładniejsze określanie prawdopodobieństwa wystąpienia danego zdarzenia. 

Korzystanie z informacji o stawce podstawowej pomoże uniknąć błędnej stopy procentowej. 

Świadomość błędów, takich jak opinie, automatyczne procesy itp. – pozwoli Ci walczyć z błędem stopy bazowej i zredukować potencjalne błędy. Kiedy mierzysz prawdopodobieństwo wystąpienia określonego zdarzenia, metody bayesowskie mogą pomóc w zmniejszeniu błędu stopy bazowej.  

Stawka podstawowa jest ważna w nauce o danych, ponieważ zapewnia podstawową wiedzę na temat oceny badania lub projektu oraz dostrajania modelu — zapewniając ogólny wzrost dokładności i wydajności.

Jeśli chcesz obejrzeć film o błędnych stawkach bazowych w medycynie, obejrzyj ten film: Paradoks testów medycznych
 
 
Nisza Arja jest analitykiem danych, niezależnym pisarzem technicznym i menedżerem ds. społeczności w KDnuggets. Jest szczególnie zainteresowana udzielaniem porad dotyczących kariery w Data Science lub samouczkami i wiedzą opartą na teorii wokół Data Science. Chciałaby również zbadać różne sposoby, w jakie sztuczna inteligencja jest / może korzystnie wpłynąć na długowieczność ludzkiego życia. Chętnie się uczy, stara się poszerzyć swoją wiedzę techniczną i umiejętności pisania, jednocześnie pomagając innym.
 

Znak czasu:

Więcej z Knuggety