Ważne dane statystyczne, które naukowcy powinni wiedzieć

Węzeł źródłowy: 1876637

Ważne dane statystyczne, które naukowcy powinni wiedzieć

Każdy analityk danych — od entuzjasty po profesjonalistę — musi dobrze znać kilka podstawowych pojęć statystycznych. W tym miejscu udostępniamy fragmenty kodu w języku Python, aby zwiększyć zrozumienie i udostępnić kluczowe narzędzia, które zapewniają wczesny wgląd w dane.


By Lekshmi S. Sunil, IIT Indore '23 | Stypendysta GHC '21.

Analiza statystyczna pozwala nam wyciągać cenne wnioski z dostępnych danych. Dogłębne zrozumienie ważnych pojęć i technik statystycznych jest absolutnie niezbędne do analizy danych przy użyciu różnych narzędzi.

Zanim przejdziemy do szczegółów, rzućmy okiem na tematy omówione w tym artykule:

  • Statystyki opisowe a wnioskowane
  • Typy danych
  • Prawdopodobieństwo i twierdzenie Bayesa
  • Miary tendencji centralnej
  • Skośność
  • Kurtosis
  • Miary dyspersji
  • Kowariancja
  • Korelacja
  • Rozkłady prawdopodobieństwa
  • Testowanie hipotez
  • Regresja

Statystyki opisowe a wnioskowane

Statystyka jako całość zajmuje się gromadzeniem, organizacją, analizą, interpretacją i prezentacją danych. W ramach statystyki istnieją dwie główne gałęzie:

  1. Opisowe statystyki: Obejmuje to opisywanie cech danych, organizowanie i prezentowanie danych wizualnie za pomocą wykresów/wykresów lub obliczeń numerycznych z wykorzystaniem miar tendencji centralnej, zmienności i rozkładu. Warto zauważyć, że wnioski są wyciągane na podstawie już znanych danych.
  2. Statystyki wnioskowania: Obejmuje to wyciąganie wniosków i dokonywanie uogólnień na temat większych populacji na podstawie pobranych od nich próbek. Dlatego wymagane są bardziej złożone obliczenia. Ostateczne wyniki są tworzone przy użyciu technik, takich jak testowanie hipotez, korelacja i analiza regresji. Przewidywane przyszłe wyniki i wyciągnięte wnioski wykraczają poza poziom dostępnych danych.

Typy danych

Aby przeprowadzić właściwą Eksploracyjną Analizę Danych (EDA) przy użyciu najbardziej odpowiednich technik statystycznych, musimy zrozumieć, nad jakim rodzajem danych pracujemy.

  1. Dane kategoryczne

Dane kategoryczne reprezentują zmienne jakościowe, takie jak płeć jednostki, grupa krwi, język ojczysty itp. Dane kategoryczne mają również postać wartości liczbowych bez żadnego znaczenia matematycznego. Na przykład, jeśli zmienną jest płeć, kobieta może być reprezentowana przez 1, a mężczyzna przez 0.

  • Dane nominalne: Wartości oznaczają zmienne i nie ma określonej hierarchii między kategoriami, tj. nie ma kolejności ani kierunku — na przykład religia, płeć itp. Skale nominalne zawierające tylko dwie kategorie są określane jako „dychotomiczne”.
  • Dane porządkowe: między kategoriami istnieje porządek lub hierarchia — na przykład oceny jakości, poziom wykształcenia, oceny z listów uczniów itp.
  1. Dane liczbowe

Dane liczbowe reprezentują zmienne ilościowe wyrażone wyłącznie w liczbach. Na przykład wzrost, waga itp.

  • Dane dyskretne: Wartości są policzalne i są liczbami całkowitymi (najczęściej liczbami całkowitymi). Na przykład liczba samochodów na parkingu, liczba krajów itp.
  • Dane ciągłe: Obserwacje można zmierzyć, ale nie można ich policzyć. Dane przyjmują dowolną wartość z zakresu — na przykład wagę, wzrost itp. Dane ciągłe można dalej podzielić na dane interwałowe (wartości uporządkowane mają te same różnice między nimi, ale nie ma prawdziwego zera) i dane ilorazowe (wartości uporządkowane mają te same różnice między nimi a prawdziwym zerem).

Prawdopodobieństwo i twierdzenie Bayesa

Prawdopodobieństwo jest miarą prawdopodobieństwa wystąpienia zdarzenia.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) - P(A∩B)
  • Zdarzenia niezależne: Dwa zdarzenia są niezależne, jeśli wystąpienie jednego nie wpływa na prawdopodobieństwo wystąpienia drugiego. P(A∩B) = P(A)P(B) gdzie P(A) != 0 i P(B) != 0.
  • Wzajemnie wykluczające się zdarzenia: Dwa zdarzenia wykluczają się wzajemnie lub są rozłączne, jeśli nie mogą wystąpić jednocześnie. P(A∩B) = 0 i P(A∪B) = P(A)+P(B).
  • Warunkowe prawdopodobieństwo: Prawdopodobieństwo zdarzenia A, biorąc pod uwagę, że wystąpiło już inne zdarzenie B. Jest to reprezentowane przez P(A|B). P(A|B) = P(A∩B)/P(B), gdy P(B)>0.
  • Twierdzenie Bayesa

Miary tendencji centralnej

Zaimportuj moduł statystyk.

  • Oznaczać: Średnia wartość zbioru danych.

można również użyć funkcji numpy.mean().

  • Mediana: środkowa wartość zbioru danych.

można również użyć funkcji numpy.median().

  • Moda: najczęstsza wartość w zbiorze danych.

Kiedy używać średniej, mediany i trybu?

Relacja między średnią, medianą i trybem: Tryb = 3 Mediana — 2 Średnia

Skośność

Miara symetrii, a dokładniej braku symetrii (asymetrii).

  • Rozkład normalny/symetryczny: tryb = mediana = średnia
  • Dodatnio (prawo) skośny rozkład: tryb < mediana < średnia
  • Ujemnie (lewo) skośny rozkład: średnia < mediana < tryb

Kurtosis

Miara tego, czy dane są z dużymi lub lekkimi ogonami w stosunku do rozkładu normalnego, tj. mierzy „ogoniastość” lub „szczytowość” rozkładu.

  • Leptokurtyka – kurtoza pozytywna
  • Mezokurtyka – rozkład normalny
  • Platykurtyka – kurtoza ujemna

Skośność i kurtoza przy użyciu Pythona.

Miary dyspersji

Opisuje rozprzestrzenianie/rozpraszanie danych wokół wartości centralnej.

Zakres: Różnica między największą a najmniejszą wartością w zbiorze danych.

Odchylenie kwartylowe: Kwartyle zbioru danych dzielą dane na cztery równe części — pierwszy kwartyl (Q1) to środkowa liczba między najmniejszą liczbą a medianą danych. Drugi kwartyl (Q2) to mediana zbioru danych. Trzeci kwartyl (Q3) to środkowa liczba między medianą a największą liczbą. Odchylenie kwartylowe jest Q = ½ × (Q3 — Q1)

Rozstęp międzykwartylowy: IQR = Q3 — Q1

Zmienność: Średnia kwadratowa różnica między każdym punktem danych a średnią. Mierzy stopień rozłożenia zestawu danych w stosunku do średniej.

Odchylenie standardowe: Pierwiastek kwadratowy z wariancji.

Wariancja i odchylenie standardowe przy użyciu Pythona.

Kowariancja

Jest to związek między parą zmiennych losowych, w którym zmiana jednej zmiennej powoduje zmianę innej zmiennej.

Kowariancja ujemna, zerowa i dodatnia.

Macierz kowariancji i jej reprezentacja na mapie cieplnej przy użyciu Pythona.

Korelacja

Pokazuje, czy i jak silnie para zmiennych jest ze sobą powiązana.


Macierz korelacji wykorzystująca te same dane, co dla kowariancji.

Kowariancja a korelacja.

Rozkłady prawdopodobieństwa

Istnieją dwa szerokie typy rozkładów prawdopodobieństwa — dyskretny i ciągły rozkład prawdopodobieństwa.

Dyskretny rozkład prawdopodobieństwa:

  • Dystrybucja Bernoulliego

Zmienna losowa przyjmuje pojedynczą próbę z tylko dwoma możliwymi wynikami: 1 (sukces) z prawdopodobieństwem p i 0 (porażka) z prawdopodobieństwem 1-p.

  • Rozkład dwumianowy

Każda próba jest niezależna. Istnieją tylko dwa możliwe wyniki w próbie - albo sukces, albo porażka. Przeprowadza się całkowitą liczbę n identycznych prób. Prawdopodobieństwo sukcesu i niepowodzenia jest takie samo dla wszystkich prób. (Próby są identyczne.)

  • Dystrybucja Poissona

Mierzy prawdopodobieństwo wystąpienia określonej liczby zdarzeń w określonym przedziale czasu.

Ciągły rozkład prawdopodobieństwa:

  • Jednolita dystrybucja

Nazywany również dystrybucją prostokątną. Wszystkie wyniki są równie prawdopodobne.


  • Rozkład normalny / Gaussa

Średnia, mediana i tryb rozkładu pokrywają się. Krzywa rozkładu ma kształt dzwonu i jest symetryczna względem linii x = μ. Całkowity obszar pod krzywą wynosi 1. Dokładnie połowa wartości znajduje się na lewo od środka, a druga połowa na prawo.

Rozkład normalny znacznie różni się od rozkładu dwumianowego. Jeśli jednak liczba prób zbliża się do nieskończoności, to kształty będą dość podobne.

  • Rozkład wykładniczy

Rozkład prawdopodobieństwa czasu między zdarzeniami w procesie punktu Poissona, tj. procesie, w którym zdarzenia zachodzą w sposób ciągły i niezależny ze stałą średnią szybkością.

Testowanie hipotez

Najpierw przyjrzyjmy się różnicy między hipotezą zerową a hipotezą alternatywną.

Hipoteza zerowa: Stwierdzenie dotyczące parametru populacji, które albo uważa się za prawdziwe, albo jest używane do przedstawienia argumentu, chyba że można wykazać, że jest nieprawidłowe za pomocą testowania hipotez.

Alternatywna hipoteza: Twierdzenie o populacji, które jest sprzeczne z hipotezą zerową i do czego dojdziemy, jeśli odrzucimy hipotezę zerową.

Błąd I rodzaju: Odrzucenie prawdziwej hipotezy zerowej

Błąd II rodzaju: Nieodrzucenie fałszywej hipotezy zerowej

Poziom istotności (α): Prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest ona prawdziwa.

wartość p: Prawdopodobieństwo, że statystyka testowa będzie co najmniej tak ekstremalna jak obserwowana, przy założeniu, że hipoteza zerowa jest prawdziwa.

  • Gdy wartość p > α, nie udaje nam się odrzucić hipotezy zerowej.
  • Gdy wartość p ≤ α, odrzucamy hipotezę zerową i możemy stwierdzić, że mamy istotny wynik.

W testowaniu hipotez statystycznych wynik ma znaczenie statystyczne, gdy jest bardzo mało prawdopodobne, że wystąpił przy hipotezie zerowej.

Krytyczna wartość: Punkt na skali statystyki testowej, powyżej którego odrzucamy hipotezę zerową. Zależy to od statystyki testowej, która jest specyficzna dla rodzaju testu, oraz od poziomu istotności α, który określa czułość testu.

regresji liniowej

Regresja liniowa jest zwykle pierwszym algorytmem ML, z którym się spotykamy. Jest prosty, a jego zrozumienie stanowi podstawę dla innych zaawansowanych algorytmów ML.

Prosta regresja liniowa

Liniowe podejście do modelowania zależności między zmienną zależną a jedną zmienną niezależną.

Musimy znaleźć parametry tak, aby model najlepiej pasował do danych. Linia regresji (tj. najlepiej dopasowana linia) to linia, dla której wystąpił błąd między wartościami przewidywanymi a wartościami obserwowanymi jest minimalna.

Linia regresji.

Teraz spróbujmy to zaimplementować.

Wielokrotna regresja liniowa

Liniowe podejście do modelowania zależności między zmienną zależną a dwiema lub więcej zmiennymi niezależnymi.

Oryginalny. Przesłane za zgodą.

Związane z:

Źródło: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Znak czasu:

Więcej z Knuggety

Zen Pythona

Węzeł źródłowy: 1790346
Znak czasu: Grudnia 29, 2022