Pomembni statistični podatki, ki jih morajo vedeti znanstveniki

Izvorno vozlišče: 1876637

Pomembni statistični podatki, ki jih morajo vedeti znanstveniki

Several fundamental statistical concepts must be well appreciated by every data scientist — from the enthusiast to the professional. Here, we provide code snippets in Python to increase understanding to bring you key tools that bring early insight into your data.


By Lekshmi S. Sunil, IIT Indore ’23 | GHC ’21 Scholar.

Statistična analiza nam omogoča, da iz podatkov, ki jih imamo, pridobimo dragocene vpoglede. Dobro razumevanje pomembnih statističnih konceptov in tehnik je nujno potrebno za analizo podatkov z uporabo različnih orodij.

Preden gremo v podrobnosti, si poglejmo teme, ki jih obravnava ta članek:

  • Deskriptivna proti inferencialni statistiki
  • Vrste podatkov
  • Verjetnost in Bayesov izrek
  • Mere centralne tendence
  • Asimetrija
  • Kurtoza
  • Razpršeni ukrepi
  • Kovarianca
  • Korelacija
  • Verjetnostne porazdelitve
  • Preizkušanje hipotez
  • regresija

Deskriptivna proti inferencialni statistiki

Statistika kot celota se ukvarja z zbiranjem, organizacijo, analizo, interpretacijo in predstavitvijo podatkov. Znotraj statistike obstajata dve glavni veji:

  1. Opisna statistika: To vključuje opisovanje značilnosti podatkov, organizacijo in predstavitev podatkov bodisi vizualno prek grafikonov/grafov ali preko numeričnih izračunov z uporabo mer osrednje težnje, variabilnosti in porazdelitve. Omembe vredna točka je, da sklepi potekajo na podlagi že znanih podatkov.
  2. Referenčna statistika: To vključuje sklepanje in posploševanje o večjih populacijah z uporabo vzorcev, vzetih iz njih. Zato so potrebni bolj zapleteni izračuni. Končni rezultati so pridobljeni s tehnikami, kot so testiranje hipotez, korelacija in regresijska analiza. Predvideni prihodnji rezultati in zaključki presegajo raven razpoložljivih podatkov.

Vrste podatkov

Za izvedbo ustrezne raziskovalne analize podatkov (EDA) z uporabo najprimernejših statističnih tehnik moramo razumeti, na kateri vrsti podatkov delamo.

  1. Kategorični podatki

Kategorični podatki predstavljajo kvalitativne spremenljivke, kot so posameznikov spol, krvna skupina, materni jezik itd. Kategorični podatki so tudi v obliki številčnih vrednosti brez matematičnega pomena. Na primer, če je spol spremenljivka, je ženska lahko predstavljena z 1, moški pa z 0.

  • Nazivni podatki: Vrednosti označujejo spremenljivke in med kategorijami ni definirane hierarhije, tj. ni vrstnega reda ali smeri – na primer vera, spol itd. Nominalne lestvice s samo dvema kategorijama se imenujejo »dihotomne«.
  • Redni podatki: Med kategorijami obstaja vrstni red ali hierarhija – na primer ocene kakovosti, stopnja izobrazbe, ocene študentov itd.
  1. Številčni podatki

Numerični podatki predstavljajo kvantitativne spremenljivke, izražene samo s številkami. Na primer višina, teža posameznika itd.

  • Diskretni podatki: Vrednosti so štetne in so cela števila (najpogosteje cela števila). Na primer število avtomobilov na parkirišču, število držav itd.
  • Neprekinjeni podatki: Opazovanja je mogoče izmeriti, vendar jih ni mogoče prešteti. Podatki prevzamejo katero koli vrednost v razponu – na primer teža, višina itd. Neprekinjene podatke je mogoče nadalje razdeliti na intervalne podatke (urejene vrednosti, ki imajo enake razlike med seboj, vendar nimajo prave ničle) in podatke o razmerju (urejene vrednosti, ki imajo enake razlike med njima in obstaja prava ničla).

Verjetnost in Bayesov izrek

Verjetnost je merilo verjetnosti, da se bo dogodek zgodil.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • Neodvisna dogodka: Dva dogodka sta neodvisna, če pojav enega ne vpliva na verjetnost pojava drugega. P(A∩B) = P(A)P(B), kjer je P(A) != 0 in P(B) != 0.
  • Medsebojno izključujoča se dogodka: dva dogodka sta medsebojno izključujoča ali ločena, če se ne moreta zgoditi hkrati. P(A∩B) = 0 in P(A∪B) = P(A)+P(B).
  • Pogojna verjetnost: Verjetnost dogodka A, glede na to, da se je drug dogodek B že zgodil. To je predstavljeno s P(A|B). P(A|B) = P(A∩B)/P(B), ko je P(B)>0.
  • Bayesov izrek

Mere centralne tendence

Uvozite statistični modul.

  • Pomeni: povprečna vrednost nabora podatkov.

Uporabite lahko tudi numpy.mean().

  • Mediana: Srednja vrednost nabora podatkov.

Uporabite lahko tudi numpy.median().

  • način: najpogostejša vrednost v naboru podatkov.

Kdaj uporabiti povprečje, mediano in način?

Razmerje med povprečjem, mediano in načinom: Način = 3 mediana — 2 povprečje

Asimetrija

Mera simetrije ali natančneje nesimetrije (asimetrija).

  • Normalna/simetrična porazdelitev: način = mediana = povprečje
  • Pozitivno (desno) poševna porazdelitev: način < mediana < povprečje
  • Negativno (levo) poševna porazdelitev: povprečje < mediana < način

Kurtoza

Merilo, ali so podatki s težkim ali lahkim repom glede na normalno porazdelitev, tj. merijo "zaokroženost" ali "konico" porazdelitve.

  • Leptokurtic – positive kurtosis
  • Mesokurtic – normal distribution
  • Platykurtic – negative kurtosis

Zakrivljenost in kurtoza z uporabo Pythona.

Razpršeni ukrepi

Opisuje širjenje/razpršenost podatkov okoli osrednje vrednosti.

Območje: Razlika med največjo in najmanjšo vrednostjo v naboru podatkov.

Kvartilno odstopanje: Kvartili nabora podatkov delijo podatke na štiri enake dele – prvi kvartil (Q1) je srednje število med najmanjšim številom in mediano podatkov. Drugi kvartil (Q2) je mediana nabora podatkov. Tretji kvartil (Q3) je srednje število med mediano in največjim številom. Kvartilni odklon je Q = ½ × (Q3 — Q1)

Interkvartilni razpon: IQR = Q3 — Q1

Varianca: Povprečna kvadratna razlika med vsako podatkovno točko in srednjo vrednostjo. Meri, kako razširjen je nabor podatkov glede na povprečje.

Standardni odklon: Kvadratni koren variance.

Varianca in standardni odklon z uporabo Pythona.

Kovarianca

Je razmerje med parom naključnih spremenljivk, kjer sprememba ene spremenljivke povzroči spremembo druge spremenljivke.

Negativna, ničelna in pozitivna kovarianca.

Kovariančna matrika in njena predstavitev toplotne karte z uporabo Pythona.

Korelacija

Pokaže, ali in kako močno je par spremenljivk med seboj povezan.


Korelacijska matrika z uporabo istih podatkov, uporabljenih za kovarianco.

Kovarianca proti korelaciji.

Verjetnostne porazdelitve

Obstajata dve široki vrsti verjetnostnih porazdelitev — diskretna in zvezna verjetnostna porazdelitev.

Diskretna porazdelitev verjetnosti:

  • Bernoullijeva distribucija

Naključna spremenljivka ima en sam poskus z le dvema možnima izidoma: 1 (uspeh) z verjetnostjo p in 0 (neuspeh) z verjetnostjo 1-p.

  • Binomna porazdelitev

Vsako sojenje je neodvisno. V poskusu sta možna le dva izida - uspeh ali neuspeh. Izvede se skupno število n enakih poskusov. Verjetnost uspeha in neuspeha je enaka za vse poskuse. (Poskusi so enaki.)

  • Poissonova porazdelitev

Meri verjetnost, da se dano število dogodkov zgodi v določenem časovnem obdobju.

Neprekinjena porazdelitev verjetnosti:

  • Enotna distribucija

Imenuje se tudi pravokotna porazdelitev. Vsi rezultati so enako verjetni.


  • Normalna/Gaussova porazdelitev

Povprečna vrednost, mediana in način porazdelitve sovpadajo. Krivulja porazdelitve je zvonasta in simetrična glede na črto x = μ. Skupna površina pod krivuljo je 1. Točno polovica vrednosti je levo od sredine, druga polovica pa desno.

Normalna porazdelitev se močno razlikuje od binomske porazdelitve. Če pa se število poskusov približa neskončnosti, potem bodo oblike precej podobne.

  • Eksponentna porazdelitev

Verjetnostna porazdelitev časa med dogodki v procesu Poissonove točke, tj. procesu, v katerem se dogodki odvijajo neprekinjeno in neodvisno s konstantno povprečno hitrostjo.

Preizkušanje hipotez

Najprej si poglejmo razliko med ničelno hipotezo in alternativno hipotezo.

Ničelna hipoteza: Izjava o parametru populacije, za katero se domneva, da je resnična, ali pa se uporablja za navedbo argumenta, razen če je s testiranjem hipotez mogoče dokazati, da je napačna.

Alternativna hipoteza: Trditev o populaciji, ki je v nasprotju z ničelno hipotezo in kaj sklepamo, če ničelno hipotezo zavrnemo.

Napaka tipa I: Zavrnitev prave ničelne hipoteze

Napaka tipa II: Nezavrnitev napačne ničelne hipoteze

Raven pomembnosti (α): Verjetnost zavrnitve ničelne hipoteze, ko je resnična.

p-vrednost: Verjetnost, da je testna statistika vsaj tako ekstremna kot opažena glede na to, da je ničelna hipoteza resnična.

  • Ko je p-vrednost > α, ničelne hipoteze ne zavrnemo.
  • Medtem ko je p-vrednost ≤ α, zavrnemo ničelno hipotezo in lahko sklepamo, da imamo pomemben rezultat.

Pri statističnem testiranju hipotez je rezultat statistično pomemben, če je zelo malo verjetno, da bi se zgodil glede na ničelno hipotezo.

Kritična vrednost: Točka na lestvici testne statistike, nad katero zavračamo ničelno hipotezo. Odvisno je od statistike testa, ki je specifična za vrsto testa, in stopnje pomembnosti α, ki določa občutljivost testa.

linearna regresija

Linearna regresija je običajno prvi algoritem ML, ki ga srečamo. Je preprost in njegovo razumevanje postavlja temelje za druge napredne algoritme ML.

Enostavna linearna regresija

Linearni pristop k modeliranju razmerja med odvisno spremenljivko in eno neodvisno spremenljivko.

Poiskati moramo parametre, da bo model najbolje ustrezal podatkom. Regresijska črta (tj. najbolj prilegajoča se črta) je črta, za katero je napaka med napovedanimi in opazovanimi vrednostmi minimalna.

Regresijska črta.

Zdaj pa poskusimo to izvesti.

Večplastna regresija

Linearni pristop k modeliranju razmerja med odvisno spremenljivko in dvema ali več neodvisnimi spremenljivkami.

prvotni. Poročeno z dovoljenjem.

Povezano:

Vir: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Časovni žig:

Več od KDnuggets