Vigtige statistiske data, som forskere har brug for at vide

Kildeknude: 1876637

Vigtige statistiske data, som forskere har brug for at vide

Flere grundlæggende statistiske begreber skal værdsættes af enhver dataforsker - fra entusiasten til den professionelle. Her leverer vi kodestykker i Python for at øge forståelsen for at bringe dig nøgleværktøjer, der bringer tidlig indsigt i dine data.


By Lekshmi S. Sunil, IIT Indore '23 | GHC '21 Scholar.

Statistisk analyse giver os mulighed for at udlede værdifuld indsigt fra de foreliggende data. En god forståelse af de vigtige statistiske begreber og teknikker er helt afgørende for at analysere data ved hjælp af forskellige værktøjer.

Før vi går ind i detaljerne, lad os tage et kig på de emner, der er dækket i denne artikel:

  • Beskrivende vs. inferentiel statistik
  • Datatyper
  • Sandsynlighed og Bayes' sætning
  • Mål for central tendens
  • skævhed
  • kurtosis
  • Målinger af spredning
  • kovarians
  • Korrelation
  • Sandsynlighedsfordeling
  • Hypotese testning
  • Regression

Beskrivende vs. inferentiel statistik

Statistik som helhed beskæftiger sig med indsamling, organisering, analyse, fortolkning og præsentation af data. Inden for statistik er der to hovedgrene:

  1. Beskrivende statistik: Dette indebærer beskrivelse af dataenes funktioner, organisering og præsentation af data enten visuelt gennem diagrammer/grafer eller gennem numeriske beregninger ved hjælp af mål for central tendens, variabilitet og fordeling. Et bemærkelsesværdigt punkt er, at konklusioner er draget baseret på allerede kendte data.
  2. Inferential statistik: Dette involverer at drage slutninger og foretage generaliseringer om større populationer ved hjælp af prøver taget fra dem. Derfor er mere komplekse beregninger nødvendige. De endelige resultater fremstilles ved hjælp af teknikker som hypotesetestning, korrelation og regressionsanalyse. Forudsagte fremtidige resultater og konklusioner går ud over niveauet af tilgængelige data.

Datatyper

For at udføre korrekt Exploratory Data Analysis (EDA) ved at anvende de mest passende statistiske teknikker, er vi nødt til at forstå, hvilken type data vi arbejder på.

  1. Kategoriske data

Kategoriske data repræsenterer kvalitative variabler som et individs køn, blodgruppe, modersmål osv. Kategoriske data er også i form af numeriske værdier uden nogen matematisk betydning. For eksempel, hvis køn er variablen, kan en kvinde være repræsenteret med 1 og mand med 0.

  • Nominelle data: Værdier mærker variablerne, og der er ikke et defineret hierarki mellem kategorierne, dvs. der er ingen orden eller retning - for eksempel religion, køn osv. Nominelle skalaer med kun to kategorier betegnes som "dikotom".
  • Ordinære data: Der er rækkefølge eller hierarki mellem kategorierne – for eksempel kvalitetsvurderinger, uddannelsesniveau, karakterer for elevbogstaver osv.
  1. Numeriske data

Numeriske data repræsenterer kvantitative variable kun udtrykt i tal. For eksempel en persons højde, vægt osv.

  • Diskrete data: Værdier kan tælles og er heltal (oftest hele tal). For eksempel antallet af biler på en parkeringsplads, antal lande osv.
  • Løbende data: Observationer kan måles, men kan ikke tælles. Data antager en hvilken som helst værdi inden for et område - for eksempel vægt, højde osv. Kontinuerlige data kan yderligere opdeles i intervaldata (ordnede værdier, der har de samme forskelle mellem dem, men har intet sandt nul) og forholdsdata (ordnede værdier med de samme forskelle mellem dem og sandt nul eksisterer).

Sandsynlighed og Bayes' sætning

Sandsynlighed er et mål for sandsynligheden for, at en begivenhed vil indtræffe.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • Uafhængige begivenheder: To begivenheder er uafhængige, hvis forekomsten af ​​den ene ikke påvirker sandsynligheden for forekomsten af ​​den anden. P(A∩B) = P(A)P(B) hvor P(A) != 0 og P(B) != 0.
  • Gensidigt eksklusive begivenheder: To begivenheder er gensidigt udelukkende eller usammenhængende, hvis de ikke begge kan forekomme på samme tid. P(A∩B) = 0 og P(A∪B) = P(A)+P(B).
  • Betinget sandsynlighed: Sandsynlighed for en hændelse A, givet at en anden hændelse B allerede er indtruffet. Dette er repræsenteret ved P(A|B). P(A|B) = P(A∩B)/P(B), når P(B)>0.
  • Bayes' sætning

Mål for central tendens

Importer statistikmodulet.

  • Mean: Gennemsnitlig værdi af datasættet.

numpy.mean( ) kan også bruges.

  • median: Mellemværdi af datasættet.

numpy.median( ) kan også bruges.

  • tilstand: Den hyppigste værdi i datasættet.

Hvornår skal man bruge middelværdi, median og tilstand?

Forholdet mellem middelværdi, median og tilstand: Mode = 3 Median — 2 Middel

skævhed

Et mål for symmetri, eller mere præcist, mangel på symmetri (asymmetri).

  • Normal/symmetrisk fordeling: tilstand = median = middelværdi
  • Positiv (højre) skæv fordeling: tilstand < median < middelværdi
  • Negativ (venstre) skæv fordeling: middel < median < tilstand

kurtosis

Et mål for, om dataene er tunghalede eller lethalede i forhold til en normalfordeling, dvs. de måler en fordelings "halethed" eller "peakedness".

  • Leptokurtic – positiv kurtose
  • Mesokurtic – normalfordeling
  • Platykurtic – negativ kurtose

Skævhed og kurtose ved hjælp af Python.

Målinger af spredning

Beskriver spredning/spredning af data omkring en central værdi.

Rækkevidde: Forskellen mellem den største og den mindste værdi i datasættet.

Kvartilafvigelse: Kvartilerne i et datasæt deler dataene i fire lige store dele – den første kvartil (Q1) er det midterste tal mellem det mindste tal og medianen af ​​dataene. Den anden kvartil (Q2) er medianen af ​​datasættet. Den tredje kvartil (Q3) er det midterste tal mellem medianen og det største tal. Kvartilafvigelse er Q = ½ × (Q3 - Q1)

Interkvartilinterval: IQR = Q3 - Q1

Varians: Den gennemsnitlige kvadratiske forskel mellem hvert datapunkt og middelværdien. Måler, hvor spredt datasættet er i forhold til gennemsnittet.

Standardafvigelse: Kvadratrod af varians.

Varians og standardafvigelse ved hjælp af Python.

kovarians

Det er forholdet mellem et par tilfældige variable, hvor en ændring i en variabel forårsager ændring i en anden variabel.

Negativ, nul og positiv kovarians.

Kovariansmatrix og dens heatmap-repræsentation ved hjælp af Python.

Korrelation

Det viser, om og hvor stærkt et par variable er relateret til hinanden.


Korrelationsmatrix ved hjælp af de samme data, der bruges til kovarians.

Kovarians vs. korrelation.

Sandsynlighedsfordeling

Der er to brede typer af sandsynlighedsfordelinger - Diskrete og kontinuerlige sandsynlighedsfordelinger.

Diskret sandsynlighedsfordeling:

  • Bernoulli distribution

En stokastisk variabel tager et enkelt forsøg med kun to mulige udfald: 1 (succes) med sandsynlighed p og 0 (fiasko) med sandsynlighed 1-p.

  • Binomial fordeling

Hvert forsøg er uafhængigt. Der er kun to mulige udfald i et forsøg - enten en succes eller en fiasko. Der udføres i alt n identiske forsøg. Sandsynligheden for succes og fiasko er den samme for alle forsøg. (Forsøg er identiske.)

  • Poisson distribution

Måler sandsynligheden for, at et givet antal hændelser sker i en bestemt tidsperiode.

Kontinuerlig sandsynlighedsfordeling:

  • Ensartet fordeling

Kaldes også rektangulær fordeling. Alle udfald er lige sandsynlige.


  • Normal/Gaussisk fordeling

Fordelingens middelværdi, median og tilstand falder sammen. Fordelingens kurve er klokkeformet og symmetrisk om linjen x = μ. Det samlede areal under kurven er 1. Præcis halvdelen af ​​værdierne er til venstre for midten og den anden halvdel til højre.

En normalfordeling er meget forskellig fra binomialfordeling. Men hvis antallet af forsøg nærmer sig uendeligt, så vil formerne være ret ens.

  • Eksponentiel fordeling

Sandsynlighedsfordeling af tiden mellem hændelser i en Poisson-punktsproces, dvs. en proces, hvor hændelser opstår kontinuerligt og uafhængigt med en konstant gennemsnitshastighed.

Hypotese testning

Lad os først se på forskellen mellem nulhypotesen og den alternative hypotese.

Nulhypotesen: Udsagn om populationsparameteren, der enten menes at være sand eller bruges til at fremføre et argument, medmindre det kan påvises at være forkert ved hypotesetestning.

Alternativ hypotese: Påstand om populationen, der er i modstrid med nulhypotesen, og hvad vi konkluderer, hvis vi forkaster nulhypotesen.

Type I fejl: Afvisning af en sand nulhypotese

Type II fejl: Ikke-afvisning af en falsk nulhypotese

Signifikansniveau (α): Sandsynlighed for at forkaste nulhypotesen, når den er sand.

p-værdi: Sandsynligheden for, at teststatistikken er mindst lige så ekstrem som den observerede, givet at nulhypotesen er sand.

  • Når p-værdi > α, forkaster vi ikke nulhypotesen.
  • Mens p-værdi ≤ α, forkaster vi nulhypotesen, og vi kan konkludere, at vi har et signifikant resultat.

Ved statistisk hypotesetestning har et resultat statistisk signifikans, når det er meget usandsynligt, at det er opstået givet nulhypotesen.

Kritisk værdi: Et punkt på teststatistikkens skala, udover hvilket vi forkaster nulhypotesen. Det afhænger af en teststatistik, som er specifik for typen af ​​test, og signifikansniveauet, α, som definerer testens følsomhed.

Lineær regression

Lineær regression er normalt den første ML-algoritme, vi støder på. Det er enkelt, og forståelsen af ​​det lægger grundlaget for andre avancerede ML-algoritmer.

Simpel lineær regression

Lineær tilgang til modellering af forholdet mellem en afhængig variabel og en uafhængig variabel.

Vi skal finde parametrene, så modellen bedst passer til dataene. Regressionslinjen (dvs. den bedst tilpassede linje) er den linje, som fejlen for mellem de forudsagte værdier og de observerede værdier er minimum.

Regressionslinje.

Lad os nu prøve at implementere dette.

Multipel lineær regression

Lineær tilgang til modellering af forholdet mellem en afhængig variabel og to eller flere uafhængige variable.

Original. Genopslået med tilladelse.

Relateret:

Kilde: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Tidsstempel:

Mere fra KDnuggets