Viktige statistikkdata Forskere trenger å vite

Kilde node: 1876637

Viktige statistikkdata Forskere trenger å vite

Flere grunnleggende statistiske konsepter må være godt verdsatt av enhver dataforsker - fra entusiasten til profesjonell. Her gir vi kodebiter i Python for å øke forståelsen for å gi deg nøkkelverktøy som gir tidlig innsikt i dataene dine.


By Lekshmi S. Sunil, IIT Indore '23 | GHC '21 Scholar.

Statistisk analyse lar oss utlede verdifull innsikt fra dataene vi har. En god forståelse av de viktige statistiske konseptene og teknikkene er helt avgjørende for å analysere dataene ved hjelp av ulike verktøy.

Før vi går inn i detaljene, la oss ta en titt på emnene som dekkes i denne artikkelen:

  • Beskrivende vs. inferensiell statistikk
  • Datatyper
  • Sannsynlighet og Bayes' teorem
  • Mål for sentral tendens
  • skjevhet
  • kurtose
  • Målinger av spredning
  • Kovarians
  • Korrelasjon
  • Sannsynlighetsfordelinger
  • Hypotesetesting
  • Regresjon

Beskrivende vs. inferensiell statistikk

Statistikk som helhet omhandler innsamling, organisering, analyse, tolkning og presentasjon av data. Innen statistikk er det to hovedgrener:

  1. Beskrivende statistikk: Dette innebærer å beskrive egenskapene til dataene, organisere og presentere dataene enten visuelt gjennom diagrammer/grafer eller gjennom numeriske beregninger ved bruk av mål på sentral tendens, variabilitet og distribusjon. Et bemerkelsesverdig poeng er at konklusjoner trekkes basert på allerede kjente data.
  2. Inferensiell statistikk: Dette innebærer å trekke slutninger og gjøre generaliseringer om større populasjoner ved å bruke prøver tatt fra dem. Derfor kreves det mer komplekse beregninger. De endelige resultatene produseres ved hjelp av teknikker som hypotesetesting, korrelasjon og regresjonsanalyse. Forutsagte fremtidige utfall og konklusjoner trukket går utover nivået på tilgjengelige data.

Datatyper

For å utføre riktig Exploratory Data Analysis (EDA) ved å bruke de mest passende statistiske teknikkene, må vi forstå hvilken type data vi jobber med.

  1. Kategoriske data

Kategoriske data representerer kvalitative variabler som individets kjønn, blodgruppe, morsmål osv. Kategoriske data er også i form av numeriske verdier uten noen matematisk betydning. For eksempel, hvis kjønn er variabelen, kan en kvinne representeres med 1 og mann med 0.

  • Nominelle data: Verdier merker variablene, og det er ikke noe definert hierarki mellom kategoriene, dvs. det er ingen rekkefølge eller retning - for eksempel religion, kjønn osv. Nominelle skalaer med bare to kategorier kalles "dikotom".
  • Ordinaldata: Det finnes rekkefølge eller hierarki mellom kategoriene – for eksempel kvalitetsvurderinger, utdanningsnivå, studentbokstavkarakterer osv.
  1. Numeriske data

Numeriske data representerer kvantitative variabler uttrykt kun i form av tall. For eksempel en persons høyde, vekt osv.

  • Diskrete data: Verdier er tellbare og er heltall (oftest hele tall). For eksempel antall biler på en parkeringsplass, antall land osv.
  • Kontinuerlige data: Observasjoner kan måles, men kan ikke telles. Data antar en hvilken som helst verdi innenfor et område – for eksempel vekt, høyde osv. Kontinuerlige data kan videre deles inn i intervalldata (ordnede verdier som har de samme forskjellene mellom dem, men har ingen sann null) og forholdsdata (ordnede verdier som har samme forskjeller) mellom dem og sann null eksisterer).

Sannsynlighet og Bayes' teorem

Sannsynlighet er et mål på sannsynligheten for at en hendelse skal inntreffe.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • Uavhengige hendelser: To hendelser er uavhengige hvis forekomsten av den ene ikke påvirker sannsynligheten for at den andre inntreffer. P(A∩B) = P(A)P(B) hvor P(A) != 0 og P(B) != 0.
  • Gjensidig eksklusive hendelser: To hendelser er gjensidig utelukkende eller usammenhengende hvis de ikke begge kan skje samtidig. P(A∩B) = 0 og P(A∪B) = P(A)+P(B).
  • Betinget sannsynlighet: Sannsynlighet for en hendelse A, gitt at en annen hendelse B allerede har skjedd. Dette er representert ved P(A|B). P(A|B) = P(A∩B)/P(B), når P(B)>0.
  • Bayes 'teorem

Mål for sentral tendens

Importer statistikkmodulen.

  • Mener: Gjennomsnittlig verdi av datasettet.

numpy.mean( ) kan også brukes.

  • median: Midtverdi av datasettet.

numpy.median( ) kan også brukes.

  • Mote: Hyppigste verdi i datasettet.

Når skal man bruke gjennomsnitt, median og modus?

Forholdet mellom gjennomsnitt, median og modus: Modus = 3 Median — 2 Middel

skjevhet

Et mål på symmetri, eller mer presist, mangel på symmetri (asymmetri).

  • Normal/symmetrisk fordeling: modus = median = gjennomsnitt
  • Positiv (høyre) skjev fordeling: modus < median < gjennomsnitt
  • Negativ (venstre) skjev fordeling: gjennomsnitt < median < modus

kurtose

Et mål på om dataene er tunghalede eller letthalede i forhold til en normalfordeling, dvs. de måler "hale" eller "topphet" av en fordeling.

  • Leptokurtic – positiv kurtose
  • Mesokurtic – normalfordeling
  • Platykurtic – negativ kurtose

Skjevhet og kurtose ved hjelp av Python.

Målinger av spredning

Beskriver spredning/spredning av data rundt en sentral verdi.

Range: Forskjellen mellom den største og den minste verdien i datasettet.

Kvartilavvik: Kvartilene til et datasett deler dataene i fire like deler – den første kvartilen (Q1) er det midterste tallet mellom det minste tallet og medianen av dataene. Den andre kvartilen (Q2) er medianen av datasettet. Den tredje kvartilen (Q3) er det midterste tallet mellom medianen og det største tallet. Kvartilavvik er Q = ½ × (Q3 – Q1)

Interkvartilområde: IQR = Q3 - Q1

Forskjell: Den gjennomsnittlige kvadratiske forskjellen mellom hvert datapunkt og gjennomsnittet. Måler hvor spredt datasettet er i forhold til gjennomsnittet.

Standardavvik: Kvadratrot av varians.

Varians og standardavvik ved bruk av Python.

Kovarians

Det er forholdet mellom et par tilfeldige variabler der en endring i en variabel forårsaker endring i en annen variabel.

Negativ, null og positiv kovarians.

Kovariansmatrise og dens varmekartrepresentasjon ved bruk av Python.

Korrelasjon

Den viser om og hvor sterkt et par variabler er relatert til hverandre.


Korrelasjonsmatrise som bruker samme data som brukes for kovarians.

Kovarians vs. korrelasjon.

Sannsynlighetsfordelinger

Det er to brede typer sannsynlighetsfordelinger - Diskrete og kontinuerlige sannsynlighetsfordelinger.

Diskret sannsynlighetsfordeling:

  • Bernoulli Distribusjon

En tilfeldig variabel tar et enkelt forsøk med bare to mulige utfall: 1 (suksess) med sannsynlighet p og 0 (mislykket) med sannsynlighet 1-p.

  • Binomial distribusjon

Hver prøve er uavhengig. Det er bare to mulige utfall i en rettssak - enten en suksess eller en fiasko. Det gjennomføres totalt n identiske forsøk. Sannsynligheten for suksess og fiasko er den samme for alle forsøk. (Forsøk er identiske.)

  • Poisson Distribusjon

Måler sannsynligheten for at et gitt antall hendelser skjer i en spesifisert tidsperiode.

Kontinuerlig sannsynlighetsfordeling:

  • Uniform distribusjon

Også kalt rektangulær fordeling. Alle utfall er like sannsynlige.


  • Normal / Gaussisk fordeling

Gjennomsnitt, median og modus for distribusjonen faller sammen. Fordelingskurven er klokkeformet og symmetrisk om linjen x = μ. Det totale arealet under kurven er 1. Nøyaktig halvparten av verdiene er til venstre for midten og den andre halvparten til høyre.

En normalfordeling er svært forskjellig fra binomialfordeling. Men hvis antallet forsøk nærmer seg uendelig, vil formene være ganske like.

  • Eksponensiell distribusjon

Sannsynlighetsfordeling av tiden mellom hendelser i en Poisson-punktprosess, dvs. en prosess der hendelser skjer kontinuerlig og uavhengig med en konstant gjennomsnittshastighet.

Hypotesetesting

La oss først se på forskjellen mellom nullhypotesen og den alternative hypotesen.

Nullhypotesen: Utsagn om populasjonsparameteren som enten antas å være sann eller brukes til å fremsette et argument med mindre det kan påvises å være feil ved hypotesetesting.

Alternativ hypotese: Påstand om populasjonen som er motstridende med nullhypotesen og hva vi konkluderer med hvis vi forkaster nullhypotesen.

Type I feil: Forkastelse av en sann nullhypotese

Type II feil: Ikke-avvisning av en falsk nullhypotese

Signifikansnivå (α): Sannsynlighet for å forkaste nullhypotesen når den er sann.

p-verdi: Sannsynligheten for at teststatistikken er minst like ekstrem som den observerte gitt at nullhypotesen er sann.

  • Når p-verdi > α, klarer vi ikke å forkaste nullhypotesen.
  • Mens p-verdi ≤ α, forkaster vi nullhypotesen, og vi kan konkludere med at vi har et signifikant resultat.

I statistisk hypotesetesting har et resultat statistisk signifikans når det er svært usannsynlig å ha skjedd gitt nullhypotesen.

Kritisk verdi: Et punkt på skalaen til teststatistikken utover som vi forkaster nullhypotesen. Det avhenger av en teststatistikk, som er spesifikk for typen test, og signifikansnivået, α, som definerer testens sensitivitet.

lineær regresjon

Lineær regresjon er vanligvis den første ML-algoritmen vi kommer over. Det er enkelt, og å forstå det legger grunnlaget for andre avanserte ML-algoritmer.

Enkel lineær regresjon

Lineær tilnærming til modellering av forholdet mellom en avhengig variabel og en uavhengig variabel.

Vi må finne parametrene slik at modellen passer best til dataene. Regresjonslinjen (dvs. den beste tilpasningslinjen) er linjen som feilen for mellom de predikerte verdiene og de observerte verdiene er minimum.

Regresjonslinje.

La oss nå prøve å implementere dette.

Flere lineære regresjoner

Lineær tilnærming til modellering av forholdet mellom en avhengig variabel og to eller flere uavhengige variabler.

original. Ompostet med tillatelse.

Relatert:

Kilde: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Tidstempel:

Mer fra KDnuggets