Date statistice importante Oamenii de știință trebuie să știe

Nodul sursă: 1876637

Date statistice importante Oamenii de știință trebuie să știe

Several fundamental statistical concepts must be well appreciated by every data scientist — from the enthusiast to the professional. Here, we provide code snippets in Python to increase understanding to bring you key tools that bring early insight into your data.


By Lekshmi S. Sunil, IIT Indore ’23 | GHC ’21 Scholar.

Analiza statistică ne permite să obținem informații valoroase din datele disponibile. O înțelegere solidă a conceptelor și tehnicilor statistice importante este absolut esențială pentru a analiza datele folosind diverse instrumente.

Înainte de a intra în detalii, să aruncăm o privire asupra subiectelor abordate în acest articol:

  • Statistica descriptivă vs. inferenţială
  • Tipuri de date
  • Probabilitate și teorema lui Bayes
  • Măsuri de tendință centrală
  • asimetria
  • kurtotica
  • Măsuri de dispersie
  • Covarianță
  • Corelație
  • Distribuții de probabilitate
  • Testarea ipotezei
  • Regres

Statistica descriptivă vs. inferenţială

Statistica în ansamblu se ocupă de colectarea, organizarea, analiza, interpretarea și prezentarea datelor. În statistică, există două ramuri principale:

  1. Statisticile descriptive: Aceasta implică descrierea caracteristicilor datelor, organizarea și prezentarea datelor fie vizual prin diagrame/grafice sau prin calcule numerice folosind măsuri de tendință centrală, variabilitate și distribuție. Un aspect demn de remarcat este că concluziile sunt trase pe baza datelor deja cunoscute.
  2. Statistici deduse: Aceasta implică tragerea de inferențe și generalizările despre populații mai mari folosind mostre prelevate de la acestea. Prin urmare, sunt necesare calcule mai complexe. Rezultatele finale sunt produse folosind tehnici precum testarea ipotezelor, corelarea și analiza de regresie. Rezultatele viitoare anticipate și concluziile trase depășesc nivelul datelor disponibile.

Tipuri de date

Pentru a efectua o analiză exploratorie a datelor (EDA) adecvată, aplicând cele mai adecvate tehnici statistice, trebuie să înțelegem ce tip de date lucrăm.

  1. Date categorice

Datele categoriale reprezintă variabile calitative precum sexul unui individ, grupa sanguină, limba maternă etc. Datele categoriale pot fi, de asemenea, sub formă de valori numerice fără nicio semnificație matematică. De exemplu, dacă variabila este sexul, o femeie poate fi reprezentată cu 1 și bărbatul cu 0.

  • Date nominale: Valorile etichetează variabilele și nu există o ierarhie definită între categorii, adică nu există nicio ordine sau direcție - de exemplu, religie, gen etc. Scale nominale cu doar două categorii sunt denumite „dihotomice”.
  • Date ordinale: există o ordine sau o ierarhie între categorii, de exemplu, evaluări de calitate, nivel de educație, note ale elevilor etc.
  1. Date numerice

Datele numerice reprezintă variabile cantitative exprimate numai în termeni de numere. De exemplu, înălțimea, greutatea unei persoane etc.

  • Date discrete: Valorile sunt numărabile și sunt numere întregi (cel mai adesea numere întregi). De exemplu, numărul de mașini dintr-o parcare, numărul de țări etc.
  • Date continue: Observațiile pot fi măsurate, dar nu pot fi numărate. Datele presupun orice valoare dintr-un interval - de exemplu, greutate, înălțime etc. Datele continue pot fi împărțite în continuare în date de interval (valori ordonate având aceleași diferențe între ele, dar nu au zero adevărat) și date de raport (valori ordonate având aceleași diferențe). între ele și adevăratul zero există).

Probabilitate și teorema lui Bayes

Probabilitatea este măsura probabilității ca un eveniment să se producă.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • Evenimente independente: Două evenimente sunt independente dacă apariția unuia nu afectează probabilitatea de apariție a celuilalt. P(A∩B) = P(A)P(B) unde P(A) != 0 și P(B) != 0.
  • Evenimente care se exclud reciproc: două evenimente se exclud reciproc sau sunt disjunctive dacă nu pot avea loc ambele în același timp. P(A∩B) = 0 și P(A∪B) = P(A)+P(B).
  • Probabilitate condițională: Probabilitatea unui eveniment A, având în vedere că un alt eveniment B a avut deja loc. Aceasta este reprezentată de P(A|B). P(A|B) = P(A∩B)/P(B), când P(B)>0.
  • Teorema lui Bayes

Măsuri de tendință centrală

Importați modulul de statistici.

  • medie: Valoarea medie a setului de date.

numpy.mean( ) poate fi de asemenea folosit.

  • Median: Valoarea medie a setului de date.

numpy.median( ) poate fi de asemenea folosit.

  • mod: Cea mai frecventă valoare din setul de date.

Când să folosiți media, mediana și modul?

Relația dintre medie, mediană și mod: Mod = 3 Median — 2 Media

asimetria

O măsură a simetriei, sau mai precis, lipsa de simetrie (asimetrie).

  • Distribuție normală/simetrică: mod = mediană = medie
  • Distribuție declinată pozitiv (dreapta): mod < mediană < medie
  • Distribuție declinată negativ (stânga): medie < mediană < mod

kurtotica

O măsură a faptului dacă datele sunt cu coadă grea sau cu coadă ușoară în raport cu o distribuție normală, adică măsoară „coadă” sau „punctul de vârf” a unei distribuții.

  • Leptokurtic – positive kurtosis
  • Mesokurtic – normal distribution
  • Platykurtic – negative kurtosis

Skewness și kurtosis folosind Python.

Măsuri de dispersie

Descrie răspândirea/împrăștierea datelor în jurul unei valori centrale.

Gama: Diferența dintre cea mai mare și cea mai mică valoare din setul de date.

Abaterea quartilei: Cuartilele unui set de date împart datele în patru părți egale — primul cuartil (Q1) este numărul din mijloc dintre cel mai mic număr și mediana datelor. Al doilea cuartil (Q2) este mediana setului de date. A treia cuartilă (Q3) este numărul mijlociu dintre mediană și cel mai mare număr. Deviația de quartile este Q = ½ × (Q3 — Q1)

Interval interquartil: IQR = Q3 — Q1

Varianță: Diferența medie pătrată dintre fiecare punct de date și medie. Măsoară cât de răspândit este setul de date în raport cu medie.

Deviație standard: Rădăcina pătrată a varianței.

Varianta și abaterea standard folosind Python.

Covarianță

Este relația dintre o pereche de variabile aleatoare în care o modificare a unei variabile determină schimbarea unei alte variabile.

Covarianță negativă, zero și pozitivă.

Matricea de covarianță și reprezentarea hărții sale folosind Python.

Corelație

Acesta arată dacă și cât de puternic sunt legate între ele o pereche de variabile.


Matrice de corelație folosind aceleași date utilizate pentru covarianță.

Covarianță vs. corelație.

Distribuții de probabilitate

Există două tipuri mari de distribuții de probabilitate — Distribuții de probabilitate discrete și continue.

Distribuție discretă de probabilitate:

  • Distribuția Bernoulli

O variabilă aleatorie ia o singură încercare cu doar două rezultate posibile: 1 (reușit) cu probabilitatea p și 0 (eșecul) cu probabilitatea 1-p.

  • Distribuție binomială

Fiecare proces este independent. Există doar două rezultate posibile într-un proces - fie un succes, fie un eșec. Se efectuează un număr total de n încercări identice. Probabilitatea de succes și eșec este aceeași pentru toate încercările. (Încercările sunt identice.)

  • Distribuție Poisson

Măsoară probabilitatea ca un anumit număr de evenimente să se întâmple într-o anumită perioadă de timp.

Distribuție continuă de probabilitate:

  • Distributie uniforma

Denumită și distribuție dreptunghiulară. Toate rezultatele sunt la fel de probabile.


  • Distribuție normală/gaussiană

Media, mediana și modul de distribuție coincid. Curba distribuției este în formă de clopot și simetrică față de linie x = μ. Suprafața totală de sub curbă este 1. Exact jumătate dintre valori sunt la stânga centrului și cealaltă jumătate la dreapta.

O distribuție normală este foarte diferită de distribuția binomială. Cu toate acestea, dacă numărul de încercări se apropie de infinit, atunci formele vor fi destul de asemănătoare.

  • Distribuție exponențială

Distribuția probabilității timpului dintre evenimente într-un proces punct Poisson, adică un proces în care evenimentele au loc continuu și independent la o rată medie constantă.

Testarea ipotezei

În primul rând, să aruncăm o privire la diferența dintre ipoteza nulă și ipoteza alternativă.

Ipoteza nulă: Declarație despre parametrul populației care fie este considerat adevărat, fie este folosit pentru a prezenta un argument, cu excepția cazului în care poate fi demonstrat că este incorect prin testarea ipotezelor.

Ipoteză alternativă: Afirmație despre populație care este în contradicție cu ipoteza nulă și ce concluzionăm dacă respingem ipoteza nulă.

Eroare de tip I: Respingerea unei adevărate ipoteze nule

Eroare de tip II: Nerespingerea unei ipoteze false nule

Nivel de semnificație (α): Probabilitatea de a respinge ipoteza nulă atunci când aceasta este adevărată.

valoarea p: Probabilitatea ca statistica testului să fie cel puțin la fel de extremă ca cea observată, având în vedere că ipoteza nulă este adevărată.

  • Când valoarea p > α, nu reușim să respingem ipoteza nulă.
  • În timp ce valoarea p ≤ α, respingem ipoteza nulă și putem concluziona că avem un rezultat semnificativ.

În testarea ipotezelor statistice, un rezultat are semnificație statistică atunci când este foarte puțin probabil să fi avut loc având în vedere ipoteza nulă.

Valoare critica: Un punct pe scara statisticii test dincolo de care respingem ipoteza nulă. Depinde de o statistică de test, care este specifică tipului de test, și de nivelul de semnificație, α, care definește sensibilitatea testului.

linear Regression

Regresia liniară este de obicei primul algoritm ML pe care îl întâlnim. Este simplu, iar înțelegerea lui pune bazele altor algoritmi ML avansați.

Regresia liniară simplă

Abordare liniară a modelării relației dintre o variabilă dependentă și o variabilă independentă.

Trebuie să găsim parametrii astfel încât modelul să se potrivească cel mai bine cu datele. Linia de regresie (adică, linia cea mai potrivită) este linia pentru care eroarea între valorile prezise și cele observate este minimă.

Linia de regresie.

Acum, să încercăm să implementăm acest lucru.

Regresie liniară multiplă

Abordare liniară a modelării relației dintre o variabilă dependentă și două sau mai multe variabile independente.

Original. Repostat cu permisiunea.

Related:

Sursa: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Timestamp-ul:

Mai mult de la KDnuggets