Dati statistici importanti che gli scienziati devono sapere

Nodo di origine: 1876637

Dati statistici importanti che gli scienziati devono sapere

Diversi concetti statistici fondamentali devono essere ben apprezzati da ogni scienziato di dati, dall'appassionato al professionista. Qui forniamo frammenti di codice in Python per aumentare la comprensione e fornirti strumenti chiave che forniscono informazioni preliminari sui tuoi dati.


By Lekshmi S. Sunil, IIT Indore '23 | Studioso GHC '21.

L'analisi statistica ci consente di ricavare preziose informazioni dai dati a portata di mano. Una buona conoscenza dei concetti e delle tecniche statistiche importanti è assolutamente essenziale per analizzare i dati utilizzando vari strumenti.

Prima di entrare nei dettagli, diamo un'occhiata agli argomenti trattati in questo articolo:

  • Statistica descrittiva vs. inferenziale
  • Tipi di dati
  • Probabilità e teorema di Bayes
  • Provvedimenti di Tendenza Centrale
  • skewness
  • curtosi
  • Misure di dispersione
  • covarianza
  • Correlazione
  • Distribuzioni di probabilità
  • Controllo di un'ipotesi
  • Regressione

Statistica descrittiva vs. inferenziale

La statistica nel suo insieme si occupa della raccolta, organizzazione, analisi, interpretazione e presentazione dei dati. All'interno della statistica, ci sono due rami principali:

  1. Statistiche descrittive: Ciò comporta la descrizione delle caratteristiche dei dati, l'organizzazione e la presentazione dei dati sia visivamente attraverso grafici/grafici o tramite calcoli numerici che utilizzano misure di tendenza centrale, variabilità e distribuzione. Un punto degno di nota è che le conclusioni sono tratte sulla base di dati già noti.
  2. Statistica inferenziale: Ciò comporta il trarre inferenze e fare generalizzazioni su popolazioni più grandi utilizzando campioni prelevati da esse. Pertanto, sono necessari calcoli più complessi. I risultati finali vengono prodotti utilizzando tecniche come test di ipotesi, correlazione e analisi di regressione. I risultati futuri previsti e le conclusioni tratte vanno oltre il livello dei dati disponibili.

Tipi di dati

Per eseguire una corretta Exploratory Data Analysis (EDA) applicando le tecniche statistiche più appropriate, dobbiamo capire su quale tipo di dati stiamo lavorando.

  1. Dati categoriali

I dati categoriali rappresentano variabili qualitative come il sesso, il gruppo sanguigno, la lingua madre di un individuo, ecc. I dati categoriali sono anche sotto forma di valori numerici senza alcun significato matematico. Ad esempio, se la variabile è il genere, una femmina può essere rappresentata da 1 e un maschio da 0.

  • Dati nominali: I valori etichettano le variabili e non c'è una gerarchia definita tra le categorie, cioè non c'è ordine o direzione, ad esempio religione, genere, ecc. Le scale nominali con solo due categorie sono definite “dicotomiche”.
  • Dati ordinali: esiste un ordine o una gerarchia tra le categorie, ad esempio valutazioni della qualità, livello di istruzione, voti delle lettere degli studenti ecc.
  1. Data numerica

I dati numerici rappresentano variabili quantitative espresse solo in termini numerici. Ad esempio, l'altezza, il peso di un individuo, ecc.

  • Dati discreti: i valori sono numerabili e sono numeri interi (molto spesso numeri interi). Ad esempio, il numero di auto in un parcheggio, il numero di paesi ecc.
  • Dati continui: Le osservazioni possono essere misurate ma non contate. I dati assumono qualsiasi valore all'interno di un intervallo, ad esempio peso, altezza, ecc. I dati continui possono essere ulteriormente suddivisi in dati di intervallo (valori ordinati con le stesse differenze tra loro ma senza zero vero) e dati di rapporto (valori ordinati con le stesse differenze tra loro e lo zero vero esiste).

Probabilità e teorema di Bayes

La probabilità è la misura della probabilità che si verifichi un evento.

  • P(A) + P(A') = 1
  • P(LA∪B) = P(LA) + P(B) − P(LA∩B)
  • Eventi indipendenti: due eventi sono indipendenti se il verificarsi di uno non influisce sulla probabilità che si verifichi l'altro. P(A∩B) = P(A)P(B) dove P(A) != 0 e P(B) != 0.
  • Eventi che si escludono a vicenda: due eventi si escludono a vicenda o sono disgiunti se non possono verificarsi entrambi contemporaneamente. P(A∩B) = 0 e P(A∪B) = P(A)+P(B).
  • Probabilità condizionale: Probabilità di un evento A, dato che si è già verificato un altro evento B. Questo è rappresentato da P(A|B). P(A|B) = P(A∩B)/P(B), quando P(B)>0.
  • Teorema di Bayes

Provvedimenti di Tendenza Centrale

Importa il modulo delle statistiche.

  • Significare: Valore medio del set di dati.

numpy.mean() può anche essere usato.

  • Mediano: valore medio del set di dati.

numpy.median() può anche essere usato.

  • Moda: valore più frequente nel set di dati.

Quando usare media, mediana e moda?

Relazione tra media, mediana e moda: Modalità = 3 Mediana — 2 Media

skewness

Una misura di simmetria, o più precisamente, mancanza di simmetria (asimmetria).

  • Distribuzione normale/simmetrica: moda = mediana = media
  • Distribuzione asimmetrica positivamente (destra): modalità < mediana < media
  • Distribuzione asimmetrica negativamente (a sinistra): media < mediana < modalità

curtosi

Una misura del fatto che i dati siano a coda pesante o a coda leggera rispetto a una distribuzione normale, ovvero misura la "coda" o "picco" di una distribuzione.

  • Leptocurtico: curtosi positiva
  • Mesokurtic: distribuzione normale
  • Platykurtic – curtosi negativa

Asimmetria e curtosi usando Python.

Misure di dispersione

Descrive la diffusione/scattering dei dati attorno a un valore centrale.

Range: La differenza tra il valore più grande e quello più piccolo nel set di dati.

Deviazione quartile: i quartili di un set di dati dividono i dati in quattro parti uguali: il primo quartile (Q1) è il numero intermedio tra il numero più piccolo e la mediana dei dati. Il secondo quartile (Q2) è la mediana del set di dati. Il terzo quartile (Q3) è il numero medio tra la mediana e il numero più grande. La deviazione del quartile è Q = ½ × (Q3 — Q1)

Intervallo interquartile: IQR = Q3 — Q1

Varianza: La differenza quadratica media tra ciascun punto dati e la media. Misura quanto è distribuito il set di dati rispetto alla media.

Deviazione standard: Radice quadrata della varianza.

Varianza e deviazione standard usando Python.

covarianza

È la relazione tra una coppia di variabili casuali in cui un cambiamento in una variabile provoca il cambiamento in un'altra variabile.

Covarianza negativa, zero e positiva.

Matrice di covarianza e sua rappresentazione della mappa di calore usando Python.

Correlazione

Mostra se e quanto fortemente una coppia di variabili è correlata tra loro.


Matrice di correlazione che utilizza gli stessi dati utilizzati per la covarianza.

Covarianza vs. Correlazione.

Distribuzioni di probabilità

Esistono due tipi generali di distribuzioni di probabilità: distribuzioni di probabilità discrete e continue.

Distribuzione discreta di probabilità:

  • Distribuzione Bernoulli

Una variabile casuale prende una singola prova con solo due possibili esiti: 1 (successo) con probabilità p e 0 (fallimento) con probabilità 1-p.

  • Distribuzione binomiale

Ogni prova è indipendente. Ci sono solo due possibili risultati in una prova: un successo o un fallimento. Viene condotto un numero totale di n prove identiche. La probabilità di successo e di fallimento è la stessa per tutte le prove. (Le prove sono identiche.)

  • Distribuzione di Poisson

Misura la probabilità che un determinato numero di eventi si verifichi in un periodo di tempo specificato.

Distribuzione continua di probabilità:

  • Distribuzione uniforme

Detta anche distribuzione rettangolare. Tutti i risultati sono ugualmente probabili.


  • Distribuzione normale / gaussiana

La media, la mediana e la moda della distribuzione coincidono. La curva della distribuzione è a campana e simmetrica rispetto alla linea x = μ. L'area totale sotto la curva è 1. La metà esatta dei valori si trova a sinistra del centro e l'altra metà a destra.

Una distribuzione normale è molto diversa dalla distribuzione binomiale. Tuttavia, se il numero di prove si avvicina all'infinito, le forme saranno abbastanza simili.

  • Distribuzione esponenziale

Distribuzione di probabilità del tempo tra gli eventi in un processo punto di Poisson, cioè un processo in cui gli eventi si verificano continuamente e indipendentemente a una velocità media costante.

Controllo di un'ipotesi

Innanzitutto, diamo un'occhiata alla differenza tra l'ipotesi nulla e l'ipotesi alternativa.

Ipotesi nulla: Dichiarazione sul parametro della popolazione che si ritiene essere vero o viene utilizzato per avanzare un argomento a meno che non possa essere dimostrato che non è corretto mediante test di ipotesi.

Ipotesi alternativa: Affermazione sulla popolazione che è contraddittoria all'ipotesi nulla e cosa concludiamo se rifiutiamo l'ipotesi nulla.

Errore di tipo I: Rifiuto di una vera ipotesi nulla

Errore di tipo II: Non rigetto di una falsa ipotesi nulla

Livello di significatività (α): Probabilità di rifiutare l'ipotesi nulla quando è vera.

valore p: Probabilità che la statistica del test sia almeno tanto estrema quanto quella osservata dato che l'ipotesi nulla è vera.

  • Quando p-value > α, non riusciamo a rifiutare l'ipotesi nulla.
  • Mentre p-value ≤ α, rifiutiamo l'ipotesi nulla e possiamo concludere che abbiamo un risultato significativo.

Nel test di ipotesi statistica, un risultato ha rilevanza statistica quando è molto improbabile che si sia verificato data l'ipotesi nulla.

Valore critico: Un punto sulla scala della statistica test oltre il quale rifiutiamo l'ipotesi nulla. Dipende da una statistica del test, che è specifica per il tipo di test, e dal livello di significatività, α, che definisce la sensibilità del test.

Regressione lineare

La regressione lineare è solitamente il primo algoritmo ML che incontriamo. È semplice e comprenderlo pone le basi per altri algoritmi ML avanzati.

Regressione lineare semplice

Approccio lineare alla modellazione della relazione tra una variabile dipendente e una variabile indipendente.

Dobbiamo trovare i parametri in modo che il modello si adatti meglio ai dati. La retta di regressione (vale a dire, la linea di adattamento migliore) è la linea per la quale l'errore tra i valori previsti e i valori osservati è minimo.

Linea di regressione.

Ora, proviamo a implementarlo.

Regressione lineare multipla

Approccio lineare alla modellazione della relazione tra una variabile dipendente e due o più variabili indipendenti.

Originale. Ripubblicato con il permesso.

Correlato:

Fonte: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Timestamp:

Di più da KDnuggets