Dati statistici importanti che gli scienziati devono sapere
Diversi concetti statistici fondamentali devono essere ben apprezzati da ogni scienziato di dati, dall'appassionato al professionista. Qui forniamo frammenti di codice in Python per aumentare la comprensione e fornirti strumenti chiave che forniscono informazioni preliminari sui tuoi dati.
By Lekshmi S. Sunil, IIT Indore '23 | Studioso GHC '21.
L'analisi statistica ci consente di ricavare preziose informazioni dai dati a portata di mano. Una buona conoscenza dei concetti e delle tecniche statistiche importanti è assolutamente essenziale per analizzare i dati utilizzando vari strumenti.
Prima di entrare nei dettagli, diamo un'occhiata agli argomenti trattati in questo articolo:
- Statistica descrittiva vs. inferenziale
- Tipi di dati
- Probabilità e teorema di Bayes
- Provvedimenti di Tendenza Centrale
- skewness
- curtosi
- Misure di dispersione
- covarianza
- Correlazione
- Distribuzioni di probabilità
- Controllo di un'ipotesi
- Regressione
Statistica descrittiva vs. inferenziale
La statistica nel suo insieme si occupa della raccolta, organizzazione, analisi, interpretazione e presentazione dei dati. All'interno della statistica, ci sono due rami principali:
- Statistiche descrittive: Ciò comporta la descrizione delle caratteristiche dei dati, l'organizzazione e la presentazione dei dati sia visivamente attraverso grafici/grafici o tramite calcoli numerici che utilizzano misure di tendenza centrale, variabilità e distribuzione. Un punto degno di nota è che le conclusioni sono tratte sulla base di dati già noti.
- Statistica inferenziale: Ciò comporta il trarre inferenze e fare generalizzazioni su popolazioni più grandi utilizzando campioni prelevati da esse. Pertanto, sono necessari calcoli più complessi. I risultati finali vengono prodotti utilizzando tecniche come test di ipotesi, correlazione e analisi di regressione. I risultati futuri previsti e le conclusioni tratte vanno oltre il livello dei dati disponibili.
Tipi di dati
Per eseguire una corretta Exploratory Data Analysis (EDA) applicando le tecniche statistiche più appropriate, dobbiamo capire su quale tipo di dati stiamo lavorando.
- Dati categoriali
I dati categoriali rappresentano variabili qualitative come il sesso, il gruppo sanguigno, la lingua madre di un individuo, ecc. I dati categoriali sono anche sotto forma di valori numerici senza alcun significato matematico. Ad esempio, se la variabile è il genere, una femmina può essere rappresentata da 1 e un maschio da 0.
- Dati nominali: I valori etichettano le variabili e non c'è una gerarchia definita tra le categorie, cioè non c'è ordine o direzione, ad esempio religione, genere, ecc. Le scale nominali con solo due categorie sono definite “dicotomiche”.
- Dati ordinali: esiste un ordine o una gerarchia tra le categorie, ad esempio valutazioni della qualità, livello di istruzione, voti delle lettere degli studenti ecc.
- Data numerica
I dati numerici rappresentano variabili quantitative espresse solo in termini numerici. Ad esempio, l'altezza, il peso di un individuo, ecc.
- Dati discreti: i valori sono numerabili e sono numeri interi (molto spesso numeri interi). Ad esempio, il numero di auto in un parcheggio, il numero di paesi ecc.
- Dati continui: Le osservazioni possono essere misurate ma non contate. I dati assumono qualsiasi valore all'interno di un intervallo, ad esempio peso, altezza, ecc. I dati continui possono essere ulteriormente suddivisi in dati di intervallo (valori ordinati con le stesse differenze tra loro ma senza zero vero) e dati di rapporto (valori ordinati con le stesse differenze tra loro e lo zero vero esiste).
Probabilità e teorema di Bayes
La probabilità è la misura della probabilità che si verifichi un evento.
- P(A) + P(A') = 1
- P(LA∪B) = P(LA) + P(B) − P(LA∩B)
- Eventi indipendenti: due eventi sono indipendenti se il verificarsi di uno non influisce sulla probabilità che si verifichi l'altro. P(A∩B) = P(A)P(B) dove P(A) != 0 e P(B) != 0.
- Eventi che si escludono a vicenda: due eventi si escludono a vicenda o sono disgiunti se non possono verificarsi entrambi contemporaneamente. P(A∩B) = 0 e P(A∪B) = P(A)+P(B).
- Probabilità condizionale: Probabilità di un evento A, dato che si è già verificato un altro evento B. Questo è rappresentato da P(A|B). P(A|B) = P(A∩B)/P(B), quando P(B)>0.
- Teorema di Bayes
Provvedimenti di Tendenza Centrale
Importa il modulo delle statistiche.
- Significare: Valore medio del set di dati.
numpy.mean() può anche essere usato.
- Mediano: valore medio del set di dati.
numpy.median() può anche essere usato.
- Moda: valore più frequente nel set di dati.
Quando usare media, mediana e moda?
Relazione tra media, mediana e moda: Modalità = 3 Mediana — 2 Media
skewness
Una misura di simmetria, o più precisamente, mancanza di simmetria (asimmetria).
- Distribuzione normale/simmetrica: moda = mediana = media
- Distribuzione asimmetrica positivamente (destra): modalità < mediana < media
- Distribuzione asimmetrica negativamente (a sinistra): media < mediana < modalità
curtosi
Una misura del fatto che i dati siano a coda pesante o a coda leggera rispetto a una distribuzione normale, ovvero misura la "coda" o "picco" di una distribuzione.
- Leptocurtico: curtosi positiva
- Mesokurtic: distribuzione normale
- Platykurtic – curtosi negativa
Asimmetria e curtosi usando Python.
Misure di dispersione
Descrive la diffusione/scattering dei dati attorno a un valore centrale.
Range: La differenza tra il valore più grande e quello più piccolo nel set di dati.
Deviazione quartile: i quartili di un set di dati dividono i dati in quattro parti uguali: il primo quartile (Q1) è il numero intermedio tra il numero più piccolo e la mediana dei dati. Il secondo quartile (Q2) è la mediana del set di dati. Il terzo quartile (Q3) è il numero medio tra la mediana e il numero più grande. La deviazione del quartile è Q = ½ × (Q3 — Q1)
Intervallo interquartile: IQR = Q3 — Q1
Varianza: La differenza quadratica media tra ciascun punto dati e la media. Misura quanto è distribuito il set di dati rispetto alla media.
Deviazione standard: Radice quadrata della varianza.
Varianza e deviazione standard usando Python.
covarianza
È la relazione tra una coppia di variabili casuali in cui un cambiamento in una variabile provoca il cambiamento in un'altra variabile.
Covarianza negativa, zero e positiva.
Matrice di covarianza e sua rappresentazione della mappa di calore usando Python.
Correlazione
Mostra se e quanto fortemente una coppia di variabili è correlata tra loro.
Matrice di correlazione che utilizza gli stessi dati utilizzati per la covarianza.
Covarianza vs. Correlazione.
Distribuzioni di probabilità
Esistono due tipi generali di distribuzioni di probabilità: distribuzioni di probabilità discrete e continue.
Distribuzione discreta di probabilità:
- Distribuzione Bernoulli
Una variabile casuale prende una singola prova con solo due possibili esiti: 1 (successo) con probabilità p e 0 (fallimento) con probabilità 1-p.
- Distribuzione binomiale
Ogni prova è indipendente. Ci sono solo due possibili risultati in una prova: un successo o un fallimento. Viene condotto un numero totale di n prove identiche. La probabilità di successo e di fallimento è la stessa per tutte le prove. (Le prove sono identiche.)
- Distribuzione di Poisson
Misura la probabilità che un determinato numero di eventi si verifichi in un periodo di tempo specificato.
Distribuzione continua di probabilità:
- Distribuzione uniforme
Detta anche distribuzione rettangolare. Tutti i risultati sono ugualmente probabili.
- Distribuzione normale / gaussiana
La media, la mediana e la moda della distribuzione coincidono. La curva della distribuzione è a campana e simmetrica rispetto alla linea x = μ. L'area totale sotto la curva è 1. La metà esatta dei valori si trova a sinistra del centro e l'altra metà a destra.
Una distribuzione normale è molto diversa dalla distribuzione binomiale. Tuttavia, se il numero di prove si avvicina all'infinito, le forme saranno abbastanza simili.
- Distribuzione esponenziale
Distribuzione di probabilità del tempo tra gli eventi in un processo punto di Poisson, cioè un processo in cui gli eventi si verificano continuamente e indipendentemente a una velocità media costante.
Controllo di un'ipotesi
Innanzitutto, diamo un'occhiata alla differenza tra l'ipotesi nulla e l'ipotesi alternativa.
Ipotesi nulla: Dichiarazione sul parametro della popolazione che si ritiene essere vero o viene utilizzato per avanzare un argomento a meno che non possa essere dimostrato che non è corretto mediante test di ipotesi.
Ipotesi alternativa: Affermazione sulla popolazione che è contraddittoria all'ipotesi nulla e cosa concludiamo se rifiutiamo l'ipotesi nulla.
Errore di tipo I: Rifiuto di una vera ipotesi nulla
Errore di tipo II: Non rigetto di una falsa ipotesi nulla
Livello di significatività (α): Probabilità di rifiutare l'ipotesi nulla quando è vera.
valore p: Probabilità che la statistica del test sia almeno tanto estrema quanto quella osservata dato che l'ipotesi nulla è vera.
- Quando p-value > α, non riusciamo a rifiutare l'ipotesi nulla.
- Mentre p-value ≤ α, rifiutiamo l'ipotesi nulla e possiamo concludere che abbiamo un risultato significativo.
Nel test di ipotesi statistica, un risultato ha rilevanza statistica quando è molto improbabile che si sia verificato data l'ipotesi nulla.
Valore critico: Un punto sulla scala della statistica test oltre il quale rifiutiamo l'ipotesi nulla. Dipende da una statistica del test, che è specifica per il tipo di test, e dal livello di significatività, α, che definisce la sensibilità del test.
Regressione lineare
La regressione lineare è solitamente il primo algoritmo ML che incontriamo. È semplice e comprenderlo pone le basi per altri algoritmi ML avanzati.
Regressione lineare semplice
Approccio lineare alla modellazione della relazione tra una variabile dipendente e una variabile indipendente.
Dobbiamo trovare i parametri in modo che il modello si adatti meglio ai dati. La retta di regressione (vale a dire, la linea di adattamento migliore) è la linea per la quale l'errore tra i valori previsti e i valori osservati è minimo.
Linea di regressione.
Ora, proviamo a implementarlo.
Regressione lineare multipla
Approccio lineare alla modellazione della relazione tra una variabile dipendente e due o più variabili indipendenti.
Originale. Ripubblicato con il permesso.
Correlato:
Fonte: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html
- "
- &
- algoritmo
- Algoritmi
- Tutti
- .
- applicazioni
- RISERVATA
- in giro
- articolo
- MIGLIORE
- sangue
- rami
- auto
- il cambiamento
- classificazione
- codice
- paesi
- curva
- dati
- scienza dei dati
- scienziato di dati
- set di dati
- affare
- Offerte
- apprendimento profondo
- Presto
- Istruzione
- Ingegneria
- eccetera
- Evento
- eventi
- Excel
- Exclusive
- Faccia
- Fallimento
- Caratteristiche
- Nome
- in forma
- modulo
- Fondazione
- futuro
- Sesso
- Gruppo
- qui
- Come
- HTTPS
- Aumento
- intuizioni
- IT
- Le
- apprendimento
- Livello
- linea
- machine learning
- Fare
- misurare
- medie
- Microsoft
- ML
- Algoritmi ML
- modello
- modellismo
- madre
- numeri
- aprire
- minimo
- organizzazione
- organizzazione
- Altro
- parcheggio
- popolazione
- lavori
- Prodotto
- Python
- Q1
- qualità
- quantitativo
- gamma
- valutazioni
- regressione
- religione
- Risultati
- Scala
- Scienze
- scienziati
- set
- Un'espansione
- abilità
- So
- diffondere
- dichiarazione
- statistica
- Storie
- studente
- il successo
- test
- Testing
- tempo
- top
- Argomenti
- prova
- us
- APPREZZIAMO
- sito web
- entro
- X
- zero