L'errore del tasso di base e il suo impatto sulla scienza dei dati

L'errore del tasso di base e il suo impatto sulla scienza dei dati

Nodo di origine: 2597848
L'errore del tasso di base e il suo impatto sulla scienza dei dati
Immagine dell'autore
 

Quando si lavora con dati e variabili diverse, è facile assegnare una variabile o un valore maggiore dell'altro. Possiamo presumere che una variabile specifica o un punto dati abbia avuto un impatto maggiore sull'output, ma quanto siamo sicuri che le altre variabili abbiano un impatto uguale?

Nelle statistiche, il tasso di base può essere visto come probabilità di classi che sono incondizionate su "evidenze caratteristiche". Puoi vedere il tasso di base come presupposto di probabilità precedente. 

I tassi di base sono strumenti importanti nella ricerca. Ad esempio, se siamo un'azienda farmaceutica e stiamo sviluppando e inviando una nuova vaccinazione, vogliamo esaminare il successo del trattamento. Se abbiamo 4000 persone disposte a prendere questa vaccinazione e il nostro tasso di base è 1/25. 

Ciò significa che solo 160 persone saranno curate con successo dal trattamento su 4000 persone. Nel mondo farmaceutico, questo è un tasso di successo molto basso. Questo è il modo in cui i tassi di base possono essere utilizzati per migliorare la ricerca e l'accuratezza e garantire che il prodotto funzioni bene. 

Se dividiamo le parole, ci darà una migliore comprensione. Fallacia significa una credenza errata o un ragionamento errato. Se ora lo combiniamo con la nostra definizione del tasso base di cui sopra. 

L'errore del tasso di base, noto anche come bias del tasso di base e negligenza del tasso di base, è la probabilità di giudicare una situazione specifica, senza prendere in considerazione tutti i dati rilevanti. 

L'errore del tasso di base contiene informazioni sul tasso di base e altre informazioni pertinenti. Ciò può essere dovuto a vari motivi, come il mancato esame e l'analisi corretta dei dati o l'ignoranza nel favorire una parte specifica dei dati. 

L'errore del tasso di base descrive la tendenza di qualcuno a ignorare le informazioni sul tasso di base esistenti, a spingere ed essere a favore delle nuove informazioni. Ciò va contro le regole fondamentali del ragionamento basato sull'evidenza.

In genere sentirai parlare di ciò che accade nel settore finanziario. Ad esempio, gli investitori baseranno le loro tattiche di acquisto o condivisione su informazioni irrazionali, che portano alla fluttuazione del mercato, pur avendo a loro conoscenza il tasso di base. 

Quindi ora abbiamo una migliore comprensione del tasso di base e dell'errore del tasso di base. Qual è la sua rilevanza e il suo impatto nella scienza dei dati?

Abbiamo parlato di “probabilità delle classi” e di “prendere in considerazione tutti i dati rilevanti”. Se sei uno scienziato dei dati, un ingegnere dell'apprendimento automatico o stai mettendo piede nella porta, saprai quanto sono importanti le probabilità e i dati rilevanti per produrre risultati accurati, il processo di apprendimento del tuo modello di apprendimento automatico e la produzione di modelli ad alte prestazioni. 

Per analizzare e fare previsioni sui dati o affinché il tuo modello di machine learning produca risultati accurati, devi prendere in considerazione ogni bit di dati. Mentre esamini i tuoi dati la prima volta che li vedi, potresti considerare alcune parti rilevanti e altre irrilevanti. Tuttavia, questo è il tuo giudizio e non sarà ancora reale finché non avrà avuto luogo un'analisi adeguata. 

Come accennato in precedenza, la velocità di base iniziale consente di garantire la precisione e produrre modelli ad alte prestazioni. Quindi, come possiamo farlo in Data Science?

Matrice di confusione

Una matrice di confusione è una misurazione delle prestazioni che fornisce un riepilogo dei risultati della previsione su un problema di classificazione. Le matrici di confusione sono tutte basate sul risultato: Vero, Falso, Positivo e Negativo.

La matrice di confusione rappresenta le previsioni del nostro modello durante la fase di test. I falsi negativi e i falsi positivi nella matrice di confusione sono esempi di errore del tasso di base.

  • Vero positivo (TP): il tuo modello prevedeva un risultato positivo ed è positivo 
  • Vero negativo (TN): il tuo modello prevedeva un valore negativo ed è negativo
  • Falso positivo (FP): il tuo modello prevedeva un risultato positivo ed è negativo
  • Falso negativo (FN): il tuo modello prevedeva un risultato negativo ed è positivo 

Una matrice di confusione può calcolare 5 diverse metriche per aiutarci a misurare la validità del nostro modello:

  1. Errata classificazione = FP + FN / TP + TN + FP + FN
  2. Precisione = TP / TP + FP
  3. Precisione = TP + TN / TP + TN + FP + FN
  4. Specificità = TN / TN + FP
  5. Sensibilità aka Recall = TP / TP + FN

Per comprendere meglio una matrice di confusione, è meglio guardare una visualizzazione: 
 

L'errore del tasso di base e il suo impatto sulla scienza dei dati
Immagine dell'autore

Mentre stai leggendo questo articolo, puoi probabilmente pensare a una varietà di cause dell'errore del tasso di base, come non prendere in considerazione tutti i dati rilevanti, errore umano o mancanza di precisione. 

Sebbene questi siano tutti veri e si aggiungano alla causa dell'errore del tasso di base. Si riferiscono tutti al problema più grande di ignorare le informazioni sulla velocità di base in primo luogo. Le informazioni sulla tariffa di base vengono spesso ignorate in quanto considerate irrilevanti, tuttavia, le informazioni sulla tariffa di base possono far risparmiare molto tempo e denaro alle persone. L'utilizzo delle informazioni sulla velocità di base disponibili consente di essere più precisi nel formulare probabilità sul verificarsi di un determinato evento. 

L'utilizzo delle informazioni sulla tariffa di base ti aiuterà a evitare l'errore della tariffa di base. 

Essere consapevoli degli errori come opinioni, processi automatici, ecc. ti consentirà di combattere il problema dell'errore del tasso di base e di ridurre potenziali errori. Quando si misura la probabilità che si verifichi un determinato evento, i metodi bayesiani possono aiutare a ridurre l'errore del tasso di base.  

La tariffa di base è importante nella scienza dei dati poiché ti fornisce una comprensione di base su come valutare il tuo studio o progetto e ottimizzare il tuo modello, fornendo un aumento complessivo di precisione e prestazioni.

Se desideri guardare un video sulla fallacia del tasso di base in campo medico, guarda questo video: Paradosso del test medico
 
 
Nisha Aria è Data Scientist, Scrittore tecnico freelance e Community Manager presso KDnuggets. È particolarmente interessata a fornire consulenza o tutorial sulla carriera in Data Science e conoscenze basate sulla teoria in Data Science. Desidera anche esplorare i diversi modi in cui l'Intelligenza Artificiale è/può giovare alla longevità della vita umana. Una studentessa appassionata, che cerca di ampliare le sue conoscenze tecnologiche e le sue capacità di scrittura, aiutando nel contempo a guidare gli altri.
 

Timestamp:

Di più da KDnuggets