Approcci all'imputazione dei dati

Approcci all'imputazione dei dati

Nodo di origine: 1895750

Approcci all'imputazione dei dati
Foto di Ron Ridere
 

I set di dati del mondo reale raramente sono perfetti e spesso presentano valori mancanti o informazioni incomplete. Questi difetti possono essere dovuti all'elemento umano (sondaggi erroneamente compilati o non compilati) o alla tecnologia (sensori malfunzionanti). In ogni caso, ti rimangono spesso valori o informazioni mancanti.

Naturalmente, questo presenta un problema. Senza i valori mancanti, l'intero set di dati potrebbe essere considerato inutilizzabile. Ma dal momento che richiede molto tempo, impegno e (in molti casi) denaro acquisire dati di alta qualità, eliminare i dati errati e ricominciare potrebbe non essere un'opzione praticabile. Invece, dobbiamo trovare un modo per aggirare o sostituire questi valori mancanti. È qui che entra in gioco l'imputazione dei dati. 

Questa guida discuterà cos'è l'attribuzione dei dati e i tipi di approcci che supporta.

Sebbene non possiamo sostituire i dati mancanti o corrotti, esistono metodi che possiamo utilizzare per consentire al set di dati di essere ancora utilizzabile. L'imputazione dei dati è una delle tecniche più affidabili per raggiungere questo obiettivo. Tuttavia, dobbiamo prima identificare quale tipo di dati manca e perché. 

In statistica e scienza dei dati, ci sono tre tipi principali di dati mancanti:

  • Mancante a caso (MAR), in cui i dati mancanti sono legati a una variabile e alla fine possono essere osservati o tracciati. In molti casi, questo può fornire maggiori informazioni sui dati demografici o sugli interessati. Ad esempio, le persone di una certa età possono decidere di saltare una domanda in un sondaggio o rimuovere i sistemi di tracciamento dai propri dispositivi in ​​determinati momenti. 
  • Mancante completamente a caso (MCAR), Dove l' dati mancanti non può essere osservato o ricondotto a una variabile. È quasi impossibile capire perché mancano i dati.
  • Dati mancanti che non mancano a caso (NMAR), dove i dati mancanti sono legati a una variabile di interesse. Nella maggior parte dei casi, questi dati mancanti possono essere ignorati. NMAR può verificarsi quando un partecipante al sondaggio salta una domanda che non si applica a lui.

Gestire i dati mancanti

Attualmente, hai tre opzioni principali per gestire i valori dei dati mancanti:

  • cancellazione
  • Imputazione
  • Ignorare

Invece di eliminare l'intero set di dati, è possibile utilizzare la cosiddetta eliminazione basata sull'elenco. Ciò comporta l'eliminazione di record con informazioni o valori mancanti. Il vantaggio principale dell'eliminazione in base all'elenco è che supporta tutte e tre le categorie di dati mancanti. 

Tuttavia, ciò potrebbe comportare un'ulteriore perdita di dati. Si consiglia di utilizzare solo cancellazione listwise nei casi in cui è presente un numero maggiore di valori mancanti (osservati) rispetto ai valori presenti (osservati), principalmente perché non ci sono dati sufficienti per dedurli o sostituirli. 

Se i dati mancanti osservati non sono importanti (ignorabili) e mancano solo pochi valori, puoi ignorarli e lavorare con ciò che hai. Tuttavia, questa non è sempre una possibilità. L'imputazione dei dati offre una terza e potenzialmente più praticabile soluzione. 

L'attribuzione dei dati implica la sostituzione dei valori assenti in modo che i set di dati possano essere ancora utilizzabili. Esistono due categorie di approcci di imputazione dei dati:

  • Singolo
  • multiplo

L'imputazione media (IM) è una delle forme più famose di imputazione a dati singoli.

Imputazione media (MI)

MI è una forma di semplice imputazione. Ciò comporta il calcolo della media dei valori osservati e l'utilizzo dei risultati per dedurre i valori mancanti. Sfortunatamente, questo metodo si è dimostrato inefficiente. Può portare a molte stime distorte, anche quando i dati mancano completamente a caso. Inoltre, la "precisione" delle stime dipende dal numero di valori mancanti. 

Ad esempio, se c'è un gran numero di valori osservati mancanti, utilizzando l'imputazione media potrebbe portare a una sottostima del valore. Pertanto, è più adatto per set di dati e variabili con solo pochi valori mancanti. 

Sostituzione manuale

In questa situazione, un operatore può utilizzare la conoscenza preliminare dei valori del set di dati per sostituire i valori mancanti. È un singolo metodo di imputazione che si basa sulla memoria o sulla conoscenza dell'operatore ed è talvolta indicato come conoscenza preliminare di un numero ideale. La precisione dipende dalla capacità dell'operatore di richiamare i valori, quindi questo metodo potrebbe essere più adatto per set di dati con solo pochi valori mancanti.

K-vicini più vicini (K-NN)

K-nearest neighbor è una tecnica notoriamente utilizzata nell'apprendimento automatico per affrontare problemi di regressione e classificazione. Utilizza la media del valore dei dati mancanti dei vicini per calcolarlo e imputarlo. Il Metodo K-NN è molto più efficace della semplice imputazione media ed è ideale per i valori MCAR e MAR. 

Sostituzione

La sostituzione comporta la ricerca di un nuovo individuo o oggetto di indagine o test. Questo dovrebbe essere un soggetto che non è stato selezionato nel campione originale.

Imputazione di regressione

La regressione tenta di determinare la forza di una variabile dipendente (solitamente specificata come Y) in una raccolta di variabili indipendenti (solitamente indicata come X). La regressione lineare è la forma più nota di regressione. Utilizza la linea di miglior adattamento per prevedere o determinare il valore mancante. Di conseguenza, è il metodo migliore per rappresentare visivamente i dati attraverso un modello di regressione.

Quando la regressione lineare è una forma di regressione deterministica in cui viene stabilita una relazione esatta tra i valori mancanti e attuali, i valori mancanti vengono sostituiti con la previsione del 100% del modello di regressione. C'è una limitazione a questo metodo, tuttavia. La regressione lineare deterministica può spesso portare a una sovrastima della vicinanza della relazione tra i valori.

Stochastic regressione lineare compensa la "eccessiva precisione" della regressione deterministica introducendo un termine di errore (casuale) perché raramente due situazioni o variabili sono perfettamente connesse. Ciò rende più appropriato il riempimento dei valori mancanti utilizzando la regressione.

Campionamento del mazzo caldo

Questo approccio prevede la selezione di un valore scelto a caso da un soggetto con altri valori simili al soggetto a cui manca il valore. Richiede di cercare soggetti o individui e quindi inserire i dati mancanti utilizzando i loro valori. 

Il metodo di campionamento a ponte caldo limita l'intervallo di valori ottenibili. Ad esempio, se il tuo campione è limitato a una fascia di età compresa tra 20 e 25 anni, il tuo risultato sarà sempre compreso tra questi numeri, aumentando la potenziale precisione del valore di sostituzione. I soggetti/persone per questo metodo di imputazione sono scelti a caso.

Campionamento a ponte freddo

Questo metodo prevede la ricerca di un individuo/soggetto che abbia valori simili o identici per tutte le altre variabili/parametri nel set di dati. Ad esempio, il soggetto può avere la stessa altezza, background culturale ed età del soggetto i cui valori mancano. Si differenzia dal campionamento hot deck in quanto i soggetti vengono sistematicamente scelti e riutilizzati. 

Sebbene esistano molte opzioni e tecniche per gestire i dati mancanti, prevenire è sempre meglio che curare. I ricercatori devono implementare rigorosi pianificazione degli esperimenti e studi. Lo studio deve avere in mente una chiara dichiarazione di intenti o un obiettivo. 

Spesso i ricercatori complicano eccessivamente uno studio o non riescono a pianificare contro gli impedimenti, il che si traduce in dati mancanti o insufficienti. È sempre meglio semplificare la progettazione dello studio ponendo un focus preciso sulla raccolta dei dati. 

Raccogli solo i dati necessari per raggiungere gli obiettivi dello studio e niente di più. Dovresti inoltre assicurarti che tutti gli strumenti e i sensori coinvolti nello studio o negli esperimenti siano sempre perfettamente funzionanti. Prendi in considerazione la creazione di backup regolari dei tuoi dati/risposte man mano che lo studio procede. 

I dati mancanti sono un evento comune. Anche se implementi le migliori pratiche, potresti comunque soffrire di dati incompleti. Fortunatamente, ci sono modi per affrontare questo problema dopo il fatto.   

 
 
Nahla Davis è uno sviluppatore di software e scrittore di tecnologia. Prima di dedicare il suo lavoro a tempo pieno alla scrittura tecnica, è riuscita, tra le altre cose intriganti, a servire come programmatore capo presso un'organizzazione di branding esperienziale Inc. 5,000 i cui clienti includono Samsung, Time Warner, Netflix e Sony.
 

Timestamp:

Di più da KDnuggets