Abordări ale imputării datelor

Abordări ale imputării datelor

Nodul sursă: 1895750

Abordări ale imputării datelor
Fotografie de Ron Lach
 

Seturile de date din lumea reală sunt rareori perfecte și adesea vin cu valori lipsă sau informații incomplete. Aceste defecțiuni se pot datora elementului uman (sondaje completate incorect sau necompletate) sau tehnologiei (senzori defecționați). Oricare ar fi cazul, de multe ori rămâi cu valori sau informații lipsă.

Desigur, aceasta prezintă o problemă. Fără valorile lipsă, întregul set de date poate fi considerat inutilizabil. Dar din moment ce este nevoie de timp, efort și (în multe cazuri) de bani considerabil pentru a obține date de înaltă calitate, eliminarea datelor incorecte și reînceperea poate să nu fie opțiuni viabile. În schimb, trebuie să găsim o modalitate de a rezolva sau înlocui aceste valori lipsă. Aici intervine imputarea datelor. 

Acest ghid va discuta ce este imputarea datelor, precum și tipurile de abordări pe care le acceptă.

Deși nu putem înlocui datele lipsă sau corupte, există metode pe care le putem folosi pentru a permite setului de date să fie încă utilizabil. Imputarea datelor este una dintre cele mai fiabile tehnici pentru a realiza acest lucru. Cu toate acestea, trebuie mai întâi să identificăm ce tip de date lipsesc și de ce. 

În statistică și știința datelor, există trei tipuri principale de date lipsă:

  • Lipsă la întâmplare (MAR), unde datele lipsă sunt legate de o variabilă și în cele din urmă pot fi observate sau urmărite. În multe cazuri, acest lucru vă poate oferi mai multe informații despre datele demografice sau persoanele vizate. De exemplu, persoanele de o anumită vârstă pot decide să omite o întrebare dintr-un sondaj sau să elimine sistemele de urmărire de pe dispozitivele lor la anumite momente. 
  • Lipsește complet la întâmplare (MCAR), În cazul în care date lipsa nu poate fi observată sau urmărită la o variabilă. Este aproape imposibil de a discerne de ce lipsesc datele.
  • Lipsesc date care nu lipsesc la întâmplare (NMAR), unde datele lipsă sunt legate de o variabilă de interes. În cele mai multe cazuri, aceste date lipsă pot fi ignorate. NMAR poate apărea atunci când un participant la sondaj omite o întrebare care nu se aplică pentru el.

Gestionarea datelor lipsă

În prezent, aveți trei opțiuni principale pentru a trata valorile lipsă de date:

  • ștergere
  • Imputare
  • nepăsare

În loc să eliminați întregul set de date, puteți utiliza ceea ce este cunoscut sub numele de ștergere pe listă. Aceasta implică ștergerea înregistrărilor cu informații sau valori lipsă. Principalul avantaj al ștergerii pe listă este că acceptă toate cele trei categorii de date lipsă. 

Cu toate acestea, acest lucru poate duce la pierderi suplimentare de date. Se recomandă să utilizați numai ștergere listwise în cazurile în care există un număr mai mare de valori lipsă (observate) decât valorile prezente (observate), în principal pentru că nu există suficiente date pentru a le deduce sau înlocui. 

Dacă datele lipsă observate nu sunt importante (ignorabile) și lipsesc doar câteva valori, le puteți ignora și lucra cu ceea ce aveți. Cu toate acestea, aceasta nu este întotdeauna o posibilitate. Imputarea datelor oferă o a treia soluție și poate mai viabilă. 

Imputarea datelor implică înlocuirea valorilor absente, astfel încât seturile de date să poată fi încă utilizabile. Există două categorii de abordări de imputare a datelor:

  • Singur
  • Multiplu

Imputarea medie (IM) este una dintre cele mai cunoscute forme de imputare a datelor unice.

Imputarea medie (IM)

MI este o formă de imputare simplă. Aceasta implică calcularea mediei valorilor observate și utilizarea rezultatelor pentru a deduce valorile lipsă. Din păcate, această metodă s-a dovedit a fi ineficientă. Poate duce la multe estimări părtinitoare, chiar și atunci când datele lipsesc complet la întâmplare. În plus, „acuratețea” estimărilor depinde de numărul de valori lipsă. 

De exemplu, dacă există un număr mare de valori observate lipsă, folosind imputarea medie ar putea duce la subestimarea valorii. Astfel, este mai potrivit pentru seturi de date și variabile cu doar câteva valori lipsă. 

Înlocuire manuală

În această situație, un operator poate folosi cunoștințele anterioare ale valorilor setului de date pentru a înlocui valorile lipsă. Este o metodă unică de imputare care se bazează pe memoria sau cunoștințele operatorului și este uneori denumită cunoștințele anterioare ale unui număr ideal. Precizia depinde de capacitatea operatorului de a reaminti valorile, astfel încât această metodă poate fi mai potrivită pentru seturile de date cu doar câteva valori lipsă.

K-Cei mai apropiați vecini (K-NN)

K-nearest neighbor este o tehnică cunoscută folosită în învățarea automată pentru a aborda problemele de regresie și clasificare. Utilizează media valorii datelor lipsă a vecinilor valorii datelor lipsă pentru a o calcula și imputa. The Metoda K-NN este mult mai eficientă decât simpla imputare a mediei și este ideală pentru valorile MCAR și MAR. 

Înlocuire

Înlocuirea implică găsirea unui nou individ sau subiect al sondajului sau testării. Acesta ar trebui să fie un subiect care nu a fost selectat în eșantionul original.

Imputarea regresiei

Regresia încearcă să determine puterea unei variabile dependente (de obicei specificată ca Y) la o colecție de variabile independente (notate de obicei cu X). Regresia liniară este cea mai cunoscută formă de regresie. Folosește linia de cea mai bună potrivire pentru a prezice sau a determina valoarea lipsă. În consecință, este cea mai bună metodă de reprezentare vizuală a datelor printr-un model de regresie.

Când regresia liniară este o formă de regresie deterministă în care se stabilește o relație exactă între valorile lipsă și cele prezente, valorile lipsă sunt înlocuite cu predicția 100% a modelului de regresie. Există însă o limitare a acestei metode. Regresia liniară deterministă poate duce adesea la o supraestimare a strângerii relației dintre valori.

Stochastic regresie liniara compensează „supraprecizia” regresiei deterministe prin introducerea unui termen de eroare (aleatorie) deoarece două situații sau variabile sunt rareori perfect conectate. Acest lucru face ca completarea valorilor lipsă utilizând regresia să fie mai adecvată.

Eșantionare Hot Deck

Această abordare implică selectarea unei valori alese aleatoriu dintr-un subiect cu alte valori similare subiectului căruia îi lipsește valoarea. Este necesar să căutați subiecți sau persoane și apoi să completați datele lipsă folosind valorile acestora. 

Metoda de eșantionare la hot deck limitează intervalul de valori atinse. De exemplu, dacă eșantionul dvs. este limitat la o grupă de vârstă cuprinsă între 20 și 25 de ani, rezultatul dvs. va fi întotdeauna între aceste numere, crescând exactitatea potențială a valorii de înlocuire. Subiecții/indivizii pentru această metodă de imputare sunt aleși la întâmplare.

Eșantionare pe puntea rece

Această metodă implică căutarea unui individ/subiect care are valori similare sau identice pentru toate celelalte variabile/parametri din setul de date. De exemplu, subiectul poate avea aceeași înălțime, fundal cultural și vârstă ca subiectul ale cărui valori lipsesc. Diferă de eșantionarea hot deck prin faptul că subiecții sunt aleși și reutilizați în mod sistematic. 

Deși există multe opțiuni și tehnici pentru a trata datele lipsă, prevenirea este întotdeauna mai bună decât vindecarea. Cercetătorii trebuie să pună în aplicare stricte planificarea experimentelor si studii. Studiul trebuie să aibă în vedere o declarație clară de misiune sau un scop. 

Adesea, cercetătorii complică prea mult un studiu sau nu reușesc să planifice împotriva impedimentelor, ceea ce are ca rezultat lipsa sau datele insuficiente. Cel mai bine este întotdeauna să simplificați designul studiului, punând un accent precis pe colectarea datelor. 

Colectați doar datele de care aveți nevoie pentru a îndeplini obiectivele studiului și nimic mai mult. De asemenea, trebuie să vă asigurați că toate instrumentele și senzorii implicați în studiu sau experimente sunt pe deplin funcționali în orice moment. Luați în considerare crearea unor copii de siguranță regulate ale datelor/răspunsurilor dvs. pe măsură ce studiul progresează. 

Lipsa datelor este o întâmplare comună. Chiar dacă implementați cele mai bune practici, este posibil să suferiți în continuare de date incomplete. Din fericire, există modalități de a rezolva această problemă după fapt.   

 
 
Nahla Davies este un dezvoltator de software și scriitor de tehnologie. Înainte de a-și dedica munca cu normă întreagă scrierii tehnice, ea a reușit – printre alte lucruri interesante – să servească ca programator principal la o organizație de branding experiență Inc. 5,000 ai cărei clienți includ Samsung, Time Warner, Netflix și Sony.
 

Timestamp-ul:

Mai mult de la KDnuggets