Pristopi k imputaciji podatkov

Pristopi k imputaciji podatkov

Izvorno vozlišče: 1895750

Pristopi k imputaciji podatkov
Foto: Ron Lach
 

Nabori podatkov iz resničnega sveta so redko popolni in pogosto vsebujejo manjkajoče vrednosti ali nepopolne informacije. Te napake so lahko posledica človeškega elementa (nepravilno izpolnjene ali neizpolnjene ankete) ali tehnologije (nedelujoči senzorji). Kakorkoli že, vam pogosto ostanejo manjkajoče vrednosti ali informacije.

Seveda to predstavlja problem. Brez manjkajočih vrednosti se lahko celoten nabor podatkov šteje za neuporaben. Ker pa je za to potrebno veliko časa, truda in (v mnogih primerih) denarja pridobivanje visokokakovostnih podatkov, odstranitev nepravilnih podatkov in ponovni začetek morda ne bosta izvedljivi možnosti. Namesto tega moramo najti način, kako zaobiti ali nadomestiti te manjkajoče vrednosti. Tu nastopi imputacija podatkov. 

Ta vodnik bo obravnaval, kaj je imputacija podatkov in vrste pristopov, ki jih podpira.

Čeprav ne moremo nadomestiti manjkajočih ali poškodovanih podatkov, lahko uporabimo metode, s katerimi omogočimo, da je nabor podatkov še vedno uporaben. Imputacija podatkov je ena najbolj zanesljivih tehnik za doseganje tega. Vendar moramo najprej ugotoviti, katera vrsta podatkov manjka in zakaj. 

V statistiki in znanosti o podatkih obstajajo tri glavne vrste manjkajočih podatkov:

  • Naključno pogrešan (MAR), kjer so manjkajoči podatki vezani na spremenljivko in jih je na koncu mogoče opazovati ali izslediti. V mnogih primerih vam to lahko zagotovi več informacij o demografskih podatkih ali posameznikih, na katere se nanašajo osebni podatki. Na primer, ljudje določene starosti se lahko odločijo, da bodo ob določenem času preskočili vprašanje v anketi ali odstranili sisteme za sledenje iz svojih naprav. 
  • Popolnoma naključno pogrešan (MCAR), kje za manjkajoči podatki ni mogoče opazovati ali slediti spremenljivki. Skoraj nemogoče je ugotoviti, zakaj podatki manjkajo.
  • Manjkajoči podatki, ki ne manjkajo naključno (NMAR), kjer so manjkajoči podatki povezani s spremenljivko, ki nas zanima. V večini primerov lahko te manjkajoče podatke prezrete. NMAR se lahko pojavi, ko udeleženec ankete preskoči vprašanje, ki se zanj ne nanaša.

Obravnavanje manjkajočih podatkov

Trenutno imate tri glavne možnosti za obravnavo manjkajočih vrednosti podatkov:

  • brisanje
  • Imputacija
  • Neupoštevanje

Namesto da bi odstranili celoten nabor podatkov, lahko uporabite tako imenovano brisanje po seznamu. To vključuje brisanje zapisov z manjkajočimi informacijami ali vrednostmi. Glavna prednost brisanja po seznamu je, da podpira vse tri kategorije manjkajočih podatkov. 

Vendar pa lahko to povzroči dodatno izgubo podatkov. Priporočljivo je, da uporabljate samo brisanje po seznamu v primerih, ko obstaja večje število manjkajočih (opazovanih) vrednosti kot trenutnih (opazovanih) vrednosti, predvsem zato, ker ni dovolj podatkov, da bi jih lahko sklepali ali nadomestili. 

Če opaženi manjkajoči podatki niso pomembni (zanemarljivi) in manjka le nekaj vrednosti, jih lahko prezrete in delate s tem, kar imate. Vendar to ni vedno možnost. Imputacija podatkov ponuja tretjo in potencialno bolj izvedljivo rešitev. 

Imputacija podatkov vključuje zamenjavo odsotnih vrednosti, tako da so nabori podatkov še vedno uporabni. Obstajata dve kategoriji pristopov imputiranja podatkov:

  • single
  • Večkraten

Povprečna imputacija (MI) je ena najbolj znanih oblik imputacije enega podatka.

Povprečna imputacija (MI)

MI je oblika preproste imputacije. To vključuje izračun srednje vrednosti opazovanih vrednosti in uporabo rezultatov za sklepanje o manjkajočih vrednostih. Na žalost se je ta metoda izkazala za neučinkovito. Lahko vodi do številnih pristranskih ocen, tudi če podatki manjkajo popolnoma naključno. Poleg tega je "natančnost" ocen odvisna od števila manjkajočih vrednosti. 

Na primer, če obstaja veliko manjkajočih opazovanih vrednosti, z uporabo povprečne imputacije lahko povzroči podcenjevanje vrednosti. Zato je bolj primeren za nabore podatkov in spremenljivke z le nekaj manjkajočimi vrednostmi. 

Ročna zamenjava

V tem primeru lahko operater uporabi predhodno znanje o vrednostih nabora podatkov, da nadomesti manjkajoče vrednosti. Gre za eno samo metodo imputiranja, ki temelji na spominu ali znanju operaterja in se včasih imenuje predhodno znanje o idealnem številu. Natančnost je odvisna od sposobnosti operaterja, da si prikliče vrednosti, zato je ta metoda morda primernejša za nabore podatkov z le nekaj manjkajočimi vrednostmi.

K-najbližji sosedje (K-NN)

K-najbližji sosed je tehnika, ki se znano uporablja v strojnem učenju za reševanje problemov regresije in klasifikacije. Za izračun in imputiranje uporablja povprečje vrednosti manjkajočih podatkov sosedov manjkajočih podatkov. The Metoda K-NN je veliko bolj učinkovit kot preprosta povprečna imputacija in je idealen za vrednosti MCAR in MAR. 

Zamenjava

Zamenjava vključuje iskanje novega posameznika ali subjekta anketiranja ali testiranja. To bi moral biti subjekt, ki ni bil izbran v prvotnem vzorcu.

Regresijska imputacija

Regresija poskuša določiti moč odvisne spremenljivke (običajno označene kot Y) v zbirki neodvisnih spremenljivk (običajno označene kot X). Linearna regresija je najbolj znana oblika regresije. Za predvidevanje ali določitev manjkajoče vrednosti uporablja črto najboljšega prileganja. Posledično je to najboljša metoda za vizualno predstavitev podatkov prek regresijskega modela.

Kadar je linearna regresija oblika deterministične regresije, kjer je vzpostavljeno natančno razmerje med manjkajočimi in trenutnimi vrednostmi, se manjkajoče vrednosti nadomestijo s 100-odstotno napovedjo regresijskega modela. Vendar pa je ta metoda omejena. Deterministična linearna regresija lahko pogosto povzroči precenjevanje tesnosti razmerja med vrednostmi.

Stochastic linearne regresije kompenzira "pretirano natančnost" deterministične regresije z uvedbo (naključnega) izraza napake, ker sta dve situaciji ali spremenljivki le redko popolnoma povezani. Zaradi tega je zapolnjevanje manjkajočih vrednosti z uporabo regresije primernejše.

Hot Deck vzorčenje

Ta pristop vključuje izbiro naključno izbrane vrednosti subjekta z drugimi vrednostmi, podobnimi subjektu, ki manjka vrednost. Zahteva, da poiščete predmete ali posameznike in nato izpolnite manjkajoče podatke z uporabo njihovih vrednosti. 

Metoda vročega vzorčenja omejuje obseg dosegljivih vrednosti. Na primer, če je vaš vzorec omejen na starostno skupino med 20 in 25, bo vaš rezultat vedno med tema številkama, kar poveča potencialno natančnost nadomestne vrednosti. Subjekti/posamezniki za to metodo imputacije so izbrani naključno.

Vzorčenje na hladnem krovu

Ta metoda vključuje iskanje posameznika/subjekta, ki ima podobne ali enake vrednosti za vse druge spremenljivke/parametre v naboru podatkov. Na primer, subjekt ima lahko enako višino, kulturno ozadje in starost kot subjekt, katerega vrednosti manjkajo. Od vročega vzorčenja se razlikuje po tem, da se subjekti sistematično izbirajo in ponovno uporabljajo. 

Čeprav obstaja veliko možnosti in tehnik za obravnavo manjkajočih podatkov, je vedno bolje preprečiti kot zdraviti. Raziskovalci morajo izvajati stroge načrtovanje poskusov in študije. Študija mora imeti v mislih jasno izjavo o poslanstvu ali cilj. 

Pogosto raziskovalci preveč zakomplicirajo študijo ali ne uspejo načrtovati glede na ovire, kar ima za posledico manjkajoče ali nezadostne podatke. Vedno je najbolje poenostaviti zasnovo študije, hkrati pa se natančno osredotočiti na zbiranje podatkov. 

Zberite samo podatke, ki jih potrebujete za doseganje ciljev študije, in nič več. Prav tako morate zagotoviti, da so vsi instrumenti in senzorji, vključeni v študijo ali poskuse, ves čas popolnoma delujoči. Razmislite o ustvarjanju rednih varnostnih kopij vaših podatkov/odgovorov, ko študija napreduje. 

Manjkajoči podatki so pogost pojav. Tudi če izvajate najboljše prakse, lahko še vedno trpite zaradi nepopolnih podatkov. Na srečo obstajajo načini za reševanje te težave po dejstvu.   

 
 
Nahla Davies je razvijalec programske opreme in tehnični pisec. Preden se je posvetila svojemu delu s polnim delovnim časom tehničnemu pisanju, ji je med drugimi zanimivimi stvarmi uspelo delati kot vodilna programerka v organizaciji Inc. 5,000 Experiential Branding, katere stranke so Samsung, Time Warner, Netflix in Sony.
 

Časovni žig:

Več od KDnuggets