Tietojen imputoinnin lähestymistavat

Julkaissut Platon

seuraajia: 0

Tietojen imputoinnin lähestymistavat
Kuva Ron Laugh

Reaalimaailman tietojoukot ovat harvoin täydellisiä, ja niissä on usein puuttuvia arvoja tai epätäydellisiä tietoja. Nämä viat voivat johtua inhimillisestä elementistä (väärin täytetyt tai täyttämättömät tutkimukset) tai tekniikasta (virheelliset anturit). Oli tilanne mikä tahansa, sinulta jää usein puuttuvia arvoja tai tietoja.

Tämä aiheuttaa tietysti ongelman. Ilman puuttuvia arvoja koko tietojoukko voidaan katsoa käyttökelvottomaksi. Mutta koska se vaatii paljon aikaa, vaivaa ja (monissa tapauksissa) rahaa hankkia korkealaatuisia tietoja, virheellisten tietojen hävittäminen ja uudelleen aloittaminen ei välttämättä ole toteuttamiskelpoisia vaihtoehtoja. Sen sijaan meidän on löydettävä tapa kiertää tai korvata nämä puuttuvat arvot. Tässä tulee mukaan datan imputointi.

Tässä oppaassa käsitellään tietojen imputointia sekä sen tukemia lähestymistapoja.

Vaikka emme voi korvata puuttuvia tai vioittuneita tietoja, voimme käyttää menetelmiä, jotta tietojoukko on edelleen käyttökelpoinen. Tietojen imputointi on yksi luotettavimmista tekniikoista tämän saavuttamiseksi. Meidän on kuitenkin ensin selvitettävä, minkä tyyppisiä tietoja puuttuu ja miksi.

Tilastoissa ja datatieteessä puuttuvia tietoja on kolme päätyyppiä:

Puuttuu satunnaisesti (MAR), jossa puuttuvat tiedot on sidottu muuttujaan ja ne voidaan lopulta havaita tai jäljittää. Monissa tapauksissa tämä voi antaa sinulle lisätietoja väestötiedoista tai rekisteröidyistä. Tietyn ikäiset ihmiset voivat esimerkiksi päättää jättää väliin kyselyn kysymyksen tai poistaa seurantajärjestelmät laitteistaan tiettyinä aikoina.
Puuttuu täysin satunnaisesti (MCAR), Jossa puuttuvat tiedot ei voida havaita tai jäljittää muuttujaan. On lähes mahdotonta erottaa, miksi tiedot puuttuvat.
Puuttuvat tiedot, jotka eivät puutu satunnaisesti (NMAR), jossa puuttuvat tiedot on sidottu kiinnostavaan muuttujaan. Useimmissa tapauksissa nämä puuttuvat tiedot voidaan jättää huomiotta. NMAR voi ilmetä, kun kyselyn saaja ohittaa kysymyksen, joka ei koske häntä.

Puuttuvien tietojen käsittely

Tällä hetkellä sinulla on kolme ensisijaista vaihtoehtoa puuttuvien tietoarvojen käsittelyyn:

poisto
syyksi lukeminen
piittaamattomuus

Koko tietojoukon hävittämisen sijaan voit käyttää niin kutsuttua luettelokohtaista poistamista. Tämä edellyttää tietueiden poistamista, joista puuttuu tietoja tai arvoja. Listakohtaisen poistamisen tärkein etu on, että se tukee kaikkia kolmea puuttuvien tietojen luokkaa.

Tämä voi kuitenkin johtaa lisätietojen menettämiseen. On suositeltavaa käyttää vain listallinen poisto tapauksissa, joissa puuttuvia (havaittuja) arvoja on suurempi määrä kuin nykyisiä (havaittuja) arvoja, pääasiassa siksi, että dataa ei ole tarpeeksi päättelemään tai korvaamaan niitä.

Jos havaitut puuttuvat tiedot eivät ole tärkeitä (jätä huomioimatta) ja vain muutama arvo puuttuu, voit jättää ne huomioimatta ja työskennellä sen kanssa, mitä sinulla on. Tämä ei kuitenkaan ole aina mahdollista. Tietojen imputointi tarjoaa kolmannen ja mahdollisesti kannattavamman ratkaisun.

Tietojen imputointiin kuuluu puuttuvien arvojen korvaaminen, jotta tietojoukot ovat edelleen käyttökelpoisia. Tietojen imputointimenetelmiä on kaksi:

Yksi
moninkertainen

Keskimääräinen imputointi (MI) on yksi tunnetuimmista yhden datan imputoinnin muodoista.

Keskimääräinen imputaatio (MI)

MI on yksinkertaisen imputoinnin muoto. Tämä edellyttää havaittujen arvojen keskiarvon laskemista ja tulosten käyttämistä puuttuvien arvojen päättämiseen. Valitettavasti tämä menetelmä on osoittautunut tehottomaksi. Se voi johtaa moniin puolueellisiin arvioihin, vaikka tiedot puuttuvat täysin satunnaisesti. Lisäksi arvioiden "tarkkuus" riippuu puuttuvien arvojen määrästä.

Jos esimerkiksi havaittuja arvoja puuttuu suuri määrä, käyttämällä keskimääräistä imputaatiota voi johtaa arvon aliarvioimiseen. Näin ollen se sopii paremmin tietojoukkoihin ja muuttujiin, joista puuttuu vain muutama arvo.

Manuaalinen vaihto

Tässä tilanteessa operaattori voi korvata puuttuvat arvot käyttämällä aiempaa tietoa tietojoukon arvoista. Se on yksittäinen imputointimenetelmä, joka perustuu operaattorin muistiin tai tietoon ja jota joskus kutsutaan ideaalisen luvun ennakkotiedoksi. Tarkkuus riippuu käyttäjän kyvystä muistaa arvot, joten tämä menetelmä voi olla sopivampi tietosarjoille, joista puuttuu vain muutama arvo.

K-Lähimmät naapurit (K-NN)

K-lähin naapuri on tekniikka, jota käytetään tunnetusti koneoppimisessa regressio- ja luokitteluongelmien ratkaisemiseksi. Se käyttää puuttuvan data-arvon keskiarvoa naapureiden puuttuvan data-arvon laskemiseen ja laskemiseen. The K-NN menetelmä on paljon tehokkaampi kuin yksinkertainen keskimääräinen imputointi ja on ihanteellinen MCAR- ja MAR-arvoille.

korvaaminen

Korvaamiseen liittyy uuden henkilön tai tutkimuksen tai testin kohteen löytäminen. Tämän pitäisi olla aihe, jota ei valittu alkuperäiseen otokseen.

Regressioimputaatio

Regressio yrittää määrittää riippuvan muuttujan (yleensä Y:llä) voimakkuuden riippumattomien muuttujien joukoksi (yleensä X). Lineaarinen regressio on tunnetuin regression muoto. Se käyttää parhaiten sopivaa riviä puuttuvan arvon ennustamiseen tai määrittämiseen. Näin ollen se on paras tapa esittää dataa visuaalisesti regressiomallin avulla.

Kun lineaarinen regressio on deterministisen regression muoto, jossa määritetään tarkka suhde puuttuvien ja nykyisten arvojen välille, puuttuvat arvot korvataan regressiomallin 100 % ennusteella. Tällä menetelmällä on kuitenkin rajoitus. Deterministinen lineaarinen regressio voi usein johtaa arvojen välisen suhteen läheisyyden yliarviointiin.

Stokastiset lineaarinen regressio kompensoi deterministisen regression "ylitarkkuuden" ottamalla käyttöön (satunnaisen) virhetermin, koska kaksi tilannetta tai muuttujaa ovat harvoin täydellisesti yhteydessä toisiinsa. Tämä tekee puuttuvien arvojen täyttämisestä regressiota tarkoituksenmukaisempaa.

Hot Deck -näytteenotto

Tämä lähestymistapa sisältää satunnaisesti valitun arvon valitsemisen kohteesta, jonka muut arvot ovat samankaltaisia kuin kohteelta puuttuu arvo. Se edellyttää, että etsit aiheita tai henkilöitä ja täydennät sitten puuttuvat tiedot käyttämällä heidän arvojaan.

Hot Deck -näytteenottomenetelmä rajoittaa saavutettavien arvojen vaihteluväliä. Jos otoksesi on esimerkiksi rajoitettu ikäryhmään 20–25, tuloksesi on aina näiden lukujen välissä, mikä lisää korvausarvon mahdollista tarkkuutta. Tämän imputointimenetelmän kohteet/henkilöt valitaan sattumanvaraisesti.

Kylmäkannen näytteenotto

Tämä menetelmä sisältää sellaisen yksilön/kohteen etsimisen, jolla on samanlaiset tai identtiset arvot kaikille muille tietojoukon muuttujille/parametreille. Esimerkiksi tutkittavalla voi olla sama pituus, kulttuuritausta ja ikä kuin sillä, jonka arvot puuttuvat. Se eroaa hot deck -näytteenotosta siinä, että aiheet valitaan järjestelmällisesti ja käytetään uudelleen.

Vaikka puuttuvien tietojen käsittelemiseen on monia vaihtoehtoja ja tekniikoita, ennaltaehkäisy on aina parempi kuin hoito. Tutkijoiden on toteutettava tiukat kokeilujen suunnittelu ja opinnot. Tutkimuksella on oltava selkeä tehtävä tai tavoite mielessä.

Usein tutkijat tekevät tutkimuksen liian monimutkaisiksi tai eivät suunnittele esteitä, mikä johtaa puuttuviin tai riittämättömiin tietoihin. On aina parasta yksinkertaistaa tutkimuksen suunnittelua ja keskittyä tarkasti tiedonkeruuseen.

Kerää vain tiedot, joita tarvitset tutkimuksen tavoitteiden saavuttamiseksi, etkä mitään muuta. Sinun tulee myös varmistaa, että kaikki tutkimukseen tai kokeisiin osallistuvat instrumentit ja anturit ovat aina täysin toimivia. Harkitse säännöllisten varmuuskopioiden luomista tiedoistasi/vastauksistasi tutkimuksen edetessä.

Tietojen puuttuminen on yleinen ilmiö. Vaikka käytät parhaita käytäntöjä, saatat silti kärsiä epätäydellisistä tiedoista. Onneksi on olemassa tapoja ratkaista tämä ongelma jälkikäteen.

Nahla Davies on ohjelmistokehittäjä ja tekninen kirjoittaja. Ennen kuin hän omisti työnsä kokopäiväisesti tekniseen kirjoittamiseen, hän onnistui muun kiehtovien asioiden ohella toimimaan pääohjelmoijana Inc. 5,000 XNUMX:n kokemuksellisessa brändiorganisaatiossa, jonka asiakkaita ovat Samsung, Time Warner, Netflix ja Sony.