Andmete imputeerimise lähenemisviisid

Taasavaldanud Platon

järgijaid: 0

Andmete imputeerimise lähenemisviisid
Foto: Ron Lach

Reaalmaailma andmekogumid on harva täiuslikud ja sisaldavad sageli puuduvaid väärtusi või puudulikku teavet. Need vead võivad olla tingitud inimlikust elemendist (valesti täidetud või täitmata küsitlused) või tehnoloogiast (rike andurid). Igal juhul jääb teil sageli puudu väärtustest või teabest.

Loomulikult tekitab see probleemi. Ilma puuduvate väärtusteta võidakse kogu andmekogum lugeda kasutuskõlbmatuks. Kuid kuna see võtab palju aega, vaeva ja (paljudel juhtudel) raha hankida kvaliteetseid andmeid, ei pruugi valede andmete kõrvaldamine ja uuesti alustamine olla elujõulised võimalused. Selle asemel peame leidma viisi nende puuduvate väärtuste ümbertöötamiseks või asendamiseks. Siin tulebki sisse andmete imputeerimine.

Selles juhendis arutatakse, mis on andmete imputeerimine ja milliseid lähenemisviise see toetab.

Kuigi me ei saa puuduvaid või rikutud andmeid asendada, on olemas meetodeid, mida saame kasutada, et andmekogum oleks endiselt kasutatav. Andmete imputeerimine on selle saavutamiseks üks usaldusväärsemaid meetodeid. Siiski peame kõigepealt kindlaks tegema, mis tüüpi andmed puuduvad ja miks.

Statistikas ja andmeteaduses on puuduvatel andmetel kolm peamist tüüpi:

Puudub juhuslikult (MAR), kus puuduvad andmed on seotud muutujaga ja neid saab lõpuks jälgida või jälgida. Paljudel juhtudel võib see anda teile rohkem teavet demograafiliste andmete või andmesubjektide kohta. Näiteks võivad teatud vanuses inimesed otsustada mõne küsitluse küsimuse vahele jätta või teatud aegadel oma seadmetest jälgimissüsteemid eemaldada.
Puudub täiesti juhuslikult (MCAR), Kus puuduvad andmed seda ei saa jälgida ega muutujale jälgida. On peaaegu võimatu aru saada, miks andmed puuduvad.
Puuduvad andmed, mis ei puudu juhuslikult (NMAR), kus puuduvad andmed on seotud huvipakkuva muutujaga. Enamikul juhtudel saab neid puuduvaid andmeid ignoreerida. NMAR võib ilmneda siis, kui küsitluse osaleja jätab vahele küsimuse, mis tema kohta ei kehti.

Puuduvate andmetega tegelemine

Praegu on teil puuduvate andmeväärtustega tegelemiseks kolm peamist võimalust.

kustutamine
Immutatsioon
Eiramine

Selle asemel, et kogu andmekogum ära visata, võite kasutada nn loendipõhist kustutamist. See hõlmab puuduva teabe või väärtustega kirjete kustutamist. Loendipõhise kustutamise peamine eelis on see, et see toetab kõiki kolme puuduvate andmete kategooriat.

See võib aga kaasa tuua täiendava andmete kadumise. Soovitatav on kasutada ainult nimekirjaline kustutamine juhtudel, kui puuduvaid (vaadeldud) väärtusi on rohkem kui praegusi (vaadeldud) väärtusi, peamiselt seetõttu, et nende järeldamiseks või asendamiseks pole piisavalt andmeid.

Kui vaadeldud puuduvad andmed pole olulised (tähelepanuta) ja puuduvad vaid mõned väärtused, võite neid ignoreerida ja töötada olemasolevaga. Siiski pole see alati võimalik. Andmete imputeerimine pakub kolmandat ja potentsiaalselt elujõulisemat lahendust.

Andmete imputeerimine hõlmab puuduvate väärtuste asendamist, et andmekogumid oleksid endiselt kasutatavad. Andmete imputeerimise lähenemisviise on kahte kategooriat:

Ühepikkused
mitmekordne

Keskmine imputatsioon (MI) on üks kuulsamaid üksikandmete imputeerimise vorme.

Keskmine imputatsioon (MI)

MI on lihtsa imputeerimise vorm. See hõlmab vaadeldud väärtuste keskmise arvutamist ja tulemuste kasutamist puuduvate väärtuste järeldamiseks. Kahjuks on see meetod osutunud ebaefektiivseks. See võib kaasa tuua palju kallutatud hinnanguid, isegi kui andmed puuduvad täiesti juhuslikult. Lisaks sõltub hinnangute "täpsus" puuduvate väärtuste arvust.

Näiteks kui täheldatud väärtusi on palju puudu, kasutades keskmist imputatsiooni võib viia väärtuse alahindamiseni. Seega sobib see paremini andmekogumite ja muutujate jaoks, millel on vaid mõned puuduvad väärtused.

Käsitsi asendamine

Sellises olukorras saab operaator puuduvate väärtuste asendamiseks kasutada varasemaid teadmisi andmekogumi väärtuste kohta. See on üks imputeerimismeetod, mis tugineb operaatori mälule või teadmistele ja mida mõnikord nimetatakse ideaalse arvu eelteadmiseks. Täpsus sõltub operaatori võimest väärtusi meelde tuletada, seega võib see meetod olla sobivam andmekogumitele, millel on vaid mõned puuduolevad väärtused.

K-Lähimad naabrid (K-NN)

K-lähim naaber on tehnika, mida kasutatakse laialdaselt masinõppes regressiooni- ja klassifitseerimisprobleemide lahendamiseks. See kasutab selle arvutamiseks ja arvutamiseks puuduva andmeväärtuse naabrite puuduva andmeväärtuse keskmist. The K-NN meetod on palju tõhusam kui lihtne keskmine imputatsioon ja sobib ideaalselt MCAR ja MAR väärtuste jaoks.

Asendamine

Asendamine hõlmab uue isiku või uuringu või testitava isiku leidmist. See peaks olema subjekt, keda algsesse valimisse ei valitud.

Regressiooniimputatsioon

Regressioon püüab määrata sõltuva muutuja (tavaliselt määratud kui Y) tugevust sõltumatute muutujate kogumiks (mida tavaliselt tähistatakse kui X). Lineaarne regressioon on regressiooni kõige tuntum vorm. See kasutab puuduva väärtuse ennustamiseks või määramiseks kõige sobivamat rida. Järelikult on see parim meetod andmete visuaalseks esitamiseks regressioonimudeli kaudu.

Kui lineaarne regressioon on deterministliku regressiooni vorm, kus tuvastatakse täpne seos puuduvate ja praeguste väärtuste vahel, asendatakse puuduvad väärtused regressioonimudeli 100% ennustusega. Sellel meetodil on siiski piirang. Deterministlik lineaarne regressioon võib sageli põhjustada väärtuste vahelise seose lähedase ülehindamise.

Stohhastilise lineaarse regressiooni kompenseerib deterministliku regressiooni "liigset täpsust", lisades (juhusliku) vealiikme, kuna kaks olukorda või muutujat on harva täiuslikult seotud. See muudab puuduvate väärtuste täitmise regressiooni abil sobivamaks.

Kuuma teki proovide võtmine

See lähenemine hõlmab juhuslikult valitud väärtuse valimist subjektilt, millel on muud väärtused, mis on sarnased subjektiga, millel väärtus puudub. See nõuab subjektide või isikute otsimist ja seejärel nende väärtuste abil puuduvate andmete täitmist.

Kuuma teki proovivõtumeetod piirab saavutatavate väärtuste vahemikku. Näiteks kui teie valim on piiratud vanuserühmaga 20–25, jääb teie tulemus alati nende numbrite vahele, suurendades asendusväärtuse potentsiaalset täpsust. Selle imputeerimismeetodi katsealused/isikud valitakse juhuslikult.

Külma teki proovide võtmine

See meetod hõlmab indiviidi/subjekti otsimist, millel on sarnased või identsed väärtused kõigi muude andmekogumis olevate muutujate/parameetrite jaoks. Näiteks võib katsealusel olla sama pikkus, kultuuritaust ja vanus kui subjektil, kelle väärtused puuduvad. See erineb kuuma teki proovivõtust selle poolest, et teemasid valitakse süstemaatiliselt ja kasutatakse uuesti.

Kuigi puuduvate andmetega tegelemiseks on palju võimalusi ja tehnikaid, on ennetamine alati parem kui ravi. Teadlased peavad rakendama rangeid katsete planeerimine ja õpinguid. Uuringul peab olema selge missioon või eesmärk.

Sageli teevad teadlased uuringut liiga keeruliseks või ei suuda kavandada takistusi, mille tulemuseks on andmete puudumine või ebapiisav. Alati on kõige parem lihtsustada uuringu ülesehitust, keskendudes samal ajal täpselt andmete kogumisele.

Koguge ainult uuringu eesmärkide saavutamiseks vajalikke andmeid ja mitte midagi muud. Samuti peaksite tagama, et kõik uuringus või katsetes osalevad instrumendid ja andurid on kogu aeg täielikult töökorras. Kaaluge oma andmete/vastuste regulaarsete varukoopiate loomist uuringu edenedes.

Andmete puudumine on tavaline nähtus. Isegi kui rakendate parimaid tavasid, võivad teil siiski tekkida puudulikud andmed. Õnneks on olemas viise, kuidas seda probleemi tagantjärele lahendada.

Nahla Davies on tarkvaraarendaja ja tehnikakirjutaja. Enne kui ta pühendas oma töö täiskohaga tehnilisele kirjutamisele, suutis ta muuhulgas olla ka juhtprogrammeerija Inc. 5,000 kogemusliku brändingu organisatsioonis, mille klientide hulka kuuluvad Samsung, Time Warner, Netflix ja Sony.