Tilgange til dataimputation

Tilgange til dataimputation

Kildeknude: 1895750

Tilgange til dataimputation
Photo by Ron Lach
 

Datasæt fra den virkelige verden er sjældent perfekte og kommer ofte med manglende værdier eller ufuldstændige oplysninger. Disse fejl kan skyldes det menneskelige element (forkert udfyldte eller uudfyldte undersøgelser) eller teknologi (fejlfungerende sensorer). Uanset hvad der er tilfældet, står du ofte tilbage med manglende værdier eller information.

Dette giver naturligvis et problem. Uden de manglende værdier kan hele datasættet anses for ubrugeligt. Men da det kræver betydelig tid, kræfter og (i mange tilfælde) penge at indhente data af høj kvalitet, at bortskaffe de forkerte data og starte igen er muligvis ikke holdbare muligheder. I stedet må vi finde en måde at omgå eller erstatte disse manglende værdier. Det er her, dataimputation kommer ind. 

Denne vejledning vil diskutere, hvad dataimputering er, samt de typer af tilgange, den understøtter.

Selvom vi ikke kan erstatte manglende eller korrupte data, er der metoder, vi kan bruge for at tillade, at datasættet stadig kan bruges. Dataimputation er en af ​​de mest pålidelige teknikker til at opnå dette. Vi skal dog først identificere, hvilken type data der mangler og hvorfor. 

Inden for statistik og datavidenskab er der tre hovedtyper af manglende data:

  • Mangler tilfældigt (MAR), hvor de manglende data er bundet til en variabel og i sidste ende kan observeres eller spores. I mange tilfælde kan dette give dig mere information om demografien eller de registrerede. For eksempel kan folk i en vis alder beslutte at springe et spørgsmål over i en undersøgelse eller fjerne sporingssystemer fra deres enheder på bestemte tidspunkter. 
  • Mangler helt tilfældigt (MCAR), Hvor manglende data kan ikke observeres eller spores til en variabel. Det er næsten umuligt at gennemskue, hvorfor data mangler.
  • Manglende data, der ikke mangler tilfældigt (NMAR), hvor de manglende data er bundet til en variabel af interesse. I de fleste tilfælde kan disse manglende data ignoreres. NMAR kan opstå, når en undersøgelsesdeltager springer et spørgsmål over, der ikke gælder for dem.

Håndtering af manglende data

I øjeblikket har du tre primære muligheder for at håndtere manglende dataværdier:

  • sletning
  • Imputation
  • Se bort

I stedet for at bortskaffe hele datasættet, kan du bruge det, der kaldes listemæssig sletning. Dette involverer sletning af poster med manglende information eller værdier. Den største fordel ved listemæssig sletning er, at den understøtter alle tre kategorier af manglende data. 

Dette kan dog resultere i yderligere datatab. Det anbefales, at du kun bruger listevis sletning i tilfælde, hvor der er et større antal manglende (observerede) værdier end nuværende (observerede) værdier, primært fordi der ikke er nok data til at udlede eller erstatte dem. 

Hvis de observerede manglende data ikke er vigtige (ignorerbare), og kun nogle få værdier mangler, kan du ignorere dem og arbejde med det, du har. Dette er dog ikke altid en mulighed. Dataimputation tilbyder en tredje og potentielt mere levedygtig løsning. 

Dataimputering involverer at erstatte fraværende værdier, så datasæt stadig kan bruges. Der er to kategorier af dataimputeringstilgange:

  • Single
  • Multiple

Middelimputation (MI) er en af ​​de mest berømte former for enkeltdataimputation.

Gennemsnitlig imputation (MI)

MI er en form for simpel imputation. Dette involverer at beregne middelværdien af ​​de observerede værdier og bruge resultaterne til at udlede de manglende værdier. Desværre har denne metode vist sig at være ineffektiv. Det kan føre til mange skæve estimater, selv når data mangler helt tilfældigt. Derudover afhænger "nøjagtigheden" af estimaterne af antallet af manglende værdier. 

For eksempel, hvis der er et stort antal manglende observerede værdier, ved hjælp af gennemsnitlig imputation kan føre til værdiundervurdering. Det er således bedre egnet til datasæt og variabler med kun få manglende værdier. 

Manuel udskiftning

I denne situation kan en operatør bruge forudgående viden om værdierne af datasættet til at erstatte de manglende værdier. Det er en enkelt imputationsmetode, der er afhængig af operatørens hukommelse eller viden og omtales nogle gange som forudgående viden om et ideelt tal. Nøjagtighed afhænger af operatørens evne til at genkalde værdierne, så denne metode kan være mere velegnet til datasæt med kun få manglende værdier.

K-Nærmeste Naboer (K-NN)

K-nærmeste nabo er en teknik, der er berømt brugt i maskinlæring til at løse regressions- og klassifikationsproblemer. Den bruger middelværdien af ​​den manglende dataværdis naboers manglende dataværdi til at beregne og imputere den. Det K-NN metode er langt mere effektiv end simpel gennemsnitsberegning og er ideel til MCAR- og MAR-værdier. 

Udskiftning

Substitution involverer at finde en ny person eller genstand for undersøgelse eller test. Dette bør være et emne, der ikke blev udvalgt i den oprindelige prøve.

Regression imputation

Regression forsøger at bestemme styrken af ​​en afhængig variabel (normalt angivet som Y) til en samling af uafhængige variable (normalt betegnet som X). Lineær regression er den mest kendte form for regression. Den bruger linjen med bedste tilpasning til at forudsige eller bestemme den manglende værdi. Derfor er det den bedste metode til at repræsentere data visuelt gennem en regressionsmodel.

Når lineær regression er en form for deterministisk regression, hvor der etableres en nøjagtig sammenhæng mellem de manglende og nutidsværdier, erstattes de manglende værdier med regressionsmodellens 100% forudsigelse. Der er dog en begrænsning for denne metode. Deterministisk lineær regression kan ofte resultere i en overvurdering af tætheden af ​​forholdet mellem værdierne.

Stokastisk lineær regression kompenserer for "overpræcisheden" af deterministisk regression ved at indføre et (tilfældigt) fejludtryk, fordi to situationer eller variable sjældent er perfekt forbundet. Dette gør det mere hensigtsmæssigt at udfylde manglende værdier ved hjælp af regression.

Hot Deck Sampling

Denne tilgang involverer at vælge en tilfældigt valgt værdi fra et emne med andre værdier svarende til emnet, der mangler værdien. Det kræver, at du søger efter emner eller personer og derefter udfylder de manglende data ved hjælp af deres værdier. 

Hot deck prøveudtagningsmetoden begrænser rækken af ​​opnåelige værdier. For eksempel, hvis din prøve er begrænset til en aldersgruppe mellem 20 og 25, vil dit resultat altid være mellem disse tal, hvilket øger den potentielle nøjagtighed af erstatningsværdien. Emnerne/individerne til denne imputationsmetode er valgt tilfældigt.

Cold Deck Sampling

Denne metode involverer søgning efter et individ/emne, der har lignende eller identiske værdier for alle andre variabler/parametre i datasættet. For eksempel kan emnet have samme højde, kulturelle baggrund og alder som emnet, hvis værdier mangler. Det adskiller sig fra hot deck sampling ved, at fagene systematisk udvælges og genbruges. 

Selvom der er mange muligheder og teknikker til at håndtere manglende data, er forebyggelse altid bedre end en kur. Forskere skal implementere stringente planlægning af eksperimenter og studier. Undersøgelsen skal have en klar mission eller mål for øje. 

Ofte overkomplicerer forskere en undersøgelse eller undlader at planlægge mod hindringer, hvilket resulterer i manglende eller utilstrækkelige data. Det er altid bedst at forenkle designet af undersøgelsen, mens der lægges et præcist fokus på dataindsamling. 

Indsaml kun de data, du skal bruge for at opfylde undersøgelsens mål og intet mere. Du bør også sikre dig, at alle instrumenter og sensorer, der er involveret i undersøgelsen eller eksperimenterne, til enhver tid er fuldt funktionsdygtige. Overvej at lave regelmæssige sikkerhedskopier af dine data/svar, efterhånden som undersøgelsen skrider frem. 

Manglende data er en almindelig begivenhed. Selvom du implementerer den bedste praksis, kan du stadig lide af ufuldstændige data. Heldigvis er der måder at løse dette problem på bagefter.   

 
 
Nahla Davies er softwareudvikler og teknologiskribent. Før hun helligede sit arbejde på fuld tid til teknisk skrivning, nåede hun – blandt andet spændende – at fungere som en ledende programmør hos en Inc. 5,000 erfaringsbaseret branding-organisation, hvis kunder omfatter Samsung, Time Warner, Netflix og Sony.
 

Tidsstempel:

Mere fra KDnuggets