Tilnærminger til dataimputering

Tilnærminger til dataimputering

Kilde node: 1895750

Tilnærminger til dataimputering
Photo by Ron ler
 

Datasett fra den virkelige verden er sjelden perfekte og kommer ofte med manglende verdier eller ufullstendig informasjon. Disse feilene kan skyldes det menneskelige elementet (feil utfylte eller ikke utfylte undersøkelser) eller teknologi (feilfungerende sensorer). Uansett hva tilfellet er, sitter du ofte igjen med manglende verdier eller informasjon.

Selvfølgelig byr dette på et problem. Uten de manglende verdiene kan hele datasettet anses som ubrukelig. Men siden det tar mye tid, krefter og (i mange tilfeller) penger å innhente data av høy kvalitet, kan det hende at det ikke er mulig å avhende feil data og starte på nytt. I stedet må vi finne en måte å omgå eller erstatte disse manglende verdiene. Det er her dataimputering kommer inn. 

Denne veiledningen vil diskutere hva dataimputering er, samt hvilke typer tilnærminger den støtter.

Selv om vi ikke kan erstatte manglende eller korrupte data, er det metoder vi kan bruke for å la datasettet fortsatt være brukbart. Dataimputering er en av de mest pålitelige teknikkene for å oppnå dette. Vi må imidlertid først identifisere hvilken type data som mangler og hvorfor. 

I statistikk og datavitenskap er det tre hovedtyper av manglende data:

  • Mangler tilfeldig (MAR), hvor de manglende dataene er knyttet til en variabel og til slutt kan observeres eller spores. I mange tilfeller kan dette gi deg mer informasjon om demografien eller datasubjektene. For eksempel kan folk i en viss alder bestemme seg for å hoppe over et spørsmål i en undersøkelse eller fjerne sporingssystemer fra enhetene sine til bestemte tider. 
  • Mangler helt tilfeldig (MCAR), Hvor manglende data kan ikke observeres eller spores til en variabel. Det er nesten umulig å skjønne hvorfor dataene mangler.
  • Manglende data som ikke mangler tilfeldig (NMAR), hvor de manglende dataene er knyttet til en variabel av interesse. I de fleste tilfeller kan disse manglende data ignoreres. NMAR kan oppstå når en spørreundersøkelse hopper over et spørsmål som ikke gjelder dem.

Håndtere manglende data

For øyeblikket har du tre primære alternativer for å håndtere manglende dataverdier:

  • sletting
  • Imputasjon
  • Se bort fra

I stedet for å kaste hele datasettet, kan du bruke det som kalles listemessig sletting. Dette innebærer å slette poster med manglende informasjon eller verdier. Den største fordelen med listemessig sletting er at den støtter alle tre kategoriene av manglende data. 

Dette kan imidlertid føre til ytterligere tap av data. Det anbefales at du kun bruker listevis sletting i tilfeller der det er et større antall manglende (observerte) verdier enn nåværende (observerte) verdier, hovedsakelig fordi det ikke er nok data til å utlede eller erstatte dem. 

Hvis de observerte manglende dataene ikke er viktige (ignorerbare) og bare noen få verdier mangler, kan du ignorere dem og jobbe med det du har. Dette er imidlertid ikke alltid en mulighet. Dataimputering tilbyr en tredje og potensielt mer levedyktig løsning. 

Dataimputering innebærer å erstatte fraværende verdier slik at datasett fortsatt kan brukes. Det er to kategorier av dataimputeringsmetoder:

  • enslig
  • multiple

Gjennomsnittlig imputering (MI) er en av de mest kjente formene for enkeltdataimputering.

Gjennomsnittlig imputasjon (MI)

MI er en form for enkel imputasjon. Dette innebærer å beregne gjennomsnittet av de observerte verdiene og bruke resultatene til å utlede de manglende verdiene. Dessverre har denne metoden vist seg å være ineffektiv. Det kan føre til mange partiske estimater, selv når dataene mangler helt tilfeldig. I tillegg avhenger "nøyaktigheten" av estimeringene av antall manglende verdier. 

For eksempel, hvis det er et stort antall manglende observerte verdier, ved å bruke gjennomsnittlig imputasjon kan føre til verdiundervurdering. Dermed er den bedre egnet for datasett og variabler med bare noen få manglende verdier. 

Manuell utskifting

I denne situasjonen kan en operatør bruke forkunnskaper om verdiene til datasettet for å erstatte de manglende verdiene. Det er en enkel imputasjonsmetode som er avhengig av operatørens minne eller kunnskap og noen ganger refereres til som forhåndskunnskap om et ideelt tall. Nøyaktigheten avhenger av operatørens evne til å gjenkalle verdiene, så denne metoden kan være mer egnet for datasett med bare noen få manglende verdier.

K-Nærmeste Naboer (K-NN)

K-nærmeste nabo er en kjent teknikk som brukes i maskinlæring for å løse regresjons- og klassifiseringsproblemer. Den bruker gjennomsnittet av den manglende dataverdien til naboenes manglende dataverdi for å beregne og tilregne den. De K-NN metode er langt mer effektiv enn enkel gjennomsnittsberegning og er ideell for MCAR- og MAR-verdier. 

Innbytte

Substitusjon innebærer å finne en ny person eller gjenstand for undersøkelse eller test. Dette bør være et emne som ikke ble valgt i det opprinnelige utvalget.

Regresjonsimputasjon

Regresjon prøver å bestemme styrken til en avhengig variabel (vanligvis spesifisert som Y) til en samling uavhengige variabler (vanligvis betegnet som X). Lineær regresjon er den mest kjente formen for regresjon. Den bruker linjen med beste tilpasning for å forutsi eller bestemme den manglende verdien. Følgelig er det den beste metoden for å representere data visuelt gjennom en regresjonsmodell.

Når lineær regresjon er en form for deterministisk regresjon hvor en nøyaktig sammenheng mellom de manglende og nåværende verdiene er etablert, erstattes de manglende verdiene med 100 % prediksjon av regresjonsmodellen. Det er imidlertid en begrensning for denne metoden. Deterministisk lineær regresjon kan ofte resultere i en overestimering av nærheten til forholdet mellom verdiene.

Stokastisk lineær regresjon kompenserer for "overpresisiteten" til deterministisk regresjon ved å introdusere et (tilfeldig) feilbegrep fordi to situasjoner eller variabler sjelden er perfekt forbundet. Dette gjør det mer hensiktsmessig å fylle inn manglende verdier ved hjelp av regresjon.

Hot Deck Sampling

Denne tilnærmingen innebærer å velge en tilfeldig valgt verdi fra et emne med andre verdier som ligner på emnet som mangler verdien. Det krever at du søker etter emner eller individer og deretter fyller ut de manglende dataene ved å bruke verdiene deres. 

Metoden for prøvetaking av varme dekk begrenser rekkevidden av oppnåelige verdier. For eksempel, hvis utvalget ditt er begrenset til en aldersgruppe mellom 20 og 25, vil resultatet alltid være mellom disse tallene, noe som øker den potensielle nøyaktigheten til erstatningsverdien. Fagene/individene for denne imputeringsmetoden er valgt tilfeldig.

Prøvetaking av kaldt dekk

Denne metoden innebærer å søke etter et individ/emne som har lignende eller identiske verdier for alle andre variabler/parametere i datasettet. For eksempel kan emnet ha samme høyde, kulturelle bakgrunn og alder som emnet hvis verdier mangler. Det skiller seg fra hot deck-prøvetaking ved at fagene er systematisk valgt og gjenbrukt. 

Selv om det er mange alternativer og teknikker for å håndtere manglende data, er forebygging alltid bedre enn en kur. Forskere må implementere strenge planlegging av eksperimenter og studier. Studiet må ha en klar målsetning eller mål i tankene. 

Ofte overkompliserer forskere en studie eller unnlater å planlegge mot hindringer, noe som resulterer i manglende eller utilstrekkelige data. Det er alltid best å forenkle utformingen av studien samtidig som man legger et presist fokus på datainnsamling. 

Samle kun dataene du trenger for å oppfylle studiens mål og ikke noe mer. Du bør også sørge for at alle instrumenter og sensorer som er involvert i studien eller eksperimentene er fullt funksjonelle til enhver tid. Vurder å lage regelmessige sikkerhetskopier av dataene/svarene dine etter hvert som studien skrider frem. 

Manglende data er en vanlig hendelse. Selv om du implementerer de beste fremgangsmåtene, kan du fortsatt lide av ufullstendige data. Heldigvis finnes det måter å løse dette problemet på i ettertid.   

 
 
Nahla Davies er en programvareutvikler og teknologiskribent. Før hun viet arbeidet sitt på heltid til teknisk skriving, klarte hun – blant annet spennende – å fungere som hovedprogrammerer ved en Inc. 5,000 erfaringsbasert merkevareorganisasjon med kunder som Samsung, Time Warner, Netflix og Sony.
 

Tidstempel:

Mer fra KDnuggets