Tillvägagångssätt för dataimputering

Tillvägagångssätt för dataimputering

Källnod: 1895750

Tillvägagångssätt för dataimputering
Foto: Ron skratta
 

Verkliga datamängder är sällan perfekta och kommer ofta med saknade värden eller ofullständig information. Dessa fel kan bero på det mänskliga elementet (felaktigt ifyllda eller ej ifyllda undersökningar) eller teknik (felfungerande sensorer). Hur det än är så står du ofta kvar med saknade värden eller information.

Naturligtvis utgör detta ett problem. Utan de saknade värdena kan hela datamängden anses oanvändbar. Men eftersom det tar mycket tid, ansträngning och (i många fall) pengar att skaffa data av hög kvalitet, kan det hända att bortskaffande av felaktiga uppgifter och börja om igen inte vara genomförbara alternativ. Istället måste vi hitta ett sätt att kringgå eller ersätta dessa saknade värden. Det är här dataimputering kommer in. 

Den här guiden kommer att diskutera vad dataimputation är samt vilka typer av tillvägagångssätt den stöder.

Även om vi inte kan ersätta saknade eller korrupta data, finns det metoder vi kan använda för att låta datamängden fortfarande vara användbar. Dataimputation är en av de mest tillförlitliga teknikerna för att uppnå detta. Vi måste dock först identifiera vilken typ av data som saknas och varför. 

Inom statistik och datavetenskap finns det tre huvudtyper av saknad data:

  • Saknas slumpmässigt (MAR), där den saknade data är knuten till en variabel och i slutändan kan observeras eller spåras. I många fall kan detta ge dig mer information om demografin eller de registrerade. Till exempel kan personer i en viss ålder välja att hoppa över en fråga i en undersökning eller ta bort spårningssystem från sina enheter vid vissa tidpunkter. 
  • Saknas helt slumpmässigt (MCAR)Där saknar data kan inte observeras eller spåras till en variabel. Det är nästan omöjligt att urskilja varför data saknas.
  • Saknade data som inte saknas slumpmässigt (NMAR), där den saknade data är knuten till en variabel av intresse. I de flesta fall kan denna saknade data ignoreras. NMAR kan uppstå när en undersökningstagare hoppar över en fråga som inte gäller dem.

Hantera saknade data

För närvarande har du tre primära alternativ för att hantera saknade datavärden:

  • deletion
  • Tillskrivning
  • Bortse från

Istället för att göra dig av med hela datamängden kan du använda vad som kallas listvis radering. Detta innebär att poster med saknad information eller värden raderas. Den största fördelen med listmässig radering är att den stöder alla tre kategorier av saknad data. 

Detta kan dock leda till ytterligare dataförlust. Det rekommenderas att du endast använder listvis radering i fall där det finns ett större antal saknade (observerade) värden än nuvarande (observerade) värden, främst för att det inte finns tillräckligt med data för att sluta sig till eller ersätta dem. 

Om de observerade saknade uppgifterna inte är viktiga (ignorerbara) och endast ett fåtal värden saknas, kan du ignorera dem och arbeta med det du har. Detta är dock inte alltid en möjlighet. Dataimputation erbjuder en tredje och potentiellt mer genomförbar lösning. 

Dataimputering innebär att frånvarande värden ersätts så att datamängder fortfarande kan användas. Det finns två kategorier av dataimputationsmetoder:

  • Single
  • Flera olika

Mean imputation (MI) är en av de mest kända formerna av endataimputation.

Genomsnittlig imputering (MI)

MI är en form av enkel imputering. Detta innebär att beräkna medelvärdet av de observerade värdena och använda resultaten för att sluta sig till de saknade värdena. Tyvärr har denna metod visat sig vara ineffektiv. Det kan leda till många partiska uppskattningar, även när data saknas helt slumpmässigt. Dessutom beror "noggrannheten" i uppskattningarna på antalet saknade värden. 

Till exempel, om det saknas ett stort antal observerade värden, med hjälp av genomsnittlig imputering kan leda till värdeunderskattning. Därför är den bättre lämpad för datamängder och variabler med endast ett fåtal saknade värden. 

Manuellt byte

I denna situation kan en operatör använda förkunskaper om värdena för datamängden för att ersätta de saknade värdena. Det är en enskild imputeringsmetod som förlitar sig på operatörens minne eller kunskap och som ibland kallas förkunskap om ett idealiskt antal. Noggrannheten beror på operatörens förmåga att återkalla värdena, så denna metod kan vara mer lämpad för datamängder med endast ett fåtal saknade värden.

K-Närmaste grannar (K-NN)

K-närmaste granne är en teknik som är känd som används i maskininlärning för att ta itu med regressions- och klassificeringsproblem. Den använder medelvärdet av det saknade datavärdets grannars saknade datavärde för att beräkna och imputera det. De K-NN metod är mycket effektivare än enkel medeltillräkning och är idealisk för MCAR- och MAR-värden. 

Substitution

Substitution innebär att hitta en ny individ eller föremål för undersökning eller test. Detta bör vara ett ämne som inte valdes i det ursprungliga urvalet.

Regression imputation

Regression försöker bestämma styrkan hos en beroende variabel (vanligtvis angiven som Y) till en samling oberoende variabler (vanligtvis betecknad som X). Linjär regression är den mest kända formen av regression. Den använder raden för bästa passform för att förutsäga eller bestämma det saknade värdet. Följaktligen är det den bästa metoden för att representera data visuellt genom en regressionsmodell.

När linjär regression är en form av deterministisk regression där ett exakt samband mellan de saknade och nuvarande värdena fastställs, ersätts de saknade värdena med 100%-prediktionen av regressionsmodellen. Det finns dock en begränsning för denna metod. Deterministisk linjär regression kan ofta resultera i en överskattning av närheten i sambandet mellan värdena.

Stokastiska linjär regression kompenserar för "överprecisionen" av deterministisk regression genom att introducera en (slumpmässig) felterm eftersom två situationer eller variabler sällan är perfekt kopplade. Detta gör det mer lämpligt att fylla i saknade värden med hjälp av regression.

Hot Deck Sampling

Detta tillvägagångssätt innebär att man väljer ett slumpmässigt valt värde från ett ämne med andra värden som liknar ämnet som saknar värdet. Det kräver att du söker efter ämnen eller individer och sedan fyller i de data som saknas med hjälp av deras värden. 

Hot deck-samplingsmetoden begränsar intervallet för uppnåbara värden. Om ditt urval till exempel är begränsat till en åldersgrupp mellan 20 och 25, kommer ditt resultat alltid att ligga mellan dessa siffror, vilket ökar den potentiella noggrannheten för ersättningsvärdet. Ämnen/individer för denna imputeringsmetod väljs slumpmässigt.

Provtagning av kalldäck

Denna metod innebär att man söker efter en individ/ämne som har liknande eller identiska värden för alla andra variabler/parametrar i datamängden. Till exempel kan ämnet ha samma längd, kulturell bakgrund och ålder som ämnet vars värderingar saknas. Det skiljer sig från hot deck-sampling genom att ämnena systematiskt väljs och återanvänds. 

Även om det finns många alternativ och tekniker för att hantera saknade data, är förebyggande alltid bättre än ett botemedel. Forskare måste genomföra stränga planering för experiment och studier. Studien måste ha ett tydligt uppdrag eller mål i åtanke. 

Ofta överkomplicerar forskare en studie eller misslyckas med att planera mot hinder, vilket resulterar i att data saknas eller är otillräckliga. Det är alltid bäst att förenkla designen av studien samtidigt som man lägger ett exakt fokus på datainsamling. 

Samla bara in den data du behöver för att uppfylla studiens mål och inget mer. Du bör också se till att alla instrument och sensorer som är involverade i studien eller experimenten är fullt funktionella hela tiden. Överväg att skapa regelbundna säkerhetskopior av dina data/svar när studien fortskrider. 

Saknade data är en vanlig företeelse. Även om du implementerar bästa praxis kan du fortfarande lida av ofullständig data. Lyckligtvis finns det sätt att ta itu med detta problem i efterhand.   

 
 
Nahla Davies är en mjukvaruutvecklare och teknikskribent. Innan hon ägnade sitt arbete heltid åt tekniskt skrivande lyckades hon – bland annat spännande – att fungera som ledande programmerare på en Inc. 5,000 XNUMX erfarenhetsbaserad varumärkesorganisation vars kunder inkluderar Samsung, Time Warner, Netflix och Sony.
 

Tidsstämpel:

Mer från KDnuggets