Benaderingen van gegevensimputatie

Benaderingen van gegevensimputatie

Bronknooppunt: 1895750

Benaderingen van gegevensimputatie
Foto door Ron lach
 

Real-world datasets zijn zelden perfect en bevatten vaak ontbrekende waarden of onvolledige informatie. Deze fouten kunnen te wijten zijn aan het menselijke element (verkeerd ingevulde of niet-ingevulde enquêtes) of technologie (defecte sensoren). Hoe het ook zij, u blijft vaak achter met ontbrekende waarden of informatie.

Dit levert natuurlijk een probleem op. Zonder de ontbrekende waarden kan de gehele dataset als onbruikbaar worden beschouwd. Maar aangezien het veel tijd, moeite en (in veel gevallen) geld kost hoogwaardige gegevens te verwerven, zijn het misschien geen haalbare opties om de onjuiste gegevens weg te gooien en opnieuw te beginnen. In plaats daarvan moeten we een manier vinden om deze ontbrekende waarden te omzeilen of te vervangen. Dit is waar data-imputatie om de hoek komt kijken. 

In deze gids wordt besproken wat data-imputatie is en welke soorten benaderingen het ondersteunt.

Hoewel we ontbrekende of corrupte gegevens niet kunnen vervangen, zijn er methoden die we kunnen gebruiken om ervoor te zorgen dat de gegevensset nog steeds bruikbaar is. Data-imputatie is een van de meest betrouwbare technieken om dit te bereiken. We moeten echter eerst vaststellen welk type gegevens ontbreekt en waarom. 

In de statistiek en datawetenschap zijn er drie hoofdtypen ontbrekende gegevens:

  • Willekeurig vermist (MAR), waarbij de ontbrekende gegevens aan een variabele zijn gekoppeld en uiteindelijk kunnen worden waargenomen of getraceerd. In veel gevallen kan dit u meer informatie geven over de demografische gegevens of betrokkenen. Mensen van een bepaalde leeftijd kunnen bijvoorbeeld besluiten om op bepaalde momenten een vraag over een enquête over te slaan of volgsystemen van hun apparaten te verwijderen. 
  • Volledig willekeurig ontbrekend (MCAR)Wanneer de ontbrekende gegevens niet kan worden waargenomen of herleid tot een variabele. Het is bijna onmogelijk om te onderscheiden waarom de gegevens ontbreken.
  • Ontbrekende gegevens die niet willekeurig ontbreken (NMAR), waarbij de ontbrekende gegevens zijn gekoppeld aan een variabele van belang. In de meeste gevallen kunnen deze ontbrekende gegevens worden genegeerd. NMAR kan optreden wanneer een enquêteur een vraag overslaat die niet op hem van toepassing is.

Omgaan met ontbrekende gegevens

Momenteel hebt u drie primaire opties om met ontbrekende gegevenswaarden om te gaan:

  • verwijdering
  • Toerekening
  • Buiten beschouwing laten

In plaats van de hele dataset te verwijderen, kunt u gebruik maken van wat bekend staat als lijstgewijze verwijdering. Dit omvat het verwijderen van records met ontbrekende informatie of waarden. Het belangrijkste voordeel van lijstgewijze verwijdering is dat het alle drie de categorieën ontbrekende gegevens ondersteunt. 

Dit kan echter leiden tot extra gegevensverlies. Het wordt aanbevolen om alleen te gebruiken lijstgewijze verwijdering in gevallen waarin er meer ontbrekende (waargenomen) waarden zijn dan huidige (waargenomen) waarden, voornamelijk omdat er onvoldoende gegevens zijn om ze af te leiden of te vervangen. 

Als de waargenomen ontbrekende gegevens niet belangrijk zijn (negeerbaar) en slechts een paar waarden ontbreken, kunt u deze negeren en werken met wat u hebt. Dit is echter niet altijd een mogelijkheid. Data-imputatie biedt een derde en mogelijk meer levensvatbare oplossing. 

Bij data-imputatie worden afwezige waarden vervangen zodat datasets toch bruikbaar kunnen blijven. Er zijn twee categorieën benaderingen voor gegevensimputatie:

  • Enkele
  • meervoudig

Mean imputation (MI) is een van de bekendste vormen van single-data imputation.

Gemiddelde imputatie (MI)

MI is een vorm van eenvoudige toerekening. Dit omvat het berekenen van het gemiddelde van de waargenomen waarden en het gebruiken van de resultaten om de ontbrekende waarden af ​​te leiden. Helaas is bewezen dat deze methode inefficiënt is. Het kan leiden tot veel vertekende schattingen, zelfs als de gegevens volledig willekeurig ontbreken. Bovendien hangt de "nauwkeurigheid" van de schattingen af ​​van het aantal ontbrekende waarden. 

Als er bijvoorbeeld een groot aantal ontbrekende waargenomen waarden is, gebruikmakend van gemiddelde imputatie kan leiden tot onderschatting van de waarde. Het is dus beter geschikt voor datasets en variabelen met slechts een paar ontbrekende waarden. 

Handmatige vervanging

In deze situatie kan een operator voorkennis van de waarden van de dataset gebruiken om de ontbrekende waarden te vervangen. Het is een enkele imputatiemethode die berust op het geheugen of de kennis van de operator en wordt ook wel voorkennis van een ideaal getal genoemd. Nauwkeurigheid hangt af van het vermogen van de operator om de waarden op te roepen, dus deze methode is mogelijk geschikter voor datasets met slechts een paar ontbrekende waarden.

K-dichtstbijzijnde buren (K-NN)

K-naaste buur is een bekende techniek die wordt gebruikt in machine learning om regressie- en classificatieproblemen aan te pakken. Het gebruikt het gemiddelde van de ontbrekende gegevenswaarde van de buren van de ontbrekende gegevenswaarde om deze te berekenen en toe te rekenen. De K-NN-methode is veel effectiever dan eenvoudige gemiddelde imputatie en is ideaal voor MCAR- en MAR-waarden. 

Vervanging

Substitutie omvat het vinden van een nieuw individu of onderwerp voor onderzoek of test. Dit moet een proefpersoon zijn die niet in de oorspronkelijke steekproef is geselecteerd.

Regressie toerekening

Regressie probeert de sterkte van een afhankelijke variabele (meestal gespecificeerd als Y) te bepalen voor een verzameling onafhankelijke variabelen (meestal aangeduid als X). Lineaire regressie is de meest bekende vorm van regressie. Het gebruikt de best passende lijn om de ontbrekende waarde te voorspellen of te bepalen. Daarom is het de beste methode om gegevens visueel weer te geven via een regressiemodel.

Wanneer lineaire regressie een vorm van deterministische regressie is waarbij een exacte relatie tussen de ontbrekende en huidige waarden wordt vastgesteld, worden de ontbrekende waarden vervangen door de 100% voorspelling van het regressiemodel. Er is echter een beperking aan deze methode. Deterministische lineaire regressie kan vaak resulteren in een overschatting van de nauwheid van de relatie tussen de waarden.

Stochastische lineaire regressie compenseert de "overnauwkeurigheid" van deterministische regressie door een (willekeurige) foutterm te introduceren omdat twee situaties of variabelen zelden perfect met elkaar verbonden zijn. Dit maakt het invullen van ontbrekende waarden met behulp van regressie geschikter.

Hot Deck-sampling

Deze benadering omvat het selecteren van een willekeurig gekozen waarde van een onderwerp met andere waarden die vergelijkbaar zijn met het onderwerp dat de waarde mist. Het vereist dat u naar onderwerpen of individuen zoekt en vervolgens de ontbrekende gegevens invult met behulp van hun waarden. 

De hot deck-samplingmethode beperkt het bereik van haalbare waarden. Als uw steekproef bijvoorbeeld beperkt is tot een leeftijdsgroep tussen 20 en 25 jaar, zal uw resultaat altijd tussen deze getallen liggen, waardoor de potentiële nauwkeurigheid van de vervangingswaarde toeneemt. De proefpersonen/personen voor deze imputatiemethode worden willekeurig gekozen.

Cold Deck-bemonstering

Deze methode omvat het zoeken naar een individu/subject dat vergelijkbare of identieke waarden heeft voor alle andere variabelen/parameters in de dataset. Het onderwerp kan bijvoorbeeld dezelfde lengte, culturele achtergrond en leeftijd hebben als het onderwerp wiens waarden ontbreken. Het verschilt van hot deck-sampling doordat de onderwerpen systematisch worden gekozen en hergebruikt. 

Hoewel er veel opties en technieken zijn om met ontbrekende gegevens om te gaan, is voorkomen altijd beter dan genezen. Onderzoekers moeten streng implementeren plannen voor experimenten en studeert. De studie moet een duidelijke missie of doel voor ogen hebben. 

Vaak maken onderzoekers een onderzoek te ingewikkeld of plannen ze geen belemmeringen, wat resulteert in ontbrekende of onvoldoende gegevens. Het is altijd het beste om het ontwerp van het onderzoek te vereenvoudigen en tegelijkertijd de nadruk te leggen op het verzamelen van gegevens. 

Verzamel alleen de gegevens die u nodig heeft om de doelstellingen van de studie te bereiken en niets meer. Je moet er ook voor zorgen dat alle instrumenten en sensoren die betrokken zijn bij het onderzoek of experimenten te allen tijde volledig functioneel zijn. Overweeg regelmatig back-ups te maken van uw gegevens/antwoorden naarmate het onderzoek vordert. 

Ontbrekende gegevens komen veel voor. Zelfs als u de best practices implementeert, kunt u nog steeds last hebben van onvolledige gegevens. Gelukkig zijn er manieren om dit probleem achteraf aan te pakken.   

 
 
Nahla Davies is een softwareontwikkelaar en technisch schrijver. Voordat ze haar werk fulltime aan technisch schrijven wijdde, slaagde ze er onder meer in om als hoofdprogrammeur te dienen bij een Inc. 5,000 ervaringsgerichte merkorganisatie met klanten als Samsung, Time Warner, Netflix en Sony.
 

Tijdstempel:

Meer van KDnuggets