Ansätze zur Datenimputation

Ansätze zur Datenimputation

Quellknoten: 1895750

Ansätze zur Datenimputation
Photo by Ron Lachen
 

Datensätze aus der realen Welt sind selten perfekt und weisen häufig fehlende Werte oder unvollständige Informationen auf. Diese Fehler können auf das menschliche Element (falsch ausgefüllte oder nicht ausgefüllte Umfragen) oder Technologie (Fehlfunktion der Sensoren) zurückzuführen sein. Was auch immer der Fall ist, oft bleiben Ihnen fehlende Werte oder Informationen übrig.

Dies stellt natürlich ein Problem dar. Ohne die fehlenden Werte kann der gesamte Datensatz als unbrauchbar angesehen werden. Aber da kostet es viel Zeit, Mühe und (in vielen Fällen) Geld qualitativ hochwertige Daten gewinnen, das Löschen der falschen Daten und ein Neustart sind möglicherweise keine praktikablen Optionen. Stattdessen müssen wir einen Weg finden, diese fehlenden Werte zu umgehen oder zu ersetzen. Hier kommt die Datenimputation ins Spiel. 

In diesem Leitfaden wird erläutert, was Datenimputation ist und welche Arten von Ansätzen sie unterstützt.

Obwohl wir fehlende oder beschädigte Daten nicht ersetzen können, gibt es Methoden, die wir anwenden können, damit der Datensatz weiterhin verwendbar ist. Die Datenimputation ist eine der zuverlässigsten Techniken, um dies zu erreichen. Allerdings müssen wir zunächst feststellen, welche Art von Daten fehlen und warum. 

In Statistik und Data Science gibt es drei Haupttypen fehlender Daten:

  • Zufällig vermisst (MAR), wo die fehlenden Daten an eine Variable gebunden sind und letztendlich beobachtet oder verfolgt werden können. In vielen Fällen kann Ihnen dies weitere Informationen zu demografischen Daten oder betroffenen Personen liefern. Beispielsweise können Personen ab einem bestimmten Alter zu bestimmten Zeiten entscheiden, eine Frage in einer Umfrage zu überspringen oder Tracking-Systeme von ihren Geräten zu entfernen. 
  • Völlig zufällig vermisst (MCAR), Wobei die fehlende Daten kann nicht beobachtet oder auf eine Variable zurückgeführt werden. Es ist fast unmöglich zu erkennen, warum die Daten fehlen.
  • Fehlende Daten, die nicht zufällig fehlen (NMAR), wobei die fehlenden Daten an eine interessierende Variable gebunden sind. In den meisten Fällen können diese fehlenden Daten ignoriert werden. NMAR kann auftreten, wenn ein Umfrageteilnehmer eine Frage überspringt, die nicht auf ihn zutrifft.

Umgang mit fehlenden Daten

Derzeit haben Sie drei Hauptoptionen, um mit fehlenden Datenwerten umzugehen:

  • Streichung
  • Zurechnung
  • Ignorieren

Anstatt den gesamten Datensatz zu entsorgen, können Sie das sogenannte listenweise Löschen verwenden. Dabei werden Datensätze mit fehlenden Informationen oder Werten gelöscht. Der Hauptvorteil des listenweisen Löschens besteht darin, dass es alle drei Kategorien fehlender Daten unterstützt. 

Dies kann jedoch zu zusätzlichem Datenverlust führen. Es wird empfohlen, nur zu verwenden Listenweises Löschen in Fällen, in denen es eine größere Anzahl fehlender (beobachteter) Werte als gegenwärtige (beobachtete) Werte gibt, hauptsächlich weil nicht genügend Daten vorhanden sind, um sie abzuleiten oder zu ersetzen. 

Wenn die beobachteten fehlenden Daten nicht wichtig (ignorierbar) sind und nur wenige Werte fehlen, können Sie sie ignorieren und mit dem arbeiten, was Sie haben. Dies ist jedoch nicht immer möglich. Die Datenimputation bietet eine dritte und möglicherweise praktikablere Lösung. 

Bei der Datenimputation werden fehlende Werte ersetzt, sodass Datensätze weiterhin verwendet werden können. Es gibt zwei Kategorien von Datenimputationsansätzen:

  • Single
  • Mehrere

Mean Imputation (MI) ist eine der bekanntesten Formen der Single-Data-Imputation.

Mittlere Imputation (MI)

MI ist eine Form der einfachen Zuschreibung. Dabei wird der Mittelwert der beobachteten Werte berechnet und aus den Ergebnissen auf die fehlenden Werte geschlossen. Leider hat sich diese Methode als ineffizient erwiesen. Dies kann zu vielen verzerrten Schätzungen führen, selbst wenn die Daten völlig willkürlich fehlen. Außerdem hängt die „Genauigkeit“ der Schätzungen von der Anzahl der fehlenden Werte ab. 

Wenn beispielsweise eine große Anzahl fehlender beobachteter Werte vorhanden ist, mit mittlerer Imputation könnte zu einer Wertunterschätzung führen. Daher eignet es sich besser für Datensätze und Variablen mit nur wenigen fehlenden Werten. 

Manueller Austausch

In dieser Situation kann ein Bediener Vorwissen über die Werte des Datensatzes verwenden, um die fehlenden Werte zu ersetzen. Es handelt sich um eine einfache Imputationsmethode, die auf dem Gedächtnis oder dem Wissen des Bedieners beruht und manchmal als Vorkenntnis einer idealen Zahl bezeichnet wird. Die Genauigkeit hängt von der Fähigkeit des Bedieners ab, sich an die Werte zu erinnern, daher ist diese Methode möglicherweise besser geeignet für Datensätze mit nur wenigen fehlenden Werten.

K-Nächste Nachbarn (K-NN)

K-nächster Nachbar ist eine Technik, die bekanntermaßen im maschinellen Lernen verwendet wird, um Regressions- und Klassifizierungsprobleme anzugehen. Es verwendet den Mittelwert des fehlenden Datenwerts der Nachbarn des fehlenden Datenwerts, um ihn zu berechnen und zu imputieren. Die K-NN-Methode ist weitaus effektiver als eine einfache Mittelwertimputation und eignet sich ideal für MCAR- und MAR-Werte. 

Substitution

Die Substitution beinhaltet die Suche nach einer neuen Person oder einem neuen Subjekt für eine Umfrage oder einen Test. Dies sollte ein Proband sein, der in der ursprünglichen Stichprobe nicht ausgewählt wurde.

Regressionsimputation

Die Regression versucht, die Stärke einer abhängigen Variablen (normalerweise als Y angegeben) zu einer Sammlung unabhängiger Variablen (normalerweise als X bezeichnet) zu bestimmen. Die lineare Regression ist die bekannteste Form der Regression. Es verwendet die Linie der besten Anpassung, um den fehlenden Wert vorherzusagen oder zu bestimmen. Folglich ist dies die beste Methode zur visuellen Darstellung von Daten durch ein Regressionsmodell.

Wenn die lineare Regression eine Form der deterministischen Regression ist, bei der eine exakte Beziehung zwischen den fehlenden und den aktuellen Werten hergestellt wird, werden die fehlenden Werte durch die 100 %-Vorhersage des Regressionsmodells ersetzt. Es gibt jedoch eine Einschränkung bei dieser Methode. Die deterministische lineare Regression kann oft zu einer Überschätzung der Nähe der Beziehung zwischen den Werten führen.

Stochastic lineare Regression kompensiert die „Übergenauigkeit“ der deterministischen Regression durch die Einführung eines (zufälligen) Fehlerterms, da zwei Situationen oder Variablen selten perfekt miteinander verbunden sind. Dadurch wird das Auffüllen fehlender Werte mithilfe der Regression angemessener.

Hot-Deck-Sampling

Dieser Ansatz beinhaltet das Auswählen eines zufällig ausgewählten Werts aus einem Subjekt mit anderen Werten, die dem Subjekt ähnlich sind, wobei der Wert fehlt. Es erfordert, dass Sie nach Subjekten oder Personen suchen und dann die fehlenden Daten mit ihren Werten ausfüllen. 

Das Hot-Deck-Sampling-Verfahren begrenzt den Bereich der erreichbaren Werte. Wenn Ihre Stichprobe beispielsweise auf eine Altersgruppe zwischen 20 und 25 beschränkt ist, liegt Ihr Ergebnis immer zwischen diesen Zahlen, was die potenzielle Genauigkeit des Wiederbeschaffungswerts erhöht. Die Auswahl der Probanden/Personen für diese Anrechnungsmethode erfolgt nach dem Zufallsprinzip.

Cold-Deck-Probenahme

Bei dieser Methode wird nach einem Individuum/Subjekt gesucht, das ähnliche oder identische Werte für alle anderen Variablen/Parameter im Datensatz hat. Beispielsweise kann das Subjekt die gleiche Größe, den gleichen kulturellen Hintergrund und das gleiche Alter haben wie das Subjekt, dessen Werte fehlen. Es unterscheidet sich vom Hot-Deck-Sampling dadurch, dass die Themen systematisch ausgewählt und wiederverwendet werden. 

Obwohl es viele Möglichkeiten und Techniken gibt, mit fehlenden Daten umzugehen, ist Vorbeugen immer besser als Heilen. Forscher müssen stringent umsetzen Experimente planen und Studium. Die Studie muss ein klares Leitbild oder Ziel vor Augen haben. 

Häufig verkomplizieren Forscher eine Studie zu sehr oder planen nicht gegen Hindernisse, was zu fehlenden oder unzureichenden Daten führt. Es ist immer am besten, das Design der Studie zu vereinfachen und gleichzeitig einen präzisen Fokus auf die Datenerhebung zu legen. 

Sammeln Sie nur die Daten, die Sie zum Erreichen der Studienziele benötigen, und nicht mehr. Sie sollten auch sicherstellen, dass alle an der Studie oder den Experimenten beteiligten Instrumente und Sensoren jederzeit voll funktionsfähig sind. Erwägen Sie, im Verlauf der Studie regelmäßige Sicherungskopien Ihrer Daten/Antworten zu erstellen. 

Fehlende Daten sind ein häufiges Ereignis. Selbst wenn Sie die Best Practices implementieren, können Sie immer noch unter unvollständigen Daten leiden. Glücklicherweise gibt es Möglichkeiten, dieses Problem nachträglich zu beheben.   

 
 
Nahla Davis ist Softwareentwickler und Tech Writer. Bevor sie ihre Arbeit ganz der technischen Redaktion widmete, war sie – neben anderen faszinierenden Dingen – als leitende Programmiererin bei einer Inc. 5,000-Experience-Branding-Organisation tätig, zu deren Kunden Samsung, Time Warner, Netflix und Sony gehören.
 

Zeitstempel:

Mehr von KDnuggets