Podejścia do imputacji danych

Podejścia do imputacji danych

Węzeł źródłowy: 1895750

Podejścia do imputacji danych
Photo by Śmiech Rona
 

Zestawy danych z rzeczywistego świata rzadko są doskonałe i często zawierają brakujące wartości lub niekompletne informacje. Błędy te mogą być spowodowane czynnikiem ludzkim (nieprawidłowo wypełnione lub niewypełnione ankiety) lub technologią (nieprawidłowe działanie czujników). Niezależnie od przypadku, często pozostajesz z brakującymi wartościami lub informacjami.

Oczywiście stanowi to pewien problem. Bez brakujących wartości cały zestaw danych może zostać uznany za bezużyteczny. Ale ponieważ zajmuje to dużo czasu, wysiłku i (w wielu przypadkach) pieniędzy pozyskać wysokiej jakości dane, usunięcie nieprawidłowych danych i rozpoczęcie od nowa może nie być realną opcją. Zamiast tego musimy znaleźć sposób na obejście lub zastąpienie tych brakujących wartości. I tu pojawia się imputacja danych. 

W tym przewodniku omówimy, czym jest imputacja danych, a także typy podejść, które obsługuje.

Chociaż nie możemy zastąpić brakujących lub uszkodzonych danych, istnieją metody, które możemy zastosować, aby zestaw danych był nadal użyteczny. Imputacja danych jest jedną z najbardziej niezawodnych technik pozwalających to osiągnąć. Musimy jednak najpierw określić, jakiego rodzaju danych brakuje i dlaczego. 

W statystyce i nauce o danych istnieją trzy główne rodzaje brakujących danych:

  • Brakuje losowo (MAR), gdzie brakujące dane są powiązane ze zmienną i ostatecznie można je zaobserwować lub prześledzić. W wielu przypadkach może to dostarczyć więcej informacji o danych demograficznych lub osobach, których dane dotyczą. Na przykład osoby w określonym wieku mogą zdecydować się na pominięcie pytania w ankiecie lub usunięcie systemów śledzenia ze swoich urządzeń w określonych momentach. 
  • Całkowicie zaginiony losowo (MCAR), Gdzie brakujące dane nie można zaobserwować ani powiązać ze zmienną. Niemal niemożliwe jest ustalenie, dlaczego brakuje danych.
  • Brakujące dane, których nie brakuje losowo (NMAR), gdzie brakujące dane są powiązane z interesującą zmienną. W większości przypadków te brakujące dane można zignorować. NMAR może wystąpić, gdy ankieter pominie pytanie, które go nie dotyczy.

Postępowanie z brakującymi danymi

Obecnie masz trzy podstawowe opcje radzenia sobie z brakującymi wartościami danych:

  • usunięcie
  • Przypisanie
  • Lekceważenie

Zamiast usuwać cały zestaw danych, możesz użyć tak zwanego usuwania listy. Obejmuje to usuwanie rekordów z brakującymi informacjami lub wartościami. Główną zaletą usuwania według listy jest to, że obsługuje wszystkie trzy kategorie brakujących danych. 

Może to jednak spowodować dodatkową utratę danych. Zaleca się używanie tylko usuwanie listowe w przypadkach, gdy brakujących (obserwowanych) wartości jest więcej niż obecnych (obserwowanych), głównie dlatego, że nie ma wystarczającej ilości danych, aby je wywnioskować lub zastąpić. 

Jeśli zaobserwowane braki danych nie są ważne (można je zignorować) i brakuje tylko kilku wartości, możesz je zignorować i pracować z tym, co masz. Jednak nie zawsze jest to możliwe. Imputacja danych oferuje trzecie i potencjalnie bardziej opłacalne rozwiązanie. 

Imputacja danych polega na zastąpieniu nieobecnych wartości, aby zestawy danych nadal mogły być użyteczne. Istnieją dwie kategorie metod imputacji danych:

  • Jedna
  • Wielokrotność

Mean imputation (MI) jest jedną z najbardziej znanych form imputacji pojedynczych danych.

Średnia imputacja (MI)

MI jest formą prostego imputacji. Obejmuje to obliczenie średniej obserwowanych wartości i wykorzystanie wyników do wywnioskowania brakujących wartości. Niestety, metoda ta okazała się nieskuteczna. Może to prowadzić do wielu tendencyjnych szacunków, nawet jeśli brakuje danych całkowicie losowo. Dodatkowo „dokładność” oszacowań zależy od liczby braków danych. 

Na przykład, jeśli istnieje duża liczba brakujących zaobserwowanych wartości, za pomocą imputacji średniej może prowadzić do niedoszacowania wartości. W związku z tym lepiej nadaje się do zestawów danych i zmiennych z tylko kilkoma brakującymi wartościami. 

Ręczna wymiana

W tej sytuacji operator może wykorzystać wcześniejszą wiedzę o wartościach zbioru danych, aby zastąpić brakujące wartości. Jest to pojedyncza metoda imputacji, która opiera się na pamięci lub wiedzy operatora i jest czasami określana jako uprzednia wiedza o idealnej liczbie. Dokładność zależy od zdolności operatora do przywołania wartości, więc ta metoda może być bardziej odpowiednia dla zestawów danych z tylko kilkoma brakującymi wartościami.

K-najbliżsi sąsiedzi (K-NN)

K-najbliższy sąsiad to technika używana w uczeniu maszynowym do rozwiązywania problemów z regresją i klasyfikacją. Wykorzystuje średnią z brakujących wartości sąsiadów brakujących danych, aby ją obliczyć i przypisać. The Metoda K-NN jest znacznie skuteczniejszy niż proste imputowanie średniej i jest idealny dla wartości MCAR i MAR. 

Podstawienie

Zastąpienie polega na znalezieniu nowej osoby lub przedmiotu ankiety lub testu. Powinien to być podmiot, który nie został wybrany w pierwotnej próbie.

Imputacja regresji

Regresja próbuje określić siłę zmiennej zależnej (zwykle określanej jako Y) na zbiór zmiennych niezależnych (zwykle oznaczanych jako X). Regresja liniowa jest najbardziej znaną formą regresji. Wykorzystuje linię najlepszego dopasowania do przewidywania lub określania brakującej wartości. W związku z tym jest to najlepsza metoda wizualnego przedstawiania danych za pomocą modelu regresji.

Gdy regresja liniowa jest formą regresji deterministycznej, w której ustalany jest dokładny związek między brakującymi a obecnymi wartościami, brakujące wartości są zastępowane 100% predykcją modelu regresji. Istnieje jednak ograniczenie tej metody. Deterministyczna regresja liniowa może często skutkować przeszacowaniem bliskości zależności między wartościami.

Stochastic regresji liniowej kompensuje „nadmierną precyzję” regresji deterministycznej, wprowadzając (losowy) składnik błędu, ponieważ dwie sytuacje lub zmienne rzadko są idealnie połączone. To sprawia, że ​​uzupełnianie brakujących wartości za pomocą regresji jest bardziej odpowiednie.

Próbkowanie gorącego pokładu

Podejście to polega na wybraniu losowo wybranej wartości z podmiotu z innymi wartościami podobnymi do podmiotu, któremu brakuje wartości. Wymaga wyszukania podmiotów lub osób, a następnie uzupełnienia brakujących danych przy użyciu ich wartości. 

Metoda pobierania próbek z gorącego pokładu ogranicza zakres osiągalnych wartości. Na przykład, jeśli Twoja próbka jest ograniczona do grupy wiekowej od 20 do 25 lat, Twój wynik zawsze będzie mieścił się w przedziale między tymi liczbami, zwiększając potencjalną dokładność wartości zastępczej. Osoby badane/osoby do tej metody imputacji są wybierane losowo.

Próbkowanie z zimnego pokładu

Metoda ta polega na wyszukiwaniu osobnika/podmiotu, który ma podobne lub identyczne wartości dla wszystkich pozostałych zmiennych/parametrów w zbiorze danych. Na przykład osoba badana może mieć ten sam wzrost, pochodzenie kulturowe i wiek, co osoba, której brakuje wartości. Różni się od pobierania próbek z gorącego pokładu tym, że tematy są systematycznie wybierane i ponownie wykorzystywane. 

Chociaż istnieje wiele opcji i technik radzenia sobie z brakującymi danymi, zapobieganie jest zawsze lepsze niż leczenie. Naukowcy muszą wdrożyć rygorystyczne planowanie eksperymentów i studia. Badanie musi mieć jasno sformułowaną misję lub cel. 

Często badacze nadmiernie komplikują badanie lub nie planują przeciw przeszkodom, co skutkuje brakiem lub niewystarczającą ilością danych. Zawsze najlepiej jest uprościć projekt badania, skupiając się jednocześnie na gromadzeniu danych. 

Zbieraj tylko te dane, które są potrzebne do osiągnięcia celów badania i nic więcej. Należy również upewnić się, że wszystkie instrumenty i czujniki biorące udział w badaniu lub eksperymentach są zawsze w pełni funkcjonalne. Rozważ tworzenie regularnych kopii zapasowych danych/odpowiedzi w miarę postępu badania. 

Brakujące dane to częsta przypadłość. Nawet jeśli zastosujesz najlepsze praktyki, nadal możesz cierpieć z powodu niekompletnych danych. Na szczęście istnieją sposoby, aby rozwiązać ten problem po fakcie.   

 
 
Nahlę Davies jest programistą i pisarzem technicznym. Zanim całkowicie poświęciła się pracy nad pisaniem technicznym, udało jej się – między innymi intrygujących rzeczy – służyć jako główny programista w empirycznej organizacji brandingowej Inc. 5,000, której klientami są Samsung, Time Warner, Netflix i Sony.
 

Znak czasu:

Więcej z Knuggety