Az adatimputáció megközelítései

Az adatimputáció megközelítései

Forrás csomópont: 1895750

Az adatimputáció megközelítései
Fotó Ron Lach
 

A valós adatkészletek ritkán tökéletesek, és gyakran hiányzó értékeket vagy hiányos információkat tartalmaznak. Ezek a hibák emberi tényezőből (hibásan kitöltött vagy kitöltetlen felmérések) vagy technológiából (hibásan működő érzékelők) állhatnak. Bármi is legyen a helyzet, gyakran hiányoznak az értékek vagy információk.

Természetesen ez problémát jelent. A hiányzó értékek hiányában a teljes adatkészlet használhatatlannak minősülhet. De mivel ez jelentős időt, erőfeszítést és (sok esetben) pénzt igényel jó minőségű adatokat szerezni, előfordulhat, hogy a hibás adatok megsemmisítése és az újrakezdés nem járható út. Ehelyett módot kell találnunk a hiányzó értékek megkerülésére vagy pótlására. Itt jön be az adatimputáció. 

Ez az útmutató megvitatja, hogy mi az adatimputáció, valamint az általa támogatott megközelítések típusai.

Bár a hiányzó vagy sérült adatokat nem tudjuk pótolni, vannak olyan módszerek, amelyek segítségével az adatkészlet továbbra is használható marad. Az adatimputálás az egyik legmegbízhatóbb technika ennek elérésére. Először azonban meg kell határoznunk, hogy milyen típusú adatok hiányoznak és miért. 

A statisztikában és az adattudományban a hiányzó adatok három fő típusa van:

  • Véletlenszerűen hiányzik (MAR), ahol a hiányzó adatok egy változóhoz vannak kötve, és végül megfigyelhetők vagy nyomon követhetők. Sok esetben ez több információt nyújthat a demográfiai adatokról vagy az érintettekről. Például egy bizonyos életkorú emberek úgy dönthetnek, hogy kihagynak egy kérdést egy felmérésben, vagy bizonyos időpontokban eltávolítják a nyomkövető rendszereket eszközeikről. 
  • Teljesen véletlenszerűen hiányzik (MCAR), Ahol a hiányzó adatok nem figyelhető meg vagy nem vezethető vissza változóra. Szinte lehetetlen felismerni, hogy miért hiányoznak az adatok.
  • Hiányzó adatok, amelyek nem véletlenül hiányoznak (NMAR), ahol a hiányzó adatok egy érdekes változóhoz vannak kötve. A legtöbb esetben ez a hiányzó adat figyelmen kívül hagyható. Az NMAR akkor fordulhat elő, ha a felmérés kitöltője kihagy egy olyan kérdést, amely nem vonatkozik rá.

A hiányzó adatok kezelése

Jelenleg három elsődleges lehetőség közül választhat a hiányzó adatértékek kezelésére:

  • törlés
  • Imputáció
  • figyelmen kívül hagyása

A teljes adatkészlet megsemmisítése helyett használhatja az úgynevezett listás törlést. Ez magában foglalja a hiányzó információkat vagy értékeket tartalmazó rekordok törlését. A listás törlés fő előnye, hogy támogatja a hiányzó adatok mindhárom kategóriáját. 

Ez azonban további adatvesztést eredményezhet. Javasoljuk, hogy csak használja listwise törlés olyan esetekben, amikor több hiányzó (megfigyelt) érték van, mint a jelenlegi (megfigyelt) érték, főként azért, mert nincs elég adat a következtetésükre vagy a pótlásukra. 

Ha a megfigyelt hiányzó adatok nem fontosak (figyelmen kívül hagyhatók), és csak néhány érték hiányzik, figyelmen kívül hagyhatja azokat, és a meglévőkkel dolgozhat. Ez azonban nem mindig lehetséges. Az adatimputáció egy harmadik és potenciálisan életképesebb megoldást kínál. 

Az adatimputáció magában foglalja a hiányzó értékek pótlását, hogy az adatkészletek továbbra is használhatók legyenek. Az adatimputációs megközelítéseknek két kategóriája van:

  • egyetlen
  • Többszörös

Az átlagos imputáció (MI) az egyadatos imputáció egyik leghíresebb formája.

Átlagos imputáció (MI)

Az MI az egyszerű imputáció egyik formája. Ez magában foglalja a megfigyelt értékek átlagának kiszámítását és az eredmények felhasználását a hiányzó értékek megállapítására. Sajnos ez a módszer hatástalannak bizonyult. Sok elfogult becsléshez vezethet, még akkor is, ha az adatok teljesen véletlenszerűen hiányoznak. Ezenkívül a becslések „pontossága” a hiányzó értékek számától függ. 

Például, ha sok hiányzó megfigyelt érték van, átlagos imputáció használatával érték alábecsüléséhez vezethet. Így jobban megfelel olyan adatkészletekhez és változókhoz, amelyekből csak néhány hiányzó érték van. 

Kézi csere

Ebben a helyzetben az operátor felhasználhatja az adatkészlet értékeinek előzetes ismeretét a hiányzó értékek pótlására. Ez egy egyetlen imputációs módszer, amely az operátor memóriájára vagy tudására támaszkodik, és néha egy ideális szám előzetes ismeretének nevezik. A pontosság attól függ, hogy a kezelő képes-e előhívni az értékeket, ezért ez a módszer alkalmasabb lehet olyan adatkészletekhez, amelyekből csak néhány hiányzó érték van.

K-Legközelebbi szomszédok (K-NN)

A K-legközelebbi szomszéd a gépi tanulásban híresen használt technika a regressziós és osztályozási problémák megoldására. Kiszámításához és imputálásához a hiányzó adatértékek szomszédjai hiányzó adatértékeinek átlagát használja. A K-NN módszer sokkal hatékonyabb, mint az egyszerű átlagos imputáció, és ideális az MCAR és MAR értékekhez. 

Helyettesítés

A helyettesítés magában foglalja egy új egyén vagy egy felmérés vagy teszt alany keresését. Ennek olyan alanynak kell lennie, akit nem választottak ki az eredeti mintában.

Regressziós imputáció

A regresszió egy (általában Y-ként megadott) függő változó erősségét próbálja meghatározni független változók (általában X-ként jelölve) gyűjteményéhez. A lineáris regresszió a regresszió legismertebb formája. A legjobban illeszkedő sort használja a hiányzó érték előrejelzésére vagy meghatározására. Következésképpen ez a legjobb módszer az adatok vizuális megjelenítésére regressziós modellen keresztül.

Ha a lineáris regresszió a determinisztikus regresszió egyik formája, ahol a hiányzó és a jelenlegi értékek pontos összefüggést állapítanak meg, a hiányzó értékeket a regressziós modell 100%-os előrejelzésével helyettesítik. Ennek a módszernek azonban van egy korlátja. A determinisztikus lineáris regresszió gyakran az értékek közötti kapcsolat szorosságának túlbecslését eredményezheti.

sztochasztikus lineáris regresszió a determinisztikus regresszió „túlpontosságát” kompenzálja egy (véletlenszerű) hibatag bevezetésével, mivel két helyzet vagy változó ritkán van tökéletesen összekapcsolva. Ez megfelelőbbé teszi a hiányzó értékek regresszióval történő kitöltését.

Hot Deck mintavétel

Ez a megközelítés magában foglalja egy véletlenszerűen kiválasztott érték kiválasztását egy alanyból, amelynek más, az alanyhoz hasonló értékei hiányoznak. Ehhez meg kell keresnie alanyokat vagy egyéneket, majd értékeik alapján kitöltenie a hiányzó adatokat. 

A hot deck mintavételi módszer korlátozza az elérhető értékek tartományát. Például, ha a mintája egy 20 és 25 év közötti korcsoportra korlátozódik, az eredmény mindig e számok között lesz, ami növeli a helyettesítési érték lehetséges pontosságát. Az alanyokat/személyeket az imputálási módszerhez véletlenszerűen választják ki.

Hidegfedélzeti mintavétel

Ez a módszer magában foglalja egy olyan egyén/alany keresését, amelynek hasonló vagy azonos értékei vannak az adatkészletben lévő összes többi változóhoz/paraméterhez. Például az alany ugyanolyan magasságú, kulturális hátterű és életkorú lehet, mint annak az alanynak, akinek az értékei hiányoznak. Ez abban különbözik a hot deck mintavételtől, hogy a témákat szisztematikusan választják ki és használják fel újra. 

Bár számos lehetőség és technika létezik a hiányzó adatok kezelésére, a megelőzés mindig jobb, mint a gyógyítás. A kutatóknak szigorú intézkedéseket kell bevezetniük kísérletek tervezése és tanulmányokat. A tanulmánynak világos küldetésnyilatkozatot vagy célt kell szem előtt tartania. 

A kutatók gyakran túlbonyolítják a vizsgálatot, vagy nem terveznek az akadályok ellen, ami hiányzó vagy elégtelen adatot eredményez. Mindig az a legjobb, ha leegyszerűsítjük a vizsgálat kialakítását, miközben az adatgyűjtésre helyezzük a hangsúlyt. 

Csak azokat az adatokat gyűjtse, amelyekre szüksége van a vizsgálat céljainak eléréséhez, és semmi mást. Gondoskodnia kell arról is, hogy a vizsgálatban vagy kísérletekben részt vevő összes műszer és érzékelő mindenkor teljesen működőképes legyen. Fontolja meg, hogy a vizsgálat előrehaladtával rendszeresen készít biztonsági másolatot adatairól/válaszairól. 

Az adatok hiánya gyakori jelenség. Még ha alkalmazza is a bevált módszereket, előfordulhat, hogy hiányosak az adatok. Szerencsére vannak módok a probléma utólagos kezelésére.   

 
 
Nahla Davies szoftverfejlesztő és műszaki író. Mielőtt munkáját teljes munkaidőben a műszaki írásnak szentelte volna, sikerült – többek között érdekes dolgok mellett – vezető programozóként szolgálnia egy Inc. 5,000 tapasztalati márkaépítő szervezetnél, amelynek ügyfelei között szerepel a Samsung, a Time Warner, a Netflix és a Sony.
 

Időbélyeg:

Még több KDnuggets