Підходи до імпутації даних

Перевидано Платоном

читають: 0

Реальні набори даних рідко бувають досконалими й часто містять відсутні значення або неповну інформацію. Ці несправності можуть бути пов’язані з людським фактором (неправильно заповнені або незаповнені опитування) або технологією (несправні датчики). У будь-якому випадку ви часто залишаєтесь із відсутніми значеннями чи інформацією.

Звичайно, це створює проблему. Без відсутніх значень весь набір даних може вважатися непридатним для використання. Але оскільки це вимагає значного часу, зусиль і (у багатьох випадках) грошей отримати високоякісні дані, видалення неправильних даних і запуск знову може бути непридатним варіантом. Натомість ми повинні знайти спосіб обійти або замінити ці відсутні значення. Ось тут і виникає імпутація даних.

У цьому посібнику буде обговорено, що таке імпутація даних, а також типи підходів, які вона підтримує.

Хоча ми не можемо замінити відсутні або пошкоджені дані, є методи, які ми можемо застосувати, щоб набір даних залишався придатним для використання. Імпутація даних є одним із найнадійніших методів для досягнення цього. Однак спочатку ми повинні визначити, який тип даних відсутній і чому.

У статистиці та науці про дані існує три основних типи відсутніх даних:

Пропав випадково (MAR), де відсутні дані прив’язані до змінної, і зрештою їх можна спостерігати або відстежувати. У багатьох випадках це може надати вам більше інформації про демографічні показники чи суб’єктів даних. Наприклад, люди певного віку можуть вирішити пропустити запитання в опитуванні або видалити системи відстеження зі своїх пристроїв у певний час.
Випадково відсутні (MCAR), Де відсутні дані не можна спостерігати або простежити до змінної. Майже неможливо зрозуміти, чому дані відсутні.
Відсутні дані, які не втрачаються випадково (NMAR), де відсутні дані прив’язані до цікавої змінної. У більшості випадків ці відсутні дані можна проігнорувати. NMAR може статися, коли учасник опитування пропускає запитання, яке його не стосується.

Робота з відсутніми даними

Наразі у вас є три основні варіанти роботи з відсутніми значеннями даних:

видалення
Імпутація
Нехтування

Замість того, щоб видаляти весь набір даних, ви можете використати те, що називається видаленням за списком. Це передбачає видалення записів з відсутньою інформацією або значеннями. Основна перевага видалення за списком полягає в тому, що воно підтримує всі три категорії відсутніх даних.

Однак це може призвести до додаткової втрати даних. Рекомендується використовувати лише видалення по списку у випадках, коли кількість відсутніх (спостережуваних) значень більша, ніж поточних (спостережуваних) значень, головним чином тому, що недостатньо даних для їх висновку або заміни.

Якщо спостережувані відсутні дані не є важливими (можна проігнорувати) і бракує лише кількох значень, ви можете проігнорувати їх і працювати з тим, що у вас є. Однак це не завжди можливо. Імпутація даних пропонує третє і потенційно більш життєздатне рішення.

Імпутація даних передбачає заміну відсутніх значень, щоб набори даних все ще могли використовуватися. Існує дві категорії підходів до імпутації даних:

Single
множинний

Імпутація середнього значення (MI) є однією з найвідоміших форм імпутації окремих даних.

Середня імпутація (MI)

MI є формою простого імпутації. Це передбачає обчислення середнього спостережуваних значень і використання результатів для висновку про відсутні значення. На жаль, доведено, що цей метод неефективний. Це може призвести до багатьох упереджених оцінок, навіть якщо дані відсутні абсолютно випадково. Крім того, «точність» оцінок залежить від кількості пропущених значень.

Наприклад, якщо існує велика кількість відсутніх спостережуваних значень, використання середнього імпутації може призвести до недооцінки вартості. Таким чином, він краще підходить для наборів даних і змінних лише з кількома відсутніми значеннями.

Ручна заміна

У цій ситуації оператор може використати попередні знання про значення набору даних, щоб замінити відсутні значення. Це єдиний метод імпутації, який покладається на пам’ять або знання оператора, і його іноді називають попередніми знаннями про ідеальне число. Точність залежить від здатності оператора згадати значення, тому цей метод може бути більш придатним для наборів даних із лише кількома відсутніми значеннями.

K-найближчі сусіди (K-NN)

K-найближчий сусід — це техніка, яка широко використовується в машинному навчанні для вирішення проблем регресії та класифікації. Він використовує середнє значення відсутніх даних сусідніх сусідів, щоб обчислити та імпутувати його. The Метод К-НН є набагато ефективнішим, ніж проста умовна оцінка, і ідеально підходить для значень MCAR та MAR.

Заміна

Заміна передбачає пошук нової особини або предмета опитування чи тестування. Це має бути суб’єкт, який не був обраний у початковій вибірці.

Регресійна імпутація

Регресія намагається визначити силу залежної змінної (зазвичай позначається як Y) до набору незалежних змінних (зазвичай позначається як X). Лінійна регресія є найвідомішою формою регресії. Він використовує лінію найкращого підходу, щоб передбачити або визначити відсутнє значення. Отже, це найкращий метод візуального представлення даних за допомогою регресійної моделі.

Коли лінійна регресія є формою детермінованої регресії, де встановлюється точне співвідношення між відсутніми та поточними значеннями, відсутні значення замінюються 100% прогнозом регресійної моделі. Однак у цього методу є обмеження. Детермінована лінійна регресія часто може призвести до переоцінки тісноти зв'язку між значеннями.

Stochastic лінійна регресія компенсує «надточність» детермінованої регресії шляхом введення (випадкової) помилки, оскільки дві ситуації або змінні рідко ідеально пов’язані між собою. Це робить більш доречним заповнення пропущених значень за допомогою регресії.

Hot Deck Sampling

Цей підхід передбачає вибір випадково вибраного значення з суб’єкта з іншими значеннями, подібними до суб’єкта, якому не вистачає значення. Вам потрібно шукати суб’єктів або осіб, а потім заповнювати відсутні дані, використовуючи їхні значення.

Метод гарячої вибірки колоди обмежує діапазон досяжних значень. Наприклад, якщо ваш зразок обмежується віковою групою від 20 до 25 років, ваш результат завжди буде між цими числами, підвищуючи потенційну точність значення заміни. Суб'єкти/індивіди для цього методу імпутації вибираються випадковим чином.

Відбір проб холодної колоди

Цей метод передбачає пошук особи/суб’єкта, який має подібні або ідентичні значення для всіх інших змінних/параметрів у наборі даних. Наприклад, суб’єкт може мати той самий зріст, культурне походження та вік, що й суб’єкт, значення якого відсутні. Він відрізняється від вибірки гарячої колоди тим, що предмети систематично вибираються та повторно використовуються.

Хоча існує багато варіантів і методів роботи з відсутніми даними, запобігання завжди краще, ніж лікування. Дослідники повинні виконувати суворі планування експериментів і навчання. Дослідження має мати на увазі чітку місію або мету.

Часто дослідники надто ускладнюють дослідження або не спроможні спланувати, враховуючи перешкоди, що призводить до відсутності або недостатності даних. Завжди краще спростити дизайн дослідження, зосередившись при цьому на зборі даних.

Збирайте лише дані, необхідні для досягнення цілей дослідження, і нічого більше. Ви також повинні переконатися, що всі інструменти та датчики, задіяні в дослідженні чи експериментах, постійно працюють у повному обсязі. Розгляньте можливість створення регулярних резервних копій ваших даних/відповідей у міру проходження дослідження.

Відсутні дані – звичайне явище. Навіть якщо ви використовуєте найкращі методи, ви все одно можете страждати від неповних даних. На щастя, є способи вирішити цю проблему постфактум.

Нала Девіс є розробником програмного забезпечення та автором технологій. Перш ніж присвятити свою роботу весь робочий день технічному написанню, вона встигла — окрім інших інтригуючих речей — служити провідним програмістом в компанії Inc. 5,000, що займається брендингом досвіду, клієнтами якої є Samsung, Time Warner, Netflix і Sony.