Фото Рон Лах
Реальні набори даних рідко бувають досконалими й часто містять відсутні значення або неповну інформацію. Ці несправності можуть бути пов’язані з людським фактором (неправильно заповнені або незаповнені опитування) або технологією (несправні датчики). У будь-якому випадку ви часто залишаєтесь із відсутніми значеннями чи інформацією.
Звичайно, це створює проблему. Без відсутніх значень весь набір даних може вважатися непридатним для використання. Але оскільки це вимагає значного часу, зусиль і (у багатьох випадках) грошей отримати високоякісні дані, видалення неправильних даних і запуск знову може бути непридатним варіантом. Натомість ми повинні знайти спосіб обійти або замінити ці відсутні значення. Ось тут і виникає імпутація даних.
У цьому посібнику буде обговорено, що таке імпутація даних, а також типи підходів, які вона підтримує.
Хоча ми не можемо замінити відсутні або пошкоджені дані, є методи, які ми можемо застосувати, щоб набір даних залишався придатним для використання. Імпутація даних є одним із найнадійніших методів для досягнення цього. Однак спочатку ми повинні визначити, який тип даних відсутній і чому.
У статистиці та науці про дані існує три основних типи відсутніх даних:
- Пропав випадково (MAR), де відсутні дані прив’язані до змінної, і зрештою їх можна спостерігати або відстежувати. У багатьох випадках це може надати вам більше інформації про демографічні показники чи суб’єктів даних. Наприклад, люди певного віку можуть вирішити пропустити запитання в опитуванні або видалити системи відстеження зі своїх пристроїв у певний час.
- Випадково відсутні (MCAR), Де відсутні дані не можна спостерігати або простежити до змінної. Майже неможливо зрозуміти, чому дані відсутні.
- Відсутні дані, які не втрачаються випадково (NMAR), де відсутні дані прив’язані до цікавої змінної. У більшості випадків ці відсутні дані можна проігнорувати. NMAR може статися, коли учасник опитування пропускає запитання, яке його не стосується.
Робота з відсутніми даними
Наразі у вас є три основні варіанти роботи з відсутніми значеннями даних:
- видалення
- Імпутація
- Нехтування
Замість того, щоб видаляти весь набір даних, ви можете використати те, що називається видаленням за списком. Це передбачає видалення записів з відсутньою інформацією або значеннями. Основна перевага видалення за списком полягає в тому, що воно підтримує всі три категорії відсутніх даних.
Однак це може призвести до додаткової втрати даних. Рекомендується використовувати лише видалення по списку у випадках, коли кількість відсутніх (спостережуваних) значень більша, ніж поточних (спостережуваних) значень, головним чином тому, що недостатньо даних для їх висновку або заміни.
Якщо спостережувані відсутні дані не є важливими (можна проігнорувати) і бракує лише кількох значень, ви можете проігнорувати їх і працювати з тим, що у вас є. Однак це не завжди можливо. Імпутація даних пропонує третє і потенційно більш життєздатне рішення.
Імпутація даних передбачає заміну відсутніх значень, щоб набори даних все ще могли використовуватися. Існує дві категорії підходів до імпутації даних:
- Single
- множинний
Імпутація середнього значення (MI) є однією з найвідоміших форм імпутації окремих даних.
Середня імпутація (MI)
MI є формою простого імпутації. Це передбачає обчислення середнього спостережуваних значень і використання результатів для висновку про відсутні значення. На жаль, доведено, що цей метод неефективний. Це може призвести до багатьох упереджених оцінок, навіть якщо дані відсутні абсолютно випадково. Крім того, «точність» оцінок залежить від кількості пропущених значень.
Наприклад, якщо існує велика кількість відсутніх спостережуваних значень, використання середнього імпутації може призвести до недооцінки вартості. Таким чином, він краще підходить для наборів даних і змінних лише з кількома відсутніми значеннями.
Ручна заміна
У цій ситуації оператор може використати попередні знання про значення набору даних, щоб замінити відсутні значення. Це єдиний метод імпутації, який покладається на пам’ять або знання оператора, і його іноді називають попередніми знаннями про ідеальне число. Точність залежить від здатності оператора згадати значення, тому цей метод може бути більш придатним для наборів даних із лише кількома відсутніми значеннями.
K-найближчі сусіди (K-NN)
K-найближчий сусід — це техніка, яка широко використовується в машинному навчанні для вирішення проблем регресії та класифікації. Він використовує середнє значення відсутніх даних сусідніх сусідів, щоб обчислити та імпутувати його. The Метод К-НН є набагато ефективнішим, ніж проста умовна оцінка, і ідеально підходить для значень MCAR та MAR.
Заміна
Заміна передбачає пошук нової особини або предмета опитування чи тестування. Це має бути суб’єкт, який не був обраний у початковій вибірці.
Регресійна імпутація
Регресія намагається визначити силу залежної змінної (зазвичай позначається як Y) до набору незалежних змінних (зазвичай позначається як X). Лінійна регресія є найвідомішою формою регресії. Він використовує лінію найкращого підходу, щоб передбачити або визначити відсутнє значення. Отже, це найкращий метод візуального представлення даних за допомогою регресійної моделі.
Коли лінійна регресія є формою детермінованої регресії, де встановлюється точне співвідношення між відсутніми та поточними значеннями, відсутні значення замінюються 100% прогнозом регресійної моделі. Однак у цього методу є обмеження. Детермінована лінійна регресія часто може призвести до переоцінки тісноти зв'язку між значеннями.
Stochastic лінійна регресія компенсує «надточність» детермінованої регресії шляхом введення (випадкової) помилки, оскільки дві ситуації або змінні рідко ідеально пов’язані між собою. Це робить більш доречним заповнення пропущених значень за допомогою регресії.
Hot Deck Sampling
Цей підхід передбачає вибір випадково вибраного значення з суб’єкта з іншими значеннями, подібними до суб’єкта, якому не вистачає значення. Вам потрібно шукати суб’єктів або осіб, а потім заповнювати відсутні дані, використовуючи їхні значення.
Метод гарячої вибірки колоди обмежує діапазон досяжних значень. Наприклад, якщо ваш зразок обмежується віковою групою від 20 до 25 років, ваш результат завжди буде між цими числами, підвищуючи потенційну точність значення заміни. Суб'єкти/індивіди для цього методу імпутації вибираються випадковим чином.
Відбір проб холодної колоди
Цей метод передбачає пошук особи/суб’єкта, який має подібні або ідентичні значення для всіх інших змінних/параметрів у наборі даних. Наприклад, суб’єкт може мати той самий зріст, культурне походження та вік, що й суб’єкт, значення якого відсутні. Він відрізняється від вибірки гарячої колоди тим, що предмети систематично вибираються та повторно використовуються.
Хоча існує багато варіантів і методів роботи з відсутніми даними, запобігання завжди краще, ніж лікування. Дослідники повинні виконувати суворі планування експериментів і навчання. Дослідження має мати на увазі чітку місію або мету.
Часто дослідники надто ускладнюють дослідження або не спроможні спланувати, враховуючи перешкоди, що призводить до відсутності або недостатності даних. Завжди краще спростити дизайн дослідження, зосередившись при цьому на зборі даних.
Збирайте лише дані, необхідні для досягнення цілей дослідження, і нічого більше. Ви також повинні переконатися, що всі інструменти та датчики, задіяні в дослідженні чи експериментах, постійно працюють у повному обсязі. Розгляньте можливість створення регулярних резервних копій ваших даних/відповідей у міру проходження дослідження.
Відсутні дані – звичайне явище. Навіть якщо ви використовуєте найкращі методи, ви все одно можете страждати від неповних даних. На щастя, є способи вирішити цю проблему постфактум.
Нала Девіс є розробником програмного забезпечення та автором технологій. Перш ніж присвятити свою роботу весь робочий день технічному написанню, вона встигла — окрім інших інтригуючих речей — служити провідним програмістом в компанії Inc. 5,000, що займається брендингом досвіду, клієнтами якої є Samsung, Time Warner, Netflix і Sony.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://www.kdnuggets.com/2023/01/approaches-data-imputation.html?utm_source=rss&utm_medium=rss&utm_campaign=approaches-to-data-imputation
- 000
- a
- здатність
- МЕНЮ
- відсутнім
- точність
- Додатковий
- Додатково
- адреса
- Перевага
- після
- проти
- ВСІ
- завжди
- серед
- та
- Застосовувати
- підхід
- підходи
- відповідний
- навколо
- Досяжний
- Спроби
- фон
- резервне копіювання
- оскільки
- перед тим
- КРАЩЕ
- передового досвіду
- Краще
- між
- брендинг
- розрахунок
- не може
- випадок
- випадків
- категорії
- певний
- вибраний
- класифікація
- ясно
- клієнтів
- збір
- Приходити
- загальний
- повністю
- підключений
- Отже
- Вважати
- значний
- може
- курс
- створення
- культурний
- лікування
- дані
- втрати даних
- наука про дані
- набір даних
- набори даних
- угода
- справу
- Демографічна
- залежний
- залежить
- дизайн
- Визначати
- Розробник
- прилади
- обговорювати
- Ні
- Ефективний
- зусилля
- досить
- забезпечувати
- Весь
- помилка
- встановлений
- Оцінки
- Навіть
- приклад
- досвідний
- FAIL
- знаменитий
- хвацько
- кілька
- заповнювати
- заповнений
- знайти
- виявлення
- Перший
- відповідати
- Сфокусувати
- форма
- форми
- На щастя
- від
- Повний
- повністю
- функціональний
- мета
- Цілі
- великий
- великий
- Group
- керівництво
- висота
- високоякісний
- ГАРЯЧА
- Однак
- HTML
- HTTPS
- людина
- Людський елемент
- IBM
- ідеальний
- однаковий
- ідентифікувати
- здійснювати
- важливо
- неможливе
- in
- Инк
- включати
- невірно
- зростаючий
- незалежний
- індивідуальний
- осіб
- неефективний
- інформація
- екземпляр
- замість
- інструменти
- інтерес
- введення
- залучений
- IT
- KDnuggets
- знання
- відомий
- вести
- вивчення
- обмеження
- рамки
- Лінія
- від
- машина
- навчання за допомогою машини
- головний
- РОБОТИ
- вдалося
- багато
- Зустрічатися
- пам'ять
- метод
- методика
- mind
- відсутній
- Місія
- Місія
- модель
- гроші
- більше
- найбільш
- майже
- Необхідність
- сусіди
- Netflix
- Нові
- номер
- номера
- Пропозиції
- ONE
- оператор
- Опції
- організація
- оригінал
- Інше
- Люди
- ідеальний
- розміщення
- план
- plato
- Інформація про дані Платона
- PlatoData
- можливість
- потенціал
- потенційно
- практики
- передбачати
- прогноз
- представити
- подарунки
- Попередження
- первинний
- попередній
- Проблема
- проблеми
- Програміст
- доведений
- забезпечувати
- питання
- випадковий
- діапазон
- рекомендований
- облік
- називають
- регресія
- регулярний
- відносини
- надійний
- видаляти
- замінювати
- замінити
- представляє
- Вимагається
- Дослідники
- обмежений
- результат
- результати
- то ж
- Samsung
- наука
- Пошук
- Грати короля карти - безкоштовно Nijumi логічна гра гри
- рідко
- обраний
- вибирає
- датчиків
- служити
- комплект
- набори
- Повинен
- аналогічний
- простий
- спростити
- з
- один
- ситуація
- ситуацій
- So
- Софтвер
- рішення
- Sony
- зазначений
- Починаючи
- Заява
- статистика
- Як і раніше
- сила
- Дослідження
- Вивчення
- тема
- підходящий
- Опори
- Огляд
- Systems
- приймає
- технології
- технічний
- методи
- Технологія
- тест
- Команда
- їх
- речі
- третій
- три
- через
- Зв'язаний
- час
- times
- до
- Відстеження
- Типи
- Зрештою
- використання
- зазвичай
- значення
- Цінності
- viable
- Сигналізатор
- способи
- добре відомі
- Що
- Що таке
- який
- в той час як
- ВООЗ
- волі
- без
- Work
- письменник
- лист
- X
- вашу
- зефірнет