Подходы к вменению данных

Переиздано Платоном

Читают: 0

Реальные наборы данных редко бывают идеальными и часто содержат пропущенные значения или неполную информацию. Эти неисправности могут быть связаны с человеческим фактором (неправильно заполненные или незаполненные опросы) или технологией (неисправность датчиков). Как бы то ни было, у вас часто остаются недостающие значения или информация.

Конечно, это создает проблему. Без пропущенных значений весь набор данных может считаться непригодным для использования. Но так как требуется много времени, усилий и (во многих случаях) денег, получить качественные данные, удаление неправильных данных и повторный запуск могут оказаться нецелесообразными. Вместо этого мы должны найти способ обойти или заменить эти отсутствующие значения. Вот где происходит вменение данных.

В этом руководстве будет обсуждаться, что такое вменение данных, а также типы подходов, которые оно поддерживает.

Хотя мы не можем заменить отсутствующие или поврежденные данные, есть методы, которые мы можем использовать, чтобы набор данных оставался пригодным для использования. Вменение данных является одним из самых надежных методов для достижения этой цели. Однако сначала мы должны определить, какой тип данных отсутствует и почему.

В статистике и науке о данных существует три основных типа недостающих данных:

Отсутствует случайным образом (MAR), где отсутствующие данные привязаны к переменной и в конечном итоге могут быть обнаружены или отслежены. Во многих случаях это может предоставить вам дополнительную информацию о демографии или субъектах данных. Например, люди определенного возраста могут принять решение пропустить вопрос в опросе или удалить системы отслеживания со своих устройств в определенное время.
Отсутствует совершенно случайно (MCAR), Где потерянная информация нельзя наблюдать или связать с переменной. Почти невозможно понять, почему данные отсутствуют.
Отсутствующие данные, которые отсутствуют случайно (NMAR), где отсутствующие данные привязаны к интересующей нас переменной. В большинстве случаев эти отсутствующие данные можно игнорировать. NMAR может возникнуть, когда участник опроса пропускает вопрос, который к нему не относится.

Работа с отсутствующими данными

В настоящее время у вас есть три основных варианта работы с отсутствующими значениями данных:

удаление
вменение в вину
невнимание

Вместо удаления всего набора данных вы можете использовать так называемое удаление по списку. Это включает в себя удаление записей с отсутствующей информацией или значениями. Основное преимущество удаления по списку заключается в том, что оно поддерживает все три категории отсутствующих данных.

Однако это может привести к дополнительной потере данных. Рекомендуется использовать только удаление по списку в случаях, когда количество отсутствующих (наблюдаемых) значений больше, чем имеющихся (наблюдаемых) значений, в основном из-за недостаточности данных для их вывода или замены.

Если наблюдаемые отсутствующие данные не важны (их можно игнорировать) и отсутствуют только несколько значений, вы можете игнорировать их и работать с тем, что у вас есть. Однако это не всегда возможно. Вменение данных предлагает третье и потенциально более жизнеспособное решение.

Вменение данных включает замену отсутствующих значений, чтобы наборы данных можно было использовать. Существует две категории подходов к вменению данных:

Один
множественный

Вменение среднего значения (MI) — одна из самых известных форм вменения единичных данных.

Среднее вменение (MI)

МИ является формой простого вменения. Это включает в себя вычисление среднего значения наблюдаемых значений и использование результатов для вывода пропущенных значений. К сожалению, этот метод оказался неэффективным. Это может привести к множеству необъективных оценок, даже если данные отсутствуют полностью случайным образом. Кроме того, «точность» оценок зависит от количества пропущенных значений.

Например, если имеется большое количество пропущенных наблюдаемых значений, с использованием среднего вменения может привести к занижению стоимости. Таким образом, он лучше подходит для наборов данных и переменных с несколькими отсутствующими значениями.

Замена вручную

В этой ситуации оператор может использовать предварительное знание значений набора данных для замены отсутствующих значений. Это единственный метод вменения, который опирается на память или знания оператора и иногда называется предварительным знанием идеального числа. Точность зависит от способности оператора вспомнить значения, поэтому этот метод может быть более подходящим для наборов данных с несколькими пропущенными значениями.

K-ближайшие соседи (K-NN)

K-ближайший сосед — это метод, широко используемый в машинном обучении для решения проблем регрессии и классификации. Он использует среднее значение отсутствующего значения данных соседей отсутствующих данных для его вычисления и вменения. Метод К-НН гораздо более эффективен, чем простое вменение среднего, и идеально подходит для значений MCAR и MAR.

подмена

Замена предполагает поиск нового человека или предмета для обследования или тестирования. Это должен быть субъект, который не был выбран в исходной выборке.

Вменение регрессии

Регрессия пытается определить силу зависимой переменной (обычно обозначаемой как Y) для набора независимых переменных (обычно обозначаемых как X). Линейная регрессия является наиболее известной формой регрессии. Он использует линию наилучшего соответствия для прогнозирования или определения пропущенного значения. Следовательно, это лучший метод визуального представления данных с помощью регрессионной модели.

Когда линейная регрессия является формой детерминированной регрессии, при которой устанавливается точная взаимосвязь между отсутствующими и текущими значениями, отсутствующие значения заменяются 100%-ным прогнозом регрессионной модели. Однако у этого метода есть ограничение. Детерминированная линейная регрессия часто может привести к переоценке близости взаимосвязи между значениями.

Стохастический линейная регрессия компенсирует «чрезмерную точность» детерминированной регрессии, вводя (случайный) член ошибки, потому что две ситуации или переменные редко полностью связаны. Это делает заполнение пропущенных значений с помощью регрессии более подходящим.

Сэмплирование горячей деки

Этот подход включает в себя выбор случайно выбранного значения у субъекта с другими значениями, аналогичными субъекту, пропустившему значение. Это требует, чтобы вы искали предметы или отдельных лиц, а затем заполняли недостающие данные, используя их значения.

Метод отбора проб с горячей палубы ограничивает диапазон достижимых значений. Например, если ваша выборка ограничена возрастной группой от 20 до 25 лет, ваш результат всегда будет находиться между этими числами, что повышает потенциальную точность значения замены. Субъекты/лица для этого метода вменения выбираются случайным образом.

Отбор проб холодной колоды

Этот метод включает в себя поиск человека/субъекта, который имеет аналогичные или идентичные значения для всех других переменных/параметров в наборе данных. Например, субъект может иметь тот же рост, культурное происхождение и возраст, что и субъект, значения которого отсутствуют. Он отличается от выборки с горячей палубы тем, что испытуемые систематически выбираются и повторно используются.

Несмотря на то, что существует множество вариантов и методов работы с отсутствующими данными, профилактика всегда лучше, чем лечение. Исследователи должны соблюдать строгие планирование экспериментов и исследования. Исследование должно иметь четкую миссию или цель.

Часто исследователи чрезмерно усложняют исследование или не могут спланировать препятствия, что приводит к отсутствию или недостаточности данных. Всегда лучше упростить дизайн исследования, уделяя особое внимание сбору данных.

Собирайте только те данные, которые необходимы для достижения целей исследования, и ничего более. Вы также должны убедиться, что все инструменты и датчики, задействованные в исследовании или экспериментах, всегда полностью функциональны. Рассмотрите возможность создания регулярных резервных копий ваших данных/ответов по ходу исследования.

Отсутствие данных — частое явление. Даже если вы применяете лучшие практики, вы все равно можете страдать от неполных данных. К счастью, есть способы решить эту проблему постфактум.

Нахла Дэвис является разработчиком программного обеспечения и техническим писателем. Прежде чем полностью посвятить свою работу техническому письму, ей удалось — среди прочего — поработать ведущим программистом в организации, занимающейся экспериментальным брендингом Inc. 5,000, клиентами которой являются Samsung, Time Warner, Netflix и Sony.