Enfoques para la imputación de datos

Enfoques para la imputación de datos

Nodo de origen: 1895750

Enfoques para la imputación de datos
Foto por ron lach
 

Los conjuntos de datos del mundo real rara vez son perfectos y, a menudo, vienen con valores faltantes o información incompleta. Estas fallas pueden deberse al elemento humano (encuestas incorrectamente completadas o sin completar) o tecnología (sensores que funcionan mal). Cualquiera que sea el caso, a menudo te quedas con valores o información faltantes.

Por supuesto, esto presenta un problema. Sin los valores que faltan, todo el conjunto de datos puede considerarse inutilizable. Pero dado que requiere mucho tiempo, esfuerzo y (en muchos casos) dinero para adquirir datos de alta calidad, deshacerse de los datos incorrectos y comenzar de nuevo pueden no ser opciones viables. En cambio, debemos encontrar una manera de evitar o reemplazar estos valores faltantes. Aquí es donde entra la imputación de datos. 

Esta guía discutirá qué es la imputación de datos, así como los tipos de enfoques que admite.

Si bien no podemos reemplazar los datos faltantes o corruptos, existen métodos que podemos emplear para permitir que el conjunto de datos aún se pueda utilizar. La imputación de datos es una de las técnicas más fiables para conseguirlo. Sin embargo, primero debemos identificar qué tipo de datos faltan y por qué. 

En estadística y ciencia de datos, hay tres tipos principales de datos faltantes:

  • Falta al azar (MAR), donde los datos que faltan están vinculados a una variable y, en última instancia, se pueden observar o rastrear. En muchos casos, esto puede brindarle más información sobre los datos demográficos o los interesados. Por ejemplo, las personas de cierta edad pueden decidir omitir una pregunta en una encuesta o eliminar los sistemas de seguimiento de sus dispositivos en determinados momentos. 
  • Falta completamente al azar (MCAR), durante la cual la datos perdidos no puede ser observado o rastreado a una variable. Es casi imposible discernir por qué faltan los datos.
  • Datos faltantes que no faltan al azar (NMAR), donde los datos que faltan están vinculados a una variable de interés. En la mayoría de los casos, estos datos faltantes se pueden ignorar. NMAR puede ocurrir cuando un encuestado omite una pregunta que no se aplica a ellos.

Manejo de datos faltantes

Actualmente, tiene tres opciones principales para lidiar con los valores de datos faltantes:

  • supresión
  • Imputación
  • Indiferencia

En lugar de deshacerse de todo el conjunto de datos, puede usar lo que se conoce como eliminación por lista. Esto implica eliminar registros con información o valores faltantes. La principal ventaja de la eliminación por lista es que admite las tres categorías de datos faltantes. 

Sin embargo, esto puede resultar en una pérdida adicional de datos. Se recomienda que sólo utilice eliminación por lista en instancias donde hay una mayor cantidad de valores perdidos (observados) que valores presentes (observados), principalmente porque no hay suficientes datos para inferirlos o reemplazarlos. 

Si los datos faltantes observados no son importantes (ignorables) y solo faltan unos pocos valores, puede ignorarlos y trabajar con lo que tiene. Sin embargo, esto no siempre es una posibilidad. La imputación de datos ofrece una tercera solución potencialmente más viable. 

La imputación de datos implica reemplazar los valores ausentes para que los conjuntos de datos aún puedan usarse. Hay dos categorías de enfoques de imputación de datos:

  • Individual
  • Múltiple

La imputación media (MI) es una de las formas más famosas de imputación de datos únicos.

Imputación media (MI)

MI es una forma de imputación simple. Esto implica calcular la media de los valores observados y utilizar los resultados para inferir los valores que faltan. Desafortunadamente, este método ha demostrado ser ineficiente. Puede conducir a muchas estimaciones sesgadas, incluso cuando los datos faltan completamente al azar. Además, la “precisión” de las estimaciones depende del número de valores faltantes. 

Por ejemplo, si falta un gran número de valores observados, utilizando la imputación media podría conducir a una subestimación del valor. Por lo tanto, es más adecuado para conjuntos de datos y variables con solo unos pocos valores faltantes. 

Reemplazo Manual

En esta situación, un operador puede utilizar el conocimiento previo de los valores del conjunto de datos para reemplazar los valores que faltan. Es un método de imputación simple que se basa en la memoria o el conocimiento del operador y, a veces, se lo denomina conocimiento previo de un número ideal. La precisión depende de la capacidad del operador para recuperar los valores, por lo que este método puede ser más adecuado para conjuntos de datos en los que solo faltan unos pocos valores.

K-Vecinos más cercanos (K-NN)

K-vecino más cercano es una técnica famosamente utilizada en el aprendizaje automático para abordar problemas de regresión y clasificación. Utiliza la media del valor de los datos faltantes de los vecinos del valor de los datos faltantes para calcularlo e imputarlo. Él método K-NN es mucho más eficaz que la imputación media simple y es ideal para valores MCAR y MAR. 

Sustitución

La sustitución implica encontrar un nuevo individuo o sujeto de encuesta o prueba. Este debe ser un sujeto que no fue seleccionado en la muestra original.

Imputación de regresión

La regresión intenta determinar la fuerza de una variable dependiente (generalmente especificada como Y) a una colección de variables independientes (generalmente indicadas como X). La regresión lineal es la forma de regresión más conocida. Utiliza la línea de mejor ajuste para predecir o determinar el valor faltante. En consecuencia, es el mejor método para representar datos visualmente a través de un modelo de regresión.

Cuando la regresión lineal es una forma de regresión determinista donde se establece una relación exacta entre los valores presentes y los que faltan, los valores que faltan se reemplazan con la predicción del 100 % del modelo de regresión. Sin embargo, existe una limitación en este método. La regresión lineal determinista a menudo puede resultar en una sobreestimación de la cercanía de la relación entre los valores.

Estocástico regresión lineal compensa la "sobreprecisión" de la regresión determinista al introducir un término de error (aleatorio) porque dos situaciones o variables rara vez están perfectamente conectadas. Esto hace que sea más apropiado completar los valores faltantes mediante la regresión.

Muestreo de cubierta caliente

Este enfoque implica seleccionar un valor elegido al azar de un sujeto con otros valores similares al sujeto al que le falta el valor. Requiere que busque sujetos o individuos y luego complete los datos faltantes usando sus valores. 

El método de muestreo de plataforma caliente limita el rango de valores alcanzables. Por ejemplo, si su muestra está restringida a un grupo de edad entre 20 y 25 años, su resultado siempre estará entre estos números, aumentando la precisión potencial del valor de reemplazo. Los sujetos/individuos para este método de imputación se eligen al azar.

Muestreo de cubierta fría

Este método implica buscar un individuo/sujeto que tenga valores similares o idénticos para todas las demás variables/parámetros en el conjunto de datos. Por ejemplo, el sujeto puede tener la misma altura, antecedentes culturales y edad que el sujeto cuyos valores faltan. Se diferencia del muestreo de plataforma caliente en que los sujetos se eligen y reutilizan sistemáticamente. 

Si bien existen muchas opciones y técnicas para lidiar con los datos faltantes, siempre es mejor prevenir que curar. Los investigadores deben implementar estrictas planificación de experimentos y estudios El estudio debe tener una declaración de misión u objetivo claro en mente. 

A menudo, los investigadores complican demasiado un estudio o no planifican contra los impedimentos, lo que da como resultado datos faltantes o insuficientes. Siempre es mejor simplificar el diseño del estudio mientras se pone un enfoque preciso en la recopilación de datos. 

Recopile solo los datos que necesita para cumplir con los objetivos del estudio y nada más. También debe asegurarse de que todos los instrumentos y sensores involucrados en el estudio o los experimentos funcionen completamente en todo momento. Considere crear copias de seguridad periódicas de sus datos/respuestas a medida que avanza el estudio. 

La falta de datos es una ocurrencia común. Incluso si implementa las mejores prácticas, aún puede sufrir datos incompletos. Afortunadamente, hay formas de abordar este problema después del hecho.   

 
 
Nahla Davies es un desarrollador de software y escritor de tecnología. Antes de dedicar su trabajo a tiempo completo a la redacción técnica, se las arregló, entre otras cosas interesantes, para servir como programadora principal en una organización de marca experiencial Inc. 5,000 cuyos clientes incluyen Samsung, Time Warner, Netflix y Sony.
 

Sello de tiempo:

Mas de nuggets