Approches de l'imputation des données

Approches de l'imputation des données

Nœud source: 1895750

Approches de l'imputation des données
Photo par Ron rire
 

Les ensembles de données du monde réel sont rarement parfaits et contiennent souvent des valeurs manquantes ou des informations incomplètes. Ces défauts peuvent être dus à l'élément humain (enquêtes mal remplies ou non remplies) ou à la technologie (capteurs défaillants). Quel que soit le cas, il vous reste souvent des valeurs ou des informations manquantes.

Bien sûr, cela pose un problème. Sans les valeurs manquantes, l'ensemble des données peut être considéré comme inutilisable. Mais comme il faut beaucoup de temps, d'efforts et (dans de nombreux cas) d'argent pour acquérir des données de haute qualité, éliminer les données incorrectes et recommencer peut ne pas être une option viable. Au lieu de cela, nous devons trouver un moyen de contourner ou de remplacer ces valeurs manquantes. C'est là qu'intervient l'imputation des données. 

Ce guide discutera de ce qu'est l'imputation des données ainsi que des types d'approches qu'elle prend en charge.

Bien que nous ne puissions pas remplacer les données manquantes ou corrompues, il existe des méthodes que nous pouvons utiliser pour permettre à l'ensemble de données d'être toujours utilisable. L'imputation des données est l'une des techniques les plus fiables pour y parvenir. Cependant, nous devons d'abord identifier quel type de données manque et pourquoi. 

En statistique et en science des données, il existe trois principaux types de données manquantes :

  • Manquant au hasard (MAR), où les données manquantes sont liées à une variable et peuvent finalement être observées ou tracées. Dans de nombreux cas, cela peut vous fournir plus d'informations sur les données démographiques ou les personnes concernées. Par exemple, les personnes d'un certain âge peuvent décider de sauter une question dans un sondage ou de supprimer les systèmes de suivi de leurs appareils à certains moments. 
  • Manquant complètement au hasard (MCAR), Où le données manquantes ne peut pas être observé ou lié à une variable. Il est presque impossible de discerner pourquoi les données sont manquantes.
  • Données manquantes qui ne manquent pas au hasard (NMAR), où les données manquantes sont liées à une variable d'intérêt. Dans la plupart des cas, ces données manquantes peuvent être ignorées. NMAR peut se produire lorsqu'un enquêteur saute une question qui ne s'applique pas à lui.

Traiter avec les données manquantes

Actuellement, vous disposez de trois options principales pour gérer les valeurs de données manquantes :

  • Suppression
  • Imputation
  • Ne tenez pas compte

Au lieu de supprimer l'intégralité de l'ensemble de données, vous pouvez utiliser ce que l'on appelle la suppression par liste. Cela implique la suppression des enregistrements avec des informations ou des valeurs manquantes. Le principal avantage de la suppression par liste est qu'elle prend en charge les trois catégories de données manquantes. 

Cependant, cela peut entraîner une perte de données supplémentaire. Il est recommandé d'utiliser uniquement suppression par liste dans les cas où il y a un plus grand nombre de valeurs manquantes (observées) que de valeurs présentes (observées), principalement parce qu'il n'y a pas assez de données pour les déduire ou les remplacer. 

Si les données manquantes observées ne sont pas importantes (ignorables) et que seules quelques valeurs manquent, vous pouvez les ignorer et travailler avec ce que vous avez. Cependant, ce n'est pas toujours une possibilité. L'imputation des données offre une troisième solution, potentiellement plus viable. 

L'imputation des données consiste à remplacer les valeurs absentes afin que les ensembles de données puissent toujours être utilisables. Il existe deux catégories d'approches d'imputation des données :

  • Simple
  • Multiple

L'imputation moyenne (IM) est l'une des formes les plus connues d'imputation de données uniques.

Imputation moyenne (MI)

MI est une forme d'imputation simple. Cela implique de calculer la moyenne des valeurs observées et d'utiliser les résultats pour déduire les valeurs manquantes. Malheureusement, cette méthode s'est avérée inefficace. Cela peut conduire à de nombreuses estimations biaisées, même lorsque les données manquent complètement au hasard. De plus, la « précision » des estimations dépend du nombre de valeurs manquantes. 

Par exemple, s'il y a un grand nombre de valeurs observées manquantes, en utilisant l'imputation moyenne pourrait conduire à une sous-estimation de la valeur. Ainsi, il est mieux adapté aux ensembles de données et aux variables avec seulement quelques valeurs manquantes. 

Remplacement manuel

Dans cette situation, un opérateur peut utiliser la connaissance préalable des valeurs de l'ensemble de données pour remplacer les valeurs manquantes. Il s'agit d'une méthode d'imputation unique qui repose sur la mémoire ou les connaissances de l'opérateur et est parfois appelée connaissance préalable d'un nombre idéal. La précision dépend de la capacité de l'opérateur à se souvenir des valeurs, de sorte que cette méthode peut être plus appropriée pour les ensembles de données avec seulement quelques valeurs manquantes.

K-Voisins les plus proches (K-NN)

K-plus proche voisin est une technique célèbre utilisée dans l'apprentissage automatique pour résoudre les problèmes de régression et de classification. Il utilise la moyenne de la valeur de données manquante des voisins de la valeur de données manquante pour la calculer et l'imputer. Les Méthode K-NN est beaucoup plus efficace que la simple imputation moyenne et est idéal pour les valeurs MCAR et MAR. 

Substitution

La substitution consiste à trouver un nouvel individu ou à faire l'objet d'une enquête ou d'un test. Il doit s'agir d'un sujet qui n'a pas été sélectionné dans l'échantillon original.

Imputation par régression

La régression tente de déterminer la force d'une variable dépendante (généralement spécifiée par Y) à un ensemble de variables indépendantes (généralement désignées par X). La régression linéaire est la forme de régression la plus connue. Il utilise la ligne de meilleur ajustement pour prédire ou déterminer la valeur manquante. Par conséquent, c'est la meilleure méthode pour représenter visuellement les données à travers un modèle de régression.

Lorsque la régression linéaire est une forme de régression déterministe où une relation exacte entre les valeurs manquantes et actuelles est établie, les valeurs manquantes sont remplacées par la prédiction à 100 % du modèle de régression. Il y a cependant une limite à cette méthode. La régression linéaire déterministe peut souvent entraîner une surestimation de la proximité de la relation entre les valeurs.

Stochastique régression linéaire compense la « sur-précision » de la régression déterministe en introduisant un terme d'erreur (aléatoire) car deux situations ou variables sont rarement parfaitement liées. Cela rend le remplissage des valeurs manquantes à l'aide de la régression plus approprié.

Échantillonnage Hot Deck

Cette approche consiste à sélectionner une valeur choisie au hasard à partir d'un sujet avec d'autres valeurs similaires au sujet manquant la valeur. Il vous oblige à rechercher des sujets ou des individus, puis à remplir les données manquantes à l'aide de leurs valeurs. 

La méthode d'échantillonnage hot deck limite la plage des valeurs atteignables. Par exemple, si votre échantillon est limité à un groupe d'âge entre 20 et 25 ans, votre résultat sera toujours compris entre ces chiffres, ce qui augmentera la précision potentielle de la valeur de remplacement. Les sujets/individus pour cette méthode d'imputation sont choisis au hasard.

Échantillonnage à froid

Cette méthode consiste à rechercher un individu/sujet qui a des valeurs similaires ou identiques pour toutes les autres variables/paramètres de l'ensemble de données. Par exemple, le sujet peut avoir la même taille, le même bagage culturel et le même âge que le sujet dont les valeurs manquent. Il diffère de l'échantillonnage hot deck en ce que les sujets sont systématiquement choisis et réutilisés. 

Bien qu'il existe de nombreuses options et techniques pour traiter les données manquantes, il vaut toujours mieux prévenir que guérir. Les chercheurs doivent mettre en œuvre des planification d'expériences et études. L'étude doit avoir un énoncé de mission ou un objectif clair en tête. 

Souvent, les chercheurs compliquent excessivement une étude ou ne planifient pas les obstacles, ce qui se traduit par des données manquantes ou insuffisantes. Il est toujours préférable de simplifier la conception de l'étude tout en mettant l'accent sur la collecte de données. 

Ne collectez que les données dont vous avez besoin pour atteindre les objectifs de l'étude et rien de plus. Vous devez également vous assurer que tous les instruments et capteurs impliqués dans l'étude ou les expériences sont pleinement fonctionnels à tout moment. Envisagez de créer des sauvegardes régulières de vos données/réponses au fur et à mesure que l'étude progresse. 

Les données manquantes sont un phénomène courant. Même si vous mettez en œuvre les meilleures pratiques, vous pouvez toujours souffrir de données incomplètes. Heureusement, il existe des moyens de résoudre ce problème après coup.   

 
 
Nahla Davies est un développeur de logiciels et un rédacteur technique. Avant de consacrer son travail à plein temps à la rédaction technique, elle a réussi – entre autres choses intrigantes – à servir de programmeuse principale dans une organisation de marque expérientielle Inc. 5,000 XNUMX dont les clients incluent Samsung, Time Warner, Netflix et Sony.
 

Horodatage:

Plus de KDnuggetsGenericName