Dérive des données contre dérive des concepts : quelle est la différence ?

Dérive des données contre dérive des concepts : quelle est la différence ?

Nœud source: 1936845

La dérive du modèle fait référence au phénomène qui se produit lorsque les performances d'un modèle d'apprentissage automatique se dégradent avec le temps. Cela se produit pour diverses raisons, notamment des modifications de la distribution des données, des modifications des buts ou des objectifs du modèle ou des modifications de l'environnement dans lequel le modèle fonctionne. Il y a deux principaux types de dérive du modèle qui peuvent se produire : dérive des données et dérive du concept.

La dérive des données fait référence à la distribution changeante des données auxquelles le modèle est appliqué. La dérive conceptuelle fait référence à un but ou un objectif sous-jacent changeant pour le modèle. La dérive des données et la dérive des concepts peuvent entraîner une baisse des performances d'un machine learning .

La dérive des modèles peut être un problème important pour les systèmes d'apprentissage automatique qui sont déployés dans des environnements réels, car elle peut conduire à des prédictions ou à des décisions inexactes ou peu fiables. Pour faire face à la dérive du modèle, il est important de surveiller en permanence les performances des modèles d'apprentissage automatique au fil du temps et de prendre des mesures pour l'empêcher ou l'atténuer, par exemple en réentraînant le modèle sur de nouvelles données ou en ajustant les paramètres du modèle. Ces systèmes de contrôle et de réglage doivent faire partie intégrante d'un système de déploiement de logiciels pour les modèles ML.

Dérive de concept vs dérive de données : quelle est la différence ?

Dérive des données

La dérive des données, ou changement de covariable, fait référence au phénomène où la distribution des entrées de données qu'un modèle ML a été formé diffère de la distribution des entrées de données auxquelles le modèle est appliqué. Cela peut rendre le modèle moins précis ou moins efficace pour faire des prédictions ou prendre des décisions.

Une représentation mathématique de la dérive des données peut être exprimée comme suit :

P(x|y) ≠ P(x|y')

Où P(x|y) fait référence à la distribution de probabilité des données d'entrée (x) étant donné les données de sortie (y), et P(x|y') est la distribution de probabilité des données d'entrée étant donné les données de sortie pour les nouvelles données à auquel le modèle est appliqué (y').

Par exemple, supposons qu'un modèle ML a été formé sur un ensemble de données client d'un magasin de détail particulier, et que le modèle a été utilisé pour prédire si un client effectuerait un achat en fonction de son âge, de son revenu et de son emplacement. 

Si la distribution des données d'entrée (âge, revenu et emplacement) pour les nouvelles données introduites dans le modèle diffère considérablement de la distribution des données d'entrée dans l'ensemble de données d'apprentissage, cela peut entraîner une dérive des données et rendre le modèle moins précis.

Surmonter la dérive des données

Une façon de surmonter la dérive des données consiste à utiliser des techniques telles que la pondération ou l'échantillonnage pour ajuster les différences dans les distributions de données. Par exemple, vous pouvez pondérer les exemples dans le jeu de données d'apprentissage afin qu'ils correspondent plus étroitement à la distribution des données d'entrée pour les nouvelles données auxquelles le modèle sera appliqué. 

Vous pouvez également échantillonner à partir des nouvelles données et des données d'apprentissage pour créer un ensemble de données équilibré pour l'apprentissage du modèle. Une autre approche consiste à utiliser des techniques d'adaptation de domaine, qui visent à adapter le modèle à la nouvelle distribution de données en apprenant une correspondance entre le domaine source (les données d'apprentissage) et le domaine cible (les nouvelles données). Une façon d'y parvenir est d'utiliser génération de données synthétiques algorithmes.

Dérive de concept

La dérive de concept se produit lorsqu'il y a un changement dans la relation fonctionnelle entre les données d'entrée et de sortie d'un modèle. Le modèle continue de fonctionner de la même manière malgré le changement de contexte, ignorant les changements. Ainsi, les modèles qu'il a appris pendant la formation ne sont plus exacts.

La dérive de concept est aussi parfois appelée dérive de classe ou décalage de probabilité a posteriori. En effet, il fait référence aux changements de probabilités entre différentes situations :

Pt1 (Y|X) ≠ Pt2 (Y|X)

Ce type de dérive est causé par des processus ou des événements externes. Par exemple, vous pouvez avoir un modèle qui prédit le coût de la vie en fonction de l'emplacement géographique, avec différentes régions en entrée. Cependant, le niveau de développement de chaque région peut augmenter ou diminuer, modifiant le coût de la vie dans le monde réel. Ainsi, le modèle perd la capacité de faire des prédictions précises. 

La signification originale de « dérive conceptuelle » est un changement dans la façon dont nous comprenons des étiquettes spécifiques. Un exemple est ce que nous qualifions de « spam » dans les e-mails. Les modèles tels que les e-mails fréquents et en masse étaient autrefois considérés comme des signes de spam, mais ce n'est pas toujours le cas aujourd'hui. Les détecteurs de spam qui utilisent encore ces attributs obsolètes seront moins efficaces lors de l'identification du spam car ils ont une dérive conceptuelle et nécessitent un recyclage.

Voici d'autres exemples de dérive de concept :

  • L'impact des modifications du code des impôts sur un modèle qui prédit la conformité fiscale
  • L'impact de l'évolution du comportement des clients sur un modèle qui prédit les ventes de produits
  • L'impact d'une crise financière sur les prévisions de bénéfices d'une entreprise

Dérive de concept vs dérive de données

Avec la dérive des données, la limite de décision ne change pas ; seule la distribution de probabilité des entrées change – P(x). Avec la dérive du concept, la limite de décision change, avec à la fois la distribution d'entrée et de sortie changeant - P(x) et P(y). 

Une autre différence importante est que la dérive des données est principalement le résultat de facteurs internes, tels que la collecte, le traitement et la formation des données. La dérive conceptuelle résulte généralement de facteurs externes, tels que la situation dans le monde réel.

Stratégies pour détecter et surmonter la dérive des données et des concepts

Il existe plusieurs stratégies qui peuvent aider à détecter et à surmonter la dérive du modèle dans un système d'apprentissage automatique :

  • Suivi de la performance: L'évaluation régulière des performances du modèle ML sur un jeu de données non valide ou en production peut aider à identifier toute baisse de précision ou d'autres mesures pouvant indiquer une dérive du modèle.
  • Algorithmes de détection de dérive de données et de concepts : Il existe des algorithmes spécifiquement conçus pour détecter la dérive des données, comme le test de Page-Hinkley ou le test de Kolmogorov-Smirnov, ainsi que des algorithmes qui détectent la dérive des concepts, comme l'algorithme ADWIN. Ces algorithmes peuvent automatiquement identifier les changements dans les données d'entrée ou la tâche qui peuvent indiquer une dérive du modèle.
  • Techniques de prévention de la dérive des données et des concepts : Ces techniques peuvent aider à prévenir la dérive des données ou des concepts en premier lieu. Par exemple, l'utilisation de l'augmentation des données ou de la génération de données synthétiques peut aider à garantir qu'un modèle ML est exposé à une large gamme représentative de données, ce qui peut le rendre plus résistant aux changements dans la distribution des données. De même, l'utilisation de l'apprentissage par transfert ou de l'apprentissage multitâche peut aider le modèle à s'adapter à une tâche ou à un objectif changeant.
  • Recyclage et mise au point : Si une dérive du modèle est détectée, le recyclage ou l'ajustement du modèle sur de nouvelles données peut aider à la surmonter. Cela peut être fait périodiquement ou en réponse à des changements importants dans les données ou la tâche.

En surveillant régulièrement la dérive des modèles et en prenant des mesures proactives pour la prévenir ou l'atténuer, il est possible de maintenir la précision et la fiabilité des modèles d'apprentissage automatique au fil du temps.

Conclusion

En conclusion, la dérive des données et la dérive des modèles sont deux phénomènes importants qui peuvent affecter les performances des modèles d'apprentissage automatique (ML). 

La dérive des données, également appelée décalage de covariable, se produit lorsque la distribution des données d'entrée sur lesquelles un modèle ML a été formé diffère de la distribution des données d'entrée auxquelles le modèle est appliqué. La dérive du modèle, également connue sous le nom de dérive du concept, se produit lorsque les propriétés statistiques des données sur lesquelles un modèle ML a été formé changent au fil du temps. 

La dérive des données et la dérive du modèle peuvent rendre le modèle moins précis ou moins efficace pour faire des prédictions ou prendre des décisions, et il est important de comprendre et de traiter ces phénomènes afin de maintenir les performances d'un modèle ML au fil du temps. 

Diverses techniques peuvent être utilisées pour surmonter la dérive des données et la dérive du modèle, notamment le recyclage du modèle sur des données mises à jour, l'utilisation de l'apprentissage en ligne ou de l'apprentissage adaptatif et la surveillance des performances du modèle au fil du temps.

Horodatage:

Plus de DATAVERSITÉ