Can Data Governance Address AI Fatigue? - KDnuggets

Republié par Platon

Suiveurs: 0

La gouvernance des données peut-elle remédier à la lassitude de l’IA ?
Image par auteur

La gouvernance des données et la fatigue de l’IA semblent être deux concepts différents, mais il existe un lien intrinsèque entre les deux. Pour mieux le comprendre, commençons par leur définition.

C’est depuis longtemps au cœur de l’industrie des données.

Google le dit bien : « La gouvernance des données est tout ce que vous faites pour garantir que les données sont sécurisées, privées, exactes, disponibles et utilisables. Cela implique de définir des normes internes – des politiques en matière de données – qui s’appliquent à la manière dont les données sont collectées, stockées, traitées et éliminées.

Comme le souligne cette définition, la gouvernance des données consiste à gérer les données – précisément le moteur qui pilote les modèles d’IA.

Maintenant que les premiers signes du lien entre la gouvernance des données et l’IA ont commencé à apparaître, faisons le lien avec la lassitude envers l’IA. Bien que le nom l’indique, la mise en évidence des raisons conduisant à une telle fatigue garantit une utilisation cohérente de ce terme tout au long du message.

La lassitude envers l’IA s’installe en raison des revers et des défis auxquels les organisations, les développeurs ou les équipes sont confrontés, conduisant souvent à l’échec de la réalisation de valeur ou de la mise en œuvre des systèmes d’IA.

Cela commence principalement par des attentes irréalistes quant à ce dont l’IA est capable. Pour les technologies sophistiquées telles que l’IA, les principales parties prenantes doivent s’aligner non seulement sur les capacités et les possibilités de l’IA, mais également sur ses limites et ses risques.

En ce qui concerne les risques, l’éthique est souvent considérée comme une réflexion secondaire qui conduit à l’abandon des initiatives d’IA non conformes.

Vous devez vous interroger sur le rôle de la gouvernance des données dans la lassitude de l’IA – c’est la prémisse de cet article.

C’est là que nous nous dirigeons ensuite.

La fatigue de l’IA peut être globalement classée comme pré-déploiement et post-déploiement. Concentrons-nous d’abord sur le pré-déploiement.

Pré-déploiement

Divers facteurs contribuent à faire passer une preuve de concept (PoC) au déploiement, tels que :

Qu’essayons-nous de résoudre ?
Pourquoi est-il impératif de prioriser un problème maintenant ?
Quelles données sont disponibles ?
Est-ce que le ML peut être résolu en premier lieu ?
Les données ont-elles un modèle ?
Le phénomène est-il reproductible ?
Quelles données supplémentaires amélioreraient les performances du modèle ?

La gouvernance des données peut-elle remédier à la lassitude de l’IA ?
Image de Freepik

Une fois que nous avons évalué que le problème peut être mieux résolu à l’aide d’algorithmes ML, l’équipe de science des données effectue une analyse exploratoire des données. De nombreux modèles de données sous-jacents sont découverts à ce stade, soulignant si les données fournies sont riches en signal. Il permet également de créer des fonctionnalités techniques pour accélérer le processus d’apprentissage de l’algorithme.

Ensuite, l’équipe construit le premier modèle de base, constatant souvent que ses performances ne sont pas au niveau acceptable. Un modèle dont le résultat est aussi bon qu’un tirage au sort n’ajoute aucune valeur. C'est l'un des premiers revers, c'est-à-dire des leçons, lors de la création de modèles ML.

Les organisations peuvent passer d’un problème commercial à un autre, provoquant de la fatigue. Pourtant, si les données sous-jacentes ne véhiculent pas un signal riche, aucun algorithme d’IA ne peut s’en servir. Le modèle doit apprendre les associations statistiques à partir des données d'entraînement pour généraliser sur des données invisibles.

Post-déploiement

Bien que le modèle entraîné montre des résultats prometteurs sur l'ensemble de validation, conformément aux critères commerciaux de qualification, tels qu'une précision de 70 %, une lassitude peut encore survenir si le modèle ne fonctionne pas correctement dans l'environnement de production.

Ce type de fatigue de l’IA est appelé la phase post-déploiement.

Une myriade de raisons peuvent conduire à une détérioration des performances, la mauvaise qualité des données étant le problème le plus courant affectant le modèle. Cela limite la capacité du modèle à prédire avec précision la réponse cible en l’absence d’attributs cruciaux.

Imaginez quand l'une des caractéristiques essentielles, qui manquait seulement 10 % dans les données de formation, devient désormais nulle 50 % du temps dans les données de production, conduisant à des prédictions erronées. De telles itérations et efforts pour garantir des modèles performants de manière cohérente suscitent la lassitude des data scientists et des équipes commerciales, érodant ainsi la confiance dans les pipelines de données et mettant en péril les investissements réalisés dans le projet.

Des mesures robustes de gouvernance des données sont essentielles pour lutter contre les deux types de lassitude envers l’IA. Étant donné que les données sont au cœur des modèles de ML, des données riches en signaux, sans erreurs et de haute qualité sont indispensables au succès d'un projet de ML. Lutter contre la lassitude envers l’IA nécessite de se concentrer fortement sur la gouvernance des données. Nous devons donc travailler rigoureusement pour garantir la bonne qualité des données, en jetant les bases nécessaires pour créer des modèles de pointe et fournir des informations commerciales fiables.

Qualité des données

La qualité des données, clé d’une gouvernance des données florissante, est un facteur de succès essentiel pour les algorithmes d’apprentissage automatique. Les organisations doivent investir dans la qualité des données, par exemple en publiant des rapports aux consommateurs de données. Dans les projets de science des données, pensez à ce qui se passe lorsque des données de mauvaise qualité parviennent aux modèles, ce qui peut entraîner de mauvaises performances.

Ce n’est que lors de l’analyse des erreurs que les équipes ont pu identifier les soucis de qualité des données qui, envoyés pour être corrigés en amont, finissent par provoquer une lassitude des équipes.

De toute évidence, ce n’est pas seulement l’effort déployé, mais aussi beaucoup de temps qui est perdu jusqu’à ce que les bonnes données commencent à arriver.

Par conséquent, il est toujours conseillé de résoudre les problèmes de données à la source pour éviter de telles itérations fastidieuses. Finalement, les rapports publiés sur la qualité des données font allusion à l'équipe de science des données (ou, d'ailleurs, à tout autre utilisateur en aval et consommateur de données) ayant une compréhension de la qualité acceptable des données entrantes.

Sans mesures de qualité des données et de gouvernance, les data scientists seraient submergés de problèmes de données, contribuant ainsi à l’échec des modèles qui alimenteraient la lassitude de l’IA.

L'article mettait en évidence les deux étapes auxquelles la lassitude envers l'IA s'installe et présentait comment les mesures de gouvernance des données telles que les rapports sur la qualité des données peuvent faciliter la création de modèles fiables et robustes.

En établissant une base solide grâce à la gouvernance des données, les organisations peuvent établir une feuille de route pour un développement et une adoption réussis et transparents de l’IA, suscitant ainsi l’enthousiasme.

Pour garantir que cet article donne un aperçu global des différentes manières de lutter contre la lassitude de l'IA, j'insiste également sur le rôle de la culture organisationnelle, qui, combinée à d'autres bonnes pratiques telles que la gouvernance des données, permettra aux équipes de science des données de créer des contributions significatives à l'IA plus tôt et plus rapide.

Vidhi Chugh est un stratège de l'IA et un leader de la transformation numérique travaillant à l'intersection des produits, des sciences et de l'ingénierie pour créer des systèmes d'apprentissage automatique évolutifs. Elle est une leader de l'innovation primée, une auteure et une conférencière internationale. Elle a pour mission de démocratiser l'apprentissage automatique et de casser le jargon pour que chacun fasse partie de cette transformation.