Explicabilité des données : le pendant de l'explicabilité des modèles - DATAVERSITY

Explicabilité des données : la contrepartie de l'explicabilité du modèle - DATAVERSITY

Nœud source: 2658143

Aujourd'hui, l'IA et le ML sont partout. 

Que ce soit tout le monde qui joue avec ChatGPT (le plus rapide application adoptée dans l'histoire) ou une proposition récente d'ajouter une quatrième couleur aux feux de circulation Pour rendre la transition vers les voitures autonomes plus sûre, l'IA a complètement saturé nos vies. Alors que l'IA peut sembler plus accessible que jamais, la complexité des modèles d'IA a augmenté de façon exponentielle. 

Les modèles d'IA entrent dans les principales catégories de modèles de boîte noire et de boîte blanche. Les modèles de boîte noire prennent une décision sans explication, tandis que les modèles de boîte blanche fournissent un résultat basé sur les règles qui ont produit ce résultat. 

Alors que nous continuons à évoluer vers un monde de méthodes d'apprentissage en profondeur, la plupart gravitent largement vers des modèles de boîte noire. 

Le problème avec cette approche? Les modèles de boîte noire (comme ceux intégrés à la vision par ordinateur) ne peuvent pas être directement consommés. C'est ce qu'on appelle souvent le problème de la boîte noire. Alors que le recyclage des modèles de boîte noire peut donner aux utilisateurs un coup de pouce, l'interprétation du modèle et la compréhension des résultats du modèle de boîte noire deviennent plus difficiles à mesure que les modèles deviennent plus complexes.

Une tactique pour résoudre l'énigme de la boîte noire consiste à créer un modèle très personnalisé et explicable. 

Mais ce n'est pas la direction dans laquelle le monde évolue. 

Là où l'explicabilité du modèle se termine, l'explicabilité des données commence

L'explicabilité est essentielle car elle améliore la transparence, la précision et l'équité du modèle et peut également améliorer la confiance dans l'IA. Alors que l'explicabilité du modèle est une approche conventionnelle, il apparaît maintenant également le besoin d'un nouveau type : l'explicabilité des données.

L'explicabilité du modèle signifie comprendre l'algorithme, afin de comprendre le résultat final. Par exemple, si un modèle utilisé dans une unité d'oncologie est conçu pour tester si une croissance est cancéreuse, un fournisseur de soins de santé doit comprendre les variables qui créent les résultats finaux. Bien que cela sonne bien en théorie, l'explicabilité du modèle ne résout pas tout à fait le problème de la boîte noire. 

Comme les modèles deviennent de plus en plus complexes, la plupart des praticiens seront incapables d'identifier les transformations et d'interpréter les calculs dans les couches internes du modèle. Ils s'appuient en grande partie sur ce qu'ils peuvent contrôler, c'est-à-dire les ensembles de données d'apprentissage et ce qu'ils observent, les résultats et les mesures de prédiction.  

Prenons l'exemple d'un data scientist construisant un modèle pour détecter des photos de tasses à café à partir de milliers de photographies - mais le modèle commence également à détecter des images de verres à boire et de chopes à bière, par exemple. Bien que les chopes en verre et à bière puissent avoir une certaine ressemblance avec les tasses à café, il existe des différences distinctes, telles que les matériaux typiques, la couleur, l'opacité et les proportions structurelles.

Pour que le modèle détecte les tasses à café avec une plus grande fiabilité, le data scientist doit avoir les réponses à des questions telles que :

  • Quelles images le mannequin a-t-il prises à la place des tasses à café ? 
  • Le modèle a-t-il échoué parce que je ne lui ai pas fourni suffisamment ou les bons exemples de tasses à café ?
  • Ce modèle est-il même assez bon pour ce que j'essayais d'accomplir ?
  • Dois-je remettre en question ma vision du modèle ?
  • Que puis-je déterminer de manière concluante à l'origine de l'échec du modèle ? 
  • Dois-je générer de nouvelles hypothèses du modèle ?
  • Ai-je simplement choisi le mauvais modèle pour le travail pour commencer ?

Comme vous pouvez le constater, il est hautement improbable de fournir ce type d'informations, de compréhension et d'explicabilité du modèle à chaque fois qu'il y a un problème.

L'explicabilité des données consiste à comprendre données utilisé pour la formation et la saisie dans un modèle, afin de comprendre comment le résultat final d'un modèle est atteint. Alors que les algorithmes ML deviennent de plus en plus complexes mais plus largement utilisés dans toutes les professions et industries, l'explicabilité des données servira de clé pour déverrouiller et résoudre rapidement les problèmes courants, comme notre exemple de tasse à café.

Accroître l'équité et la transparence du ML grâce à l'explicabilité des données

L'équité dans les modèles ML est un sujet brûlant, qui peut être rendu encore plus brûlant en appliquant l'explicabilité des données.

Pourquoi le buzz ? Les biais dans l'IA peuvent créer des résultats préjudiciables pour un groupe. L'un des cas les mieux documentés de ceci est les préjugés dans les cas d'utilisation raciale. Prenons un exemple. 

Supposons qu'une grande plateforme de consommation bien connue recrute pour un nouveau poste de directeur marketing. Pour faire face à la masse de CV reçus quotidiennement, le service RH déploie un modèle AI/ML pour rationaliser le processus de candidature et de recrutement en sélectionnant des caractéristiques clés ou des candidats qualifiés. 

Pour effectuer cette tâche, et discerner et compartimenter chaque CV, le modèle le fera en donnant un sens aux principales caractéristiques dominantes. Malheureusement, cela aussi signifie que le modèle pourrait également détecter implicitement les préjugés raciaux généraux chez les candidats. Comment cela se passerait-il exactement ? Si un groupe de candidats comprend un plus petit pourcentage d'une race, la machine pensera que l'organisation préfère les membres d'une race différente ou de l'ensemble de données dominant.

Si un modèle échoue, même si ce n'est pas intentionnel, l'échec doit être résolu par l'entreprise. Essentiellement, celui qui a déployé le modèle doit être en mesure de défendre l'utilisation du modèle.

Dans le cas d'embauche et de préjugés raciaux, le défenseur devrait être en mesure d'expliquer à un public et/ou à un pool d'applications en colère l'utilisation d'ensembles de données pour former le modèle, les premiers résultats positifs du modèle basé sur cette formation, l'échec de le modèle à reprendre sur un cas particulier, et comment cela a conduit à un déséquilibre involontaire des données qui a finalement créé un processus de filtrage biaisé par la race.

Pour la plupart, ce genre de détails minutieux dans l'IA, les ensembles de données de déséquilibre, la formation de modèles et l'échec éventuel via la surveillance des données ne seront pas bien reçus ni même compris. Mais que va-t-on comprendre et retenir de cette histoire ? L'entreprise XYZ pratique des préjugés raciaux lors de l'embauche. 

La morale de cet exemple trop courant est que des erreurs involontaires d'un modèle très intelligent se produisent et peuvent avoir un impact négatif sur les humains et avoir des conséquences désastreuses. 

Où nous mène l'explicabilité des données

Plutôt que de traduire les résultats via la compréhension d'un modèle d'apprentissage automatique complexe, l'explicabilité des données utilise les données pour expliquer les prédictions et les échecs.

L'explicabilité des données est alors une combinaison de voir les données de test ainsi que  comprendre ce qu'un modèle tirera de ces données. Cela inclut la compréhension des échantillons de données sous-représentés, des échantillons surreprésentés (comme dans l'exemple d'embauche) et la transparence de la détection d'un modèle afin de comprendre avec précision les prédictions et les erreurs de prédiction.

Cette compréhension de l'explicabilité des données améliorera non seulement la précision et l'équité des modèles, mais ce sera également ce qui aidera les modèles à accélérer plus rapidement.

Alors que nous continuons à nous appuyer sur des programmes complexes d'IA et de ML et à les intégrer dans notre vie quotidienne, la résolution du problème de la boîte noire devient critique, en particulier pour les échecs et les erreurs de prédiction. 

Bien que l'explicabilité du modèle ait toujours sa place, elle nécessite une autre couche. Nous avons besoin de l'explicabilité des données, car comprendre ce qu'un modèle voit et lire ne sera jamais couvert par l'explicabilité classique du modèle.

Horodatage:

Plus de DATAVERSITÉ