Arbres de décision clairsemés optimaux généralisés et évolutifs (GOSDT)

Republié par Platon

Suiveurs: 0

Arbres de décision clairsemés optimaux généralisés et évolutifs (GOSDT)
Image fabrikasimf sur Freepik

Je parle souvent de méthodes d'IA explicables (XAI) et de la manière dont elles peuvent être adaptées pour résoudre quelques problèmes qui empêchent les entreprises de créer et de déployer des solutions d'IA. Vous pouvez vérifier mon blogue si vous avez besoin d'un rappel rapide sur les méthodes XAI.

L'une de ces méthodes XAI est les arbres de décision. Ils ont gagné en popularité historiquement en raison de leur interprétabilité et de leur simplicité. Cependant, beaucoup pensent que les arbres de décision ne peuvent pas être précis car ils ont l'air simples, et les algorithmes gourmands comme C4.5 et CART ne les optimisent pas bien.

L'affirmation est partiellement valable car certaines variantes d'arbres de décision, telles que C4.5 et CART, présentent les inconvénients suivants :

Enclin au surajustement, en particulier lorsque l'arbre devient trop profond avec trop de branches. Cela peut entraîner des performances médiocres sur de nouvelles données invisibles.
Il peut être plus lent d'évaluer et de faire des prédictions avec de grands ensembles de données, car ils nécessitent de prendre plusieurs décisions en fonction des valeurs des entités en entrée.
Il peut être difficile pour eux de traiter des variables continues car elles nécessitent que l'arbre divise la variable en plusieurs intervalles plus petits, ce qui peut augmenter la complexité de l'arbre et rendre difficile l'identification de modèles significatifs dans les données.
Souvent connu sous le nom d'algorithme « gourmand », il prend la décision localement optimale à chaque étape sans tenir compte des conséquences de ces décisions sur les étapes futures. Les sous-arbres optimaux sont une sortie de CART, mais aucune métrique "réelle" n'existe pour la mesurer.

Des algorithmes plus sophistiqués, tels que Ensemble Learning Methods, sont disponibles pour résoudre ces problèmes. Mais peut souvent être considéré comme une «boîte noire» en raison du fonctionnement souligné des algorithmes.

Cependant, des travaux récents ont montré que si vous optimisez les arbres de décision (plutôt que d'utiliser des méthodes gourmandes comme C4.5 et CART), ils peuvent être étonnamment précis, dans de nombreux cas, aussi précis que la boîte noire. GOSDT est l'un de ces algorithmes qui peut aider à optimiser et à résoudre certains des inconvénients mentionnés ci-dessus. GOSDT est un algorithme pour produire des arbres de décision optimaux clairsemés.

Le blog vise à donner une introduction douce à GOSDT et à présenter un exemple de la façon dont il peut être mis en œuvre sur un ensemble de données.

Ce blog est basé sur un document de recherche publié par quelques personnes fantastiques. Vous pouvez lire le journal ici. Ce blog ne remplace pas cet article et n'abordera pas non plus des détails extrêmement mathématiques. Il s'agit d'un guide destiné aux praticiens de la science des données pour en savoir plus sur cet algorithme et l'exploiter dans leurs cas d'utilisation quotidiens.

En un mot, GOSDT résout quelques problèmes majeurs :

Gérez bien les ensembles de données déséquilibrés et optimisez diverses fonctions objectives (pas seulement la précision).
Optimise pleinement les arbres et ne les construit pas avidement.
Il est presque aussi rapide que les algorithmes gourmands car il résout les problèmes d'optimisation NP-difficiles pour les arbres de décision.

Les arbres GOSDT utilisent un espace de recherche dynamique à travers des arbres de hachage pour améliorer l'efficacité du modèle. En limitant l'espace de recherche et en utilisant des limites pour identifier des variables similaires, les arbres GOSDT peuvent réduire le nombre de calculs nécessaires pour trouver la répartition optimale. Cela peut améliorer considérablement le temps de calcul, principalement lorsque vous travaillez avec des variables continues.
Dans les arbres GOSDT, les limites de division sont appliquées aux arbres partiels et elles sont utilisées pour éliminer de nombreux arbres de l'espace de recherche. Cela permet au modèle de se concentrer sur l'un des arbres restants (qui peut être un arbre partiel) et de l'évaluer plus efficacement. En réduisant l'espace de recherche, les arbres GOSDT peuvent rapidement trouver la division optimale et générer un modèle plus précis et interprétable.
Les arborescences GOSDT sont conçues pour gérer des données déséquilibrées, un défi courant dans de nombreuses applications du monde réel. Les arbres GOSDT traitent les données déséquilibrées à l'aide d'une métrique de précision pondérée qui tient compte de l'importance relative des différentes classes dans l'ensemble de données. Cela peut être particulièrement utile lorsqu'il existe un seuil prédéterminé pour le niveau de précision souhaité, car cela permet au modèle de se concentrer sur la classification correcte des échantillons qui sont plus critiques pour l'application.

Ces arbres optimisent directement le compromis entre la précision de l'entraînement et le nombre de feuilles.
Produit une excellente précision de formation et de test avec un nombre raisonnable de feuilles
Parfait pour les problèmes hautement non convexes
Plus efficace pour un petit ou moyen nombre de fonctionnalités. Mais il peut gérer jusqu'à des dizaines de milliers d'observations tout en conservant sa vitesse et sa précision.

Il est temps de tout voir en action !! Dans mon blog précédent, j'ai résolu un problème d'approbation de demande de prêt en utilisant la classification Keras. Nous utiliserons le même ensemble de données pour construire un arbre de classification à l'aide de GOSDT.

Code par auteur

Suprême Kaur est AVP chez Morgan Stanley. Elle est passionnée de fitness et de technologie. Elle est la fondatrice de la communauté appelée DataBuzz.