Verallgemeinerte und skalierbare optimale Sparse-Entscheidungsbäume (GOSDT)

Neuauflage von Plato

Verfolger: 0

Verallgemeinerte und skalierbare Optimal Sparse Decision Trees (GOSDT)
Bild von fabrikasimf auf Freepik

Ich spreche oft über erklärbare KI(XAI)-Methoden und wie sie angepasst werden können, um einige Schmerzpunkte zu beheben, die Unternehmen daran hindern, KI-Lösungen zu entwickeln und einzusetzen. Sie können meine überprüfen Blog wenn Sie eine schnelle Auffrischung der XAI-Methoden benötigen.

Eine solche XAI-Methode sind Entscheidungsbäume. Aufgrund ihrer Interpretierbarkeit und Einfachheit haben sie in der Vergangenheit erheblich an Zugkraft gewonnen. Viele denken jedoch, dass Entscheidungsbäume nicht genau sein können, weil sie einfach aussehen und gierige Algorithmen wie C4.5 und CART sie nicht gut optimieren.

Die Behauptung ist teilweise gültig, da einige Varianten von Entscheidungsbäumen wie C4.5 und CART die folgenden Nachteile haben:

Neigt zu Überanpassung, besonders wenn der Baum mit zu vielen Ästen zu tief wird. Dies kann zu einer schlechten Leistung bei neuen, ungesehenen Daten führen.
Das Auswerten und Treffen von Vorhersagen mit großen Datasets kann langsamer sein, da sie mehrere Entscheidungen basierend auf den Werten der Eingabe-Features treffen müssen.
Es kann für sie schwierig sein, mit kontinuierlichen Variablen umzugehen, da der Baum die Variable in mehrere kleinere Intervalle aufteilen muss, was die Komplexität des Baums erhöhen und es schwierig machen kann, aussagekräftige Muster in den Daten zu identifizieren.
Oft als „greedy“-Algorithmus bekannt, trifft er bei jedem Schritt die lokal optimale Entscheidung, ohne die Konsequenzen dieser Entscheidungen für zukünftige Schritte zu berücksichtigen. Suboptimale Bäume sind eine Ausgabe von CART, aber es gibt keine „echte“ Metrik, um sie zu messen.

Anspruchsvollere Algorithmen, wie z. B. Ensemble-Lernmethoden, sind verfügbar, um diese Probleme anzugehen. Aufgrund der unterstrichenen Funktionsweise der Algorithmen kann es jedoch oft als „Black Box“ betrachtet werden.

Jüngste Arbeiten haben jedoch gezeigt, dass Entscheidungsbäume, wenn Sie sie optimieren (anstatt gierige Methoden wie C4.5 und CART zu verwenden), überraschend genau sein können, in vielen Fällen so genau wie die Black Box. Ein solcher Algorithmus, der helfen kann, einige der oben genannten Nachteile zu optimieren und anzugehen, ist GOSDT. GOSDT ist ein Algorithmus zum Erzeugen spärlicher optimaler Entscheidungsbäume.

Der Blog zielt darauf ab, eine sanfte Einführung in GOSDT zu geben und ein Beispiel dafür zu präsentieren, wie es auf einem Datensatz implementiert werden kann.

Dieser Blog basiert auf einer Forschungsarbeit, die von einigen fantastischen Leuten veröffentlicht wurde. Sie können die Zeitung lesen hier. Dieser Blog ist kein Ersatz für dieses Papier und wird auch keine extrem mathematischen Details ansprechen. Dies ist ein Leitfaden für Praktiker der Datenwissenschaft, um mehr über diesen Algorithmus zu erfahren und ihn in ihren täglichen Anwendungsfällen zu nutzen.

Kurz gesagt, GOSDT spricht einige wichtige Probleme an:

Gehen Sie gut mit unausgewogenen Datensätzen um und optimieren Sie verschiedene Zielfunktionen (nicht nur die Genauigkeit).
Optimiert Bäume vollständig und baut sie nicht gierig auf.
Es ist fast so schnell wie gierige Algorithmen, da es NP-schwere Optimierungsprobleme für Entscheidungsbäume löst.

GOSDT-Bäume verwenden einen dynamischen Suchraum durch Hash-Bäume, um die Effizienz des Modells zu verbessern. Durch die Begrenzung des Suchraums und die Verwendung von Grenzen zur Identifizierung ähnlicher Variablen können GOSDT-Bäume die Anzahl der Berechnungen reduzieren, die erforderlich sind, um die optimale Aufteilung zu finden. Dies kann die Rechenzeit erheblich verbessern, vor allem wenn mit kontinuierlichen Variablen gearbeitet wird.
In GOSDT-Bäumen werden die Grenzen zum Aufteilen auf Teilbäume angewendet und sie werden verwendet, um viele Bäume aus dem Suchraum zu eliminieren. Dadurch kann sich das Modell auf einen der verbleibenden Bäume (der ein Teilbaum sein kann) konzentrieren und ihn effizienter auswerten. Durch die Reduzierung des Suchraums können GOSDT-Bäume schnell die optimale Aufteilung finden und ein genaueres und interpretierbares Modell generieren.
GOSDT-Bäume wurden entwickelt, um unausgeglichene Daten zu verarbeiten, eine häufige Herausforderung in vielen realen Anwendungen. GOSDT-Bäume behandeln unausgewogene Daten mithilfe einer gewichteten Genauigkeitsmetrik, die die relative Bedeutung verschiedener Klassen im Datensatz berücksichtigt. Dies kann besonders nützlich sein, wenn es einen vordefinierten Schwellenwert für das gewünschte Genauigkeitsniveau gibt, da es dem Modell ermöglicht, sich auf die korrekte Klassifizierung von Proben zu konzentrieren, die für die Anwendung kritischer sind.

Diese Bäume optimieren direkt den Kompromiss zwischen Trainingsgenauigkeit und der Anzahl der Blätter.
Erzeugt eine hervorragende Trainings- und Testgenauigkeit mit einer angemessenen Anzahl von Blättern
Perfekt für stark nicht konvexe Probleme
Am effektivsten für eine kleine oder mittlere Anzahl von Funktionen. Aber es kann bis zu Zehntausende von Beobachtungen verarbeiten, während es seine Geschwindigkeit und Genauigkeit beibehält.

Zeit, alles in Aktion zu sehen!! In meinem vorherigen Blog habe ich ein Problem mit der Genehmigung von Kreditanträgen mithilfe der Keras-Klassifizierung gelöst. Wir werden denselben Datensatz verwenden, um einen Klassifikationsbaum mit GOSDT zu erstellen.

Code nach Autor

Supreet Kaur ist AVP bei Morgan Stanley. Sie ist eine Fitness- und Technik-Enthusiastin. Sie ist die Gründerin der Community namens DataBuzz.