Generalized And Scalable Optimal Sparse Decision Trees(GOSDT)

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Genelleştirilmiş ve Ölçeklenebilir Optimal Seyrek Karar Ağaçları (GOSDT)
Image fabrikasimf Freepik'te

Sıklıkla açıklanabilir AI(XAI) yöntemlerinden ve bunların, şirketlerin AI çözümleri oluşturmasını ve dağıtmasını yasaklayan birkaç sorunlu noktayı ele alacak şekilde nasıl uyarlanabileceğinden bahsediyorum. benimkini kontrol edebilirsin blog XAI yöntemleri hakkında hızlı bir bilgi tazelemeye ihtiyacınız varsa.

Böyle bir XAI yöntemi Karar Ağaçlarıdır. Yorumlanabilirlikleri ve basitlikleri nedeniyle tarihsel olarak önemli bir ilgi kazandılar. Ancak birçok kişi, basit göründükleri ve C4.5 ve CART gibi açgözlü algoritmalar onları iyi optimize etmediği için karar ağaçlarının doğru olamayacağını düşünüyor.

C4.5 ve CART gibi karar ağaçlarının bazı varyantları aşağıdaki dezavantajlara sahip olduğundan, iddia kısmen geçerlidir:

Özellikle ağaç çok fazla dalla çok derinleştiğinde aşırı sığmaya eğilimlidir. Bu, yeni, görünmeyen verilerde düşük performansa neden olabilir.
Giriş özelliklerinin değerlerine dayalı olarak birden çok karar vermeyi gerektirdiğinden, büyük veri kümelerini değerlendirmek ve tahminlerde bulunmak daha yavaş olabilir.
Ağacın değişkeni çoklu, daha küçük aralıklara bölmesini gerektirdiklerinden sürekli değişkenlerle uğraşmaları zor olabilir, bu da ağacın karmaşıklığını artırabilir ve verilerdeki anlamlı kalıpları tanımlamayı zorlaştırabilir.
Genellikle "açgözlü" algoritma olarak bilinir ve bu kararların gelecekteki adımlar üzerindeki sonuçlarını dikkate almadan her adımda yerel olarak en uygun kararı verir. Alt Optimal Ağaçlar, CART'ın bir çıktısıdır, ancak onu ölçecek "gerçek" bir metrik yoktur.

Topluluk Öğrenme Yöntemleri gibi daha gelişmiş algoritmalar bu sorunları çözmek için kullanılabilir. Ancak algoritmaların altı çizili işleyişi nedeniyle genellikle bir "kara kutu" olarak kabul edilebilir.

Bununla birlikte, son çalışmalar, karar ağaçlarını optimize ederseniz (C4.5 ve CART gibi açgözlü yöntemler kullanmak yerine), bunların şaşırtıcı bir şekilde, çoğu durumda kara kutu kadar doğru olabileceğini göstermiştir. Yukarıda belirtilen dezavantajların bazılarının optimize edilmesine ve ele alınmasına yardımcı olabilecek böyle bir algoritma GOSDT'dir. GOSDT, seyrek optimal karar ağaçları üretmek için bir algoritmadır.

Blog, GOSDT'ye nazik bir giriş yapmayı ve bir veri kümesi üzerinde nasıl uygulanabileceğine dair bir örnek sunmayı amaçlıyor.

Bu blog, birkaç harika insan tarafından yayınlanan bir araştırma makalesine dayanmaktadır. gazeteyi okuyabilirsin okuyun. Bu blog, bu makalenin yerine geçmez ve aşırı derecede matematiksel ayrıntılara değinmez. Bu, veri bilimi uygulayıcılarının bu algoritma hakkında bilgi edinmeleri ve günlük kullanım durumlarında bundan yararlanmaları için bir kılavuzdur.

Özetle, GOSDT birkaç önemli konuyu ele alır:

Dengesiz veri kümelerini iyi kullanın ve çeşitli objektif işlevleri (yalnızca doğruluk değil) optimize edin.
Ağaçları tamamen optimize eder ve açgözlülükle inşa etmez.
Karar ağaçları için NP-zor optimizasyon problemlerini çözdüğü için neredeyse açgözlü algoritmalar kadar hızlıdır.

GOSDT ağaçları, modelin verimliliğini artırmak için karma ağaçları aracılığıyla dinamik bir arama alanı kullanır. GOSDT ağaçları, arama alanını sınırlayarak ve benzer değişkenleri tanımlamak için sınırları kullanarak, en uygun ayrımı bulmak için gereken hesaplama sayısını azaltabilir. Bu, özellikle sürekli değişkenlerle çalışırken hesaplama süresini önemli ölçüde iyileştirebilir.
GOSDT ağaçlarında, bölme sınırları kısmi ağaçlara uygulanır ve birçok ağacı arama uzayından çıkarmak için kullanılır. Bu, modelin kalan ağaçlardan birine (kısmi ağaç olabilir) odaklanmasına ve onu daha verimli bir şekilde değerlendirmesine olanak tanır. GOSDT ağaçları, arama alanını azaltarak en uygun ayrımı hızla bulabilir ve daha doğru ve yorumlanabilir bir model oluşturabilir.
GOSDT ağaçları, birçok gerçek dünya uygulamasında ortak bir zorluk olan dengesiz verileri işlemek için tasarlanmıştır. GOSDT ağaçları, veri kümesindeki farklı sınıfların göreli önemini dikkate alan ağırlıklı bir doğruluk ölçüsü kullanarak dengesiz verileri ele alır. Bu, modelin uygulama için daha kritik olan örnekleri doğru bir şekilde sınıflandırmasına odaklanmasını sağladığından, istenen doğruluk düzeyi için önceden belirlenmiş bir eşik olduğunda özellikle yararlı olabilir.

Bu ağaçlar, eğitim doğruluğu ile yaprak sayısı arasındaki dengeyi doğrudan optimize eder.
Makul sayıda yaprakla mükemmel eğitim ve test doğruluğu sağlar
Son derece dışbükey olmayan problemler için mükemmel
Az veya orta sayıda özellik için en etkilidir. Ancak hızını ve doğruluğunu korurken on binlerce gözlemi işleyebilir.

Her şeyi iş başında görme zamanı!! Önceki blogumda Keras Sınıflandırma kullanarak bir kredi başvurusu onay sorununu çözmüştüm. GOSDT kullanarak bir sınıflandırma ağacı oluşturmak için aynı veri setini kullanacağız.

Yazara göre Kod

Yüce Kaur Morgan Stanley'de AVP'dir. O bir fitness ve teknoloji tutkunu. DataBuzz adlı topluluğun kurucusudur.