Generalized And Scalable Optimal Sparse Decision Trees(GOSDT)

Republicat de Platon

Urmaritori: 0

Arbori de decizie rari optimi generalizati si scalabili (GOSDT)
Imagini de fabrikasimf pe Freepik

Vorbesc adesea despre metode explicabile AI(XAI) și despre modul în care acestea pot fi adaptate pentru a aborda câteva puncte dure care interzic companiilor să construiască și să implementeze soluții AI. Poți să-mi verifici blogul dacă aveți nevoie de o actualizare rapidă a metodelor XAI.

O astfel de metodă XAI este Decision Trees. Ele au câștigat o tracțiune semnificativă din punct de vedere istoric datorită interpretării și simplității lor. Cu toate acestea, mulți cred că arborii de decizie nu pot fi exacti, deoarece par simpli, iar algoritmii lacomi precum C4.5 și CART nu îi optimizează bine.

Afirmația este parțial valabilă, deoarece unele variante ale arborilor de decizie, cum ar fi C4.5 și CART, au următoarele dezavantaje:

Predispus la supraadaptare, mai ales când copacul devine prea adânc cu prea multe ramuri. Acest lucru poate duce la performanțe slabe pe date noi, nevăzute.
Evaluarea și realizarea de predicții cu seturi mari de date poate fi mai lent, deoarece necesită luarea de decizii multiple pe baza valorilor caracteristicilor de intrare.
Le poate fi dificil să se ocupe de variabile continue, deoarece necesită ca arborele să împartă variabila în mai multe intervale mai mici, ceea ce poate crește complexitatea arborelui și poate face dificilă identificarea modelelor semnificative în date.
Cunoscut adesea ca algoritmul „lacom”, ia decizia optimă local la fiecare pas, fără a lua în considerare consecințele acestor decizii asupra pașilor viitori. Arborii sub optimi sunt o ieșire a CART, dar nu există o măsurătoare „reală” care să o măsoare.

Algoritmi mai sofisticați, cum ar fi metodele de învățare ansamblu, sunt disponibili pentru a rezolva aceste probleme. Dar adesea poate fi considerată o „cutie neagră” din cauza funcționării subliniate a algoritmilor.

Cu toate acestea, lucrările recente au arătat că, dacă optimizați arborii de decizie (în loc să utilizați metode lacome precum C4.5 și CART), aceștia pot fi surprinzător de precise, în multe cazuri, la fel de precise ca cutia neagră. Un astfel de algoritm care poate ajuta la optimizarea și rezolvarea unora dintre dezavantajele menționate mai sus este GOSDT. GOSDT este un algoritm pentru producerea arborilor de decizie optimi rare.

Blogul își propune să ofere o introducere blândă în GOSDT și să prezinte un exemplu despre cum poate fi implementat pe un set de date.

Acest blog se bazează pe o lucrare de cercetare publicată de câțiva oameni fantastici. Puteți citi ziarul aici. Acest blog nu este un substitut pentru această lucrare și nici nu va atinge detalii extrem de matematice. Acesta este un ghid pentru practicienii din știința datelor pentru a afla despre acest algoritm și a-l utiliza în cazurile lor de utilizare zilnică.

Pe scurt, GOSDT abordează câteva probleme majore:

Gestionați bine seturile de date dezechilibrate și optimizați diferite funcții obiective (nu doar acuratețea).
Optimizează pe deplin copacii și nu îi construiește cu lăcomie.
Este aproape la fel de rapid ca algoritmii lacomi, deoarece rezolvă problemele de optimizare NP-hard pentru arbori de decizie.

Arborii GOSDT folosesc un spațiu de căutare dinamic prin arbori hash pentru a îmbunătăți eficiența modelului. Prin limitarea spațiului de căutare și prin utilizarea limitelor pentru a identifica variabile similare, arborii GOSDT pot reduce numărul de calcule necesare pentru a găsi împărțirea optimă. Acest lucru poate îmbunătăți semnificativ timpul de calcul, în principal atunci când se lucrează cu variabile continue.
În arborii GOSDT, limitele de împărțire sunt aplicate arborilor parțiali și sunt folosite pentru a elimina mulți arbori din spațiul de căutare. Acest lucru permite modelului să se concentreze pe unul dintre copacii rămași (care poate fi un arbore parțial) și să-l evalueze mai eficient. Prin reducerea spațiului de căutare, arborii GOSDT pot găsi rapid împărțirea optimă și pot genera un model mai precis și mai interpretabil.
Arborii GOSDT sunt proiectați pentru a gestiona date dezechilibrate, o provocare comună în multe aplicații din lumea reală. Arborii GOSDT abordează datele dezechilibrate folosind o măsurătoare de acuratețe ponderată care ia în considerare importanța relativă a diferitelor clase în setul de date. Acest lucru poate fi deosebit de util atunci când există un prag predeterminat pentru nivelul dorit de precizie, deoarece permite modelului să se concentreze pe clasificarea corectă a eșantioanelor care sunt mai critice pentru aplicație.

Acești arbori optimizează direct compromisul dintre precizia antrenamentului și numărul de frunze.
Produce antrenament excelent și precizie de testare cu un număr rezonabil de frunze
Perfect pentru probleme foarte neconvexe
Cel mai eficient pentru un număr mic sau mediu de caracteristici. Dar poate gestiona până la zeci de mii de observații, menținând în același timp viteza și acuratețea.

E timpul să vezi totul în acțiune!! În blogul meu anterior, am rezolvat o problemă de aprobare a cererii de împrumut folosind Clasificarea Keras. Vom folosi același set de date pentru a construi un arbore de clasificare folosind GOSDT.

Cod de autor

Supremul Kaur este AVP la Morgan Stanley. Este o pasionată de fitness și tehnologie. Ea este fondatoarea comunității numită DataBuzz.