Generalized And Scalable Optimal Sparse Decision Trees(GOSDT)

Julkaissut Platon

seuraajia: 0

Yleistetyt ja skaalautuvat optimaaliset harvat päätöspuut (GOSDT)
Kuva fabrikasimf Freepikissä

Puhun usein selitettävistä tekoälymenetelmistä (XAI) ja siitä, kuinka niitä voidaan mukauttaa käsittelemään muutamia kipukohtia, jotka estävät yrityksiä rakentamasta ja ottamasta käyttöön tekoälyratkaisuja. Voit tarkistaa minun blogi jos tarvitset nopeaa päivitystä XAI-menetelmistä.

Yksi tällainen XAI-menetelmä on päätöspuut. Ne ovat saavuttaneet historiallisesti merkittävää vetovoimaa tulkittavuutensa ja yksinkertaisuutensa ansiosta. Monet kuitenkin ajattelevat, että päätöspuut eivät voi olla tarkkoja, koska ne näyttävät yksinkertaisilta, ja ahneet algoritmit, kuten C4.5 ja CART, eivät optimoi niitä hyvin.

Väite on osittain pätevä, koska joillakin päätöspuiden muunnelmilla, kuten C4.5 ja CART, on seuraavat haitat:

Altis istua liikaa, varsinkin kun puusta tulee liian syvä ja liian monta oksaa. Tämä voi heikentää suorituskykyä uusilla, näkymättömillä tiedoilla.
Suurilla tietojoukoilla arvioiminen ja ennusteiden tekeminen voi olla hitaampaa, koska ne edellyttävät useiden päätösten tekemistä syöteominaisuuksien arvojen perusteella.
Heidän voi olla vaikeaa käsitellä jatkuvia muuttujia, koska ne vaativat puun jakamaan muuttujan useisiin pienempiin aikaväleihin, mikä voi lisätä puun monimutkaisuutta ja vaikeuttaa merkityksellisten kuvioiden tunnistamista tiedoista.
Usein "ahneeksi" algoritmiksi kutsuttu se tekee paikallisesti optimaalisen päätöksen jokaisessa vaiheessa ottamatta huomioon näiden päätösten seurauksia tuleviin vaiheisiin. Suboptimaaliset puut ovat CARTin tulos, mutta sen mittaamiseen ei ole olemassa "todellista" mittaria.

Näiden ongelmien ratkaisemiseksi on saatavilla kehittyneempiä algoritmeja, kuten Ensemble Learning Methods -menetelmät. Mutta usein sitä voidaan pitää "mustana laatikona" algoritmien alleviivatun toiminnan vuoksi.

Viimeaikaiset työt ovat kuitenkin osoittaneet, että jos optimoit päätöspuita (sen sijaan, että käytät ahneita menetelmiä, kuten C4.5 ja CART), ne voivat olla yllättävän tarkkoja, monissa tapauksissa yhtä tarkkoja kuin musta laatikko. Yksi tällainen algoritmi, joka voi auttaa optimoimaan ja korjaamaan joitain edellä mainituista haitoista, on GOSDT. GOSDT on algoritmi harvalukuisten optimaalisten päätöspuiden tuottamiseksi.

Blogin tarkoituksena on antaa lempeä johdatus GOSDT:hen ja esitellä esimerkki siitä, kuinka se voidaan toteuttaa tietojoukossa.

Tämä blogi perustuu muutamien fantastisten ihmisten julkaisemaan tutkimuspaperiin. Voit lukea lehden tätä. Tämä blogi ei korvaa tätä paperia, eikä se koske äärimmäisen matemaattisia yksityiskohtia. Tämä on opas datatieteen ammattilaisille, jotka voivat oppia tästä algoritmista ja hyödyntää sitä päivittäisessä käytössään.

Lyhyesti sanottuna GOSDT käsittelee muutamia tärkeitä kysymyksiä:

Käsittele epätasapainoisia tietojoukkoja hyvin ja optimoi erilaisia tavoitefunktioita (ei vain tarkkuutta).
Optimoi puut täysin eikä rakenna niitä ahneesti.
Se on melkein yhtä nopea kuin ahneet algoritmit, koska se ratkaisee NP-kovia optimointiongelmia päätöspuille.

GOSDT-puut käyttävät dynaamista hakuavaruutta hash-puiden kautta mallin tehokkuuden parantamiseksi. Rajoittamalla hakuavaruutta ja käyttämällä rajoja samanlaisten muuttujien tunnistamiseen, GOSDT-puut voivat vähentää optimaalisen jaon löytämiseen tarvittavien laskelmien määrää. Tämä voi merkittävästi parantaa laskenta-aikaa, lähinnä jatkuvien muuttujien kanssa työskennellessä.
GOSDT-puissa halkaisun rajoja sovelletaan osittaisiin puihin, ja niitä käytetään poistamaan monia puita hakuavaruudesta. Tämä antaa mallille mahdollisuuden keskittyä yhteen jäljellä olevista puista (joka voi olla osittainen puu) ja arvioida sitä tehokkaammin. Vähentämällä hakutilaa GOSDT-puut voivat nopeasti löytää optimaalisen jaon ja luoda tarkemman ja tulkittavissa olevan mallin.
GOSDT-puut on suunniteltu käsittelemään epätasapainoista dataa, joka on yleinen haaste monissa tosielämän sovelluksissa. GOSDT-puut käsittelevät epätasapainoista tietoa käyttämällä painotettua tarkkuusmetriikkaa, joka ottaa huomioon tietojoukon eri luokkien suhteellisen merkityksen. Tämä voi olla erityisen hyödyllistä, kun halutulle tarkkuustasolle on ennalta määrätty kynnys, koska sen avulla malli voi keskittyä sovelluksen kannalta kriittisempien näytteiden oikeaan luokitteluun.

Nämä puut optimoivat suoraan harjoituksen tarkkuuden ja lehtien määrän välisen kompromissin.
Tuottaa erinomaisen harjoitus- ja testitarkkuuden kohtuullisella määrällä lehtiä
Täydellinen erittäin ei-kupereihin ongelmiin
Tehokkain pienille tai keskisuurille ominaisuuksille. Mutta se pystyy käsittelemään jopa kymmeniä tuhansia havaintoja säilyttäen samalla nopeudensa ja tarkkuutensa.

Aika nähdä kaikki toiminnassa!! Edellisessä blogissani ratkaisin lainahakemuksen hyväksymisongelman Keras-luokituksen avulla. Käytämme samaa tietojoukkoa luokittelupuun rakentamiseen GOSDT:n avulla.

Kirjoittajan koodi

Supreet Kaur on AVP Morgan Stanleyssä. Hän on fitness- ja tekniikan ystävä. Hän on DataBuzz-nimisen yhteisön perustaja.