Generaliserte og skalerbare Optimale Sparse Decision Trees (GOSDT)

Publisert av Platon

Følgere: 0

Generaliserte og skalerbare Optimal Sparse Decision Trees (GOSDT)
Bilde av fabrikasimf på Freepik

Jeg snakker ofte om forklarbare AI(XAI)-metoder og hvordan de kan tilpasses for å løse noen få smertepunkter som forbyr bedrifter å bygge og distribuere AI-løsninger. Du kan sjekke min blog hvis du trenger en rask oppfriskning av XAI-metoder.

En slik XAI-metode er Decision Trees. De har fått betydelig gjennomslag historisk sett på grunn av deres tolkbarhet og enkelhet. Imidlertid tror mange at beslutningstrær ikke kan være nøyaktige fordi de ser enkle ut, og grådige algoritmer som C4.5 og CART optimaliserer dem ikke godt.

Påstanden er delvis gyldig da noen varianter av beslutningstrær, som C4.5 og CART, har følgende ulemper:

Utsatt for overfitting, spesielt når treet blir for dypt med for mange greiner. Dette kan resultere i dårlig ytelse på nye, usynlige data.
Det kan være tregere å evaluere og lage spådommer med store datasett fordi de krever flere beslutninger basert på verdiene til inndatafunksjonene.
Det kan være vanskelig for dem å håndtere kontinuerlige variabler da de krever at treet deler variabelen i flere, mindre intervaller, noe som kan øke kompleksiteten til treet og gjøre det vanskelig å identifisere meningsfulle mønstre i dataene.
Ofte kjent som den "grådige" algoritmen, tar den den lokalt optimale avgjørelsen på hvert trinn uten å vurdere konsekvensene av disse avgjørelsene på fremtidige trinn. Sub Optimal Trees er en utgang av CART, men det finnes ingen "ekte" beregninger for å måle det.

Mer sofistikerte algoritmer, for eksempel Ensemble Learning Methods, er tilgjengelige for å løse disse problemene. Men kan ofte betraktes som en "svart boks" på grunn av den understrekede funksjonen til algoritmene.

Nyere arbeid har imidlertid vist at hvis du optimaliserer beslutningstrær (i stedet for å bruke grådige metoder som C4.5 og CART), kan de være overraskende nøyaktige, i mange tilfeller like nøyaktige som den svarte boksen. En slik algoritme som kan bidra til å optimalisere og adressere noen av ulempene nevnt ovenfor er GOSDT. GOSDT er en algoritme for å produsere sparsomme optimale beslutningstrær.

Bloggen har som mål å gi en skånsom introduksjon til GOSDT og presentere et eksempel på hvordan det kan implementeres på et datasett.

Denne bloggen er basert på en forskningsartikkel publisert av noen få fantastiske mennesker. Du kan lese avisen her.. Denne bloggen er ikke en erstatning for denne artikkelen, og den vil heller ikke berøre ekstremt matematiske detaljer. Dette er en veiledning for datavitenskapsutøvere for å lære om denne algoritmen og utnytte den i deres daglige brukssaker.

I et nøtteskall tar GOSDT opp noen få hovedproblemer:

Håndter ubalanserte datasett godt og optimer ulike objektivfunksjoner (ikke bare nøyaktighet).
Fullt optimaliserer trær og konstruerer dem ikke grådig.
Det er nesten like raskt som grådige algoritmer som det løser NP-harde optimaliseringsproblemer for beslutningstrær.

GOSDT-trær bruker et dynamisk søkerom gjennom hash-trær for å forbedre modellens effektivitet. Ved å begrense søkeområdet og bruke grenser for å identifisere lignende variabler, kan GOSDT-trær redusere antall beregninger som trengs for å finne den optimale splittelsen. Dette kan forbedre beregningstiden betydelig, hovedsakelig når du arbeider med kontinuerlige variabler.
I GOSDT-trær brukes grensene for deling på deltrær, og de brukes til å eliminere mange trær fra søkeområdet. Dette gjør at modellen kan fokusere på et av de gjenværende trærne (som kan være et deltre) og evaluere det mer effektivt. Ved å redusere søkeområdet kan GOSDT-trær raskt finne den optimale splittelsen og generere en mer nøyaktig og tolkbar modell.
GOSDT-trær er designet for å håndtere ubalanserte data, en vanlig utfordring i mange virkelige applikasjoner. GOSDT-trær adresserer ubalanserte data ved å bruke en vektet nøyaktighetsmåling som vurderer den relative betydningen av forskjellige klasser i datasettet. Dette kan være spesielt nyttig når det er en forhåndsbestemt terskel for ønsket nøyaktighetsnivå, da det lar modellen fokusere på riktig klassifisering av prøver som er mer kritiske for applikasjonen.

Disse trærne optimaliserer direkte avveiningen mellom treningsnøyaktighet og antall blader.
Gir utmerket trenings- og testnøyaktighet med et rimelig antall blader
Perfekt for svært ikke-konvekse problemer
Mest effektivt for små eller middels mange funksjoner. Men den kan håndtere opptil titusenvis av observasjoner samtidig som den opprettholder hastigheten og nøyaktigheten.

På tide å se alt i aksjon!! I min forrige blogg løste jeg et problem med godkjenning av lånesøknader ved å bruke Keras Classification. Vi vil bruke det samme datasettet for å bygge et klassifiseringstre ved å bruke GOSDT.

Kode etter forfatter

Supreet Kaur er AVP hos Morgan Stanley. Hun er en fitness- og teknologientusiast. Hun er grunnleggeren av fellesskapet kalt DataBuzz.