Üldised ja skaleeritavad optimaalsed hõredad otsustuspuud (GOSDT)

Taasavaldanud Platon

järgijaid: 0

Üldised ja skaleeritavad optimaalsed hõredad otsustuspuud (GOSDT)
Image by fabrikasimf kohta Freepik

Ma räägin sageli seletatavatest tehisintellekti (XAI) meetoditest ja sellest, kuidas neid saab kohandada, et lahendada mõned valupunktid, mis keelavad ettevõtetel AI-lahendusi luua ja juurutada. Saate minu kontrollida blogi kui vajate XAI meetodite kiiret värskendust.

Üks selline XAI meetod on otsustuspuud. Need on oma tõlgendatavuse ja lihtsuse tõttu saanud ajalooliselt märkimisväärse tõmbejõu. Paljud arvavad aga, et otsustuspuud ei saa olla täpsed, kuna need näevad lihtsad välja ning ahned algoritmid nagu C4.5 ja CART ei optimeeri neid hästi.

Nõue on osaliselt kehtiv, kuna mõnel otsustuspuude variandil, nagu C4.5 ja CART, on järgmised puudused:

Kalduvus üle istuda, eriti kui puu muutub liiga sügavaks ja liiga palju oksi. Selle tulemuseks võib olla halb jõudlus uute, nähtamatute andmete puhul.
Suurte andmekogumite puhul võib hindamine ja prognooside tegemine olla aeglasem, kuna need nõuavad sisendfunktsioonide väärtuste põhjal mitu otsust.
Neil võib olla raske toime tulla pidevate muutujatega, kuna need nõuavad, et puu jagaks muutuja mitmeks väiksemaks intervalliks, mis võib suurendada puu keerukust ja raskendada tähenduslike mustrite tuvastamist andmetes.
Sageli tuntud kui "ahne" algoritm, teeb see igal sammul kohalikult optimaalse otsuse, arvestamata nende otsuste tagajärgi tulevastele sammudele. Suboptimaalsed puud on CART-i väljund, kuid selle mõõtmiseks pole "päris" mõõdikut.

Nende probleemide lahendamiseks on saadaval keerukamad algoritmid, näiteks ansambliõppe meetodid. Kuid sageli võib seda algoritmide allajoonitud toimimise tõttu pidada "mustaks kastiks".

Hiljutine töö on aga näidanud, et kui optimeerite otsustuspuid (selle asemel, et kasutada ahneid meetodeid nagu C4.5 ja CART), võivad need olla üllatavalt täpsed, paljudel juhtudel sama täpsed kui must kast. Üks selline algoritm, mis võib aidata optimeerida ja lahendada mõningaid ülalmainitud puudusi, on GOSDT. GOSDT on algoritm hõredate optimaalsete otsustuspuude loomiseks.

Blogi eesmärk on anda õrn sissejuhatus GOSDT-sse ja tuua näide selle kohta, kuidas seda andmestikku rakendada.

See ajaveeb põhineb mõne fantastilise inimese avaldatud uurimistööl. Saate lehte lugeda siin. See ajaveeb ei asenda seda artiklit ega puuduta ka ülimalt matemaatilisi detaile. See on juhend andmeteaduse praktikutele selle algoritmi tundmaõppimiseks ja igapäevaseks kasutamiseks.

Lühidalt, GOSDT käsitleb mõnda peamist probleemi:

Käsitsege hästi tasakaalustamata andmekogumeid ja optimeerige erinevaid eesmärgifunktsioone (mitte ainult täpsust).
Optimeerib puid täielikult ega ehita neid ahnelt.
See on peaaegu sama kiire kui ahned algoritmid, kuna see lahendab NP-rasked optimeerimisprobleemid otsustuspuude jaoks.

GOSDT-puud kasutavad räsipuude kaudu dünaamilist otsinguruumi, et parandada mudeli tõhusust. Piirates otsinguruumi ja kasutades piire sarnaste muutujate tuvastamiseks, saavad GOSDT puud vähendada optimaalse jaotuse leidmiseks vajalike arvutuste arvu. See võib oluliselt parandada arvutusaega, peamiselt pidevate muutujatega töötamisel.
GOSDT puude puhul rakendatakse poolitamise piire osalistele puudele ja neid kasutatakse paljude puude otsinguruumist eemaldamiseks. See võimaldab mudelil keskenduda ühele ülejäänud puule (mis võib olla osaline puu) ja seda tõhusamalt hinnata. Otsinguruumi vähendades suudavad GOSDT puud kiiresti leida optimaalse jaotuse ning luua täpsema ja tõlgendatavama mudeli.
GOSDT-puud on loodud tasakaalustamata andmete käsitlemiseks, mis on paljudes reaalsetes rakendustes tavaline väljakutse. GOSDT puud käsitlevad tasakaalustamata andmeid, kasutades kaalutud täpsuse mõõdikut, mis arvestab erinevate klasside suhtelist tähtsust andmekogumis. See võib olla eriti kasulik siis, kui soovitud täpsustaseme jaoks on eelnevalt kindlaks määratud lävi, kuna see võimaldab mudelil keskenduda proovide õigele klassifitseerimisele, mis on rakenduse jaoks kriitilisemad.

Need puud optimeerivad otseselt treeningu täpsuse ja lehtede arvu vahelist kompromissi.
Annab suurepärase treeningu ja testi täpsuse mõistliku arvu lehtedega
Ideaalne väga mittekumerate probleemide jaoks
Kõige tõhusam väikese või keskmise arvu funktsioonide puhul. Kuid see suudab toime tulla kuni kümnete tuhandete vaatlustega, säilitades samal ajal oma kiiruse ja täpsuse.

Aeg seda kõike tegevuses näha!! Oma eelmises blogis lahendasin Kerase klassifikatsiooni abil laenutaotluse kinnitamise probleemi. Kasutame sama andmestikku GOSDT abil klassifikatsioonipuu koostamiseks.

Autori kood

Supreet Kaur on Morgan Stanley AVP. Ta on fitnessi ja tehnika entusiast. Ta on kogukonna nimega DataBuzz asutaja.