Általános és méretezhető, optimális ritka döntési fák (GOSDT)

Újra kiadta Platón

Követő: 0

Általánosított és méretezhető, optimális ritka döntési fák (GOSDT)
Kép fabrikasimf a Freepiken

Gyakran beszélek a megmagyarázható AI (XAI) módszerekről, és arról, hogyan lehet azokat adaptálni néhány olyan fájdalmas pont kezelésére, amelyek megtiltják a vállalatokat, hogy mesterséges intelligencia megoldásokat építsenek és telepítsenek. Ellenőrizheti az enyémet blog ha gyors frissítésre van szüksége az XAI módszerekről.

Az egyik ilyen XAI módszer a Decision Trees. Értelmezhetőségük és egyszerűségük miatt történelmileg jelentős vonzerőre tettek szert. Sokan azonban úgy gondolják, hogy a döntési fák nem lehetnek pontosak, mert egyszerűnek tűnnek, és az olyan mohó algoritmusok, mint a C4.5 és a CART, nem optimalizálják őket jól.

Az állítás részben érvényes, mivel a döntési fák egyes változatai, mint például a C4.5 és a CART, a következő hátrányokkal rendelkeznek:

Hajlamos a túlillesztésre, különösen akkor, ha a fa túl mélyre kerül, és túl sok ága van. Ez gyenge teljesítményt eredményezhet új, nem látott adatok esetén.
Lassabb lehet a nagy adatkészletek kiértékelése és előrejelzése, mivel ezek többszörös döntést igényelnek a bemeneti jellemzők értékei alapján.
Nehéz lehet számukra a folytonos változók kezelése, mivel megkövetelik, hogy a fa a változót több, kisebb intervallumra ossza fel, ami növelheti a fa összetettségét, és megnehezítheti az adatok értelmes mintáinak azonosítását.
A gyakran „kapzsi” algoritmusként ismert, minden lépésnél meghozza a helyileg optimális döntést anélkül, hogy figyelembe venné e döntések következményeit a jövőbeli lépésekre. A szuboptimális fák a CART kimenetei, de nem létezik „valódi” mérőszám ennek mérésére.

Kifinomultabb algoritmusok, mint például az Ensemble Learning Methods (együttes tanulási módszerek) állnak rendelkezésre ezeknek a problémáknak a megoldására. De gyakran „fekete doboznak” tekinthető az algoritmusok aláhúzott működése miatt.

A közelmúltban végzett munkák azonban kimutatták, hogy ha optimalizálja a döntési fákat (ahelyett, hogy olyan mohó módszereket használna, mint a C4.5 és a CART), meglepően pontosak lehetnek, sok esetben ugyanolyan pontosak, mint a fekete doboz. Az egyik ilyen algoritmus, amely segíthet optimalizálni és kezelni a fent említett hátrányokat, a GOSDT. A GOSDT egy algoritmus ritka optimális döntési fák előállítására.

A blog célja, hogy gyengéd bevezetőt adjon a GOSDT-hez, és példát mutasson be arra, hogyan valósítható meg egy adatkészleten.

Ez a blog néhány fantasztikus ember által publikált kutatási anyagon alapul. Olvashatod az újságot itt. Ez a blog nem helyettesíti ezt a dolgozatot, és nem is fog rendkívül matematikai részleteket érinteni. Ez egy útmutató az adattudományi szakemberek számára, hogy megismerjék ezt az algoritmust, és hasznosíthassák azt a mindennapi használat során.

Dióhéjban a GOSDT néhány fő kérdéssel foglalkozik:

Jól kezelje a kiegyensúlyozatlan adatkészleteket, és optimalizálja a különböző célfüggvényeket (nem csak a pontosságot).
Teljesen optimalizálja a fákat, és nem építi őket mohón.
Majdnem olyan gyors, mint a mohó algoritmusok, mivel megoldja a döntési fák NP-kemény optimalizálási problémáit.

A GOSDT fák dinamikus keresési teret használnak a hash fákon keresztül, hogy javítsák a modell hatékonyságát. A keresési tér korlátozásával és a hasonló változók azonosítására szolgáló korlátok használatával a GOSDT fák csökkenthetik az optimális felosztás megtalálásához szükséges számítások számát. Ez jelentősen javíthatja a számítási időt, főként folytonos változókkal való munka esetén.
A GOSDT fákban a felosztás határai részfákra vonatkoznak, és sok fa eltávolítására szolgálnak a keresési térből. Ez lehetővé teszi a modell számára, hogy a fennmaradó fák egyikére összpontosítson (amely lehet részfa is), és hatékonyabban értékelheti azt. A keresési terület csökkentésével a GOSDT fák gyorsan megtalálják az optimális felosztást, és pontosabb és értelmezhetőbb modellt generálnak.
A GOSDT fákat úgy tervezték, hogy kiegyensúlyozatlan adatokat kezeljenek, ami gyakori kihívás sok valós alkalmazásban. A GOSDT fák a kiegyensúlyozatlan adatokat olyan súlyozott pontossági mérőszám segítségével kezelik, amely figyelembe veszi az adatkészlet különböző osztályainak relatív fontosságát. Ez különösen akkor lehet hasznos, ha van egy előre meghatározott küszöbérték a kívánt pontossági szinthez, mivel lehetővé teszi a modell számára, hogy az alkalmazás szempontjából kritikusabb minták helyes osztályozására összpontosítson.

Ezek a fák közvetlenül optimalizálják a kompromisszumot az edzés pontossága és a levelek száma között.
Kiváló edzési és tesztpontosságot biztosít ésszerű számú levéllel
Tökéletes az erősen nem domború problémákra
Kis vagy közepes számú funkció esetén a leghatékonyabb. De akár több tízezer megfigyelést is képes kezelni, miközben megőrzi sebességét és pontosságát.

Ideje mindezt működés közben látni!! Előző blogomban egy hiteligénylés jóváhagyási problémát oldottam meg a Keras osztályozás segítségével. Ugyanezt az adatkészletet fogjuk használni egy osztályozási fa felépítéséhez a GOSDT használatával.

A szerző kódja

Supreet Kaur a Morgan Stanley AVP-je. Fitness és technológia rajongó. Ő a DataBuzz nevű közösség alapítója.