Kép fabrikasimf a Freepiken
Gyakran beszélek a megmagyarázható AI (XAI) módszerekről, és arról, hogyan lehet azokat adaptálni néhány olyan fájdalmas pont kezelésére, amelyek megtiltják a vállalatokat, hogy mesterséges intelligencia megoldásokat építsenek és telepítsenek. Ellenőrizheti az enyémet blog ha gyors frissítésre van szüksége az XAI módszerekről.
Az egyik ilyen XAI módszer a Decision Trees. Értelmezhetőségük és egyszerűségük miatt történelmileg jelentős vonzerőre tettek szert. Sokan azonban úgy gondolják, hogy a döntési fák nem lehetnek pontosak, mert egyszerűnek tűnnek, és az olyan mohó algoritmusok, mint a C4.5 és a CART, nem optimalizálják őket jól.
Az állítás részben érvényes, mivel a döntési fák egyes változatai, mint például a C4.5 és a CART, a következő hátrányokkal rendelkeznek:
- Hajlamos a túlillesztésre, különösen akkor, ha a fa túl mélyre kerül, és túl sok ága van. Ez gyenge teljesítményt eredményezhet új, nem látott adatok esetén.
- Lassabb lehet a nagy adatkészletek kiértékelése és előrejelzése, mivel ezek többszörös döntést igényelnek a bemeneti jellemzők értékei alapján.
- Nehéz lehet számukra a folytonos változók kezelése, mivel megkövetelik, hogy a fa a változót több, kisebb intervallumra ossza fel, ami növelheti a fa összetettségét, és megnehezítheti az adatok értelmes mintáinak azonosítását.
- A gyakran „kapzsi” algoritmusként ismert, minden lépésnél meghozza a helyileg optimális döntést anélkül, hogy figyelembe venné e döntések következményeit a jövőbeli lépésekre. A szuboptimális fák a CART kimenetei, de nem létezik „valódi” mérőszám ennek mérésére.
Kifinomultabb algoritmusok, mint például az Ensemble Learning Methods (együttes tanulási módszerek) állnak rendelkezésre ezeknek a problémáknak a megoldására. De gyakran „fekete doboznak” tekinthető az algoritmusok aláhúzott működése miatt.
A közelmúltban végzett munkák azonban kimutatták, hogy ha optimalizálja a döntési fákat (ahelyett, hogy olyan mohó módszereket használna, mint a C4.5 és a CART), meglepően pontosak lehetnek, sok esetben ugyanolyan pontosak, mint a fekete doboz. Az egyik ilyen algoritmus, amely segíthet optimalizálni és kezelni a fent említett hátrányokat, a GOSDT. A GOSDT egy algoritmus ritka optimális döntési fák előállítására.
A blog célja, hogy gyengéd bevezetőt adjon a GOSDT-hez, és példát mutasson be arra, hogyan valósítható meg egy adatkészleten.
Ez a blog néhány fantasztikus ember által publikált kutatási anyagon alapul. Olvashatod az újságot itt. Ez a blog nem helyettesíti ezt a dolgozatot, és nem is fog rendkívül matematikai részleteket érinteni. Ez egy útmutató az adattudományi szakemberek számára, hogy megismerjék ezt az algoritmust, és hasznosíthassák azt a mindennapi használat során.
Dióhéjban a GOSDT néhány fő kérdéssel foglalkozik:
- Jól kezelje a kiegyensúlyozatlan adatkészleteket, és optimalizálja a különböző célfüggvényeket (nem csak a pontosságot).
- Teljesen optimalizálja a fákat, és nem építi őket mohón.
- Majdnem olyan gyors, mint a mohó algoritmusok, mivel megoldja a döntési fák NP-kemény optimalizálási problémáit.
- A GOSDT fák dinamikus keresési teret használnak a hash fákon keresztül, hogy javítsák a modell hatékonyságát. A keresési tér korlátozásával és a hasonló változók azonosítására szolgáló korlátok használatával a GOSDT fák csökkenthetik az optimális felosztás megtalálásához szükséges számítások számát. Ez jelentősen javíthatja a számítási időt, főként folytonos változókkal való munka esetén.
- A GOSDT fákban a felosztás határai részfákra vonatkoznak, és sok fa eltávolítására szolgálnak a keresési térből. Ez lehetővé teszi a modell számára, hogy a fennmaradó fák egyikére összpontosítson (amely lehet részfa is), és hatékonyabban értékelheti azt. A keresési terület csökkentésével a GOSDT fák gyorsan megtalálják az optimális felosztást, és pontosabb és értelmezhetőbb modellt generálnak.
- A GOSDT fákat úgy tervezték, hogy kiegyensúlyozatlan adatokat kezeljenek, ami gyakori kihívás sok valós alkalmazásban. A GOSDT fák a kiegyensúlyozatlan adatokat olyan súlyozott pontossági mérőszám segítségével kezelik, amely figyelembe veszi az adatkészlet különböző osztályainak relatív fontosságát. Ez különösen akkor lehet hasznos, ha van egy előre meghatározott küszöbérték a kívánt pontossági szinthez, mivel lehetővé teszi a modell számára, hogy az alkalmazás szempontjából kritikusabb minták helyes osztályozására összpontosítson.
- Ezek a fák közvetlenül optimalizálják a kompromisszumot az edzés pontossága és a levelek száma között.
- Kiváló edzési és tesztpontosságot biztosít ésszerű számú levéllel
- Tökéletes az erősen nem domború problémákra
- Kis vagy közepes számú funkció esetén a leghatékonyabb. De akár több tízezer megfigyelést is képes kezelni, miközben megőrzi sebességét és pontosságát.
Ideje mindezt működés közben látni!! Előző blogomban egy hiteligénylés jóváhagyási problémát oldottam meg a Keras osztályozás segítségével. Ugyanezt az adatkészletet fogjuk használni egy osztályozási fa felépítéséhez a GOSDT használatával.
A szerző kódja
Supreet Kaur a Morgan Stanley AVP-je. Fitness és technológia rajongó. Ő a DataBuzz nevű közösség alapítója.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. Hozzáférés itt.
- Forrás: https://www.kdnuggets.com/2023/02/generalized-scalable-optimal-sparse-decision-treesgosdt.html?utm_source=rss&utm_medium=rss&utm_campaign=generalized-and-scalable-optimal-sparse-decision-treesgosdt
- a
- Rólunk
- felett
- pontosság
- pontos
- igazítani
- cím
- címek
- AI
- célok
- algoritmus
- algoritmusok
- Minden termék
- lehetővé teszi, hogy
- és a
- Alkalmazás
- alkalmazások
- alkalmazott
- jóváhagyás
- elérhető
- alapján
- mert
- válik
- között
- Fekete
- Blog
- Doboz
- ágak
- épít
- Épület
- hívott
- nem tud
- esetek
- kihívás
- ellenőrizze
- követelés
- osztályok
- besorolás
- Közös
- közösség
- Companies
- bonyolultság
- számítás
- Következmények
- figyelembe vett
- figyelembe véve
- úgy véli,
- konstrukció
- folyamatos
- kritikai
- napi
- dátum
- adat-tudomány
- adatkészletek
- üzlet
- döntés
- határozatok
- mély
- bevezetéséhez
- tervezett
- részletek
- különböző
- nehéz
- közvetlenül
- ne
- dinamikus
- minden
- Hatékony
- hatékonyság
- eredményesen
- megszüntetése
- rajongó
- értékelni
- példa
- kiváló
- létezik
- rendkívüli módon
- fantasztikus
- GYORS
- Jellemzők
- kevés
- Találjon
- alkalmasság
- Összpontosít
- következő
- alapító
- ból ből
- működése
- funkciók
- jövő
- generál
- kedves
- Ad
- Kapzsi
- útmutató
- fogantyú
- hash
- segít
- nagyon
- történelmileg
- Hogyan
- azonban
- HTTPS
- azonosítani
- végre
- fontosság
- javul
- in
- Növelje
- bemenet
- Bevezetés
- kérdések
- IT
- KDnuggets
- keras
- ismert
- nagy
- TANUL
- tanulás
- szint
- Tőkeáttétel
- hitel
- helyileg
- néz
- fontos
- fő problémák
- csinál
- KÉSZÍT
- Gyártás
- sok
- matematikai
- jelentőségteljes
- intézkedés
- közepes
- említett
- módszer
- mód
- metrikus
- modell
- több
- Morgan
- Morgan Stanley
- többszörös
- Szükség
- szükséges
- Új
- szám
- célkitűzés
- ONE
- optimálisan
- optimalizálás
- Optimalizálja
- Optimalizálja
- Fájdalom
- Fájdalom
- Papír
- különösen
- minták
- teljesítmény
- Plató
- Platón adatintelligencia
- PlatoData
- pont
- szegény
- Tippek
- be
- előző
- Probléma
- problémák
- tiltják
- közzétett
- Quick
- gyorsan
- Olvass
- való Világ
- ésszerű
- új
- csökkenteni
- csökkentő
- megmaradó
- szükség
- kutatás
- eredményez
- azonos
- skálázható
- Tudomány
- Keresés
- mutatott
- jelentős
- jelentősen
- hasonló
- Egyszerű
- egyszerűség
- kicsi
- kisebb
- Megoldások
- Megoldja
- néhány
- kifinomult
- Hely
- sebesség
- osztott
- Stanley
- Lépés
- Lépései
- ilyen
- Beszél
- tech
- teszt
- A
- azok
- ezer
- küszöb
- Keresztül
- idő
- nak nek
- is
- érintse
- vontatás
- Képzések
- Fák
- használ
- Értékek
- különféle
- ami
- míg
- lesz
- nélkül
- Munka
- dolgozó
- zephyrnet