Pohon Keputusan Jarang Optimal yang Umum Dan Dapat Diskalakan (GOSDT)

Diterbitkan Ulang Oleh Plato

Followers: 0

Pohon Keputusan Jarang Optimal yang Digeneralisasikan dan Dapat Diskalakan (GOSDT)
Image by pabrikasimf di Freepik

Saya sering berbicara tentang metode AI (XAI) yang dapat dijelaskan dan bagaimana metode tersebut dapat diadaptasi untuk mengatasi beberapa masalah yang melarang perusahaan membangun dan menerapkan solusi AI. Anda dapat memeriksa saya blog jika Anda membutuhkan penyegaran cepat pada metode XAI.

Salah satu metode XAI tersebut adalah Pohon Keputusan. Mereka telah mendapatkan daya tarik yang signifikan secara historis karena interpretabilitas dan kesederhanaannya. Namun, banyak yang berpikir bahwa pohon keputusan tidak akurat karena terlihat sederhana, dan algoritme serakah seperti C4.5 dan CART tidak mengoptimalkannya dengan baik.

Klaim tersebut valid sebagian karena beberapa varian pohon keputusan, seperti C4.5 dan CART, memiliki kelemahan sebagai berikut:

Rawan overfitting, terutama ketika pohon menjadi terlalu dalam dengan terlalu banyak cabang. Hal ini dapat mengakibatkan kinerja yang buruk pada data baru yang tidak terlihat.
Mungkin lebih lambat untuk mengevaluasi dan membuat prediksi dengan kumpulan data besar karena memerlukan pengambilan banyak keputusan berdasarkan nilai fitur input.
Mungkin sulit bagi mereka untuk berurusan dengan variabel kontinu karena mereka membutuhkan pohon untuk membagi variabel menjadi beberapa interval yang lebih kecil, yang dapat meningkatkan kompleksitas pohon dan mempersulit untuk mengidentifikasi pola yang bermakna dalam data.
Sering dikenal sebagai algoritma "rakus", itu membuat keputusan optimal secara lokal pada setiap langkah tanpa mempertimbangkan konsekuensi dari keputusan tersebut pada langkah-langkah selanjutnya. Pohon Sub Optimal adalah output dari CART, tetapi tidak ada metrik "nyata" untuk mengukurnya.

Algoritme yang lebih canggih, seperti Metode Pembelajaran Ensemble, tersedia untuk mengatasi masalah ini. Namun seringkali dapat dianggap sebagai "kotak hitam" karena fungsi algoritme yang digarisbawahi.

Namun, pekerjaan terbaru telah menunjukkan bahwa jika Anda mengoptimalkan pohon keputusan (daripada menggunakan metode serakah seperti C4.5 dan CART), mereka bisa sangat akurat, dalam banyak kasus, seakurat kotak hitam. Salah satu algoritme yang dapat membantu mengoptimalkan dan mengatasi beberapa kelemahan yang disebutkan di atas adalah GOSDT. GOSDT adalah algoritma untuk menghasilkan pohon keputusan optimal yang jarang.

Blog ini bertujuan untuk memperkenalkan GOSDT secara halus dan menyajikan contoh penerapannya pada kumpulan data.

Blog ini didasarkan pada makalah penelitian yang diterbitkan oleh beberapa orang yang fantastis. Anda dapat membaca koran di sini. Blog ini bukan pengganti makalah ini, juga tidak akan menyentuh detail yang sangat matematis. Ini adalah panduan bagi praktisi ilmu data untuk mempelajari algoritme ini dan memanfaatkannya dalam kasus penggunaan sehari-hari.

Singkatnya, GOSDT membahas beberapa masalah utama:

Tangani kumpulan data yang tidak seimbang dengan baik dan optimalkan berbagai fungsi objektif (bukan hanya akurasi).
Sepenuhnya mengoptimalkan pohon dan tidak membangunnya dengan rakus.
Ini hampir secepat algoritma serakah karena memecahkan masalah optimasi NP-hard untuk pohon keputusan.

Pohon GOSDT menggunakan ruang pencarian dinamis melalui pohon hash untuk meningkatkan efisiensi model. Dengan membatasi ruang pencarian dan menggunakan batasan untuk mengidentifikasi variabel serupa, pohon GOSDT dapat mengurangi jumlah perhitungan yang diperlukan untuk menemukan pemisahan yang optimal. Ini dapat secara signifikan meningkatkan waktu komputasi, terutama saat bekerja dengan variabel kontinu.
Di pohon GOSDT, batas pemisahan diterapkan ke pohon parsial, dan digunakan untuk menghilangkan banyak pohon dari ruang pencarian. Hal ini memungkinkan model untuk berfokus pada salah satu pohon yang tersisa (yang dapat berupa pohon parsial) dan mengevaluasinya dengan lebih efisien. Dengan mengurangi ruang pencarian, pohon GOSDT dapat dengan cepat menemukan pemisahan optimal dan menghasilkan model yang lebih akurat dan dapat ditafsirkan.
Pohon GOSDT dirancang untuk menangani data yang tidak seimbang, tantangan umum di banyak aplikasi dunia nyata. Pohon GOSDT mengatasi data yang tidak seimbang menggunakan metrik akurasi berbobot yang mempertimbangkan kepentingan relatif dari berbagai kelas dalam kumpulan data. Ini bisa sangat berguna ketika ada ambang yang telah ditentukan sebelumnya untuk tingkat akurasi yang diinginkan, karena memungkinkan model untuk fokus pada mengklasifikasikan sampel dengan benar yang lebih penting untuk aplikasi.

Pohon-pohon ini secara langsung mengoptimalkan pertukaran antara akurasi pelatihan dan jumlah daun.
Menghasilkan pelatihan yang sangat baik dan akurasi pengujian dengan jumlah cuti yang masuk akal
Sempurna untuk masalah yang sangat non-cembung
Paling efektif untuk jumlah fitur kecil atau sedang. Tapi itu bisa menangani hingga puluhan ribu pengamatan dengan tetap mempertahankan kecepatan dan akurasinya.

Saatnya melihat semuanya beraksi!! Di blog saya sebelumnya, saya memecahkan masalah persetujuan pengajuan pinjaman menggunakan Keras Classification. Kami akan menggunakan kumpulan data yang sama untuk membuat pohon klasifikasi menggunakan GOSDT.

Kode oleh Penulis

Supreet Kauro adalah AVP di Morgan Stanley. Dia adalah penggemar kebugaran dan teknologi. Dia adalah pendiri komunitas bernama DataBuzz.