Узагальнені та масштабовані оптимальні розріджені дерева рішень (GOSDT)

Перевидано Платоном

читають: 0

Узагальнені та масштабовані оптимальні розріджені дерева рішень (GOSDT)
Зображення на фабрикасимф на Freepik

Я часто говорю про зрозумілі методи ШІ (XAI) і про те, як їх можна адаптувати для усунення кількох проблемних моментів, які забороняють компаніям створювати та розгортати рішення ШІ. Ви можете перевірити мій блозі якщо вам потрібно швидко освіжити знання про методи XAI.

Одним із таких методів XAI є Дерева рішень. Вони здобули значну популярність в історії завдяки своїй інтерпретації та простоті. Однак багато хто вважає, що дерева рішень не можуть бути точними, оскільки вони виглядають простими, а жадібні алгоритми, такі як C4.5 і CART, погано їх оптимізують.

Твердження частково справедливе, оскільки деякі варіанти дерев рішень, такі як C4.5 і CART, мають наступні недоліки:

Схильність до переобладнання, особливо коли дерево стає занадто глибоким із великою кількістю гілок. Це може призвести до низької продуктивності нових, невидимих даних.
Оцінювати та робити прогнози з великими наборами даних може бути повільніше, оскільки вони вимагають прийняття кількох рішень на основі значень вхідних характеристик.
Їм може бути важко мати справу з безперервними змінними, оскільки вони вимагають, щоб дерево розбивало змінну на кілька менших інтервалів, що може збільшити складність дерева та ускладнити виявлення значущих шаблонів у даних.
Часто відомий як «жадібний» алгоритм, він приймає локально оптимальне рішення на кожному кроці, не враховуючи наслідків цих рішень для майбутніх кроків. Субоптимальні дерева є результатом CART, але не існує «реальної» метрики для його вимірювання.

Для вирішення цих проблем доступні більш складні алгоритми, наприклад, методи ансамблевого навчання. Але часто можна вважати «чорним ящиком» через підкреслене функціонування алгоритмів.

Однак нещодавня робота показала, що якщо ви оптимізуєте дерева рішень (а не використовуєте жадібні методи, такі як C4.5 і CART), вони можуть бути напрочуд точними, у багатьох випадках такими ж точними, як чорний ящик. Одним із таких алгоритмів, який може допомогти оптимізувати та усунути деякі із зазначених вище недоліків, є GOSDT. GOSDT — це алгоритм для створення розріджених оптимальних дерев рішень.

Метою блогу є коротке ознайомлення з GOSDT і представлення прикладу того, як це можна реалізувати на наборі даних.

Цей блог заснований на дослідницькій статті, опублікованій кількома фантастичними людьми. Ви можете читати газету тут. Цей блог не замінить цю статтю і не торкатиметься надзвичайно математичних деталей. Це посібник для практиків, які займаються наукою даних, щоб дізнатися про цей алгоритм і використовувати його у щоденних випадках використання.

У двох словах GOSDT вирішує кілька основних питань:

Добре обробляйте незбалансовані набори даних і оптимізуйте різні цільові функції (не лише точність).
Повністю оптимізує дерева і не створює їх жадібно.
Він майже такий же швидкий, як і жадібні алгоритми, оскільки вирішує NP-жорсткі задачі оптимізації для дерев рішень.

Дерева GOSDT використовують динамічний простір пошуку через хеш-дерева для підвищення ефективності моделі. Обмежуючи простір пошуку та використовуючи межі для визначення схожих змінних, дерева GOSDT можуть зменшити кількість обчислень, необхідних для пошуку оптимального розподілу. Це може значно покращити час обчислень, головним чином при роботі з безперервними змінними.
У деревах GOSDT обмеження для розбиття застосовуються до часткових дерев і використовуються для виключення багатьох дерев із простору пошуку. Це дозволяє моделі зосередитися на одному з дерев, що залишилися (яке може бути частковим деревом), і оцінити його більш ефективно. Зменшуючи простір пошуку, дерева GOSDT можуть швидко знаходити оптимальний розподіл і генерувати більш точну модель, яку можна інтерпретувати.
Дерева GOSDT призначені для обробки незбалансованих даних, що є загальною проблемою в багатьох реальних програмах. Дерева GOSDT розглядають незбалансовані дані за допомогою зваженої метрики точності, яка враховує відносну важливість різних класів у наборі даних. Це може бути особливо корисним, коли є заздалегідь визначений поріг для бажаного рівня точності, оскільки це дозволяє моделі зосередитися на правильній класифікації зразків, які є більш критичними для програми.

Ці дерева безпосередньо оптимізують компроміс між точністю навчання та кількістю листя.
Забезпечує чудове навчання та точність тестування з розумною кількістю листів
Ідеально підходить для дуже неопуклих проблем
Найбільш ефективний для невеликої або середньої кількості функцій. Але він може обробляти до десятків тисяч спостережень, зберігаючи свою швидкість і точність.

Час побачити все це в дії!! У своєму попередньому блозі я вирішив проблему схвалення заявки на позику за допомогою класифікації Keras. Ми будемо використовувати той самий набір даних для побудови дерева класифікації за допомогою GOSDT.

Код за автором

Супріт Каур є AVP у Morgan Stanley. Вона захоплюється фітнесом і технікою. Вона є засновником спільноти DataBuzz.