Зображення на фабрикасимф на Freepik
Я часто говорю про зрозумілі методи ШІ (XAI) і про те, як їх можна адаптувати для усунення кількох проблемних моментів, які забороняють компаніям створювати та розгортати рішення ШІ. Ви можете перевірити мій блозі якщо вам потрібно швидко освіжити знання про методи XAI.
Одним із таких методів XAI є Дерева рішень. Вони здобули значну популярність в історії завдяки своїй інтерпретації та простоті. Однак багато хто вважає, що дерева рішень не можуть бути точними, оскільки вони виглядають простими, а жадібні алгоритми, такі як C4.5 і CART, погано їх оптимізують.
Твердження частково справедливе, оскільки деякі варіанти дерев рішень, такі як C4.5 і CART, мають наступні недоліки:
- Схильність до переобладнання, особливо коли дерево стає занадто глибоким із великою кількістю гілок. Це може призвести до низької продуктивності нових, невидимих даних.
- Оцінювати та робити прогнози з великими наборами даних може бути повільніше, оскільки вони вимагають прийняття кількох рішень на основі значень вхідних характеристик.
- Їм може бути важко мати справу з безперервними змінними, оскільки вони вимагають, щоб дерево розбивало змінну на кілька менших інтервалів, що може збільшити складність дерева та ускладнити виявлення значущих шаблонів у даних.
- Часто відомий як «жадібний» алгоритм, він приймає локально оптимальне рішення на кожному кроці, не враховуючи наслідків цих рішень для майбутніх кроків. Субоптимальні дерева є результатом CART, але не існує «реальної» метрики для його вимірювання.
Для вирішення цих проблем доступні більш складні алгоритми, наприклад, методи ансамблевого навчання. Але часто можна вважати «чорним ящиком» через підкреслене функціонування алгоритмів.
Однак нещодавня робота показала, що якщо ви оптимізуєте дерева рішень (а не використовуєте жадібні методи, такі як C4.5 і CART), вони можуть бути напрочуд точними, у багатьох випадках такими ж точними, як чорний ящик. Одним із таких алгоритмів, який може допомогти оптимізувати та усунути деякі із зазначених вище недоліків, є GOSDT. GOSDT — це алгоритм для створення розріджених оптимальних дерев рішень.
Метою блогу є коротке ознайомлення з GOSDT і представлення прикладу того, як це можна реалізувати на наборі даних.
Цей блог заснований на дослідницькій статті, опублікованій кількома фантастичними людьми. Ви можете читати газету тут. Цей блог не замінить цю статтю і не торкатиметься надзвичайно математичних деталей. Це посібник для практиків, які займаються наукою даних, щоб дізнатися про цей алгоритм і використовувати його у щоденних випадках використання.
У двох словах GOSDT вирішує кілька основних питань:
- Добре обробляйте незбалансовані набори даних і оптимізуйте різні цільові функції (не лише точність).
- Повністю оптимізує дерева і не створює їх жадібно.
- Він майже такий же швидкий, як і жадібні алгоритми, оскільки вирішує NP-жорсткі задачі оптимізації для дерев рішень.
- Дерева GOSDT використовують динамічний простір пошуку через хеш-дерева для підвищення ефективності моделі. Обмежуючи простір пошуку та використовуючи межі для визначення схожих змінних, дерева GOSDT можуть зменшити кількість обчислень, необхідних для пошуку оптимального розподілу. Це може значно покращити час обчислень, головним чином при роботі з безперервними змінними.
- У деревах GOSDT обмеження для розбиття застосовуються до часткових дерев і використовуються для виключення багатьох дерев із простору пошуку. Це дозволяє моделі зосередитися на одному з дерев, що залишилися (яке може бути частковим деревом), і оцінити його більш ефективно. Зменшуючи простір пошуку, дерева GOSDT можуть швидко знаходити оптимальний розподіл і генерувати більш точну модель, яку можна інтерпретувати.
- Дерева GOSDT призначені для обробки незбалансованих даних, що є загальною проблемою в багатьох реальних програмах. Дерева GOSDT розглядають незбалансовані дані за допомогою зваженої метрики точності, яка враховує відносну важливість різних класів у наборі даних. Це може бути особливо корисним, коли є заздалегідь визначений поріг для бажаного рівня точності, оскільки це дозволяє моделі зосередитися на правильній класифікації зразків, які є більш критичними для програми.
- Ці дерева безпосередньо оптимізують компроміс між точністю навчання та кількістю листя.
- Забезпечує чудове навчання та точність тестування з розумною кількістю листів
- Ідеально підходить для дуже неопуклих проблем
- Найбільш ефективний для невеликої або середньої кількості функцій. Але він може обробляти до десятків тисяч спостережень, зберігаючи свою швидкість і точність.
Час побачити все це в дії!! У своєму попередньому блозі я вирішив проблему схвалення заявки на позику за допомогою класифікації Keras. Ми будемо використовувати той самий набір даних для побудови дерева класифікації за допомогою GOSDT.
Код за автором
Супріт Каур є AVP у Morgan Stanley. Вона захоплюється фітнесом і технікою. Вона є засновником спільноти DataBuzz.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://www.kdnuggets.com/2023/02/generalized-scalable-optimal-sparse-decision-treesgosdt.html?utm_source=rss&utm_medium=rss&utm_campaign=generalized-and-scalable-optimal-sparse-decision-treesgosdt
- a
- МЕНЮ
- вище
- точність
- точний
- пристосований
- адреса
- адреси
- AI
- Цілі
- алгоритм
- алгоритми
- ВСІ
- дозволяє
- та
- додаток
- застосування
- прикладної
- твердження
- доступний
- заснований
- оскільки
- стає
- між
- Black
- Блог
- Box
- гілки
- будувати
- Створюємо
- званий
- не може
- випадків
- виклик
- перевірка
- стверджувати
- класів
- класифікація
- загальний
- співтовариство
- Компанії
- складність
- обчислення
- Наслідки
- вважається
- беручи до уваги
- вважає
- будувати
- безперервний
- критичний
- щодня
- дані
- наука про дані
- набори даних
- угода
- рішення
- рішення
- глибокий
- розгортання
- призначений
- деталі
- різний
- важкий
- безпосередньо
- Не знаю
- динамічний
- кожен
- Ефективний
- ефективність
- продуктивно
- усунутий
- ентузіаст
- оцінювати
- приклад
- відмінно
- існує
- надзвичайно
- фантастичний
- ШВИДКО
- риси
- кілька
- знайти
- фітнес
- Сфокусувати
- після
- засновник
- від
- функціонування
- Функції
- майбутнє
- породжувати
- ніжний
- Давати
- Жадібний
- керівництво
- обробляти
- мішанина
- допомога
- дуже
- історично
- Як
- Однак
- HTTPS
- ідентифікувати
- реалізовані
- значення
- удосконалювати
- in
- Augmenter
- вхід
- Вступ
- питання
- IT
- KDnuggets
- керас
- відомий
- великий
- УЧИТЬСЯ
- вивчення
- рівень
- Важіль
- позику
- локально
- подивитися
- основний
- основні питання
- зробити
- РОБОТИ
- Робить
- багато
- математичний
- значущим
- вимір
- середа
- згаданий
- метод
- методика
- метрика
- модель
- більше
- Morgan
- Morgan Stanley
- множинний
- Необхідність
- необхідний
- Нові
- номер
- мета
- ONE
- оптимальний
- оптимізація
- Оптимізувати
- Оптимізує
- Біль
- Больові точки
- Папір
- особливо
- моделі
- продуктивність
- plato
- Інформація про дані Платона
- PlatoData
- точок
- бідні
- Прогнози
- представити
- попередній
- Проблема
- проблеми
- заборонити
- опублікований
- Швидко
- швидко
- Читати
- Реальний світ
- розумний
- останній
- зменшити
- зниження
- решті
- вимагати
- дослідження
- результат
- то ж
- масштабовані
- наука
- Пошук
- показаний
- значний
- істотно
- аналогічний
- простий
- простота
- невеликий
- менше
- Рішення
- Вирішує
- деякі
- складний
- Простір
- швидкість
- розкол
- Стенлі
- Крок
- заходи
- такі
- балаканина
- технології
- тест
- Команда
- їх
- тисячі
- поріг
- через
- час
- до
- занадто
- торкатися
- тяги
- Навчання
- Дерева
- використання
- Цінності
- різний
- який
- в той час як
- волі
- без
- Work
- робочий
- зефірнет