Изображение на фабрикасимф на Фрипик
Я часто говорю об объяснимых методах ИИ (XAI) и о том, как их можно адаптировать для устранения нескольких болевых точек, которые мешают компаниям создавать и развертывать решения ИИ. Вы можете проверить мой Блог если вам нужно быстро освежить в памяти методы XAI.
Одним из таких методов XAI являются деревья решений. Исторически они приобрели значительную популярность из-за своей интерпретируемости и простоты. Однако многие считают, что деревья решений не могут быть точными, потому что они выглядят простыми, а жадные алгоритмы, такие как C4.5 и CART, плохо их оптимизируют.
Утверждение частично справедливо, так как некоторые варианты деревьев решений, такие как C4.5 и CART, имеют следующие недостатки:
- Склонен к переоснащению, особенно когда дерево становится слишком глубоким со слишком большим количеством ветвей. Это может привести к снижению производительности при работе с новыми, невидимыми данными.
- Оценка и прогнозирование больших наборов данных может быть медленнее, потому что они требуют принятия нескольких решений на основе значений входных признаков.
- Им может быть сложно работать с непрерывными переменными, поскольку они требуют, чтобы дерево разбивало переменную на несколько меньших интервалов, что может увеличить сложность дерева и затруднить выявление значимых закономерностей в данных.
- Часто известный как «жадный» алгоритм, он принимает локально оптимальное решение на каждом шаге без учета последствий этих решений для будущих шагов. Субоптимальные деревья являются результатом CART, но не существует «реальной» метрики для их измерения.
Для решения этих проблем доступны более сложные алгоритмы, такие как ансамблевые методы обучения. Но часто может считаться «черным ящиком» из-за подчеркнутого функционирования алгоритмов.
Однако недавняя работа показала, что если вы оптимизируете деревья решений (а не используете жадные методы, такие как C4.5 и CART), они могут быть удивительно точными, во многих случаях такими же точными, как черный ящик. Одним из таких алгоритмов, который может помочь оптимизировать и устранить некоторые из упомянутых выше недостатков, является GOSDT. GOSDT — это алгоритм построения разреженных оптимальных деревьев решений.
Блог призван дать краткое введение в GOSDT и представить пример того, как его можно реализовать в наборе данных.
Этот блог основан на исследовательской статье, опубликованной несколькими фантастическими людьми. Вы можете прочитать газету здесь. Этот блог не заменяет эту статью и не затрагивает исключительно математических деталей. Это руководство для специалистов по науке о данных, которое поможет им узнать об этом алгоритме и использовать его в своих повседневных задачах.
Вкратце, ГОСТТ решает несколько основных задач:
- Хорошо обрабатывайте несбалансированные наборы данных и оптимизируйте различные целевые функции (не только точность).
- Полностью оптимизирует деревья и не жадно их строит.
- Он почти так же быстр, как и жадные алгоритмы, поскольку решает NP-сложные задачи оптимизации для деревьев решений.
- Деревья GOSDT используют динамическое пространство поиска через хеш-деревья для повышения эффективности модели. Ограничивая пространство поиска и используя границы для идентификации похожих переменных, деревья GOSDT могут уменьшить количество вычислений, необходимых для поиска оптимального разделения. Это может значительно сократить время вычислений, в основном при работе с непрерывными переменными.
- В деревьях GOSDT границы разделения применяются к частичным деревьям и используются для исключения многих деревьев из пространства поиска. Это позволяет модели сосредоточиться на одном из оставшихся деревьев (которое может быть частичным деревом) и более эффективно оценивать его. Сокращая пространство поиска, деревья GOSDT могут быстро найти оптимальное разделение и создать более точную и интерпретируемую модель.
- Деревья GOSDT предназначены для обработки несбалансированных данных, что является распространенной проблемой во многих реальных приложениях. Деревья GOSDT обращаются к несбалансированным данным, используя взвешенную метрику точности, которая учитывает относительную важность различных классов в наборе данных. Это может быть особенно полезно, когда существует заранее определенный порог для желаемого уровня точности, поскольку он позволяет модели сосредоточиться на правильной классификации выборок, которые более важны для приложения.
- Эти деревья напрямую оптимизируют компромисс между точностью обучения и количеством листьев.
- Обеспечивает превосходную точность обучения и тестирования с разумным количеством лепестков
- Идеально подходит для очень невыпуклых задач
- Наиболее эффективен для небольшого или среднего количества функций. Но он может обрабатывать до десятков тысяч наблюдений, сохраняя при этом свою скорость и точность.
Время увидеть все это в действии!! В моем предыдущем блоге я решил проблему одобрения заявки на кредит, используя классификацию Keras. Мы будем использовать тот же набор данных для построения дерева классификации с помощью GOSDT.
Код по автору
Суприт Каур является AVP в Morgan Stanley. Она увлекается фитнесом и технологиями. Она является основателем сообщества DataBuzz.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://www.kdnuggets.com/2023/02/generalized-scalable-optimal-sparse-decision-treesgosdt.html?utm_source=rss&utm_medium=rss&utm_campaign=generalized-and-scalable-optimal-sparse-decision-treesgosdt
- a
- О нас
- выше
- точность
- точный
- адаптированный
- адрес
- адреса
- AI
- Цель
- алгоритм
- алгоритмы
- Все
- позволяет
- и
- Применение
- Приложения
- прикладной
- утверждение
- доступен
- основанный
- , так как:
- становится
- между
- Черный
- Блог
- Коробка
- ветви
- строить
- Строительство
- под названием
- не могу
- случаев
- вызов
- проверка
- утверждать
- классов
- классификация
- Общий
- сообщество
- Компании
- сложность
- вычисление
- Последствия
- считается
- принимая во внимание
- считает
- строить
- (CIJ)
- критической
- ежедневно
- данным
- наука о данных
- Наборы данных
- сделка
- решение
- решения
- глубоко
- развертывание
- предназначенный
- подробнее
- различный
- трудный
- непосредственно
- Dont
- динамический
- каждый
- Эффективный
- затрат
- эффективно
- ликвидировать
- энтузиаст
- оценивать
- пример
- отлично
- существует
- чрезвычайно
- фантастический
- БЫСТРО
- Особенности
- несколько
- Найдите
- фитнес
- Фокус
- после
- основатель
- от
- функционирование
- Функции
- будущее
- порождать
- слегка
- Дайте
- Жадный
- инструкция
- обрабатывать
- хэш
- помощь
- очень
- исторически
- Как
- Однако
- HTTPS
- определения
- в XNUMX году
- значение
- улучшать
- in
- Увеличение
- вход
- Введение
- вопросы
- IT
- КДнаггетс
- keras
- известный
- большой
- УЧИТЬСЯ
- изучение
- уровень
- Кредитное плечо
- варианты
- в местном масштабе
- посмотреть
- основной
- главные проблемы
- сделать
- ДЕЛАЕТ
- Создание
- многих
- математический
- значимым
- проводить измерение
- средний
- упомянутый
- метод
- методы
- метрический
- модель
- БОЛЕЕ
- Морган
- Morgan Stanley
- с разными
- Необходимость
- необходимый
- Новые
- номер
- цель
- ONE
- оптимальный
- оптимизация
- Оптимизировать
- оптимизирует
- боль
- Болевые точки
- бумага & картон
- особенно
- паттеранами
- производительность
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- пунктов
- состояния потока
- Predictions
- представить
- предыдущий
- Проблема
- проблемам
- запрещать
- опубликованный
- САЙТ
- быстро
- Читать
- реальный мир
- разумный
- последний
- уменьшить
- снижение
- осталось
- требовать
- исследованиям
- результат
- то же
- масштабируемые
- Наука
- Поиск
- показанный
- значительный
- существенно
- аналогичный
- просто
- простота
- небольшой
- меньше
- Решения
- Решает
- некоторые
- сложный
- Space
- скорость
- раскол
- Стэнли
- Шаг
- Шаги
- такие
- Говорить
- технологии
- тестXNUMX
- Ассоциация
- их
- тысячи
- порог
- Через
- время
- в
- слишком
- трогать
- тяга
- Обучение
- Деревья
- использование
- Наши ценности
- различный
- который
- в то время как
- будете
- без
- Работа
- работает
- зефирнет