Обобщенные и масштабируемые оптимальные разреженные деревья решений (GOSDT)

Переиздано Платоном

Читают: 0

Обобщенные и масштабируемые оптимальные разреженные деревья решений (GOSDT)
Изображение на фабрикасимф на Фрипик

Я часто говорю об объяснимых методах ИИ (XAI) и о том, как их можно адаптировать для устранения нескольких болевых точек, которые мешают компаниям создавать и развертывать решения ИИ. Вы можете проверить мой Блог если вам нужно быстро освежить в памяти методы XAI.

Одним из таких методов XAI являются деревья решений. Исторически они приобрели значительную популярность из-за своей интерпретируемости и простоты. Однако многие считают, что деревья решений не могут быть точными, потому что они выглядят простыми, а жадные алгоритмы, такие как C4.5 и CART, плохо их оптимизируют.

Утверждение частично справедливо, так как некоторые варианты деревьев решений, такие как C4.5 и CART, имеют следующие недостатки:

Склонен к переоснащению, особенно когда дерево становится слишком глубоким со слишком большим количеством ветвей. Это может привести к снижению производительности при работе с новыми, невидимыми данными.
Оценка и прогнозирование больших наборов данных может быть медленнее, потому что они требуют принятия нескольких решений на основе значений входных признаков.
Им может быть сложно работать с непрерывными переменными, поскольку они требуют, чтобы дерево разбивало переменную на несколько меньших интервалов, что может увеличить сложность дерева и затруднить выявление значимых закономерностей в данных.
Часто известный как «жадный» алгоритм, он принимает локально оптимальное решение на каждом шаге без учета последствий этих решений для будущих шагов. Субоптимальные деревья являются результатом CART, но не существует «реальной» метрики для их измерения.

Для решения этих проблем доступны более сложные алгоритмы, такие как ансамблевые методы обучения. Но часто может считаться «черным ящиком» из-за подчеркнутого функционирования алгоритмов.

Однако недавняя работа показала, что если вы оптимизируете деревья решений (а не используете жадные методы, такие как C4.5 и CART), они могут быть удивительно точными, во многих случаях такими же точными, как черный ящик. Одним из таких алгоритмов, который может помочь оптимизировать и устранить некоторые из упомянутых выше недостатков, является GOSDT. GOSDT — это алгоритм построения разреженных оптимальных деревьев решений.

Блог призван дать краткое введение в GOSDT и представить пример того, как его можно реализовать в наборе данных.

Этот блог основан на исследовательской статье, опубликованной несколькими фантастическими людьми. Вы можете прочитать газету здесь. Этот блог не заменяет эту статью и не затрагивает исключительно математических деталей. Это руководство для специалистов по науке о данных, которое поможет им узнать об этом алгоритме и использовать его в своих повседневных задачах.

Вкратце, ГОСТТ решает несколько основных задач:

Хорошо обрабатывайте несбалансированные наборы данных и оптимизируйте различные целевые функции (не только точность).
Полностью оптимизирует деревья и не жадно их строит.
Он почти так же быстр, как и жадные алгоритмы, поскольку решает NP-сложные задачи оптимизации для деревьев решений.

Деревья GOSDT используют динамическое пространство поиска через хеш-деревья для повышения эффективности модели. Ограничивая пространство поиска и используя границы для идентификации похожих переменных, деревья GOSDT могут уменьшить количество вычислений, необходимых для поиска оптимального разделения. Это может значительно сократить время вычислений, в основном при работе с непрерывными переменными.
В деревьях GOSDT границы разделения применяются к частичным деревьям и используются для исключения многих деревьев из пространства поиска. Это позволяет модели сосредоточиться на одном из оставшихся деревьев (которое может быть частичным деревом) и более эффективно оценивать его. Сокращая пространство поиска, деревья GOSDT могут быстро найти оптимальное разделение и создать более точную и интерпретируемую модель.
Деревья GOSDT предназначены для обработки несбалансированных данных, что является распространенной проблемой во многих реальных приложениях. Деревья GOSDT обращаются к несбалансированным данным, используя взвешенную метрику точности, которая учитывает относительную важность различных классов в наборе данных. Это может быть особенно полезно, когда существует заранее определенный порог для желаемого уровня точности, поскольку он позволяет модели сосредоточиться на правильной классификации выборок, которые более важны для приложения.

Эти деревья напрямую оптимизируют компромисс между точностью обучения и количеством листьев.
Обеспечивает превосходную точность обучения и тестирования с разумным количеством лепестков
Идеально подходит для очень невыпуклых задач
Наиболее эффективен для небольшого или среднего количества функций. Но он может обрабатывать до десятков тысяч наблюдений, сохраняя при этом свою скорость и точность.

Время увидеть все это в действии!! В моем предыдущем блоге я решил проблему одобрения заявки на кредит, используя классификацию Keras. Мы будем использовать тот же набор данных для построения дерева классификации с помощью GOSDT.

Код по автору

Суприт Каур является AVP в Morgan Stanley. Она увлекается фитнесом и технологиями. Она является основателем сообщества DataBuzz.