广义和可扩展的最优稀疏决策树（GOSDT）

掘金队

广义和可扩展的最优稀疏决策树（GOSDT）

大数据运用时间戳：17年2023月12日下午00:XNUMX

源节点： 1963826

由柏拉图重新发布

关注： 0

广义和可扩展的最优稀疏决策树（GOSDT）
图片由制造厂在 Freepik 上

我经常谈论可解释的 AI (XAI) 方法，以及如何调整它们来解决一些阻碍公司构建和部署 AI 解决方案的痛点。你可以检查我的新闻如果您需要快速复习 XAI 方法。

一种这样的 XAI 方法是决策树。由于它们的可解释性和简单性，它们在历史上获得了巨大的吸引力。然而，许多人认为决策树不可能准确，因为它们看起来很简单，而且像 C4.5 和 CART 这样的贪心算法不能很好地优化它们。

该声明部分有效，因为决策树的某些变体（例如 C4.5 和 CART）具有以下缺点：

容易过度拟合，尤其是当树变得太深且分支太多时。这可能会导致新的、看不见的数据性能不佳。
使用大型数据集进行评估和预测可能会比较慢，因为它们需要根据输入特征的值做出多项决策。
他们可能很难处理连续变量，因为它们需要树将变量拆分为多个更小的区间，这会增加树的复杂性并难以识别数据中有意义的模式。
通常被称为“贪心”算法，它在每一步都做出局部最优决策，而不考虑这些决策对未来步骤的影响。次优树是 CART 的输出，但不存在衡量它的“真实”指标。

可以使用更复杂的算法（例如集成学习方法）来解决这些问题。但由于算法功能的下划线，通常可以被视为“黑匣子”。

然而，最近的工作表明，如果您优化决策树（而不是使用像 C4.5 和 CART 这样的贪婪方法），它们会出奇地准确，在许多情况下，与黑匣子一样准确。一种可以帮助优化和解决上述一些缺点的算法是 GOSDT。 GOSDT 是一种用于生成稀疏最优决策树的算法。

该博客旨在简要介绍 GOSDT，并提供一个示例说明如何在数据集上实施它。

该博客基于一些优秀人士发表的研究论文。你可以阅读论文此处. 这篇博客不能替代这篇论文，也不会涉及极其数学的细节。这是数据科学从业者了解此算法并将其用于日常用例的指南。

简而言之，GOSDT 解决了几个主要问题：

很好地处理不平衡的数据集并优化各种目标函数（不仅仅是准确性）。
充分优化树，不贪婪地构建它们。
它几乎与贪婪算法一样快，因为它解决了决策树的 NP-hard 优化问题。

GOSDT 树通过哈希树使用动态搜索空间来提高模型的效率。通过限制搜索空间并使用边界来识别相似变量，GOSDT 树可以减少找到最佳分割所需的计算次数。这可以显着缩短计算时间，主要是在处理连续变量时。
在 GOSDT 树中，分裂边界应用于部分树，它们用于从搜索空间中消除许多树。这允许模型专注于剩余树中的一棵（可以是部分树）并更有效地对其进行评估。通过减少搜索空间，GOSDT 树可以快速找到最佳分割并生成更准确和可解释的模型。
GOSDT 树旨在处理不平衡数据，这是许多实际应用程序中的常见挑战。 GOSDT 树使用加权精度度量来解决不平衡数据，该度量考虑了数据集中不同类的相对重要性。当存在所需精度级别的预定阈值时，这可能特别有用，因为它允许模型专注于正确分类对应用程序更关键的样本。

这些树直接优化了训练精度和叶子数量之间的权衡。
以合理的叶数产生出色的训练和测试精度
非常适合高度非凸问题
对于少量或中等数量的特征最有效。但它可以处理多达数万次观察，同时保持其速度和准确性。

是时候看看这一切了！在我之前的博客中，我使用 Keras 分类解决了一个贷款申请审批问题。我们将使用相同的数据集使用 GOSDT 构建分类树。

作者代码

高级考尔 是摩根士丹利的高级副总裁。她是健身和科技爱好者。她是名为 DataBuzz 的社区的创始人。

有关此主题的更多信息

SEO 支持的内容和 PR 分发。今天得到放大。
柏拉图区块链。 Web3 元宇宙智能。知识放大。访问这里。
Sumber: https://www.kdnuggets.com/2023/02/generalized-scalable-optimal-sparse-decision-treesgosdt.html?utm_source=rss&utm_medium=rss&utm_campaign=generalized-and-scalable-optimal-sparse-decision-treesgosdt

时间戳记： 2023 年 2 月 17 日

更多来自掘金队

用于构建生成式 AI 应用程序的最佳 Python 工具速查表 - KDnuggets

用于构建生成式 AI 应用程序的最佳 Python 工具速查表 – KDnuggets

源群集：

源节点： 2819779

时间戳记： 2023 年 8 月 10 日

SQL 分组依据和分区依据场景：何时以及如何在数据科学中组合数据 - KDnuggets

SQL 分组依据和分区依据场景：何时以及如何在数据科学中组合数据 – KDnuggets

源群集：

源节点： 3063856

时间戳记： 2024 年 1 月 15 日

使用 Hugging Face 和 Gradio 在 5 分钟内构建 AI 聊天机器人 - KDnuggets

使用 Hugging Face 和 Gradio 在 5 分钟内构建 AI 聊天机器人 – KDnuggets

源群集：

源节点： 2741374

时间戳记： 2023 年 6 月 30 日

文本-2-视频生成：分步指南 – KDnuggets

源群集：

源节点： 2833370

时间戳记： 2023 年 8 月 17 日

热门数据和分析趋势

源群集：

源节点： 875080

时间戳记： 2021 年 5 月 27 日

OpenAI Codex 背后：关于构建 Codex 你不知道的 5 个迷人挑战

源群集：

源节点： 1068192

时间戳记： 2021 年 9 月 3 日

想成为一名数据科学家吗？第 1 部分：您需要的 10 项硬技能 - KDnuggets

想成为一名数据科学家吗？第 1 部分：您需要的 10 项硬技能 – KDnuggets

源群集：

源节点： 2863483

时间戳记： 2023 年 9 月 4 日

KDnuggets™ 新闻 22:n02，12 月 XNUMX 日：数据科学是一个垂死的职业吗？为什么机器学习模型会无声无息地消亡？

源群集：

源节点： 1583658

时间戳记： 2022 年 1 月 12 日

5 步开始使用 PyTorch - KDnuggets

5 步开始使用 PyTorch – KDnuggets

源群集：

源节点： 2909439

时间戳记： 2023 年 9 月 29 日

回归基础奖励周：部署到云 - KDnuggets

回归基础奖励周：部署到云 – KDnuggets

源群集：

源节点： 3008206

时间戳记： 2023 年 12 月 11 日

如何使用 LangChain 让大型语言模型与您的软件完美配合 - KDnuggets

如何使用 LangChain 让大型语言模型与您的软件完美配合 – KDnuggets

源群集：

源节点： 2979880

时间戳记： 2023 年 11 月 21 日

在您的 AI 策略中包含 ModelOps

源群集：

源节点： 1860957

时间戳记： 2021 年 8 月 9 日