广义和可扩展的最优稀疏决策树(GOSDT)

广义和可扩展的最优稀疏决策树(GOSDT)

源节点: 1963826

广义和可扩展的最优稀疏决策树(GOSDT)
图片由 制造厂 在 Freepik 上
 

我经常谈论可解释的 AI (XAI) 方法,以及如何调整它们来解决一些阻碍公司构建和部署 AI 解决方案的痛点。 你可以检查我的 新闻 如果您需要快速复习 XAI 方法。

一种这样的 XAI 方法是决策树。 由于它们的可解释性和简单性,它们在历史上获得了巨大的吸引力。 然而,许多人认为决策树不可能准确,因为它们看起来很简单,而且像 C4.5 和 CART 这样的贪心算法不能很好地优化它们。 

该声明部分有效,因为决策树的某些变体(例如 C4.5 和 CART)具有以下缺点:

  1. 容易过度拟合,尤其是当树变得太深且分支太多时。 这可能会导致新的、看不见的数据性能不佳。
  2. 使用大型数据集进行评估和预测可能会比较慢,因为它们需要根据输入特征的值做出多项决策。 
  3. 他们可能很难处理连续变量,因为它们需要树将变量拆分为多个更小的区间,这会增加树的复杂性并难以识别数据中有意义的模式。
  4. 通常被称为“贪心”算法,它在每一步都做出局部最优决策,而不考虑这些决策对未来步骤的影响。 次优树是 CART 的输出,但不存在衡量它的“真实”指标。

可以使用更复杂的算法(例如集成学习方法)来解决这些问题。 但由于算法功能的下划线,通常可以被视为“黑匣子”。 

然而,最近的工作表明,如果您优化决策树(而不是使用像 C4.5 和 CART 这样的贪婪方法),它们会出奇地准确,在许多情况下,与黑匣子一样准确。 一种可以帮助优化和解决上述一些缺点的算法是 GOSDT。 GOSDT 是一种用于生成稀疏最优决策树的算法。

该博客旨在简要介绍 GOSDT,并提供一个示例说明如何在数据集上实施它。 

该博客基于一些优秀人士发表的研究论文。 你可以阅读论文 此处. 这篇博客不能替代这篇论文,也不会涉及极其数学的细节。 这是数据科学从业者了解此算法并将其用于日常用例的指南。

简而言之,GOSDT 解决了几个主要问题:

  1. 很好地处理不平衡的数据集并优化各种目标函数(不仅仅是准确性)。
  2. 充分优化树,不贪婪地构建它们。
  3. 它几乎与贪婪算法一样快,因为它解决了决策树的 NP-hard 优化问题。
  1. GOSDT 树通过哈希树使用动态搜索空间来提高模型的效率。 通过限制搜索空间并使用边界来识别相似变量,GOSDT 树可以减少找到最佳分割所需的计算次数。 这可以显着缩短计算时间,主要是在处理连续变量时。
  2. 在 GOSDT 树中,分裂边界应用于部分树,它们用于从搜索空间中消除许多树。 这允许模型专注于剩余树中的一棵(可以是部分树)并更有效地对其进行评估。 通过减少搜索空间,GOSDT 树可以快速找到最佳分割并生成更准确和可解释的模型。
  3. GOSDT 树旨在处理不平衡数据,这是许多实际应用程序中的常见挑战。 GOSDT 树使用加权精度度量来解决不平衡数据,该度量考虑了数据集中不同类的相对重要性。 当存在所需精度级别的预定阈值时,这可能特别有用,因为它允许模型专注于正确分类对应用程序更关键的样本。
  1. 这些树直接优化了训练精度和叶子数量之间的权衡。 
  2. 以合理的叶数产生出色的训练和测试精度
  3. 非常适合高度非凸问题
  4. 对于少量或中等数量的特征最有效。 但它可以处理多达数万次观察,同时保持其速度和准确性。

是时候看看这一切了! 在我之前的博客中,我使用 Keras 分类解决了一个贷款申请审批问题。 我们将使用相同的数据集使用 GOSDT 构建分类树。

  

作者代码

 
 
高级考尔 是摩根士丹利的高级副总裁。 她是健身和科技爱好者。 她是名为 DataBuzz 的社区的创始人。
 

时间戳记:

更多来自 掘金队