图片由 制造厂 在 Freepik 上
我经常谈论可解释的 AI (XAI) 方法,以及如何调整它们来解决一些阻碍公司构建和部署 AI 解决方案的痛点。 你可以检查我的 新闻 如果您需要快速复习 XAI 方法。
一种这样的 XAI 方法是决策树。 由于它们的可解释性和简单性,它们在历史上获得了巨大的吸引力。 然而,许多人认为决策树不可能准确,因为它们看起来很简单,而且像 C4.5 和 CART 这样的贪心算法不能很好地优化它们。
该声明部分有效,因为决策树的某些变体(例如 C4.5 和 CART)具有以下缺点:
- 容易过度拟合,尤其是当树变得太深且分支太多时。 这可能会导致新的、看不见的数据性能不佳。
- 使用大型数据集进行评估和预测可能会比较慢,因为它们需要根据输入特征的值做出多项决策。
- 他们可能很难处理连续变量,因为它们需要树将变量拆分为多个更小的区间,这会增加树的复杂性并难以识别数据中有意义的模式。
- 通常被称为“贪心”算法,它在每一步都做出局部最优决策,而不考虑这些决策对未来步骤的影响。 次优树是 CART 的输出,但不存在衡量它的“真实”指标。
可以使用更复杂的算法(例如集成学习方法)来解决这些问题。 但由于算法功能的下划线,通常可以被视为“黑匣子”。
然而,最近的工作表明,如果您优化决策树(而不是使用像 C4.5 和 CART 这样的贪婪方法),它们会出奇地准确,在许多情况下,与黑匣子一样准确。 一种可以帮助优化和解决上述一些缺点的算法是 GOSDT。 GOSDT 是一种用于生成稀疏最优决策树的算法。
该博客旨在简要介绍 GOSDT,并提供一个示例说明如何在数据集上实施它。
该博客基于一些优秀人士发表的研究论文。 你可以阅读论文 此处. 这篇博客不能替代这篇论文,也不会涉及极其数学的细节。 这是数据科学从业者了解此算法并将其用于日常用例的指南。
简而言之,GOSDT 解决了几个主要问题:
- 很好地处理不平衡的数据集并优化各种目标函数(不仅仅是准确性)。
- 充分优化树,不贪婪地构建它们。
- 它几乎与贪婪算法一样快,因为它解决了决策树的 NP-hard 优化问题。
- GOSDT 树通过哈希树使用动态搜索空间来提高模型的效率。 通过限制搜索空间并使用边界来识别相似变量,GOSDT 树可以减少找到最佳分割所需的计算次数。 这可以显着缩短计算时间,主要是在处理连续变量时。
- 在 GOSDT 树中,分裂边界应用于部分树,它们用于从搜索空间中消除许多树。 这允许模型专注于剩余树中的一棵(可以是部分树)并更有效地对其进行评估。 通过减少搜索空间,GOSDT 树可以快速找到最佳分割并生成更准确和可解释的模型。
- GOSDT 树旨在处理不平衡数据,这是许多实际应用程序中的常见挑战。 GOSDT 树使用加权精度度量来解决不平衡数据,该度量考虑了数据集中不同类的相对重要性。 当存在所需精度级别的预定阈值时,这可能特别有用,因为它允许模型专注于正确分类对应用程序更关键的样本。
- 这些树直接优化了训练精度和叶子数量之间的权衡。
- 以合理的叶数产生出色的训练和测试精度
- 非常适合高度非凸问题
- 对于少量或中等数量的特征最有效。 但它可以处理多达数万次观察,同时保持其速度和准确性。
是时候看看这一切了! 在我之前的博客中,我使用 Keras 分类解决了一个贷款申请审批问题。 我们将使用相同的数据集使用 GOSDT 构建分类树。
作者代码
高级考尔 是摩根士丹利的高级副总裁。 她是健身和科技爱好者。 她是名为 DataBuzz 的社区的创始人。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://www.kdnuggets.com/2023/02/generalized-scalable-optimal-sparse-decision-treesgosdt.html?utm_source=rss&utm_medium=rss&utm_campaign=generalized-and-scalable-optimal-sparse-decision-treesgosdt
- a
- 关于
- 以上
- 精准的
- 适应
- 地址
- 地址
- AI
- 目标
- 算法
- 算法
- 所有类型
- 允许
- 和
- 应用领域
- 应用领域
- 应用的
- 批准
- 可使用
- 基于
- 因为
- 成为
- 之间
- 黑色
- 博客
- 盒子
- 分支机构
- 建立
- 建筑物
- 被称为
- 不能
- 例
- 挑战
- 查
- 要求
- 类
- 分类
- 相当常见
- 社体的一部分
- 公司
- 复杂
- 计算
- 后果
- 考虑
- 考虑
- 考虑
- 建设
- 连续
- 危急
- 每天
- data
- 数据科学
- 数据集
- 处理
- 决定
- 决定
- 深
- 部署
- 设计
- 详情
- 不同
- 难
- 直接
- 别
- 动态
- 每
- 有效
- 效率
- 有效
- 消除
- 爱好者
- 评估
- 例子
- 优秀
- 存在
- 非常
- 奇妙
- 高效率
- 特征
- 少数
- 找到最适合您的地方
- 运动健身
- 专注焦点
- 以下
- 创办人
- 止
- 运作
- 功能
- 未来
- 生成
- 温和
- 给
- 贪婪
- 指南
- 处理
- 哈希
- 帮助
- 高度
- 历史
- 创新中心
- 但是
- HTTPS
- 鉴定
- 实施
- 重要性
- 改善
- in
- 增加
- 输入
- 介绍
- 问题
- IT
- 掘金队
- 凯拉斯
- 已知
- 大
- 学习用品
- 学习
- Level
- 杠杆作用
- 贷款
- 当地
- 看
- 主要
- 大部分问题
- 使
- 制作
- 制作
- 许多
- 数学的
- 有意义的
- 衡量
- 中等
- 提到
- 方法
- 方法
- 公
- 模型
- 更多
- 摩根
- 摩根士丹利
- 多
- 需求
- 打印车票
- 全新
- 数
- 目标
- 一
- 最佳
- 优化
- 优化
- 优化
- 面包
- 痛点
- 纸类
- 尤其
- 模式
- 性能
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 点
- 贫困
- 预测
- 当下
- 以前
- 市场问题
- 问题
- 禁止
- 出版
- 快速
- 很快
- 阅读
- 真实的世界
- 合理
- 最近
- 减少
- 减少
- 其余
- 要求
- 研究
- 导致
- 同
- 可扩展性
- 科学
- 搜索
- 如图
- 显著
- 显著
- 类似
- 简易
- 简单
- 小
- 小
- 解决方案
- 解决
- 一些
- 极致
- 太空
- 速度
- 分裂
- 赤柱
- 步
- 步骤
- 这样
- 谈论
- 科技
- test
- 其
- 数千
- 门槛
- 通过
- 次
- 至
- 也有
- 触摸
- 牵引
- 产品培训
- 树
- 使用
- 价值观
- 各个
- 这
- 而
- 将
- 也完全不需要
- 工作
- 加工
- 和风网