机器学习模型是强大的工具,可以帮助企业做出更明智的决策并优化运营。 然而,当这些模型在生产中部署和运行时,它们会遇到一种称为模型漂移的现象。
当机器学习模型的性能由于基础数据的变化而随着时间的推移而下降时,就会发生模型漂移,从而导致预测不准确,并可能给业务带来重大后果。 为了应对这一挑战,组织正在转向 MLOps,这是一组有助于管理生产机器学习生命周期的实践和工具。
In this article, we’ll explore model drift, the different types of it, how to detect it, and most importantly, how to handle it in production using MLOps. By understanding and managing model drift, businesses can ensure that their machine learning models remain accurate and effective over time, delivering the insights and outcomes that they need to thrive.
模型漂移,也称为模型衰减,是机器学习中的一种现象,其中模型性能随着时间的推移而下降。 这意味着模型将逐渐开始给出错误的预测,随着时间的推移,准确性会降低。
模型转换的原因有多种,例如数据收集的变化或变量之间的潜在关系。 因此,模型将无法捕获这些变化,并且性能会随着变化的增加而下降。
检测和解决模型漂移是 MLOps 解决的基本任务之一。 模型监控等技术用于检测模型漂移的存在,而模型再训练是用于克服模型漂移的主要技术之一。
了解模型漂移的类型对于根据数据中发生的变化更新模型至关重要。 漂移主要分为三种类型:
概念漂移
当目标和输入之间的关系发生变化时,就会发生概念漂移。 因此,机器学习算法将无法提供准确的预测。 概念漂移主要有四种类型:
- 突然的漂移:如果自变量和因变量之间的关系突然发生,就会发生突然的概念漂移。 一个非常著名的例子就是突然发生的covid 19大流行。 疫情的发生突然改变了目标变量与不同领域特征之间的关系,因此基于预训练数据训练的预测模型将无法在疫情期间准确预测。
- 逐渐漂移: In a gradual concept drift, the relation between the input and the target may change slowly and subtly. This can result in a slow decline in the performance of a machine learning model, as the model becomes less accurate over time. An example of the gradual concept drift is fraudulent behavior. Fraudsters tend to understand how the fraud detection system works and change their behavior over time to escape the system. Therefore a machine learning model trained on historical fraudulent transaction data will not accurately predict the gradual changes in the fraudster’s behavior. For example, consider a machine learning model used for predicting stock prices in which the model is trained on data from the past five years and its performance is evaluated on new data from the current year. However, as time goes by, the market dynamics may change, and the relationship between the variables that influence stock prices may evolve gradually. This can result in incremental drift, where the model’s accuracy gradually deteriorates over time as it becomes less effective at capturing the changing relationship between the variables.
- 增量漂移: 当目标变量和输入之间的关系随着时间逐渐变化时,就会发生增量漂移,这通常是由于数据生成过程的变化而发生的。
- 反复出现的漂移:这也称为季节性。 一个典型的例子是圣诞节或黑色星期五期间销售额的增加。 不会不准确地考虑这些季节性变化的机器学习模型最终将为这些季节性变化提供不准确的预测。
这四种概念漂移如下图所示。
概念漂移的类型图片来自 概念漂移下的学习:回顾.
数据漂移
当输入数据的统计属性发生变化时,就会发生数据漂移。 一个例子是某个应用程序的用户年龄分布随着时间的推移而变化,因此,用于营销策略的针对特定年龄分布训练的模型必须进行更改,因为年龄的变化会影响市场营销策略。
上游数据变化
第三种漂移是上游数据变化。 这是指数据管道中操作数据的变化。 一个典型的例子是当不再生成特定特征时导致值缺失。 另一个例子是测量单位的变化,例如,如果某个传感器以摄氏度测量量,然后更改为华氏度。
检测模型漂移并不简单,并且没有通用的方法来检测它。 但是,我们将讨论一些流行的检测方法:
- 柯尔莫哥洛夫-斯米尔诺夫检验(KS 检验):KS 检验是一种非参数检验,用于检测数据分布的变化。 用于比较训练数据和训练后数据,发现它们之间的分布变化。 该测试集的原假设表明两个数据集的分布相同,因此如果拒绝原假设,则会出现模型偏移。
- 人口稳定性指数(PSI):PSI 是一种统计度量,用于度量两个不同数据集中 calcategori 变量分布的相似性。 因此它可以用来衡量训练和训练后数据集中分类变量特征的变化。
- 佩吉-欣克利法:Page-Hinkely 也是一种统计方法,用于观察数据平均值随时间的变化。 它通常用于检测在查看数据时不明显的平均值的微小变化。
- 性能监控: 检测概念转变的最重要方法之一是监控机器学习模型在生产中的性能并观察其变化,如果它超过某个阈值,我们可以触发特定的操作来纠正这种概念转变。
处理生产中的偏差| 图片来源: 伊杰布 在 Freepik 上。
Finally, let’s see how to handle the detected model drift in production. There is a wide spectrum of strategies used to handle the model drift depending on the type of drift, the data we are working on, and the project in production. Here is a summary of the popular methods that are used to handle model drift in production:
- 网上学习:由于大多数现实世界的应用程序都运行在流数据上,因此在线学习是用于处理漂移的常用方法之一。 在在线学习中,模型会动态更新,因为模型一次处理一个样本。
- 定期模型重新训练: 一旦模型性能低于某个阈值或观察到数据变化,就可以设置触发器以使用最新数据重新训练模型。
- 定期对代表性子样本进行重新训练:处理概念漂移的更有效方法是选择总体中具有代表性的子样本,并使用人类专家对其进行标记,并在其上重新训练模型。
- 功能下降: 这是一种简单但有效的方法,可用于处理概念漂移。 使用这种方法,我们将训练多个模型,每个模型使用一个特征,然后对于每个模型,监控 AUC-ROC 响应,如果使用特定特征的 AUC-ROC 值超出特定阈值,那么我们可以将其丢弃为这可能会参与漂流。
参考资料
在本文中,我们讨论了模型漂移,这是机器学习中的一种现象,其中模型的性能由于基础数据的变化而随着时间的推移而恶化。 企业正在转向 MLOps,这是一组管理生产中机器学习模型生命周期的实践和工具,以克服这些挑战。
我们概述了可能发生的不同类型的漂移,包括概念漂移、数据漂移和上游数据变化,以及如何使用 Kolmogorov-Smirnov 检验、总体稳定性指数和 Page-Hinkley 方法等方法检测模型漂移。 最后,我们讨论了处理生产中模型漂移的流行技术,包括在线学习、定期模型重新训练、定期对代表性子样本重新训练以及特征丢弃。
优素福·拉法特 是一名计算机视觉研究员和数据科学家。 他的研究重点是开发用于医疗保健应用的实时计算机视觉算法。 他还在市场营销、金融和医疗保健领域担任了 3 年多的数据科学家。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图爱流。 Web3 数据智能。 知识放大。 访问这里。
- 与 Adryenn Ashley 一起铸造未来。 访问这里。
- 使用 PREIPO® 买卖 PRE-IPO 公司的股票。 访问这里。
- Sumber: https://www.kdnuggets.com/2023/05/managing-model-drift-production-mlops.html?utm_source=rss&utm_medium=rss&utm_campaign=managing-model-drift-in-production-with-mlops
- :具有
- :是
- :不是
- :在哪里
- $UP
- a
- Able
- 账号管理
- 精准的
- 准确
- 操作
- 地址
- 解决
- 影响
- 年龄
- 算法
- 算法
- 还
- an
- 和
- 另一个
- 明显的
- 应用领域
- 应用领域
- 保健
- 刊文
- AS
- At
- 坏
- 基于
- BE
- 成为
- 如下。
- 之间
- 超越
- 黑色
- 黑色星期五
- 商业
- 企业
- 但是
- by
- CAN
- 捕获
- 摔角
- 摄氏
- 一定
- 挑战
- 挑战
- 更改
- 变
- 更改
- 改变
- 特点
- 圣诞
- 采集
- 相当常见
- 比较
- 一台
- 计算机视觉
- 概念
- 后果
- 考虑
- 正确
- 可以
- Covid
- 电流
- data
- 数据科学家
- 数据集
- 处理
- 决定
- 拒绝
- 减少
- 交付
- 依赖的
- 根据
- 部署
- 检测
- 检测
- 发展
- 不同
- 讨论
- 讨论
- 分配
- 域
- 下降
- 删除
- 两
- ,我们将参加
- 动力学
- 每
- 有效
- 结束
- 确保
- 逃生
- 必要
- 醚(ETH)
- 评估
- 发展
- 例子
- 专家
- 探索
- 失败
- 下降
- 著名
- 专栏
- 特征
- 字段
- 数字
- 终于
- 金融
- 找到最适合您的地方
- 重点
- 针对
- 四
- 骗局
- 欺诈检测
- 骗子
- 欺诈
- 周五
- 止
- 产生
- 发电
- 给
- GOES
- 逐步
- 渐渐
- 处理
- 有
- he
- 医疗保健
- 帮助
- 此处
- 他的
- 历史的
- 创新中心
- How To
- 但是
- HTTPS
- 人
- if
- 图片
- 重要
- in
- 不准确
- 包含
- 增加
- 独立
- 指数
- 影响
- 通知
- 输入
- 可行的洞见
- 成
- IT
- 它的
- JPG
- 掘金队
- 已知
- 标签
- 领导
- 学习
- 减
- 生命周期
- ll
- 不再
- 寻找
- 机
- 机器学习
- 主要
- 使
- 管理
- 管理的
- 市场
- 营销
- 市场营销策略
- 可能..
- 意味着
- 手段
- 衡量
- 数据监测
- 方法
- 方法
- 可能
- 失踪
- 多播
- 模型
- 模型
- 监控
- 监控
- 更多
- 最先进的
- 多
- 需求
- 全新
- 萨科
- 没有
- 观察
- 发生
- of
- on
- 一旦
- 一
- 在线
- 网上学习
- 操作
- 运营
- 优化
- or
- 组织
- 结果
- 概述
- 超过
- 克服
- 流感大流行
- 参加
- 特别
- 过去
- 性能
- 定期
- 现象
- 管道
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 热门
- 人口
- 可能
- 强大
- 做法
- 预测
- 预测
- 预测
- 预测
- 存在
- 价格
- 过程
- 生产
- 项目
- 提供
- 优
- 数量
- 真实的世界
- 实时的
- 原因
- 最近
- 指
- 关系
- 关系
- 关系
- 留
- 代表
- 研究
- 研究员
- 响应
- 导致
- 导致
- 再培训
- 运行
- s
- 销售
- 同
- 科学家
- 季节性
- 看到
- 选择
- 集
- 转移
- 转换中
- 如图
- 显著
- 简易
- 自
- 放慢
- 慢慢地
- 小
- So
- 解决
- 一些
- 具体的
- 光谱
- 稳定性
- 开始
- 州
- 统计
- 库存
- 简单的
- 策略
- 流
- 主题
- 这样
- 突
- 概要
- 系统
- 目标
- 任务
- 技术
- test
- 比
- 这
- 其
- 他们
- 然后
- 那里。
- 因此
- 博曼
- 他们
- 第三
- Free Introduction
- 三
- 门槛
- 兴旺
- 次
- 至
- 工具
- 培训
- 熟练
- 产品培训
- 交易
- 触发
- 谈到
- 二
- 类型
- 类型
- 普遍
- 下
- 相关
- 理解
- 理解
- 单元
- 普遍
- 更新
- 更新
- 上游数据
- 用过的
- 用户
- 运用
- 平时
- 折扣值
- 非常
- 愿景
- 方法..
- we
- ,尤其是
- 这
- 宽
- 将
- 工作
- 加工
- 合作
- 年
- 年
- 和风网