機械学習モデルは、企業がより多くの情報に基づいた意思決定を行い、業務を最適化するのに役立つ強力なツールです。ただし、これらのモデルは実稼働環境でデプロイおよび実行されるため、モデル ドリフトと呼ばれる現象が発生します。
モデルのドリフトは、基礎となるデータの変化により機械学習モデルのパフォーマンスが時間の経過とともに低下すると発生し、不正確な予測を引き起こし、ビジネスに重大な影響を与える可能性があります。この課題に対処するために、組織は、本番環境の機械学習のライフサイクルの管理に役立つ一連のプラクティスとツールである MLOps に注目しています。
In this article, we’ll explore model drift, the different types of it, how to detect it, and most importantly, how to handle it in production using MLOps. By understanding and managing model drift, businesses can ensure that their machine learning models remain accurate and effective over time, delivering the insights and outcomes that they need to thrive.
モデルのドリフト (モデルの減衰とも呼ばれます) は、時間の経過とともにモデルのパフォーマンスが低下する機械学習の現象です。これは、モデルが徐々に悪い予測を出し始め、時間の経過とともに精度が低下することを意味します。
データ収集の変更や変数間の基礎的な関係など、モデルの変更にはさまざまな理由があります。したがって、モデルはこれらの変更をキャッチできず、変更が増加するにつれてパフォーマンスが低下します。
モデルのドリフトを検出して対処することは、MLOps が解決する重要なタスクの 1 つです。モデル モニタリングなどの手法はモデル ドリフトの存在を検出するために使用され、モデルの再トレーニングはモデル ドリフトを克服するために使用される主な手法の 1 つです。
データ内で発生した変更に基づいてモデルを更新するには、モデル ドリフトの種類を理解することが不可欠です。ドリフトには主に 3 つのタイプがあります。
コンセプトドリフト
概念ドリフトは、ターゲットと入力の関係が変化するときに発生します。したがって、機械学習アルゴリズムは正確な予測を提供しません。コンセプトドリフトには主に 4 つのタイプがあります。
- 突然のドリフト: 独立変数と従属変数の間の関係が突然発生すると、突然の概念ドリフトが発生します。非常に有名な例は、突然発生した covid 19 パンデミックです。パンデミックの発生により、ターゲット変数とさまざまな分野の特徴の間の関係が突然変化したため、事前トレーニングされたデータに基づいてトレーニングされた予測モデルは、パンデミック期間中に正確に予測できなくなります。
- 緩やかなドリフト: In a gradual concept drift, the relation between the input and the target may change slowly and subtly. This can result in a slow decline in the performance of a machine learning model, as the model becomes less accurate over time. An example of the gradual concept drift is fraudulent behavior. Fraudsters tend to understand how the fraud detection system works and change their behavior over time to escape the system. Therefore a machine learning model trained on historical fraudulent transaction data will not accurately predict the gradual changes in the fraudster’s behavior. For example, consider a machine learning model used for predicting stock prices in which the model is trained on data from the past five years and its performance is evaluated on new data from the current year. However, as time goes by, the market dynamics may change, and the relationship between the variables that influence stock prices may evolve gradually. This can result in incremental drift, where the model’s accuracy gradually deteriorates over time as it becomes less effective at capturing the changing relationship between the variables.
- 増分ドリフト: 増分ドリフトは、ターゲット変数と入力の間の関係が時間の経過とともに徐々に変化するときに発生します。これは通常、データ生成プロセスの変化が原因で発生します。
- 繰り返されるドリフト: これは季節性とも呼ばれます。典型的な例は、クリスマスやブラック フライデーの売上増加です。これらの季節変化を不正確に考慮しない機械学習モデルは、これらの季節変化に対して不正確な予測を提供することになります。
これら 4 種類のコンセプト ドリフトを次の図に示します。
コンセプトドリフトの種類 |からの画像 コンセプトドリフトに関する学習: レビュー.
データドリフト
データ ドリフトは、入力データの統計的特性が変化すると発生します。この例としては、特定のアプリケーションのユーザーの年齢分布が時間の経過とともに変化することが挙げられます。そのため、マーケティング戦略に使用される特定の年齢分布に基づいてトレーニングされたモデルは、年齢の変化がアプリケーションに影響を与えるため、変更する必要があります。マーケティング戦略。
アップストリームデータの変更
3 番目のタイプのドリフトは、上流のデータ変更です。これは、データ パイプライン内の運用データの変更を指します。この典型的な例は、特定の特徴が生成されなくなり、値が欠損した場合です。別の例は、測定単位の変更です。たとえば、特定のセンサーが量を摂氏で測定し、その後華氏に変更する場合です。
モデルのドリフトを検出するのは簡単ではなく、それを検出するための普遍的な方法はありません。ただし、それを検出するための一般的な方法のいくつかについて説明します。
- コルモゴロフ・スミルノフ検定 (K-S 検定): K-S 検定は、データ分布の変化を検出するためのノンパラメトリック検定です。これは、トレーニング データとトレーニング後のデータを比較し、それらの間の分布の変化を見つけるために使用されます。このテスト セットの帰無仮説は、2 つのデータセットからの分布が同じであることを示しているため、帰無仮説が棄却されると、モデル シフトが発生します。
- 人口安定指数 (PSI): PSI は、2 つの異なるデータセットにおけるカテゴリ変数の分布の類似性を測定するために使用される統計的尺度です。したがって、トレーニングおよびトレーニング後のデータセット内のカテゴリ変数の特性の変化を測定するために使用できます。
- ページ・ヒンクリー法: ページ ヒンケリーは、時間の経過に伴うデータの平均の変化を観察するために使用される統計手法でもあります。通常、データを見ても明らかではない平均値の小さな変化を検出するために使用されます。
- パフォーマンス監視: 概念の変化を検出するための最も重要な方法の 1 つは、本番環境で機械学習モデルのパフォーマンスを監視し、その変化を観察することです。変化が特定のしきい値を超えた場合、この概念の変化を修正するために特定のアクションをトリガーできます。
本番環境でのドリフトの処理 |画像提供者 イジェブ Freepikで。
Finally, let’s see how to handle the detected model drift in production. There is a wide spectrum of strategies used to handle the model drift depending on the type of drift, the data we are working on, and the project in production. Here is a summary of the popular methods that are used to handle model drift in production:
- オンライン学習: 現実世界のアプリケーションのほとんどはストリーミング データ上で実行されるため、オンライン学習はドリフトに対処するために使用される一般的な方法の 1 つです。オンライン学習では、モデルが一度に 1 つのサンプルを処理するため、モデルはオンザフライで更新されます。
- 定期的にモデルを再トレーニングします。 モデルのパフォーマンスが特定のしきい値を下回るか、データのシフトが観察されると、トリガーを設定して、最新のデータでモデルを再トレーニングできます。
- 代表的なサブサンプルで定期的に再トレーニングする: 概念のドリフトに対処するより効果的な方法は、母集団の代表的なサブサンプルを選択し、人間の専門家を使用してそれらにラベルを付け、それらに基づいてモデルを再トレーニングすることです。
- 機能の削除: これは、コンセプトのドリフトに対処するために使用できる、シンプルですが効果的な方法です。この方法を使用すると、それぞれ 1 つの特徴を使用して複数のモデルをトレーニングし、モデルごとに AUC-ROC 応答が監視され、特定の特徴を使用して AUC-ROC の値が特定のしきい値を超えた場合、それを次のように削除できます。これはドリフトに参加するかも知れません。
参考文献
この記事では、モデル ドリフトについて説明しました。これは、基になるデータの変化によりモデルのパフォーマンスが時間の経過とともに低下する機械学習の現象です。企業は、これらの課題を克服するために、本番環境での機械学習モデルのライフサイクルを管理する一連のプラクティスとツールである MLOps に注目しています。
概念ドリフト、データ ドリフト、上流データ変更など、発生する可能性のあるさまざまな種類のドリフトについて概説し、コルモゴロフ-スミルノフ検定、集団安定性指数、ページ ヒンクリー法などの方法を使用してモデル ドリフトを検出する方法について説明しました。最後に、オンライン学習、定期的なモデルの再トレーニング、代表的なサブサンプルでの定期的な再トレーニング、特徴量の削除など、本番環境でモデルのドリフトに対処する一般的な手法について説明しました。
ユセフ・ラファート コンピューター ビジョンの研究者であり、データ サイエンティストでもあります。 彼の研究は、ヘルスケア アプリケーション向けのリアルタイム コンピュータ ビジョン アルゴリズムの開発に重点を置いています。 また、マーケティング、財務、ヘルスケアの分野で 3 年以上データ サイエンティストとして働いていました。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- プラトアイストリーム。 Web3 データ インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- 未来を鋳造する w エイドリエン・アシュリー。 こちらからアクセスしてください。
- PREIPO® を使用して PRE-IPO 企業の株式を売買します。 こちらからアクセスしてください。
- 情報源: https://www.kdnuggets.com/2023/05/managing-model-drift-production-mlops.html?utm_source=rss&utm_medium=rss&utm_campaign=managing-model-drift-in-production-with-mlops
- :持っている
- :は
- :not
- :どこ
- $UP
- a
- できる
- 精度
- 正確な
- 正確にデジタル化
- Action
- 住所
- アドレッシング
- 影響を及ぼす
- 年齢
- アルゴリズム
- アルゴリズム
- また
- an
- および
- 別の
- 見かけ上
- 申し込み
- です
- 記事
- AS
- At
- 悪い
- ベース
- BE
- になる
- 以下
- の間に
- 越えて
- ブラック
- ブラック・フライデイ
- ビジネス
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 缶
- キャプチャ
- レスリング
- 摂氏
- 一定
- 挑戦する
- 課題
- 変化する
- 変更
- 変更
- 変化
- 特性
- クリスマス
- コレクション
- コマンドと
- 比較します
- コンピュータ
- Computer Vision
- コンセプト
- 結果
- 検討
- 正しい
- 可能性
- コビッド
- 電流プローブ
- データ
- データサイエンティスト
- データセット
- 取引
- 決定
- 衰退
- 減少
- 配信する
- 依存
- によっては
- 展開
- 検出された
- 検出
- 開発
- 異なります
- 話し合います
- 議論する
- ディストリビューション
- ドメイン
- Drop
- 落ちる
- 原因
- 間に
- ダイナミクス
- 各
- 効果的な
- end
- 確保
- 脱出
- 本質的な
- エーテル(ETH)
- 評価
- 進化
- 例
- 専門家
- 探る
- フェイル
- フォールズ
- 有名な
- 特徴
- 特徴
- フィールズ
- フィギュア
- 最後に
- ファイナンス
- もう完成させ、ワークスペースに掲示しましたか?
- 焦点を当てて
- 4
- 詐欺
- 不正検出
- 詐欺師
- 不正な
- 金曜日
- から
- 生成された
- 生成
- 与える
- ゴエス
- 緩やかな
- 徐々に
- ハンドル
- 持ってる
- he
- ヘルスケア
- 助けます
- こちら
- 彼の
- 歴史的
- 認定条件
- How To
- しかしながら
- HTTPS
- 人間
- if
- 画像
- 重要
- in
- 不正確
- 含めて
- 増える
- 独立しました
- index
- 影響
- 情報に基づく
- 洞察
- に
- IT
- ITS
- JPG
- KDナゲット
- 既知の
- ラベリング
- 主要な
- 学習
- less
- wifecycwe
- ll
- より長いです
- 探して
- 機械
- 機械学習
- メイン
- make
- 管理します
- 管理する
- 市場
- マーケティング
- マーケティング戦略
- 五月..
- 意味する
- 手段
- だけど
- 測定
- 方法
- メソッド
- かもしれない
- 行方不明
- MLOps
- モデル
- 監視対象
- モニタリング
- 他には?
- 最も
- の試合に
- 必要
- 新作
- ニコラス
- いいえ
- 観察する
- 発生した
- of
- on
- かつて
- ONE
- オンライン
- オンライン学習
- オペレーショナル
- 業務執行統括
- 最適化
- or
- 組織
- 成果
- 概説
- が
- 克服する
- パンデミック
- 参加する
- 特定の
- 過去
- パフォーマンス
- periodic
- 現象
- パイプライン
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 人気
- 人口
- :
- 強力な
- プラクティス
- 予測する
- 予測
- 予測
- 予測
- プレゼンス
- 価格、またオプションについて
- プロセス
- 生産
- プロジェクト
- プロパティ
- 提供します
- 提供
- 量
- 現実の世界
- への
- 理由は
- 最近
- 指し
- 関係
- 関係
- の関係
- 残る
- 代表者
- 研究
- 研究者
- 応答
- 結果
- 結果として
- 再訓練
- ラン
- s
- セールス
- 同じ
- 科学者
- 季節の
- 選択
- セッションに
- シフト
- シフト
- 示す
- 重要
- 簡単な拡張で
- から
- 遅く
- ゆっくり
- 小さい
- So
- 解決する
- 一部
- 特定の
- スペクトラム
- 安定性
- start
- 米国
- 統計的
- 株式
- 簡単な
- 作戦
- ストリーミング
- テーマ
- そのような
- 突然の
- 概要
- ターゲット
- タスク
- テクニック
- test
- より
- それ
- アプリ環境に合わせて
- それら
- その後
- そこ。
- したがって、
- ボーマン
- 彼ら
- 三番
- この
- 三
- しきい値
- 繁栄する
- 時間
- 〜へ
- 豊富なツール群
- トレーニング
- 訓練された
- トレーニング
- トランザクション
- トリガー
- ターニング
- 2
- type
- 典型的な
- 下
- 根本的な
- わかる
- 理解する
- 単位
- ユニバーサル
- アップデイト
- 更新しました
- 上流データ
- 中古
- ユーザー
- 通常
- 値
- 非常に
- ビジョン
- 仕方..
- we
- いつ
- which
- ワイド
- 意志
- 働いていました
- ワーキング
- 作品
- 年
- 年
- ゼファーネット