MLOps を使用した本番環境でのモデルドリフトの管理

プラトン再発行

フォロワー： 0

機械学習モデルは、企業がより多くの情報に基づいた意思決定を行い、業務を最適化するのに役立つ強力なツールです。ただし、これらのモデルは実稼働環境でデプロイおよび実行されるため、モデルドリフトと呼ばれる現象が発生します。

モデルのドリフトは、基礎となるデータの変化により機械学習モデルのパフォーマンスが時間の経過とともに低下すると発生し、不正確な予測を引き起こし、ビジネスに重大な影響を与える可能性があります。この課題に対処するために、組織は、本番環境の機械学習のライフサイクルの管理に役立つ一連のプラクティスとツールである MLOps に注目しています。

In this article, we’ll explore model drift, the different types of it, how to detect it, and most importantly, how to handle it in production using MLOps. By understanding and managing model drift, businesses can ensure that their machine learning models remain accurate and effective over time, delivering the insights and outcomes that they need to thrive.

MLOps を使用した本番環境でのモデルドリフトの管理
による写真ニコラ・ペイロル on Unsplash

モデルのドリフト (モデルの減衰とも呼ばれます) は、時間の経過とともにモデルのパフォーマンスが低下する機械学習の現象です。これは、モデルが徐々に悪い予測を出し始め、時間の経過とともに精度が低下することを意味します。

データ収集の変更や変数間の基礎的な関係など、モデルの変更にはさまざまな理由があります。したがって、モデルはこれらの変更をキャッチできず、変更が増加するにつれてパフォーマンスが低下します。

モデルのドリフトを検出して対処することは、MLOps が解決する重要なタスクの 1 つです。モデルモニタリングなどの手法はモデルドリフトの存在を検出するために使用され、モデルの再トレーニングはモデルドリフトを克服するために使用される主な手法の 1 つです。

データ内で発生した変更に基づいてモデルを更新するには、モデルドリフトの種類を理解することが不可欠です。ドリフトには主に 3 つのタイプがあります。

コンセプトドリフト

概念ドリフトは、ターゲットと入力の関係が変化するときに発生します。したがって、機械学習アルゴリズムは正確な予測を提供しません。コンセプトドリフトには主に 4 つのタイプがあります。

突然のドリフト: 独立変数と従属変数の間の関係が突然発生すると、突然の概念ドリフトが発生します。非常に有名な例は、突然発生した covid 19 パンデミックです。パンデミックの発生により、ターゲット変数とさまざまな分野の特徴の間の関係が突然変化したため、事前トレーニングされたデータに基づいてトレーニングされた予測モデルは、パンデミック期間中に正確に予測できなくなります。
緩やかなドリフト: In a gradual concept drift, the relation between the input and the target may change slowly and subtly. This can result in a slow decline in the performance of a machine learning model, as the model becomes less accurate over time. An example of the gradual concept drift is fraudulent behavior. Fraudsters tend to understand how the fraud detection system works and change their behavior over time to escape the system. Therefore a machine learning model trained on historical fraudulent transaction data will not accurately predict the gradual changes in the fraudster’s behavior. For example, consider a machine learning model used for predicting stock prices in which the model is trained on data from the past five years and its performance is evaluated on new data from the current year. However, as time goes by, the market dynamics may change, and the relationship between the variables that influence stock prices may evolve gradually. This can result in incremental drift, where the model’s accuracy gradually deteriorates over time as it becomes less effective at capturing the changing relationship between the variables.
増分ドリフト: 増分ドリフトは、ターゲット変数と入力の間の関係が時間の経過とともに徐々に変化するときに発生します。これは通常、データ生成プロセスの変化が原因で発生します。
繰り返されるドリフト: これは季節性とも呼ばれます。典型的な例は、クリスマスやブラックフライデーの売上増加です。これらの季節変化を不正確に考慮しない機械学習モデルは、これらの季節変化に対して不正確な予測を提供することになります。

これら 4 種類のコンセプトドリフトを次の図に示します。

MLOps を使用した本番環境でのモデルドリフトの管理
コンセプトドリフトの種類 |からの画像コンセプトドリフトに関する学習: レビュー.

データドリフト

データドリフトは、入力データの統計的特性が変化すると発生します。この例としては、特定のアプリケーションのユーザーの年齢分布が時間の経過とともに変化することが挙げられます。そのため、マーケティング戦略に使用される特定の年齢分布に基づいてトレーニングされたモデルは、年齢の変化がアプリケーションに影響を与えるため、変更する必要があります。マーケティング戦略。

アップストリームデータの変更

3 番目のタイプのドリフトは、上流のデータ変更です。これは、データパイプライン内の運用データの変更を指します。この典型的な例は、特定の特徴が生成されなくなり、値が欠損した場合です。別の例は、測定単位の変更です。たとえば、特定のセンサーが量を摂氏で測定し、その後華氏に変更する場合です。

モデルのドリフトを検出するのは簡単ではなく、それを検出するための普遍的な方法はありません。ただし、それを検出するための一般的な方法のいくつかについて説明します。

コルモゴロフ・スミルノフ検定 (K-S 検定): K-S 検定は、データ分布の変化を検出するためのノンパラメトリック検定です。これは、トレーニングデータとトレーニング後のデータを比較し、それらの間の分布の変化を見つけるために使用されます。このテストセットの帰無仮説は、2 つのデータセットからの分布が同じであることを示しているため、帰無仮説が棄却されると、モデルシフトが発生します。
人口安定指数 (PSI): PSI は、2 つの異なるデータセットにおけるカテゴリ変数の分布の類似性を測定するために使用される統計的尺度です。したがって、トレーニングおよびトレーニング後のデータセット内のカテゴリ変数の特性の変化を測定するために使用できます。
ページ・ヒンクリー法: ページヒンケリーは、時間の経過に伴うデータの平均の変化を観察するために使用される統計手法でもあります。通常、データを見ても明らかではない平均値の小さな変化を検出するために使用されます。
パフォーマンス監視： 概念の変化を検出するための最も重要な方法の 1 つは、本番環境で機械学習モデルのパフォーマンスを監視し、その変化を観察することです。変化が特定のしきい値を超えた場合、この概念の変化を修正するために特定のアクションをトリガーできます。

MLOps を使用した本番環境でのモデルドリフトの管理
本番環境でのドリフトの処理 |画像提供者イジェブ Freepikで。

Finally, let’s see how to handle the detected model drift in production. There is a wide spectrum of strategies used to handle the model drift depending on the type of drift, the data we are working on, and the project in production. Here is a summary of the popular methods that are used to handle model drift in production:

オンライン学習: 現実世界のアプリケーションのほとんどはストリーミングデータ上で実行されるため、オンライン学習はドリフトに対処するために使用される一般的な方法の 1 つです。オンライン学習では、モデルが一度に 1 つのサンプルを処理するため、モデルはオンザフライで更新されます。
定期的にモデルを再トレーニングします。 モデルのパフォーマンスが特定のしきい値を下回るか、データのシフトが観察されると、トリガーを設定して、最新のデータでモデルを再トレーニングできます。
代表的なサブサンプルで定期的に再トレーニングする: 概念のドリフトに対処するより効果的な方法は、母集団の代表的なサブサンプルを選択し、人間の専門家を使用してそれらにラベルを付け、それらに基づいてモデルを再トレーニングすることです。
機能の削除: これは、コンセプトのドリフトに対処するために使用できる、シンプルですが効果的な方法です。この方法を使用すると、それぞれ 1 つの特徴を使用して複数のモデルをトレーニングし、モデルごとに AUC-ROC 応答が監視され、特定の特徴を使用して AUC-ROC の値が特定のしきい値を超えた場合、それを次のように削除できます。これはドリフトに参加するかも知れません。

参考文献

この記事では、モデルドリフトについて説明しました。これは、基になるデータの変化によりモデルのパフォーマンスが時間の経過とともに低下する機械学習の現象です。企業は、これらの課題を克服するために、本番環境での機械学習モデルのライフサイクルを管理する一連のプラクティスとツールである MLOps に注目しています。

概念ドリフト、データドリフト、上流データ変更など、発生する可能性のあるさまざまな種類のドリフトについて概説し、コルモゴロフ-スミルノフ検定、集団安定性指数、ページヒンクリー法などの方法を使用してモデルドリフトを検出する方法について説明しました。最後に、オンライン学習、定期的なモデルの再トレーニング、代表的なサブサンプルでの定期的な再トレーニング、特徴量の削除など、本番環境でモデルのドリフトに対処する一般的な手法について説明しました。

ユセフ・ラファート コンピュータービジョンの研究者であり、データサイエンティストでもあります。彼の研究は、ヘルスケアアプリケーション向けのリアルタイムコンピュータビジョンアルゴリズムの開発に重点を置いています。また、マーケティング、財務、ヘルスケアの分野で 3 年以上データサイエンティストとして働いていました。

このトピックの詳細

SEO を活用したコンテンツと PR 配信。今日増幅されます。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
未来を鋳造する w エイドリエン・アシュリー。こちらからアクセスしてください。
PREIPO® を使用して PRE-IPO 企業の株式を売買します。こちらからアクセスしてください。
情報源： https://www.kdnuggets.com/2023/05/managing-model-drift-production-mlops.html?utm_source=rss&utm_medium=rss&utm_campaign=managing-model-drift-in-production-with-mlops

タイムスタンプ： 2023 年 5 月 8 日

プロンプトエンジニアリングの技術: ChatGPT のデコード – KDnuggets

ソースクラスター：

KDナゲット

ソースノード： 2707040

タイムスタンプ： 2023 年 6 月 7 日

MLOps を使用した本番環境でのモデルドリフトの管理

プラトン再発行

コンセプトドリフト

データドリフト

アップストリームデータの変更

参考文献

このトピックの詳細

より多くの KDナゲット

機械学習におけるモデルの解釈のために SHAP 値を使用する – KDnuggets

データサイエンスはモバイルアプリ開発をどのように変革できるか?

AI を活用して公正かつ公平な EV 充電グリッドを設計 – KDnuggets

ChatGPT の仕組み: ボットの背後にあるモデル

フィクションから現実へ: ChatGPT と真の AI 会話という SF の夢 – KDnuggets

5 年に試してみるべきベスト 2024 のベクターデータベース – KDnuggets

データエンジニア向けの 5 つの SQL 可視化ツール

プロンプトエンジニアリングの技術: ChatGPT のデコード – KDnuggets

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー