カスタム Amazon SageMaker モデルモニターを使用して NLP データドリフトを検出する

プラトン再発行

フォロワー： 0

自然言語理解は、チャットボットや仮想アシスタントから、機械翻訳やテキスト要約まで、幅広いユースケースに適用されます。これらのアプリケーションが期待されるパフォーマンスレベルで実行されていることを確認するには、トレーニング環境と運用環境のデータが同じディストリビューションからのものであることが重要です。推論に使用されるデータ (本番データ) が、モデルのトレーニング中に使用されるデータと異なる場合、データドリフトと呼ばれる現象が発生します。データドリフトが発生すると、モデルは本番環境のデータに関連しなくなり、予想よりもパフォーマンスが低下する可能性があります。推論データを継続的に監視し、トレーニング中に使用されたデータと比較することが重要です。

あなたが使用することができますアマゾンセージメーカー機械学習 (ML) モデルをあらゆる規模で迅速に構築、トレーニング、デプロイします。モデルの劣化に対するプロアクティブな対策として、次を使用できます。 Amazon SageMakerモデルモニター ML モデルの品質をリアルタイムで継続的に監視します。 Model Monitor を使用すると、モデルのパフォーマンスにドリフトが見られた場合に通知してアクションをトリガーするようにアラートを構成することもできます。これらの逸脱を早期かつプロアクティブに検出することで、モデルを手動で監視したり追加のツールを構築したりすることなく、新しいグラウンドトゥルーストレーニングデータの収集、モデルの再トレーニング、上流システムの監査などの是正措置を講じることができます。

モデルモニターは、モデルのドリフトをリアルタイムで検出して軽減するためのXNUMX種類の監視機能を提供します。

データ品質 – データスキーマおよび独立変数の統計的プロパティの変更を検出し、ドリフトが検出されたときにアラートを送信するのに役立ちます。
モデルの品質 – 精度や精度などのモデルのパフォーマンス特性をリアルタイムで監視するために、Model Monitor を使用すると、アプリケーションから収集されたグラウンドトゥルースラベルを取り込むことができます。モデルモニターは、グラウンドトゥルース情報と予測データを自動的にマージして、モデルのパフォーマンスメトリックを計算します。
モデルバイアス –モデルモニターが統合されています Amazon SageMaker の明確化潜在的なバイアスに対する可視性を向上させるため。初期のデータやモデルにはバイアスがかかっていないかもしれませんが、世界の変化により、すでにトレーニングされたモデルに時間の経過とともにバイアスが生じる可能性があります。
モデルの説明性 – ドリフト検出は、特徴属性の相対的な重要性に変化が発生したときに警告します。

この投稿では、テキストデータに適用されるデータ品質ドリフトの種類について説明します。また、Model Monitor を使用してテキストデータのデータドリフトを検出する方法も示します。

NLP のデータドリフト

データドリフトは、分布の変化が入力側で発生しているか出力側で発生しているか、または入力と出力の関係が変化しているかどうかに応じて 3 つのカテゴリに分類できます。

共変量シフト

で 共変量シフト、入力の分布は時間の経過とともに変化しますが、条件付き分布は P(y|x) 変わりません。このタイプのドリフトは、共変量 (特徴) の分布のシフトによって問題が発生するため、共変量シフトと呼ばれます。たとえば、電子メールスパム分類モデルでは、トレーニングデータ (電子メールコーパス) の分布は、スコアリング中のデータの分布から分岐する場合があります。

ラベルシフト

共変量シフトは特徴分布の変化に焦点を当てますが、 ラベルシフト クラス変数の分布の変化に焦点を当てています。このタイプのシフトは、本質的に共変量シフトの逆です。それについて考える直感的な方法は、不均衡なデータセットを検討することです。トレーニングセット内の電子メールのスパムと非スパムの比率が 50% であるが、実際には電子メールの 10% が非スパムである場合、ターゲットラベルの分布がシフトしています。

コンセプトシフト

コンセプトシフト 共変量やラベルシフトとは異なり、データ分布やクラス分布には関係なく、XNUMX つの変数間の関係に関係します。たとえば、電子メールスパマーはさまざまな概念を使用してスパムフィルターモデルを通過することが多く、トレーニング中に使用される電子メールの概念は時間の経過とともに変化する可能性があります。

さまざまなタイプのデータドリフトを理解したところで、Model Monitor を使用してテキストデータの共変量シフトを検出する方法を見てみましょう。

ソリューションの概要

構造化された境界のある表形式のデータとは異なり、テキストデータは複雑で、高次元で、自由な形式です。 NLP のドリフトを効率的に検出するために、 埋め込み、 これは、テキストの低次元表現です。 Word2Vec などのさまざまな言語モデルや、次のようなトランスフォーマーベースのモデルを使用して、埋め込みを取得できます。ベルト. これらのモデルは、テキストのセマンティック情報を保持しながら、高次元データを低次元空間に射影します。結果は密でコンテキスト的に意味のあるベクトルであり、データドリフトの監視など、さまざまなダウンストリームタスクに使用できます。

私たちのソリューションでは、埋め込みを使用して英語の文の共変量シフトを検出します。 Model Monitor を使用して、実稼働環境にデプロイされたテキスト分類子の継続的な監視を容易にします。私たちのアプローチは、次の手順で構成されています。

SageMaker を使用して BERT モデルを微調整します。
微調整された BERT 分類器をリアルタイムエンドポイントとしてデプロイします。データ収集有効になりました。
BERT 分類器のトレーニングに使用される文のサンプルで構成されるベースラインデータセットを作成します。
作るカスタム SageMaker モニタリングジョブ本番環境でキャプチャされたデータとベースラインデータセットの間のコサイン類似度を計算します。

次の図は、ソリューションのワークフローを示しています。

BERT モデルの微調整

この投稿では、言語受容性コーパス（CoLA）、公開された言語学文献から文法的または非文法的とラベル付けされた 10,657 の英語文のデータセット。 SageMaker トレーニングを使用して、PyTorch estimator クラスを定義することにより、CoLa データセットを使用して BERT モデルを微調整します。この SDK を PyTorch で使用する方法の詳細については、次を参照してください。 SageMaker PythonSDKでPyTorchを使用する。電話をかける fit() estimator のメソッドがトレーニングジョブを起動します。

from sagemaker.pytorch import PyTorch # place to save model artifact
output_path = f"s3://{bucket}/{model_prefix}" estimator = PyTorch( entry_point="train_deploy.py", source_dir="code", role=role, framework_version="1.7.1", py_version="py3", instance_count=1, instance_type="ml.p3.2xlarge", output_path=output_path, hyperparameters={ "epochs": 1, "num_labels": 2, "backend": "gloo", }, disable_profiler=True, # disable debugger
)
estimator.fit({"training": inputs_train, "testing": inputs_test})

モデルを展開する

モデルをトレーニングした後、SageMaker エンドポイントでホストします。エンドポイントにモデルをロードさせ、予測を提供させるために、いくつかのメソッドを実装します。 train_deploy.py:

model_fn（） –保存されたモデルをロードし、モデルの提供に使用できるモデルオブジェクトを返します。 SageMaker PyTorchモデルサーバーは、を呼び出すことでモデルをロードします model_fn.
input_fn（） –予測入力を逆シリアル化して準備します。この例では、リクエストの本文は最初にJSONにシリアル化されてから、モデル提供エンドポイントに送信されます。したがって、 input_fn()、最初にJSON形式のリクエスト本文をデシリアライズし、入力を torch.tensor、BERT に必要な場合。
predict_fn（） – 予測を実行し、結果を返します。

モデルモニターのデータキャプチャを有効にする

可能にするモデルモニターのデータキャプチャ入力データを Amazon シンプルストレージサービス (Amazon S3) バケットを後で参照するには:

data_capture_config = DataCaptureConfig(enable_capture=True, sampling_percentage=100, destination_s3_uri=s3_capture_upload_path)

次に、前のステップで作成したモデルを使用して、リアルタイムの SageMaker エンドポイントを作成します。

predictor = estimator.deploy(endpoint_name='nlp-data-drift-bert-endpoint', initial_instance_count=1, instance_type="ml.m4.xlarge", data_capture_config=data_capture_config)

推論

前のステップで作成した予測オブジェクトを使用して予測を実行します。推論エンドポイントで使用される JSON シリアライザーとデシリアライザーを設定します。

print("Sending test traffic to the endpoint {}. nPlease wait...".format(endpoint_name)) result = predictor.predict([ "Thanks so much for driving me home", "Thanks so much for cooking dinner. I really appreciate it", "Nice to meet you, Sergio. So, where are you from"
])

リアルタイムエンドポイントはリクエストからデータをキャプチャするように設定され、レスポンスとデータは Amazon S3 に保存されます。以前の監視スケジュールでキャプチャされたデータを表示できます。

ベースラインを作成する

微調整されたBERTモデルを使用して、トレーニングデータから文埋め込み機能を抽出します。 BERT はセマンティックコンテキストを使用して動的な単語表現を生成するため、コサイン距離を比較するための高品質の特徴入力としてこれらのベクトルを使用します。文の埋め込みを取得するには、次の手順を実行します。

BERT トークナイザーを使用して、各トークンのトークン ID を取得します (input_id) 入力文とマスクで、入力シーケンス内のどの要素がトークンとパディング要素であるかを示します (attention_mask_id）。 BERTを使用しています tokenizer.encode_plus 入力文ごとにこれらの値を取得する関数:

#Add instantiation of tokenizer
encoded_dict = tokenizer.encode_plus( sent, # Input Sentence to encode. add_special_tokens = True, # Add '[CLS]' and '[SEP]' max_length = 64, # Pad sentence to max_length pad_to_max_length = True, # Truncate sentence to max_length return_attention_mask = True, #BERT model needs attention_mask return_tensors = 'pt', # Return pytorch tensors. )
input_ids = encoded_dict['input_ids']
attention_mask_ids = encoded_dict['attention_mask']

input_ids & attention_mask_ids モデルに渡され、ネットワークの隠れた状態を取得します。の hidden_states 次の順序で XNUMX つの次元があります。

層番号 (BERT には 12 層あります)
バッチ番号（1文）
単語トークンインデックス
隠しユニット (768 特徴)

最後の XNUMX つの隠れ層を使用して、文内のすべての入力トークンの平均を計算することにより、単一のベクトル (文の埋め込み) を取得します。

outputs = model(input_ids, attention_mask_ids) # forward pass to model
hidden_states = outputs[2] # token vectors
token_vecs = hidden_states[-2][0] # last 2 layer hidden states
sentence_embedding = torch.mean(token_vecs, dim=0) # average token vectors

文の埋め込みを NumPy 配列として変換し、Model Monitor で使用されるベースラインとして Amazon S3 の場所に保存します。

sentence_embeddings_list = []for i in sentence_embeddings:sentence_embeddings_list.append(i.numpy()) np.save('embeddings.npy', sentence_embeddings_list) #Upload the sentence embedding to S3
!aws s3 cp embeddings.npy s3://{bucket}/{model_prefix}/embeddings/

評価スクリプト

Model Monitor は、表形式のデータセットのエンドポイントからキャプチャされたデータを分析する機能を備えたビルド済みコンテナーを提供します。独自のコンテナーを持ち込みたい場合は、Model Monitor が提供する拡張ポイントを使用できます。を作成するとき MonitoringSchedule、Model Monitor は最終的に処理ジョブを開始します。したがって、コンテナーは処理ジョブコントラクトを認識する必要があります。コンテナと互換性のある評価スクリプトを作成する必要があります契約入力 & outputs.

Model Monitor は、監視スケジュール中にキャプチャされたすべてのサンプルで評価コードを使用します。各推論データポイントについて、前に説明したのと同じロジックを使用して文の埋め込みを計算します。コサイン類似度は、ベースライン内の推論データポイントと文の埋め込みの類似性を測定するための距離メトリックとして使用されます。数学的には、XNUMX つの文埋め込みベクトル間の余弦角を測定します。コサイン類似度スコアが高いほど、文の埋め込みが類似していることを示します。低いコサイン類似度スコアは、データのドリフトを示します。すべてのコサイン類似度スコアの平均を計算し、それがしきい値未満の場合は、違反レポートに取り込まれます。ユースケースに基づいて、次のような他の距離メトリックを使用できます manhattan or euclidean 文の埋め込みの類似性を測定します。

次の図は、SageMaker Model Monitoring を使用してベースラインを確立し、コサイン距離の類似性を使用してデータのドリフトを検出する方法を示しています。

以下は、違反を計算するためのコードです。完全な評価スクリプトは、 GitHubの:

for embed_item in embedding_list: # all sentence embeddings from baseline cosine_score += (1 - cosine(input_sentence_embedding, embed_item)) # cosine distance between input sentence embedding and baseline embedding
cosine_score_avg = cosine_score/(len(embedding_list)) # average cosine score of input sentence
if cosine_score_avg < env.max_ratio_threshold: # compare averge cosine score against a threshold sent_cosine_dict[record] = cosine_score_avg # capture details for violation report violations.append({ "sentence": record, "avg_cosine_score": cosine_score_avg, "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "endpoint_name" : env.sagemaker_endpoint_name, "monitoring_schedule_name": env.sagemaker_monitoring_schedule_name })

Model Monitor を使用してデータドリフトを測定する

このセクションでは、Model Monitor を使用したデータドリフトの測定に焦点を当てます。 Model Monitor のビルド済みモニターは、ディークこれは、データの単体テストを定義するために Apache Spark の上に構築されたライブラリであり、大規模なデータセットのデータ品質を測定します。これらの事前構築済みの監視機能を利用するためにコーディングは必要ありません。また、カスタム分析を提供するコーディングによってモデルを監視する柔軟性もあります。 Model Monitor によって出力されたすべてのメトリックを収集して確認できます。 Amazon SageMakerスタジオ, そのため、追加のコードを記述することなく、モデルのパフォーマンスを視覚的に分析できます。

特定のシナリオでは、たとえばデータが表形式でない場合、デフォルトの処理ジョブ (Powered by ディーク) は、表形式のデータセットのみをサポートするため、十分ではありません。ドリフトを検出するための高度なメトリックを生成するには、事前に構築されたモニターでは不十分な場合があり、独自のメトリックを使用する必要がある場合があります。次のセクションでは、カスタムコンテナーを作成してメトリックを取り込むためのセットアップについて説明します。

カスタム Model Monitor コンテナを構築する

私たちは、使用評価スクリプト前のセクションから Docker コンテナを構築し、それを Amazon エラスティックコンテナレジストリ (アマゾン ECR):

#Build a docker container and push to ECR account_id = boto3.client('sts').get_caller_identity().get('Account')
ecr_repository = 'nlp-data-drift-bert-v1'
tag = ':latest'
region = boto3.session.Session().region_name
sm = boto3.client('sagemaker')
uri_suffix = 'amazonaws.com'
if region in ['cn-north-1', 'cn-northwest-1']: uri_suffix = 'amazonaws.com.cn' processing_repository_uri = f'{account_id}.dkr.ecr.{region}.{uri_suffix}/{ecr_repository + tag}'
# Creating the ECR repository and pushing the container image !docker build -t $ecr_repository docker !$(aws ecr get-login --region $region --registry-ids $account_id --no-include-email) !aws ecr create-repository --repository-name $ecr_repository !docker tag {ecr_repository + tag} $processing_repository_uri!docker push $processing_repository_uri

お客様の Docker コンテナが Amazon ECR にある場合、次のセクションで説明するように、モデル監視ジョブをスケジュールして違反レポートを生成できます。

モデル監視ジョブをスケジュールする

モデル監視ジョブをスケジュールするには、Model Monitor のインスタンスを作成し、 image_uri、前のセクションで作成した Docker コンテナーを参照します。

from sagemaker.model_monitor import ModelMonitor monitor = ModelMonitor( base_job_name='nlp-data-drift-bert-v1', role=role, image_uri=processing_repository_uri, instance_count=1, instance_type='ml.m5.large', env={ 'THRESHOLD':'0.5', 'bucket': bucket },
)

を使用して監視ジョブをスケジュールします create_monitoring_schedule API. 監視ジョブは、時間単位または日単位でスケジュールできます。を使用してジョブを構成します。 destination 次のコードに示すように、パラメータ:

from sagemaker.model_monitor import CronExpressionGenerator, MonitoringOutput
from sagemaker.processing import ProcessingInput, ProcessingOutput destination = f's3://{sagemaker_session.default_bucket()}/{prefix}/{endpoint_name}/monitoring_schedule' processing_output = ProcessingOutput( output_name='result', source='/opt/ml/processing/resultdata', destination=destination,
)
output = MonitoringOutput(source=processing_output.source, destination=processing_output.destination) monitor.create_monitoring_schedule( monitor_schedule_name='nlp-data-drift-bert-schedule', output=output, endpoint_input=predictor.endpoint_name, schedule_cron_expression=CronExpressionGenerator.hourly(),
)

監視スケジュールとその実行を説明および一覧表示するには、次のコマンドを使用できます。

monitor.describe_schedule()
print(monitor.list_executions())

データドリフト違反レポート

モデル監視ジョブが完了すると、宛先 S3 パスに移動して違反レポートにアクセスできます。このレポートには、平均余弦スコア (avg_cosine_score) は、環境変数として構成されたしきい値を下回っています THRESHOLD:0.5 セクションにモデルモニター実例。これは、推論中に観察されたデータが、確立されたベースラインを超えてドリフトしていることを示しています。

次のコードは、生成された違反レポートを示しています。

{ "violations": [ { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Thanks so much for driving me home", "avg_cosine_score": 0.36653404209142876 }, { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Thanks so much for cooking dinner. I really appreciate it", "avg_cosine_score": 0.34974955975723576 }, { "feature_name": "sent_cosine_score", "constraint_check_type": "baseline_drift_check", "sentence": "Nice to meet you, Sergio. So, where are you from", "avg_cosine_score": 0.378982806084463 } ]
}

最後に、この観察に基づいて、再トレーニング用にモデルを構成できます。有効にすることもできます Amazon シンプル通知サービス違反が発生したときにアラートを送信する (Amazon SNS) 通知。

まとめ

Model Monitor を使用すると、本番環境でモデルの高品質を維持できます。この投稿では、テキストなどの非構造化データのデータドリフトを監視する際の課題を強調し、カスタム監視スクリプトを使用してデータドリフトを検出する直感的なアプローチを提供しました。投稿に関連付けられたコードは、次の場所にあります。 GitHubリポジトリ. さらに、次のような他の距離メトリックを利用するようにソリューションをカスタマイズできます。最大平均不一致 (MMD)、埋め込み空間のソース分布とターゲット分布の間の周辺分布を計算するためのノンパラメトリック距離メトリック。

著者について

ヴィクラムエランゴ は、米国バージニア州を拠点とするアマゾンウェブサービスの AI/ML スペシャリストソリューションアーキテクトです。 Vikram は、機械学習アプリケーションを大規模に構築および展開するための設計、ソートリーダーシップにより、金融および保険業界のお客様を支援します。彼は現在、自然言語処理、責任ある AI、推論の最適化、企業全体での ML のスケーリングに注力しています。余暇には、旅行、ハイキング、料理、家族とのキャンプを楽しんでいます。

ラグーラメシャ Amazon SageMaker サービスチームの ML ソリューションアーキテクトです。彼は、顧客が ML 本番ワークロードを SageMaker に大規模に移行するのを支援することに重点を置いています。機械学習、AI、コンピュータービジョンの分野を専門とし、UT ダラスでコンピューターサイエンスの修士号を取得しています。余暇には、旅行と写真を楽しんでいます。

トニー・チェン は、アマゾンウェブサービスの機械学習ソリューションアーキテクトであり、顧客がクラウドでスケーラブルで堅牢な機械学習機能を設計するのを支援しています。元データサイエンティストおよびデータエンジニアとして、彼はその経験を活用して、機械学習を運用する際に組織が直面する最も困難な問題のいくつかに取り組むのを支援しています。