Amazon SageMaker Data Wrangler を使用して機械学習用にデータのバランスを調整する

プラトン再発行

フォロワー： 0

AmazonSageMakerデータラングラーの新機能ですアマゾンセージメーカーこれにより、データサイエンティストやエンジニアは、ビジュアルインターフェイスを使用して機械学習 (ML) アプリケーション用のデータをより迅速に準備できるようになります。 300 を超える組み込みデータ変換が含まれているため、コードを記述することなく、機能を迅速に正規化、変換、結合できます。

本日、ML モデルのトレーニングのためにデータセットのバランスを簡単かつ効果的に調整できる新しい変換を発表できることを嬉しく思います。この投稿では、これらの変換がどのように機能するかを示します。

新しいバランシング演算子

新しく発表されたバランシング演算子は、 バランスデータ の変換タイプ 変換の追加 ペイン。

現在、変換演算子はバイナリ分類問題のみをサポートしています。バイナリ分類問題では、分類器は各サンプルを 2 つのクラスのいずれかに分類する役割を果たします。多数派クラス (大きい) のサンプル数が少数派 (小さい) クラスのサンプル数よりもかなり大きい場合、データセットは不均衡であると見なされます。トレーニングプロセスが多数派のクラスに偏る傾向があるため、この偏りは ML アルゴリズムと分類器にとって困難です。

この課題に対処するために、分類器をトレーニングする前にデータを強化してよりバランスのとれたバランススキームが提案されました。最も単純なバランス方法は、少数サンプルを複製して少数クラスをオーバーサンプリングするか、多数サンプルを削除して多数クラスをアンダーサンプリングするかのいずれかです。表形式データに合成マイノリティサンプルを追加するというアイデアは、合成マイノリティオーバーサンプリング手法 (SMOTE) で最初に提案されました。SMOTE では、元のマイノリティポイントのペアを内挿することによって合成マイノリティサンプルが作成されます。出版物によると、SMOTE およびその他のバランシングスキームは経験的に広範囲に研究され、さまざまなシナリオで予測パフォーマンスを向上させることが示されています。 SMOTEにするか、SMOTEしないか.

Data Wrangler は、次のバランシング演算子をサポートするようになりました。 バランスデータ 変身：

ランダムオーバーサンプラー – 少数派のサンプルをランダムに複製
ランダムアンダーサンプラー – 大部分のサンプルをランダムに削除します
スモート – 本物の少数派サンプルを補間して合成少数派サンプルを生成

次に、さまざまなバランシング演算子について詳しく説明します。

ランダムオーバーサンプル

ランダムオーバーサンプリングには、置換を伴う少数クラスからのランダムなサンプルの選択と、このインスタンスの複数のコピーによるトレーニングデータの補足が含まれます。したがって、単一のインスタンスが複数回選択される可能性があります。とともに ランダム オーバーサンプル 変換タイプの場合、Data Wrangler はデータセット内の少数派サンプルを複製することにより、少数派クラスを自動的にオーバーサンプリングします。

ランダムアンダーサンプル

ランダムアンダーサンプリングは、ランダムオーバーサンプリングの逆です。このメソッドは、多数派クラスからサンプルをランダムに選択して削除しようとするため、変換されたデータ内の多数派クラスの例の数が減ります。の ランダム アンダーサンプル 変換タイプを使用すると、Data Wrangler はデータセット内の大部分のサンプルを削除することで、大部分のクラスを自動的にアンダーサンプリングできます。

スモート

SMOTE では、多数派サンプルと少数派サンプルの間で望ましい比率を達成するために、合成少数派サンプルがデータに追加されます。合成サンプルは、元の少数点のペアを補間することによって生成されます。の スモート 変換は、数値特徴と非数値特徴を含むデータセットのバランスをサポートします。数値特徴は加重平均によって補間されます。ただし、加重平均補間を数値以外の特徴に適用することはできません。平均化することは不可能です。 “dog” & “cat” 例えば。代わりに、非数値特徴は、平均加重に従って元の少数サンプルのいずれかからコピーされます。

たとえば、2 つのサンプル A と B について考えてみましょう。

A = [1, 2, "dog", "carnivore"]
B = [0, 0, "cow", "herbivore"]

サンプルがサンプル A の重み 0.3、サンプル B の重み 0.7 で補間されていると仮定します。したがって、数値フィールドはこれらの重みで平均され、それぞれ 0.3 と 0.6 になります。次のフィールドには次のフィールドが入力されます “dog” 確率0.3で、 “cow” 確率は0.7です。同様に、次のものは次と等しくなります。 “carnivore” 確率0.3で、 “herbivore” 確率は0.7です。ランダムコピーは機能ごとに独立して実行されるため、次のサンプル C は考えられる結果です。

C = [0.3, 0.6, "dog", "herbivore"]

この例では、補間プロセスによって草食犬などの非現実的な合成サンプルがどのように生成されるかを示します。これはカテゴリ特徴でより一般的ですが、数値特徴でも発生する可能性があります。一部の合成サンプルは非現実的である可能性がありますが、SMOTE は分類パフォーマンスを向上させる可能性があります。

より現実的なサンプルをヒューリスティックに生成するために、SMOTE は特徴空間内で近いペアのみを内挿します。技術的には、各サンプルは k 最近傍でのみ内挿されます。k の一般的な値は 5 です。SMOTE の実装では、点間の距離を計算するために数値特徴のみが使用されます (距離は近傍を決定するために使用されます)。各サンプルの）。距離を計算する前に数値特徴を正規化するのが一般的です。数値特徴は距離を計算する目的のみで正規化されることに注意してください。結果として得られる補間された特徴は正規化されません。

今度はバランスを取ってみましょう成人向けデータセット (国勢調査収入データセットとも呼ばれます) Data Wrangler によって提供される組み込み SMOTE 変換を使用します。この多変量データセットには、50,000 つの数値特徴と XNUMX つの文字列特徴が含まれています。データセットの目標は、国勢調査データに基づいて個人の収入が年間 XNUMX ドルを超えるかどうかを予測する二値分類タスクです。

を使用してヒストグラムを作成することで、クラスの分布を視覚的に確認することもできます。 Data Wrangler のヒストグラム分析タイプ。ターゲットの分布が不均衡であり、 >50K 〜へ <=50K は約1:4です。

を使用してこのデータのバランスを取ることができます。 スモート 演算子は以下で見つかりました 残高データ 次の手順で Data Wrangler で変換します。

選択する income ターゲット列として。

この列の分散をよりバランスよくしたいと考えています。

希望の比率を設定します。 0.66.

したがって、少数派サンプルと多数派サンプルの数の比率は (生の比率 2:3 ではなく) 1:4 になります。

選択する スモート 使用する変換として。
デフォルト値のままにしておきます 近隣ノードの数 平均化するかどうか、正規化するかどうか。
選択する プレビュー 適用された変換のプレビューを表示し、選択します Add をクリックして、データフローに変換を追加します。

これで、前に行ったのと同様の新しいヒストグラムを作成して、クラスの再調整された分布を確認できるようになりました。次の図は、 income データセットのバランスをとった後の列。サンプルの分布は意図どおり 3:2 になりました。

この新しいバランスの取れたデータをエクスポートし、それを基に分類器をトレーニングできるようになりました。これにより、優れた予測品質が得られる可能性があります。

まとめ

この投稿では、Data Wrangler を使用して不均衡なバイナリ分類データのバランスをとる方法を説明しました。 Data Wrangler は、不均衡なデータセット内のデータを再バランスするために、ランダムアンダーサンプリング、ランダムオーバーサンプリング、SMOTE という 3 つのバランシングオペレーターを提供します。 Data Wrangler が提供する 3 つのメソッドはすべて、数値特徴と非数値特徴を含むマルチモーダルデータをサポートします。

次のステップとして、この投稿の例を Data Wrangler データフローで複製して、説明した内容が実際に動作していることを確認することをお勧めします。 Data Wrangler を初めて使用する場合、または SageMaker スタジオ、参照するデータラングラーの使用を開始する。この投稿に関してご質問がある場合は、コメント欄に追加してください。

著者について

ヨタム・エロル はAmazonSageMakerの上級応用科学者です。彼の研究対象は、特に表形式データの機械学習です。

アルンプラサト・シャンカール は、AWSの人工知能と機械学習（AI / ML）スペシャリストソリューションアーキテクトであり、世界中のお客様がクラウドでAIソリューションを効果的かつ効率的に拡張できるよう支援しています。余暇には、SF映画を見たり、クラシック音楽を聴いたりしています。

出典: https://aws.amazon.com/blogs/machine-learning/balance-your-data-for-machine-learning-with-amazon-sagemaker-data-wrangler/

タイムスタンプ： 2022 年 2 月 2 日

タイムスタンプ： 2021 年 10 月 28 日

AmazonComprehendカスタムモデルのモデルコピー機能のリリースを発表

ソースクラスター：

AWS機械学習ブログ

ソースノード： 1191345

タイムスタンプ： 2022 年 2 月 2 日

プラトン再発行

Amazon Comprehendカスタム分類モデルのアクティブラーニングワークフロー–パート2

コンピュータービジョン、AWSパノラマ、AmazonSageMakerを使用したTysonの産業用自動化

Aeroboticsは、Amazon SageMakerとTensorFlowを使用して、サンプルごとにトレーニング速度を24倍向上させます

Amazon SageMaker の Hugging Face Deep Learning Containers を使用してトレーニングを 35% 高速化する

サーバーレスパイプラインを作成して、AmazonTranslateで大きなドキュメントを翻訳します

Amazon Textract を使用して請求書と領収書からデータを抽出するための特殊なサポートを発表

AmazonForecastで進行中のワークフローを停止するための新しいAPIの導入

コードを記述したりAPIを統合したりせずに、Amazon FraudDetectorを使用してバッチ詐欺予測を実行します

Amazon SageMaker で通話の文字起こしと顧客プロファイルを使用して顧客の離脱確率を分析する

TourRadar が Amazon EventBridge と Amazon Translate を使用して翻訳プロセスを自動化する方法

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー