Amazon SageMakerDataWranglerを使用して機械学習用のデータのバランスをとる

ソースノード: 1600102

AmazonSageMakerデータラングラー の新機能です アマゾンセージメーカー これにより、データ サイエンティストやエンジニアは、ビジュアル インターフェイスを使用して機械学習 (ML) アプリケーション用のデータをより迅速に準備できるようになります。 300 を超える組み込みデータ変換が含まれているため、コードを記述することなく、機能を迅速に正規化、変換、結合できます。

本日、ML モデルのトレーニングのためにデータセットのバランスを簡単かつ効果的に調整できる新しい変換を発表できることを嬉しく思います。この投稿では、これらの変換がどのように機能するかを示します。

新しいバランシング演算子

新しく発表されたバランシング演算子は、 バランスデータ の変換タイプ 変換の追加 ペイン。

現在、変換演算子はバイナリ分類問題のみをサポートしています。バイナリ分類問題では、分類器は各サンプルを 2 つのクラスのいずれかに分類する役割を果たします。多数派クラス (大きい) のサンプル数が少数派 (小さい) クラスのサンプル数よりもかなり大きい場合、データセットは不均衡であると見なされます。トレーニング プロセスが多数派のクラスに偏る傾向があるため、この偏りは ML アルゴリズムと分類器にとって困難です。

この課題に対処するために、分類器をトレーニングする前にデータを強化してよりバランスのとれたバランス スキームが提案されました。最も単純なバランス方法は、少数サンプルを複製して少数クラスをオーバーサンプリングするか、多数サンプルを削除して多数クラスをアンダーサンプリングするかのいずれかです。表形式データに合成マイノリティ サンプルを追加するというアイデアは、合成マイノリティ オーバーサンプリング手法 (SMOTE) で最初に提案されました。SMOTE では、元のマイノリティ ポイントのペアを内挿することによって合成マイノリティ サンプルが作成されます。出版物によると、SMOTE およびその他のバランシング スキームは経験的に広範囲に研究され、さまざまなシナリオで予測パフォーマンスを向上させることが示されています。 SMOTEにするか、SMOTEしないか.

Data Wrangler は、次のバランシング演算子をサポートするようになりました。 バランスデータ 変身:

  • ランダムオーバーサンプラー – 少数派のサンプルをランダムに複製
  • ランダムアンダーサンプラー – 大部分のサンプルをランダムに削除します
  • スモート – 本物の少数派サンプルを補間して合成少数派サンプルを生成

次に、さまざまなバランシング演算子について詳しく説明します。

ランダムオーバーサンプル

ランダム オーバーサンプリングには、置換を伴う少数クラスからのランダムなサンプルの選択と、このインスタンスの複数のコピーによるトレーニング データの補足が含まれます。したがって、単一のインスタンスが複数回選択される可能性があります。とともに ランダム オーバーサンプル 変換タイプの場合、Data Wrangler はデータセット内の少数派サンプルを複製することにより、少数派クラスを自動的にオーバーサンプリングします。

ランダムアンダーサンプル

ランダム アンダーサンプリングは、ランダム オーバーサンプリングの逆です。このメソッドは、多数派クラスからサンプルをランダムに選択して削除しようとするため、変換されたデータ内の多数派クラスの例の数が減ります。の ランダム アンダーサンプル 変換タイプを使用すると、Data Wrangler はデータセット内の大部分のサンプルを削除することで、大部分のクラスを自動的にアンダーサンプリングできます。

スモート

SMOTE では、多数派サンプルと少数派サンプルの間で望ましい比率を達成するために、合成少数派サンプルがデータに追加されます。合成サンプルは、元の少数点のペアを補間することによって生成されます。の スモート 変換は、数値特徴と非数値特徴を含むデータセットのバランスをサポートします。数値特徴は加重平均によって補間されます。ただし、加重平均補間を数値以外の特徴に適用することはできません。平均化することは不可能です。 “dog” & “cat” 例えば。代わりに、非数値特徴は、平均加重に従って元の少数サンプルのいずれかからコピーされます。

たとえば、2 つのサンプル A と B について考えてみましょう。

A = [1, 2, "dog", "carnivore"]
B = [0, 0, "cow", "herbivore"]

サンプルがサンプル A の重み 0.3、サンプル B の重み 0.7 で補間されていると仮定します。したがって、数値フィールドはこれらの重みで平均され、それぞれ 0.3 と 0.6 になります。次のフィールドには次のフィールドが入力されます “dog” 確率0.3で、 “cow” 確率は0.7です。同様に、次のものは次と等しくなります。 “carnivore” 確率0.3で、 “herbivore” 確率は0.7です。ランダム コピーは機能ごとに独立して実行されるため、次のサンプル C は考えられる結果です。

C = [0.3, 0.6, "dog", "herbivore"]

この例では、補間プロセスによって草食犬などの非現実的な合成サンプルがどのように生成されるかを示します。これはカテゴリ特徴でより一般的ですが、数値特徴でも発生する可能性があります。一部の合成サンプルは非現実的である可能性がありますが、SMOTE は分類パフォーマンスを向上させる可能性があります。

より現実的なサンプルをヒューリスティックに生成するために、SMOTE は特徴空間内で近いペアのみを内挿します。技術的には、各サンプルは k 最近傍でのみ内挿されます。k の一般的な値は 5 です。SMOTE の実装では、点間の距離を計算するために数値特徴のみが使用されます (距離は近傍を決定するために使用されます)。各サンプルの)。距離を計算する前に数値特徴を正規化するのが一般的です。数値特徴は距離を計算する目的のみで正規化されることに注意してください。結果として得られる補間された特徴は正​​規化されません。

今度はバランスを取ってみましょう 成人向けデータセット (国勢調査収入データセットとも呼ばれます) Data Wrangler によって提供される組み込み SMOTE 変換を使用します。この多変量データセットには、50,000 つの数値特徴と XNUMX つの文字列特徴が含まれています。データセットの目標は、国勢調査データに基づいて個人の収入が年間 XNUMX ドルを超えるかどうかを予測する二値分類タスクです。

を使用してヒストグラムを作成することで、クラスの分布を視覚的に確認することもできます。 Data Wrangler のヒストグラム分析タイプ。ターゲットの分布が不均衡であり、 >50K 〜へ <=50K は約1:4です。

を使用してこのデータのバランスを取ることができます。 スモート 演算子は以下で見つかりました 残高データ 次の手順で Data Wrangler で変換します。

  1. 選択する income ターゲット列として。

この列の分散をよりバランスよくしたいと考えています。

  1. 希望の比率を設定します。 0.66.

したがって、少数派サンプルと多数派サンプルの数の比率は (生の比率 2:3 ではなく) 1:4 になります。

  1. 選択する スモート 使用する変換として。
  2. デフォルト値のままにしておきます 近隣ノードの数 平均化するかどうか、正規化するかどうか。
  3. 選択する プレビュー 適用された変換のプレビューを表示し、選択します Add をクリックして、データ フローに変換を追加します。

これで、前に行ったのと同様の新しいヒストグラムを作成して、クラスの再調整された分布を確認できるようになりました。次の図は、 income データセットのバランスをとった後の列。サンプルの分布は意図どおり 3:2 になりました。

この新しいバランスの取れたデータをエクスポートし、それを基に分類器をトレーニングできるようになりました。これにより、優れた予測品質が得られる可能性があります。

まとめ

この投稿では、Data Wrangler を使用して不均衡なバイナリ分類データのバランスをとる方法を説明しました。 Data Wrangler は、不均衡なデータセット内のデータを再バランスするために、ランダム アンダーサンプリング、ランダム オーバーサンプリング、SMOTE という 3 つのバランシング オペレーターを提供します。 Data Wrangler が提供する 3 つのメソッドはすべて、数値特徴と非数値特徴を含むマルチモーダル データをサポートします。

次のステップとして、この投稿の例を Data Wrangler データ フローで複製して、説明した内容が実際に動作していることを確認することをお勧めします。 Data Wrangler を初めて使用する場合、または SageMaker スタジオ、 参照する データラングラーの使用を開始する。この投稿に関してご質問がある場合は、コメント欄に追加してください。


著者について

ヨタム・エロル はAmazonSageMakerの上級応用科学者です。 彼の研究対象は、特に表形式データの機械学習です。

アルンプラサト・シャンカール は、AW​​Sの人工知能と機械学習(AI / ML)スペシャリストソリューションアーキテクトであり、世界中のお客様がクラウドでAIソリューションを効果的かつ効率的に拡張できるよう支援しています。 余暇には、SF映画を見たり、クラシック音楽を聴いたりしています。

出典: https://aws.amazon.com/blogs/machine-learning/balance-your-data-for-machine-learning-with-amazon-sagemaker-data-wrangler/

タイムスタンプ:

より多くの AWS機械学習ブログ