データ代入へのアプローチ

プラトン再発行

フォロワー： 0

実世界のデータセットが完全であることはめったになく、欠損値や不完全な情報が含まれることがよくあります。これらの障害は、人的要素 (調査の不正確な記入または未記入) または技術 (センサーの誤動作) が原因である可能性があります。いずれにせよ、欠損値や情報が残っていることがよくあります。

もちろん、これには問題があります。欠損値がないと、データセット全体が使用できないと見なされる場合があります。しかし、それにはかなりの時間と労力、そして（多くの場合）お金がかかるため、高品質のデータを取得する、誤ったデータを破棄して最初からやり直すことは、実行可能なオプションではない場合があります。代わりに、これらの欠損値を回避または置換する方法を見つける必要があります。ここで、データ補完の出番です。

このガイドでは、データ代入とは何か、およびそれがサポートするアプローチの種類について説明します。

欠落したデータや破損したデータを置き換えることはできませんが、データセットを引き続き使用できるようにする方法はいくつかあります。データ代入は、これを実現するための最も信頼できる手法の XNUMX つです。ただし、最初に欠落しているデータの種類とその理由を特定する必要があります。

統計とデータサイエンスでは、主に次の XNUMX 種類の欠損データがあります。

ランダムに欠落 (MAR)、欠落しているデータが変数に関連付けられており、最終的に観察または追跡できます。多くの場合、これにより、人口統計またはデータ主体に関する詳細情報が得られます。たとえば、特定の年齢層の人々は、調査の質問をスキップしたり、特定の時間にデバイスから追跡システムを削除したりすることを決定する場合があります。
完全無作為欠落 (MCAR)ここで、データの欠落変数を観察または追跡することはできません。データが欠落している理由を特定することはほとんど不可能です。
ランダムに欠落していない欠落データ (NMAR)、欠損データが対象の変数に関連付けられています。ほとんどの場合、この欠損データは無視できます。 NMAR は、調査回答者が自分に当てはまらない質問をスキップしたときに発生する可能性があります。

欠落データの処理

現在、欠落しているデータ値を処理するための主なオプションは XNUMX つあります。

削除
インピュテーション
無視

データセット全体を破棄する代わりに、リスト単位の削除と呼ばれるものを使用できます。これには、情報や値が欠落しているレコードの削除が含まれます。リストごとの削除の主な利点は、欠損データの XNUMX つのカテゴリすべてをサポートすることです。

ただし、これにより追加のデータ損失が発生する可能性があります。のみ使用することをお勧めします。リストごとの削除主にそれらを推測または置換するのに十分なデータがないため、現在の (観測された) 値よりも多くの欠損 (観測された) 値がある場合。

観測された欠落データが重要ではなく (無視できる)、欠落している値がごくわずかである場合は、それらを無視して、現在のデータで作業できます。ただし、これが常に可能であるとは限りません。データ代入は、より実行可能な XNUMX 番目のソリューションを提供します。

データ代入には、データセットを引き続き使用できるように、存在しない値を置き換えることが含まれます。データ代入アプローチには、次の XNUMX つのカテゴリがあります。

単発講座
複数

平均代入 (MI) は、単一データ代入の最も有名な形式の XNUMX つです。

平均代入 (MI)

MI は単純な代入の形式です。これには、観測値の平均を計算し、結果を使用して欠損値を推測することが含まれます。残念ながら、この方法は非効率的であることが証明されています。データがランダムに完全に欠落している場合でも、多くの偏った推定につながる可能性があります。さらに、推定の「精度」は欠損値の数に依存します。

たとえば、欠落している観測値が多数ある場合、平均代入の使用価値の過小評価につながる可能性があります。したがって、欠損値が少ないデータセットや変数に適しています。

手動交換

この状況では、オペレーターは、データ・セットの値に関する事前の知識を使用して、欠落している値を置き換えることができます。これは、オペレーターの記憶または知識に依存する単一の代入方法であり、理想数の事前知識と呼ばれることもあります。精度はオペレーターが値を思い出せるかどうかにかかっているため、この方法は欠損値が少ないデータセットに適している場合があります。

K 最近傍 (K-NN)

K 最近傍点は、機械学習で回帰と分類の問題に対処するためによく使用される手法です。欠損データ値の近傍の欠損データ値の平均を使用して計算し、代入します。の K-NN法単純な平均代入よりもはるかに効果的で、MCAR および MAR 値に最適です。

置換

代替には、調査またはテストの対象となる新しい個人または対象を見つけることが含まれます。これは、元のサンプルで選択されていない被験者である必要があります。

回帰代入

回帰は、従属変数 (通常 Y として指定) の強さを独立変数 (通常 X として示される) の集合に対して決定しようとします。線形回帰は、回帰の最もよく知られた形式です。最適な線を使用して、欠損値を予測または決定します。したがって、回帰モデルを通じてデータを視覚的に表現するには、これが最適な方法です。

線形回帰が、欠損値と現在の値の間の正確な関係が確立される決定論的回帰の形式である場合、欠損値は回帰モデルの 100% 予測に置き換えられます。ただし、この方法には制限があります。決定論的線形回帰は、多くの場合、値間の関係の近さを過大評価する可能性があります。

確率論的な線形回帰 XNUMX つの状況または変数が完全に接続されることはめったにないため、(ランダムな) エラー項を導入することにより、決定論的回帰の「過剰な精度」を補います。これにより、回帰を使用して欠損値を埋めることがより適切になります。

ホットデッキサンプリング

このアプローチでは、値が欠落している被験者と同様の他の値を持つ被験者からランダムに選択された値を選択する必要があります。被験者または個人を検索し、それらの値を使用して不足しているデータを埋める必要があります。

ホットデッキサンプリング方法では、達成可能な値の範囲が制限されます。たとえば、サンプルが 20 ～ 25 歳の年齢層に制限されている場合、結果は常にこれらの数値の間にあるため、置換値の潜在的な精度が向上します。この代入方法の被験者/個人はランダムに選択されます。

コールドデッキサンプリング

この方法では、データセット内の他のすべての変数/パラメーターに対して類似または同一の値を持つ個人/被験者を検索します。たとえば、サブジェクトは、値が欠落しているサブジェクトと同じ身長、文化的背景、および年齢を持っている場合があります。主題が体系的に選択され、再利用されるという点で、ホットデッキサンプリングとは異なります。

欠損データに対処するためのオプションや手法は数多くありますが、予防は常に治療よりも優れています。研究者は厳格に実装する必要があります実験の計画と研究。調査には、明確なミッションステートメントまたは目標が念頭に置かれている必要があります。

多くの場合、研究者は研究を過度に複雑にしたり、障害に対する計画を怠ったりして、データの欠落や不十分な結果をもたらします。データ収集に正確に焦点を当てながら、研究のデザインを簡素化することが常に最善です。

研究の目標を達成するために必要なデータのみを収集し、それ以上のものは収集しません。また、研究や実験に関係するすべての機器とセンサーが常に完全に機能していることを確認する必要があります。調査の進行に合わせて、データ/回答の定期的なバックアップを作成することを検討してください。

データの欠落はよくあることです。ベストプラクティスを実装したとしても、不完全なデータに悩まされる可能性があります。幸いなことに、事後にこの問題に対処する方法があります。

ナフラ・デイビス ソフトウェア開発者およびテクニカルライターです。テクニカルライティングに専念する前に、彼女は、とりわけ興味深いことに、Samsung、Time Warner、Netflix、Sonyなどのクライアントを持つInc.5,000の体験型ブランディング組織でリードプログラマーを務めることができました。