데이터 대치에 대한 접근 방식

데이터 대치에 대한 접근 방식

소스 노드 : 1895750

데이터 대치에 대한 접근 방식
님이 촬영 한 사진 론 라크
 

실제 데이터 세트는 거의 완벽하지 않으며 누락된 값이나 불완전한 정보가 있는 경우가 많습니다. 이러한 결함은 인적 요소(부정확하게 채워지거나 채워지지 않은 설문 조사) 또는 기술(오작동하는 센서)로 인한 것일 수 있습니다. 어떤 경우든 값이나 정보가 누락된 경우가 많습니다.

물론 이것은 문제를 제시합니다. 누락된 값이 없으면 전체 데이터 세트를 사용할 수 없는 것으로 간주할 수 있습니다. 그러나 상당한 시간, 노력 및 (많은 경우) 비용이 소요되기 때문에 고품질 데이터 획득, 잘못된 데이터를 폐기하고 다시 시작하는 것이 실행 가능한 옵션이 아닐 수 있습니다. 대신 이러한 누락된 값을 해결하거나 대체할 방법을 찾아야 합니다. 여기에서 데이터 전가가 발생합니다. 

이 가이드에서는 데이터 대체가 무엇인지, 지원하는 접근 방식 유형에 대해 설명합니다.

누락되거나 손상된 데이터를 교체할 수는 없지만 데이터 세트를 계속 사용할 수 있도록 하기 위해 사용할 수 있는 방법이 있습니다. 데이터 대체는 이를 달성하기 위한 가장 신뢰할 수 있는 기술 중 하나입니다. 그러나 먼저 누락된 데이터 유형과 그 이유를 파악해야 합니다. 

통계 및 데이터 과학에는 세 가지 주요 유형의 누락 데이터가 있습니다.

  • 무작위 누락(MAR), 여기서 누락된 데이터는 변수에 연결되어 궁극적으로 관찰하거나 추적할 수 있습니다. 대부분의 경우 인구 통계 또는 데이터 주체에 대한 자세한 정보를 제공할 수 있습니다. 예를 들어 특정 연령의 사람들은 설문 조사에서 질문을 건너뛰거나 특정 시간에 장치에서 추적 시스템을 제거하기로 결정할 수 있습니다. 
  • 완전히 무작위로 누락됨(MCAR)어디 누락 된 데이터 변수를 관찰하거나 추적할 수 없습니다. 데이터가 누락된 이유를 파악하는 것은 거의 불가능합니다.
  • 무작위로 누락되지 않은 누락 데이터(NMAR), 여기서 누락된 데이터는 관심 있는 변수에 연결됩니다. 대부분의 경우 이 누락된 데이터는 무시할 수 있습니다. NMAR은 설문조사 응답자가 자신에게 적용되지 않는 질문을 건너뛸 때 발생할 수 있습니다.

누락된 데이터 처리

현재 누락된 데이터 값을 처리하기 위한 세 가지 기본 옵션이 있습니다.

  • 삭제
  • 돌리기
  • 무시

전체 데이터 세트를 삭제하는 대신 목록별 삭제라고 하는 방법을 사용할 수 있습니다. 여기에는 누락된 정보 또는 값이 있는 레코드 삭제가 포함됩니다. 목록별 삭제의 주요 이점은 누락된 데이터의 세 가지 범주를 모두 지원한다는 것입니다. 

그러나 이로 인해 추가 데이터 손실이 발생할 수 있습니다. 만 사용하는 것이 좋습니다. 목록별 삭제 현재(관찰된) 값보다 누락된(관찰된) 값이 더 많은 경우 주로 이를 추론하거나 대체할 데이터가 충분하지 않기 때문입니다. 

관찰된 누락 데이터가 중요하지 않고(무시할 수 있음) 일부 값만 누락된 경우 해당 데이터를 무시하고 가지고 있는 데이터로 작업할 수 있습니다. 그러나 이것이 항상 가능한 것은 아닙니다. 데이터 대체는 잠재적으로 더 실행 가능한 세 번째 솔루션을 제공합니다. 

데이터 대치에는 데이터 세트를 계속 사용할 수 있도록 누락된 값을 바꾸는 작업이 포함됩니다. 데이터 대치 접근 방식에는 두 가지 범주가 있습니다.

  • 하나의
  • 배수

평균 대체(MI)는 단일 데이터 대체의 가장 유명한 형태 중 하나입니다.

평균 전가(MI)

MI는 단순 전가의 한 형태입니다. 여기에는 관찰된 값의 평균을 계산하고 그 결과를 사용하여 누락된 값을 추론하는 작업이 포함됩니다. 불행히도 이 방법은 비효율적인 것으로 입증되었습니다. 데이터가 완전히 무작위로 누락된 경우에도 편향된 추정치가 많이 발생할 수 있습니다. 또한 추정의 "정확성"은 누락된 값의 수에 따라 달라집니다. 

예를 들어 누락된 관측값이 많은 경우 평균 전가 사용 가치 과소 평가로 이어질 수 있습니다. 따라서 누락된 값이 몇 개뿐인 데이터 세트 및 변수에 더 적합합니다. 

수동 교체

이 상황에서 운영자는 누락된 값을 대체하기 위해 데이터 세트의 값에 대한 사전 지식을 사용할 수 있습니다. 이것은 연산자의 기억이나 지식에 의존하는 단일 대치 방법이며 때로는 이상적인 숫자에 대한 사전 지식이라고도 합니다. 정확도는 작업자가 값을 불러올 수 있는 능력에 달려 있으므로 이 방법은 누락된 값이 거의 없는 데이터 세트에 더 적합할 수 있습니다.

K-최근접 이웃(K-NN)

K-최근접 이웃은 회귀 및 분류 문제를 해결하기 위해 기계 학습에서 널리 사용되는 기술입니다. 누락 데이터 값의 이웃의 누락 데이터 값의 평균을 사용하여 계산하고 대치합니다. 그만큼 K-NN 방식 단순 평균 대체보다 훨씬 더 효과적이며 MCAR 및 MAR 값에 이상적입니다. 

치환

대체는 새로운 개인이나 조사 또는 테스트 대상을 찾는 것입니다. 원래 샘플에서 선택되지 않은 피험자여야 합니다.

회귀 대치

회귀는 독립 변수 모음(보통 X로 표시됨)에 대한 종속 변수(보통 Y로 지정됨)의 강도를 결정하려고 시도합니다. 선형 회귀는 가장 잘 알려진 회귀 형식입니다. 가장 적합한 선을 사용하여 누락된 값을 예측하거나 결정합니다. 결과적으로 회귀 모델을 통해 데이터를 시각적으로 표현하는 가장 좋은 방법입니다.

선형 회귀가 결측값과 현재 값 사이의 정확한 관계가 설정되는 결정론적 회귀의 한 형태인 경우 결측값은 회귀 모델의 100% 예측으로 대체됩니다. 그러나이 방법에는 제한이 있습니다. 결정론적 선형 회귀는 종종 값 사이의 관계의 근접성을 과대평가하는 결과를 초래할 수 있습니다.

확률 선형 회귀 두 상황이나 변수가 거의 완벽하게 연결되지 않기 때문에 (무작위) 오류 항을 도입하여 결정론적 회귀의 "과도한 정확성"을 보상합니다. 이렇게 하면 회귀를 사용하여 누락된 값을 더 적절하게 채울 수 있습니다.

핫 데크 샘플링

이 접근법은 값이 누락된 주제와 유사한 다른 값을 가진 주제에서 무작위로 선택된 값을 선택하는 것을 포함합니다. 주제 또는 개인을 검색한 다음 해당 값을 사용하여 누락된 데이터를 채워야 합니다. 

핫 데크 샘플링 방법은 얻을 수 있는 값의 범위를 제한합니다. 예를 들어 샘플이 20~25세의 연령 그룹으로 제한되는 경우 결과는 항상 이 숫자 사이에 있으므로 대체 값의 잠재적 정확도가 높아집니다. 이 전가 방법의 대상/개인은 무작위로 선택됩니다.

콜드 데크 샘플링

이 방법은 데이터 세트의 다른 모든 변수/매개변수에 대해 유사하거나 동일한 값을 가진 개인/주체를 검색하는 것을 포함합니다. 예를 들어, 개체는 값이 누락된 개체와 동일한 키, 문화적 배경 및 연령을 가질 수 있습니다. 피험자가 체계적으로 선택되어 재사용된다는 점에서 핫 데크 샘플링과 다릅니다. 

누락된 데이터를 처리하기 위한 많은 옵션과 기술이 있지만 항상 예방이 치료보다 낫습니다. 연구원은 엄격한 실험 계획 그리고 연구. 연구에는 명확한 사명 선언문이나 목표가 있어야 합니다. 

종종 연구자들은 연구를 지나치게 복잡하게 만들거나 장애물에 대한 계획을 세우지 못하여 데이터가 누락되거나 불충분하게 됩니다. 데이터 수집에 정확한 초점을 맞추면서 연구 설계를 단순화하는 것이 항상 가장 좋습니다. 

연구 목표를 달성하는 데 필요한 데이터만 수집하세요. 또한 연구 또는 실험과 관련된 모든 기기와 센서가 항상 완벽하게 작동하는지 확인해야 합니다. 연구가 진행됨에 따라 데이터/응답의 정기적인 백업을 생성하는 것을 고려하십시오. 

누락된 데이터는 흔히 발생합니다. 모범 사례를 구현하더라도 여전히 불완전한 데이터로 인해 어려움을 겪을 수 있습니다. 다행히 사후에 이 문제를 해결할 수 있는 방법이 있습니다.   

 
 
나흘 라 데이비스 소프트웨어 개발자이자 기술 작가입니다. 그녀는 전 시간을 기술 저술에 전념하기 전에 삼성, 타임 워너, 넷플릭스, 소니를 고객으로 하는 Inc. 5,000 경험적 브랜딩 조직에서 리드 프로그래머로 일했습니다.
 

타임 스탬프 :

더보기 너 겟츠