데이터 드리프트 대 개념 드리프트: 차이점은 무엇입니까?

데이터 드리프트 대 개념 드리프트: 차이점은 무엇입니까?

소스 노드 : 1936845

모델 드리프트는 기계 학습 모델의 성능이 시간이 지남에 따라 저하될 때 발생하는 현상을 말합니다. 이는 데이터 분포 변경, 모델의 목표 또는 목표 변경, 모델이 작동하는 환경 변경 등 다양한 이유로 발생합니다. 두 가지 주요 모델 드리프트 유형 데이터 드리프트 및 개념 드리프트가 발생할 수 있습니다.

데이터 드리프트는 모델이 적용되는 데이터의 변화하는 분포를 나타냅니다. 개념 드리프트는 모델의 기본 목표나 목적이 바뀌는 것을 말합니다. 데이터 드리프트와 개념 드리프트는 모두 성능 저하로 이어질 수 있습니다. 기계 학습 모델입니다.

모델 드리프트는 부정확하거나 신뢰할 수 없는 예측 또는 결정으로 이어질 수 있으므로 실제 환경에 배포되는 기계 학습 시스템에 중요한 문제가 될 수 있습니다. 모델 드리프트를 해결하려면 시간이 지남에 따라 머신 러닝 모델의 성능을 지속적으로 모니터링하고 새 데이터에 대해 모델을 재교육하거나 모델의 매개 변수를 조정하는 등 이를 방지하거나 완화하기 위한 조치를 취하는 것이 중요합니다. 이러한 모니터링 및 조정 시스템은 소프트웨어 배포 시스템 ML 모델의 경우.

개념 드리프트 대 데이터 드리프트: 차이점은 무엇입니까?

데이터 드리프트

데이터 드리프트 또는 공변량 이동은 데이터의 분포가 입력되는 현상을 말합니다. 머신러닝 모델 모델이 적용되는 데이터 입력의 분포와 다릅니다. 이로 인해 예측이나 결정을 내리는 데 있어 모델의 정확도나 효율성이 떨어질 수 있습니다.

데이터 드리프트의 수학적 표현은 다음과 같이 표현할 수 있습니다.

P(x|y) ≠ P(x|y')

여기서 P(x|y)는 출력 데이터(y)가 주어진 입력 데이터의 확률 분포(x)를 나타내고 P(x|y')는 새로운 데이터에 대한 출력 데이터가 주어진 입력 데이터의 확률 분포를 나타냅니다. 모델이 적용되는 것(y').

예를 들어 ML 모델이 특정 소매점의 고객 데이터 데이터 세트에 대해 훈련되었고 이 모델이 고객의 연령, 소득 및 위치를 기반으로 구매할 것인지 여부를 예측하는 데 사용되었다고 가정합니다. 

모델에 입력된 새 데이터에 대한 입력 데이터의 분포(연령, 소득 및 위치)가 교육 데이터 세트의 입력 데이터 분포와 크게 다른 경우 데이터 드리프트가 발생하여 모델의 정확도가 떨어질 수 있습니다.

데이터 드리프트 극복

데이터 드리프트를 극복하는 한 가지 방법은 가중 또는 샘플링과 같은 기술을 사용하여 데이터 분포의 차이를 조정하는 것입니다. 예를 들어 모델이 적용될 새 데이터의 입력 데이터 분포와 더 가깝게 일치하도록 교육 데이터 세트의 예에 가중치를 둘 수 있습니다. 

또는 새 데이터와 훈련 데이터에서 샘플링하여 모델 훈련을 위한 균형 잡힌 데이터 세트를 만들 수 있습니다. 또 다른 접근 방식은 소스 도메인(훈련 데이터)과 대상 도메인(새 데이터) 간의 매핑을 학습하여 모델을 새로운 데이터 분포에 적응시키는 것을 목표로 하는 도메인 적응 기술을 사용하는 것입니다. 이를 달성하는 한 가지 방법은 다음을 사용하는 것입니다. 합성 데이터 생성 알고리즘.

컨셉 드리프트

개념 드리프트는 모델의 입력 데이터와 출력 데이터 간의 기능적 관계가 변경될 때 발생합니다. 모델은 변경 사항을 인식하지 못한 채 변경된 컨텍스트에도 불구하고 계속 동일하게 작동합니다. 따라서 훈련 중에 학습한 패턴은 더 이상 정확하지 않습니다.

개념 드리프트는 클래스 드리프트 또는 사후 확률 이동이라고도 합니다. 이는 서로 다른 상황 간의 확률 변화를 나타내기 때문입니다.

Pt1 (Y|X) ≠ Pt2 (Y|X)

이러한 유형의 드리프트는 외부 프로세스 또는 이벤트로 인해 발생합니다. 예를 들어 다양한 지역을 입력으로 사용하여 지리적 위치를 기반으로 생활비를 예측하는 모델이 있을 수 있습니다. 그러나 각 지역의 개발 수준은 증가하거나 감소하여 현실 세계의 생활비를 변화시킬 수 있습니다. 따라서 모델은 정확한 예측 능력을 상실합니다. 

"개념 드리프트"의 원래 의미는 특정 레이블을 이해하는 방식의 변화입니다. 한 가지 예는 이메일에서 "스팸"으로 레이블을 지정하는 것입니다. 빈번하고 대량의 이메일과 같은 패턴은 한때 스팸의 징후로 간주되었지만 오늘날에는 항상 그런 것은 아닙니다. 이러한 오래된 특성을 계속 사용하는 스팸 탐지기는 개념 드리프트가 있고 재교육이 필요하기 때문에 스팸을 식별할 때 효율성이 떨어집니다.

개념 드리프트의 더 많은 예는 다음과 같습니다.

  • 세금 준수를 예측하는 모델에 대한 세금 코드 변경의 영향
  • 진화하는 고객 행동이 제품 판매를 예측하는 모델에 미치는 영향
  • 금융 위기가 회사의 이익 예측에 미치는 영향

개념 드리프트 대 데이터 드리프트

데이터 드리프트를 사용하면 결정 경계가 변경되지 않습니다. 입력의 확률 분포만 변경됩니다 – P(x). 개념 드리프트를 사용하면 입력 및 출력 분포가 P(x) 및 P(y)로 변경되면서 결정 경계가 변경됩니다. 

또 다른 중요한 차이점은 데이터 드리프트가 주로 데이터 수집, 처리 및 교육과 같은 내부 요인의 결과라는 것입니다. 개념 드리프트는 일반적으로 현실 세계의 상황과 같은 외부 요인으로 인해 발생합니다.

데이터 및 개념 드리프트를 감지하고 극복하기 위한 전략

기계 학습 시스템에서 모델 드리프트를 감지하고 극복하는 데 도움이 되는 몇 가지 전략이 있습니다.

  • 성능 모니터링: 홀드아웃 데이터 세트 또는 프로덕션에서 ML 모델의 성능을 정기적으로 평가하면 모델 드리프트를 나타낼 수 있는 정확도 또는 기타 메트릭의 감소를 식별하는 데 도움이 될 수 있습니다.
  • 데이터 및 개념 드리프트 감지 알고리즘: Page-Hinkley 테스트 또는 Kolmogorov-Smirnov 테스트와 같이 데이터 드리프트를 감지하기 위해 특별히 설계된 알고리즘과 ADWIN 알고리즘과 같은 개념 드리프트를 감지하는 알고리즘이 있습니다. 이러한 알고리즘은 모델 드리프트를 나타낼 수 있는 입력 데이터 또는 작업의 변경 사항을 자동으로 식별할 수 있습니다.
  • 데이터 및 개념 드리프트 방지 기술: 이러한 기술은 처음부터 데이터 또는 개념 드리프트가 발생하는 것을 방지하는 데 도움이 될 수 있습니다. 예를 들어 데이터 증대 또는 합성 데이터 생성을 사용하면 ML 모델이 광범위하고 대표적인 데이터 범위에 노출되어 데이터 분포의 변화에 ​​더 탄력적으로 대처할 수 있습니다. 마찬가지로 전이 학습 또는 멀티태스킹 학습을 사용하면 모델이 변화하는 작업 또는 목표에 적응하는 데 도움이 될 수 있습니다.
  • 재교육 및 미세 조정: 모델 드리프트가 감지되면 새 데이터에 대해 모델을 재교육하거나 미세 조정하면 이를 극복하는 데 도움이 될 수 있습니다. 이 작업은 주기적으로 수행하거나 데이터 또는 작업의 중요한 변경에 대한 응답으로 수행할 수 있습니다.

모델 드리프트를 정기적으로 모니터링하고 이를 방지하거나 완화하기 위한 사전 조치를 취함으로써 시간이 지남에 따라 기계 학습 모델의 정확성과 신뢰성을 유지할 수 있습니다.

결론

결론적으로 데이터 드리프트와 모델 드리프트는 기계 학습(ML) 모델의 성능에 영향을 줄 수 있는 두 가지 중요한 현상입니다. 

공변량 이동이라고도 하는 데이터 드리프트는 ML 모델이 훈련된 입력 데이터의 분포가 모델이 적용된 입력 데이터의 분포와 다를 때 발생합니다. 개념 드리프트라고도 하는 모델 드리프트는 ML 모델이 훈련된 데이터의 통계적 속성이 시간이 지남에 따라 변경될 때 발생합니다. 

데이터 드리프트와 모델 드리프트 모두 예측이나 결정을 내릴 때 모델의 정확도나 효율성이 떨어질 수 있으며, 시간이 지남에 따라 ML 모델의 성능을 유지하려면 이러한 현상을 이해하고 해결하는 것이 중요합니다. 

업데이트된 데이터에 대한 모델 재교육, 온라인 학습 또는 적응형 학습 사용, 시간 경과에 따른 모델 성능 모니터링을 포함하여 데이터 드리프트 및 모델 드리프트를 극복하는 데 사용할 수 있는 다양한 기술이 있습니다.

타임 스탬프 :

더보기 데이터 버 시티