기계 학습 모델은 기업이 더 많은 정보에 입각한 결정을 내리고 운영을 최적화하는 데 도움이 될 수 있는 강력한 도구입니다. 그러나 이러한 모델이 프로덕션 환경에 배포되고 실행될 때 모델 드리프트라는 현상이 발생할 수 있습니다.
모델 드리프트는 기본 데이터의 변경으로 인해 시간이 지남에 따라 기계 학습 모델의 성능이 저하되어 부정확한 예측이 발생하고 잠재적으로 비즈니스에 심각한 결과를 가져올 때 발생합니다. 이러한 문제를 해결하기 위해 조직은 프로덕션 기계 학습의 수명 주기를 관리하는 데 도움이 되는 일련의 사례 및 도구인 MLOps로 전환하고 있습니다.
In this article, we’ll explore model drift, the different types of it, how to detect it, and most importantly, how to handle it in production using MLOps. By understanding and managing model drift, businesses can ensure that their machine learning models remain accurate and effective over time, delivering the insights and outcomes that they need to thrive.
님이 촬영 한 사진 니콜라스 페이롤 on Unsplash
모델 붕괴라고도 알려진 모델 드리프트는 시간이 지남에 따라 모델 성능이 감소하는 기계 학습 현상입니다. 이는 모델이 시간이 지남에 따라 정확도를 감소시키는 잘못된 예측을 점차적으로 제공하기 시작한다는 것을 의미합니다.
데이터 수집의 변경이나 변수 간의 기본 관계 등 모델 이동에는 다양한 이유가 있습니다. 따라서 모델은 이러한 변화를 포착하지 못하고 변화가 증가함에 따라 성능이 저하됩니다.
모델 드리프트를 감지하고 해결하는 것은 MLOps가 해결하는 필수 작업 중 하나입니다. 모델 모니터링과 같은 기술은 모델 드리프트의 존재를 감지하는 데 사용되며 모델 재훈련은 모델 드리프트를 극복하는 데 사용되는 주요 기술 중 하나입니다.
데이터에서 발생한 변경 사항을 기반으로 모델을 업데이트하려면 모델 드리프트 유형을 이해하는 것이 필수적입니다. 드리프트에는 세 가지 주요 유형이 있습니다.
컨셉 드리프트
개념 드리프트는 대상과 입력 간의 관계가 변경될 때 발생합니다. 따라서 기계 학습 알고리즘은 정확한 예측을 제공하지 않습니다. 개념 드리프트에는 네 가지 주요 유형이 있습니다.
- 갑작스러운 드리프트: 독립변수와 종속변수 간의 관계가 갑자기 발생하면 갑작스러운 개념 표류가 발생합니다. 매우 유명한 예는 코로나19 대유행의 갑작스러운 발생이다. 팬데믹의 발생으로 인해 대상 변수와 다양한 분야의 특성 간의 관계가 갑자기 변경되었으므로 사전 훈련된 데이터로 훈련된 예측 모델은 팬데믹 기간 동안 정확하게 예측할 수 없습니다.
- 점진적 드리프트: In a gradual concept drift, the relation between the input and the target may change slowly and subtly. This can result in a slow decline in the performance of a machine learning model, as the model becomes less accurate over time. An example of the gradual concept drift is fraudulent behavior. Fraudsters tend to understand how the fraud detection system works and change their behavior over time to escape the system. Therefore a machine learning model trained on historical fraudulent transaction data will not accurately predict the gradual changes in the fraudster’s behavior. For example, consider a machine learning model used for predicting stock prices in which the model is trained on data from the past five years and its performance is evaluated on new data from the current year. However, as time goes by, the market dynamics may change, and the relationship between the variables that influence stock prices may evolve gradually. This can result in incremental drift, where the model’s accuracy gradually deteriorates over time as it becomes less effective at capturing the changing relationship between the variables.
- 증분 드리프트: 증분 드리프트는 일반적으로 데이터 생성 프로세스의 변경으로 인해 발생하는 시간이 지남에 따라 대상 변수와 입력 간의 관계가 점진적으로 변경될 때 발생합니다.
- 반복되는 드리프트: 이를 계절성이라고도 합니다. 대표적인 예로 크리스마스나 블랙프라이데이 기간의 매출 증가를 들 수 있습니다. 이러한 계절 변화를 부정확하게 고려하지 않는 기계 학습 모델은 결국 이러한 계절 변화에 대해 부정확한 예측을 제공하게 됩니다.
이러한 네 가지 유형의 개념 드리프트가 아래 그림에 나와 있습니다.
개념 드리프트의 유형 | 이미지 출처: 개념 드리프트에 따른 학습: 검토.
데이터 드리프트
데이터 드리프트는 입력 데이터의 통계적 속성이 변경될 때 발생합니다. 이에 대한 예는 시간에 따른 특정 애플리케이션 사용자의 연령 분포 변화입니다. 따라서 마케팅 전략에 사용되는 특정 연령 분포에 대해 훈련된 모델은 연령 변화가 애플리케이션에 영향을 미치므로 변경되어야 합니다. 마케팅 전략.
업스트림 데이터 변경
세 번째 유형의 드리프트는 업스트림 데이터 변경입니다. 이는 데이터 파이프라인의 운영 데이터 변경을 나타냅니다. 이에 대한 일반적인 예는 특정 기능이 더 이상 생성되지 않아 값이 누락되는 경우입니다. 또 다른 예는 특정 센서가 섭씨로 수량을 측정한 다음 화씨로 변경하는 경우와 같이 측정 단위를 변경하는 것입니다.
모델 드리프트를 감지하는 것은 간단하지 않으며 이를 감지하는 보편적인 방법도 없습니다. 그러나 이를 탐지하는 데 널리 사용되는 몇 가지 방법에 대해 논의하겠습니다.
- Kolmogorov-Smirnov 테스트(K-S 테스트): K-S 검정은 데이터 분포의 변화를 탐지하기 위한 비모수 검정입니다. 훈련 데이터와 훈련 후 데이터를 비교하고 이들 사이의 분포 변화를 찾는 데 사용됩니다. 이 테스트 세트에 대한 귀무 가설은 두 데이터 세트의 분포가 동일하므로 귀무 가설이 기각되면 모델 이동이 발생한다는 것입니다.
- 인구안정지수(PSI): PSI는 두 개의 서로 다른 데이터세트에서 범주형 변수 분포의 유사성을 측정하는 데 사용되는 통계적 척도입니다. 따라서 훈련 및 훈련 후 데이터 세트에서 범주형 변수의 특성 변화를 측정하는 데 사용할 수 있습니다.
- 페이지-힝클리 방법: Page-Hinkely는 시간에 따른 데이터 평균의 변화를 관찰하는데 사용되는 통계적 방법이기도 합니다. 일반적으로 데이터를 볼 때 명확하지 않은 평균의 작은 변화를 감지하는 데 사용됩니다.
- 성능 모니터링: 개념 변화를 감지하는 가장 중요한 방법 중 하나는 프로덕션에서 기계 학습 모델의 성능을 모니터링하고 변화를 관찰하는 것입니다. 특정 임계값을 초과하면 이 개념 변화를 수정하기 위해 특정 작업을 트리거할 수 있습니다.
생산 중 드리프트 처리 | 이미지 작성자: 이제브 프리픽에서.
Finally, let’s see how to handle the detected model drift in production. There is a wide spectrum of strategies used to handle the model drift depending on the type of drift, the data we are working on, and the project in production. Here is a summary of the popular methods that are used to handle model drift in production:
- 온라인 학습: 실제 애플리케이션의 대부분은 스트리밍 데이터에서 실행되므로 온라인 학습은 드리프트를 처리하는 데 사용되는 일반적인 방법 중 하나입니다. 온라인 학습에서는 모델이 한 번에 하나의 샘플을 처리하므로 모델이 즉시 업데이트됩니다.
- 주기적으로 모델 재학습: 모델 성능이 특정 임계값 아래로 떨어지거나 데이터 이동이 관찰되면 최신 데이터로 모델을 재교육하도록 트리거를 설정할 수 있습니다.
- 대표 하위 샘플에 대해 주기적으로 재훈련: 개념 표류를 처리하는 보다 효과적인 방법은 모집단의 대표 하위 표본을 선택하고 인간 전문가를 사용하여 레이블을 지정하고 모델을 재교육하는 것입니다.
- 기능 삭제: 이는 개념 표류를 처리하는 데 사용할 수 있는 간단하지만 효과적인 방법입니다. 이 방법을 사용하면 각각 하나의 기능을 사용하여 여러 모델을 교육하고 각 모델에 대해 AUC-ROC 응답을 모니터링하고 AUC-ROC 값이 특정 기능을 사용하여 특정 임계값을 초과하면 다음과 같이 삭제할 수 있습니다. 이것은 표류에 참여할 수 있습니다.
참고자료
이 기사에서는 기본 데이터의 변경으로 인해 시간이 지남에 따라 모델 성능이 저하되는 기계 학습 현상인 모델 드리프트에 대해 논의했습니다. 기업은 이러한 과제를 극복하기 위해 프로덕션에서 기계 학습 모델의 수명 주기를 관리하는 일련의 사례 및 도구인 MLOps로 전환하고 있습니다.
개념 드리프트, 데이터 드리프트, 업스트림 데이터 변경 등 발생할 수 있는 다양한 유형의 드리프트와 Kolmogorov-Smirnov 테스트, 인구 안정성 지수, Page-Hinkley 방법과 같은 방법을 사용하여 모델 드리프트를 감지하는 방법을 설명했습니다. 마지막으로 온라인 학습, 주기적인 모델 재학습, 대표 하위 샘플에 대한 주기적 재학습, 특성 삭제 등 프로덕션에서 모델 드리프트를 처리하는 널리 사용되는 기술에 대해 논의했습니다.
유세프 라파트 컴퓨터 비전 연구원 및 데이터 과학자입니다. 그의 연구는 의료 응용 프로그램을 위한 실시간 컴퓨터 비전 알고리즘 개발에 중점을 둡니다. 또한 마케팅, 재무 및 의료 분야에서 3년 이상 데이터 과학자로 근무했습니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoAiStream. Web3 데이터 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 미래 만들기 w Adryenn Ashley. 여기에서 액세스하십시오.
- PREIPO®로 PRE-IPO 회사의 주식을 사고 팔 수 있습니다. 여기에서 액세스하십시오.
- 출처: https://www.kdnuggets.com/2023/05/managing-model-drift-production-mlops.html?utm_source=rss&utm_medium=rss&utm_campaign=managing-model-drift-in-production-with-mlops
- :있다
- :이다
- :아니
- :어디
- $UP
- a
- 할 수 있는
- 계정
- 정확한
- 정확히
- 동작
- 주소
- 주소 지정
- 영향을
- 나이
- 연산
- 알고리즘
- 또한
- an
- 및
- 다른
- 명백한
- 어플리케이션
- 어플리케이션
- 있군요
- 기사
- AS
- At
- 나쁜
- 기반으로
- BE
- 된다
- 이하
- 사이에
- 그 너머
- 검정
- 블랙 프라이데이
- 사업
- 사업
- 비자 면제 프로그램에 해당하는 국가의 시민권을 가지고 있지만
- by
- CAN
- 캡처
- 잡아라
- 섭씨
- 어떤
- 도전
- 과제
- 이전 단계로 돌아가기
- 변경
- 변경
- 변화
- 특성
- 크리스마스
- 수집
- 공통의
- 비교
- 컴퓨터
- 컴퓨터 비전
- 개념
- 결과
- 고려
- 수정
- 수
- 코 비드
- Current
- 데이터
- 데이터 과학자
- 데이터 세트
- 거래
- 결정
- 거부
- 감소
- 배달
- 의존하는
- 의존
- 배포
- 탐지 된
- Detection System
- 개발
- 다른
- 토론
- 논의 된
- 분포
- 도메인
- 드롭
- 적하
- 두
- ...동안
- 역학
- 마다
- 유효한
- end
- 확인
- 탈출
- 필수
- 에테르 (ETH)
- 평가
- 진화시키다
- 예
- 전문가
- 탐험
- 실패
- 폭포
- 유명한
- 특색
- 특징
- Fields
- 그림
- 최종적으로
- 재원
- Find
- 집중
- 럭셔리
- 사
- 사기
- 사기 탐지
- 사기꾼
- 사기의
- 금요일
- 에
- 생성
- 생성
- 주기
- 간다
- 점진적
- 점차적으로
- 핸들
- 있다
- he
- 건강 관리
- 도움
- 여기에서 지금 확인해 보세요.
- 그의
- 역사적인
- 방법
- How To
- 그러나
- HTTPS
- 사람의
- if
- 영상
- 중대한
- in
- 부정확 한
- 포함
- 증가
- 독립
- 색인
- 영향
- 정보
- 입력
- 통찰력
- 으로
- IT
- 그
- JPG
- 너 겟츠
- 알려진
- 레이블링
- 지도
- 배우기
- 적게
- wifecycwe
- 링크드인
- ll
- 이상
- 찾고
- 기계
- 기계 학습
- 본관
- 확인
- 관리
- 관리
- 시장
- 마케팅
- 마케팅 전략
- XNUMX월..
- 평균
- 방법
- 측정
- 측량
- 방법
- 방법
- 수도
- 누락
- MLOps
- 모델
- 모델
- 모니터링
- 모니터링
- 배우기
- 가장
- 여러
- 필요
- 신제품
- 니콜라스
- 아니
- 관찰
- 발생
- of
- on
- 일단
- ONE
- 온라인
- 온라인 학습
- 운영
- 행정부
- 최적화
- or
- 조직
- 결과
- 설명
- 위에
- 극복하다
- 세계적 유행병
- 참여
- 특별한
- 과거
- 성능
- 주기
- 현상
- 관로
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 인기 문서
- 인구
- 잠재적으로
- 강한
- 사례
- 예측
- 예측
- 예측
- 예측
- 존재
- 학비 안내
- 방법
- 생산
- 프로젝트
- 속성
- 제공
- 제공
- 양
- 현실 세계
- 실시간
- 이유
- 최근
- 의미
- 관계
- 관계
- 관계
- 남아
- 대리인
- 연구
- 연구원
- 응답
- 결과
- 결과
- 재교육
- 달리기
- s
- 판매
- 같은
- 과학자
- 계절의
- 참조
- 선택
- 세트
- 변화
- 이동
- 표시
- 상당한
- 단순, 간단, 편리
- 이후
- 느리게
- 천천히
- 작은
- So
- 풀다
- 일부
- 구체적인
- 스펙트럼
- 안정
- 스타트
- 미국
- 통계적인
- 재고
- 똑 바른
- 전략들
- 스트리밍
- 제목
- 이러한
- 돌연 한
- 개요
- 체계
- 목표
- 작업
- 기법
- test
- 보다
- 그
- XNUMXD덴탈의
- 그들의
- 그들
- 그때
- 그곳에.
- 따라서
- Bowman의
- 그들
- 제삼
- 이
- 세
- 임계값
- 사는 보람으로 삼다
- 시간
- 에
- 검색을
- Train
- 훈련 된
- 트레이닝
- 거래
- 트리거
- 선회
- 두
- 유형
- 유형
- 전형적인
- 아래에
- 밑에 있는
- 이해
- 이해
- 단위
- 보편적 인
- 업데이트
- 업데이트
- 업스트림 데이터
- 익숙한
- 사용자
- 사용
- 보통
- 가치
- 대단히
- 시력
- 방법..
- we
- 언제
- 어느
- 넓은
- 의지
- 과
- 일
- 일하는
- 일
- year
- 년
- 제퍼 넷