시계열 분석 애플리케이션 구축

플라톤에 의해 재발행

팔로워 : 0

저자에 대해 자세히 알아 보려면 클릭하십시오. 마리트 위드만.

완전한 시계열 분석 애플리케이션은 다음 단계를 다룹니다. 데이터 과학 시계열 데이터에 대한 액세스에서 변환, 모델링, 평가 및 배포에 이르기까지 순환합니다. 그러나 시계열 데이터의 경우 이러한 단계의 특정 작업은 횡단면 데이터에 비해 다릅니다. 예를 들어, 횡단면 데이터는 한 시점에 한 객체의 스냅 샷으로 수집되는 반면 시계열 데이터는 일정 기간 동안 동일한 객체를 관찰하여 수집됩니다. 시계열 데이터의 규칙적인 패턴에는 특정 용어가 있으며 시계열 모델링으로 이동하기 전에 필요한 전처리를 결정합니다. 시계열은 여러 유형의 모델로 모델링 할 수 있지만 ARIMA 모델과 같은 특정 시계열 모델은 관측치 사이의 시간 구조를 사용합니다.

이 문서에서는 시계열 애플리케이션을 구축하는 과정에서 가장 일반적인 작업을 소개합니다. 마지막으로 분석 플랫폼에서 예제 애플리케이션을 구축하여 이론을 실제로 적용했습니다.

시계열 액세스

시계열에는 수요 예측을위한 일일 판매 데이터, 장기 정치 계획을위한 연간 거시 경제 데이터, 운동 세션 분석을위한 스마트 시계의 센서 데이터 등 다양한 소스와 애플리케이션이 있습니다. 예를 들어이 모든 시계열은 세분성, 규칙 성 및 청결성에서 다릅니다. 우리는 올해와 향후 10 년 동안 우리나라에 대한 GDP 가치가 있다고 확신 할 수 있지만 스마트 워치의 센서는 어떤 운동과 어떤 온도에서도 안정적으로 작동합니다. 시계열 데이터를 정기적으로 사용할 수 없지만 질병 감염 또는 자발적인 고객 방문과 같은 무작위 이벤트 지점에서만 수집 할 수 있습니다. 그러나 이러한 모든 종류의 시계열 데이터의 공통점은 시간이 지남에 따라 동일한 소스에서 수집된다는 것입니다.

그림 1: 시계열에는 인체 근육과 같은 작은 단일 개체부터 국가와 같은 더 큰 개체에 이르기까지 다양한 소스가 있습니다. 모든 데이터의 공통점은 동일한 대상을 오랜 시간 관찰하여 수집했다는 점이다. (이미지 출처: KNIME)

시계열 정규화 및 정리

시계열 데이터가 확보되면 다음 단계는 이를 적절한 세분성으로 균등한 간격으로 연속적이고 깔끔하게 만드는 것입니다. 필요한 작업은 데이터의 원래 모양과 분석 목적. 예를 들어, 일주일 간의 제품 프로모션을 계획하는 경우 일부 제품의 판매 개요를 얻는 것보다 더 세부적인 데이터에 관심이 있을 수 있습니다.

정렬

시계열은 시간별로 정렬해야합니다. 데이터를 학습 및 테스트 세트로 분할 할 때 테스트 / 학습을 위해 상단 / 하단에서 데이터를 가져 와서 레코드 간의 시간 구조를 보존해야합니다. 데이터에 타임 스탬프 당 둘 이상의 레코드가 포함 된 경우 타임 스탬프별로 집계해야합니다. 예를 들어, 하루에 여러 주문이 있고 일일 판매에 관심이있는 경우 매일 판매를 합산해야합니다. 또한 현재 데이터에있는 것보다 다른 단위로 시계열에 관심이있는 경우 (예 : 일일 판매가 아닌 월간 판매) 원하는 단위로 데이터를 추가로 집계 할 수 있습니다.

결 측값

일부 타임스탬프가 누락된 경우 동일한 간격을 만들기 위해 시계열에 이를 도입해야 합니다. 때로는 누락된 기록이 시계열 역학의 일부인 경우도 있습니다(예: 주식 시장이 금요일에 마감되고 월요일에 개장함).

누락 된 타임 스탬프를 데이터에 도입하면 해당 값은 물론 누락됩니다. 예를 들어 선형 보간 또는 이동 평균 값으로 이러한 결 측값을 대치 할 수 있습니다. 그러나 결 측값을 대치하는 가장 좋은 기술은 데이터의 규칙적인 역학에 따라 달라진다는 것을 기억하십시오. 예를 들어, 일별 데이터에서 주간 계절성을 검사하고 한 토요일의 값이 누락 된 경우 지난 토요일의 값이 아마도 가장 좋은 대체 값일 것입니다. 누락 된 값이 주말에 누락 된 주식 시장 종가와 같이 무작위로 누락되지 않은 경우 고정 된 값 (이 경우 0)으로 대체 할 수 있습니다. 반면에 누락 된 값이 무작위이고 과거에 충분히 멀리 발생한 경우 누락 된 값 이후의 데이터를 사용하고 이전 데이터를 무시할 수 있습니다.

불규칙한 패턴

급격한 변동과 이상값을 처리하는 한 가지 좋은 방법은 데이터를 평활화하는 것입니다. 다음과 같은 여러 가지 기술을 사용할 수 있습니다. media móvil 와 지수 평활. 또한 상자 그림의 수염 외부에 있는 값을 자르면 데이터가 부드러워집니다. 데이터의 계절성이 강하면 상자 그림이 광범위하게 나타날 수 있으므로 조건부 상자 그림을 사용하여 이상값을 탐지하는 것이 좋습니다.

그러나 때로는 시계열이 매우 불규칙한 현상을 보이고 있는 경우도 있습니다! 이러한 경우, 예를 들어 슈퍼마켓 전체의 매출 대신 한 제품의 매출만 고려하거나 데이터를 클러스터링하는 등 시계열의 하위 집합을 추출하여 시계열을 보다 규칙적으로 만들 수 있습니다.

그림 2: 데이터 재구성, 누락된 값 및 이상값 처리, 데이터 하위 집합 추출은 시계열 분석의 추가 단계로 이동하기 전에 시계열을 정리하고 정규화하는 예입니다. (이미지 출처 : KNIME)

시계열 탐색 및 변환

이 시점에서 우리는 시각적, 수치적으로 탐색하기에 적합한 형태의 시계열 데이터를 갖게 되었습니다. 다양한 플롯과 통계는 시계열의 역학을 더 잘 이해하고 향후 발전을 예측하는 데 사용할 수 있는 장기 및 단기 패턴과 시간적 관계를 나타냅니다.

시계열의 시각적 탐색

시계열을 탐색하기위한 기본 플롯은 시계열의 가능한 방향, 규칙적이고 불규칙한 변동, 이상치, 간격 또는 전환점을 보여주는 선 플롯 (그림 3)입니다. 음료 판매의 연간 계절 성과 같이 시계열에서 규칙적인 패턴을 관찰하면 계절별 플롯에서 각 계절주기 (연도)를 개별적으로 검사 할 수 있습니다 (그림 3). 예를 들어 계절별 플롯에서 XNUMX 월이 작년보다 올해 매출이 더 높았는지 또는 월별 매출이 해마다 증가하는지 쉽게 확인할 수 있습니다.

여름철 매출의 중앙값, 매월 매출의 양과 방향과 같이 계절에 어떤 일이 발생하는지에 관심이 있다면 조건부 상자 그림에서 이러한 종류의 역학을 검사 할 수 있습니다 (그림 삼). 시계열을 탐색하는 데 유용한 또 다른 플롯은 지연 플롯입니다 (그림 3). 지연 플롯은 현재 값과 과거 값 간의 관계를 보여줍니다 (예 : 오늘 판매량과 전주 판매량).

시계열의 고전적 분해

시계열을 추세, 계절성, 잔차로 분해하는 고전적 분해는 예측을 위한 좋은 벤치마크를 제공합니다. 시계열의 나머지 부분인 잔차(residual)는 다음과 같이 가정됩니다. 변화 없는, 예를 들어 ARIMA 모델을 통해 예측할 수 있습니다. 그러나 잔차 계열이 정상적이지 않은 경우 1차 차분 또는 원래 시계열의 로그 변환과 같은 일부 추가 변환이 필요할 수 있다는 점을 기억하십시오.

첫째, 시계열이 방향이나 추세를 나타내는 경우, 예를 들어 데이터를 통해 회귀 모델을 맞추거나 이동 평균 값을 계산하여 시계열의 추세를 제거할 수 있습니다.

둘째, 시계열이 정기적 인 변동 (계절성)을 나타내면 시계열을 이에 맞게 조정할 수 있습니다. 시계열의 자기 상관 그림에서 주요 계절성이 발생하는 시차를 찾을 수 있습니다. 예를 들어 시차 7에서 피크를 관찰하고 일일 데이터가있는 경우 데이터에는 주간 계절성이 있습니다. 계절성은 주요 스파이크가 발생하는 지연에서 데이터를 차이로 조정하여 조정할 수 있습니다. 데이터에서 두 번째 계절성을 조정하려면 조정 된 (차이) 시계열에 대한 절차를 반복하면됩니다.

마지막으로 ARIMA 모델 등으로 모델링할 준비가 된 고정 시계열에 도달하면 다음을 사용하여 최종 확인을 수행할 수 있습니다. Ljung-box 테스트 정상 성을 위해.

*그림 3: 시차 도표, 조건부 상자 도표, 선 도표, 계절 도표 및 자기상관 도표는 시계열을 시각적으로 탐색하는 데 유용합니다. (이미지 출처 : KNIME)*

시계열 모델링 및 평가

이제 불규칙한 역학을 포함하는 시계열의 잔여 부분을 모델링하는 작업으로 넘어갑니다. ARIMA 모델을 사용하여 이 작업을 수행할 수 있습니다. 기계 학습 모델, 신경망 및 이들의 다양한 변형. 우리는 시계열의 잔여 부분을 이러한 모델로 모델링하는 경우가 많습니다. 왜냐하면 시계열이 고정되어 있기 때문입니다. 그러나 계절성 ARIMA 모델과 같은 일부 모델은 비정상 시계열 모델링에도 작동하기 때문에 시계열 분해가 항상 필요한 것은 아닙니다.

다음에서는 이러한 다양한 모델링 기술의 몇 가지 속성, 유사점 및 차이점을 수집하여 사용 사례에 가장 적합한 것을 선택할 수 있습니다. 또한 여러 모델을 훈련하고 이들의 앙상블을 구축하는 것도 유용하다는 점을 기억하세요!

ARIMA 모델

아리마 (자기 회귀 통합 이동 평균) 모델은 현재와 과거 값 (AR 부분)과 현재와 과거 예측 오차 (MA 부분) 간의 선형 회귀 모델입니다. 모형에 XNUMX이 아닌 I- 부품이있는 경우 데이터가 고정되어 있기 위해 차이가 있습니다. 기본 ARIMA 모델은 시계열이 고정되어 있고 고정 시계열에 장기적으로 예측 가능한 패턴이 없다고 가정합니다. 장기 예측의 정확도가 감소하는 것은 예측의 신뢰 구간이 증가함에 따라 확인할 수 있습니다. 더 많은 데이터가 ARIMA 모델을 학습하는 데 항상 좋은 것은 아닙니다. 데이터 세트가 크면 ARIMA 모델의 모델 매개 변수를 추정하는 데 시간이 많이 걸릴뿐만 아니라 실제 프로세스와 모델 프로세스 간의 차이를 과장 할 수 있습니다.

기계 학습 모델

기계 학습 모델은 지연된 값을 예측 자 열로 사용하며 대상 열과 예측 자 열 사이의 시간 구조를 무시합니다. 머신 러닝 모델은 학습 데이터에 이러한 패턴을 설정하기에 충분한 데이터가 제공되는 경우 데이터의 장기 패턴과 전환점을 식별 할 수도 있습니다. 일반적으로 데이터에 나타나는 불규칙성이 많을수록 모델 학습에 더 많은 데이터가 필요합니다. 기계 학습 모델을 적용 할 때 잔차를 모델링하는 것이 좋습니다. 그렇지 않으면 고전적인 분해 모델보다 더 복잡한 모델을 만들 수 있지만 실제로는 그 위에 새로운 것을 배우지 않습니다!

모델 선택에 대한 팁

첫째, 일부 현상은 예측하기 어렵습니다. 이러한 경우에는 더 단순한 모델을 선택하고 정확하게 예측할 수 없는 것을 모델링하는 데 자원을 투자하지 않는 것이 종종 합리적입니다.

둘째, 모델의 성능이 유일한 기준은 아닙니다. 모델의 결과를 기반으로 중요한 결정을 내리는 경우 성능이 약간 향상되는 것보다 해석 가능성이 더 중요할 수 있습니다. 즉, 신경망은 약간 더 나은 예측을 하더라도 단순 고전적 분해 모델에 비해 패배할 수 있습니다.

셋째, 모델에 설명 변수를 추가하면 예측 정확도가 향상 될 수 있습니다. 그러나 이러한 모델에서는 설명 변수도 예측해야하며 모델의 복잡성 증가가 항상 더 나은 정확도의 가치가있는 것은 아닙니다. 때로는 대략적인 추정만으로도 결정을 뒷받침 할 수 있습니다. 배송 금액이 수십 및 수백 단위로 계산되면 예측 수요도 더 세분화 될 필요가 없습니다.

그림 4 : 사용 가능한 데이터, 데이터의 임의성, 예측 범위, 모델 목적 및 해석 가능성에 따라 어떤 모델이 선택되는지가 결정됩니다. 왼쪽 상단 모서리의 선 그림은 작은 훈련 데이터로 훈련 된 LSTM 모델의 예측 정확도를 보여줍니다. 왼쪽 하단 모서리의 선 그림은 완전히 임의의 프로세스와 데이터의 전환점을 보여줍니다. 오른쪽의 선 그림은 ARIMA (2,1,1) 프로세스를 따르는 시계열의 전개를 보여줍니다. (이미지 출처 : KNIME)

모델 평가

모델을 훈련한 후 다음 단계는 모델을 평가하는 것입니다. 표본 내 예측의 경우 테스트 세트는 훈련 세트 자체이므로 모델 훈련에 사용된 데이터에 모델 프로세스가 맞춰집니다. 표본 외 예측의 경우 테스트 세트는 시간상 훈련 세트 다음입니다.

시계열 모델을 평가하기 위해 권장되는 오류 측정항목 중 하나는 평균 절대 백분율 오류(메이프), 이는 실제 값의 백분율로 보편적인 척도로 오류를 제공하기 때문입니다. 그러나 참값이 0이면 이 메트릭은 정의되지 않으며 제곱 평균 제곱 오차와 같은 다른 오류 메트릭도 정의됩니다(RMSE) 그럴 겁니다. 그러나 종종 권장되는 것은 사용하지 않는 것입니다. R-제곱. R 제곱 측정항목은 과거의 모든 변동성을 모델링하는 대신 대상 열의 미래 체계적 변동성을 예측하는 데 중점을 두기 때문에 시계열 분석의 맥락에 맞지 않습니다.

시계열 예측 및 재구성

거의 다 왔어! 마지막 단계는 미래 가치를 예측하고 신호를 재구성하는 것입니다.

동적 예측

장기적으로 정확한 예측을 제공할 수 없는 모델이 있는 경우 동적 배포를 통해 표본 외 예측 정확도가 향상되는 경우가 많습니다. 동적 배포에서는 한 번에 한 지점만 예측하며, 이 예측 값을 기준으로 과거 데이터를 업데이트하여 다음 예측을 생성합니다(그림 5).

그림 5: 동적 배포에서는 한 번에 하나의 예측만 생성되며, 이 예측은 한 시점 더 앞선 다음 예측을 생성하는 데 사용되는 과거 데이터에 추가됩니다. (이미지 출처 : KNIME)

추세 및 계절성 복원

마지막으로, 예측하기 전에 시계열을 분해하면 추세 및 / 또는 계절성을 예측으로 복원해야합니다. 데이터를 차분하여 계절성을 조정하면 계절성이 발생하는 시차에 값을 추가하여 신호를 재구성하기 시작합니다. 예를 들어 시차 7 (주간 계절성)에서 계절별 차이를 적용한 일일 데이터 y가있는 경우이 계절성을 복원하려면 예측 값에 다음 계산이 필요합니다. y_t₊₁, y_t₊₂,…, y_t_+h :

어디에 t훈련 데이터의 마지막 시점이고 h 예측 지평선입니다.

두 번째 계절성을 복원하기 위해 복원된 시계열에 대해 위에서 설명한 단계를 반복합니다. 추세 구성 요소를 시계열로 복원하려면 복원된 시계열에 추세를 나타내는 회귀 모델을 적용합니다.

분석 플랫폼에서 완전한 시계열 애플리케이션

마지막으로 분석 플랫폼을 사용하여 이러한 단계를 실제로 적용하는 방법을 살펴보겠습니다. 워크플로 시계열 변환 및 모델링 액세스 (허브에서 사용 가능) 그림 6은 액세스부터 정리, 시각적 탐색, 분해 및 시계열 모델링까지의 단계를 보여줍니다. 이러한 작업 중 일부에는 다음을 사용합니다. 시계열 성분 워크플로우를 시계열별 기능으로 캡슐화합니다. 즉, 선택한 세분성으로 데이터를 집계하고 클래식 분해를 수행하는 등의 작업을 수행합니다.

그림 6: 시계열 분석의 첫 번째 단계: 시계열 액세스, 변환, 정리, 시각적 탐색 및 모델링. 시계열 변환 및 모델링 워크플로우 액세스는 허브에서 사용할 수 있습니다. (이미지 출처 : KNIME)

이 예에서 우리는 샘플 – 슈퍼마켓 제공 한 데이터 Tableau. 우리의 분석에서 우리는 2014 년부터 2017 년까지 모든 제품의 주문에 초점을 맞추고 있습니다. 하루 총 판매량을 계산하여 데이터를 시계열 데이터로 재구성하여 전처리를 시작합니다. 이제 우리는 하루에 하나의 값만 가지고 있지만 요즘에는 주문이 제출되지 않았기 때문에 일부 날짜가 누락되었습니다. 따라서 우리는 요즘 시계열을 도입하고 누락 된 판매 값을 고정 값 9994으로 대체합니다. 그 후 월 단위로 데이터를 집계하고 추가 분석에서 매월 평균 매출을 고려합니다.

시각적 탐색을 위해 우리는 또한 연간 수준으로 데이터를 집계하고 그림 2015의 오른쪽에있는 선 그림에서 볼 수 있듯이 7 년 초에 전환점이 있음을 확인했습니다. 왼쪽의 선 그림은 데이터의 연간 계절성을 보여줍니다. 매년 말에 두 개의 정규 피크가 있고 매년 초에 더 낮은 피크가 있습니다. 또한 왼쪽의 ACF 플롯에서 시차 12의 주요 스파이크에서 알 수 있듯이 데이터에서 연간 계절성을 감지합니다. 시계열을 추세, 계절성 및 잔차로 분해하고 이러한 구성 요소는 그림 7의 중간에있는 선 그림에 표시됩니다. 오른쪽의 ACF 그림은 잔차 시리즈에서 중요한 자기 상관이 없음을 보여줍니다.

그림 7: 연간 계절성과 전환점을 보여주는 선 도표, 월별 데이터의 연간 계절성을 보여주는 ACF 도표, 잔차 계열의 정상성을 보여주는 선 도표, 분해된 시계열의 추세, 계절성 및 잔차 구성요소를 보여주는 선 도표. (이미지 출처 : KNIME)

다음으로 ARIMA 모델을 사용하여 월 평균 매출의 잔차 시리즈를 모델링합니다. 시차 12에서 차분한 후 시계열의 길이는 36 개의 관측치입니다. AR 및 MA 부품의 경우 최대 차수가 4이고 I 부품의 경우 최대 차수가 1 인 Auto ARIMA Learner 구성 요소가있는 최상의 모델을 찾습니다. 다음을 기반으로 한 최고의 성능 모델 Akaike 정보 기준 ARIMA(0, 1, 4)이고 표본 내 예측을 기반으로 한 결과 MAPE는 1.153입니다.

마지막으로 모델의 표본 외 예측 정확도를 평가합니다. 워크플로 시계열 예측 및 재구성 (허브에서 사용 가능) 그림 8은 2017 년부터 2014 년까지의 월별 데이터 (2016 건의 관측치)와 동적 배포를 사용하여 우승 한 ARIMA (24) 모델을 기반으로 0,1,4 년의 일일 매출을 예측하는 방법을 보여줍니다. 접근하다. 그 후 신호를 재구성합니다.이 경우 추세와 연간 계절성을 예측 값 (12 월 평균 판매 값)으로 복원합니다. 실제 값과 예측 값을 비교하여 0.336의 MAPE를 얻습니다.