लेखक के बारे में अधिक जानने के लिए क्लिक करें मैरिट विडमैन।
एक पूर्ण समय श्रृंखला विश्लेषण एप्लिकेशन निम्नलिखित चरणों को शामिल करता है डाटा विज्ञान समय श्रृंखला डेटा तक पहुँचने से लेकर परिवर्तन, मॉडलिंग, मूल्यांकन और तैनाती तक का चक्र। हालाँकि, समय श्रृंखला डेटा के लिए इन चरणों में विशिष्ट कार्य क्रॉस-अनुभागीय डेटा की तुलना में भिन्न होते हैं। उदाहरण के लिए, क्रॉस सेक्शनल डेटा को एक समय में एक वस्तु के स्नैपशॉट के रूप में एकत्र किया जाता है, जबकि समय श्रृंखला डेटा को एक समय अवधि में एक ही वस्तु का अवलोकन करके एकत्र किया जाता है। समय श्रृंखला डेटा में नियमित पैटर्न की अपनी विशिष्ट शब्दावली होती है, और वे मॉडलिंग समय श्रृंखला पर जाने से पहले आवश्यक प्रीप्रोसेसिंग निर्धारित करते हैं। समय श्रृंखला को कई प्रकार के मॉडलों के साथ तैयार किया जा सकता है, लेकिन विशिष्ट समय श्रृंखला मॉडल, जैसे ARIMA मॉडल, अवलोकनों के बीच अस्थायी संरचना का उपयोग करते हैं।
इस लेख में, हम समय श्रृंखला एप्लिकेशन के निर्माण की यात्रा में सबसे सामान्य कार्यों का परिचय देते हैं। अंत में, हमने एनालिटिक्स प्लेटफ़ॉर्म में एक उदाहरण एप्लिकेशन बनाकर सिद्धांत को व्यवहार में लाया।
समय श्रृंखला तक पहुँचना
टाइम सीरीज़ के विभिन्न स्रोत और अनुप्रयोग हैं: मांग की भविष्यवाणी के लिए दैनिक बिक्री डेटा, दीर्घकालिक राजनीतिक योजना के लिए वार्षिक व्यापक आर्थिक डेटा, कसरत सत्र का विश्लेषण करने के लिए स्मार्ट घड़ी से सेंसर डेटा, और भी बहुत कुछ। ये सभी समय श्रृंखलाएं, उदाहरण के लिए, उनकी ग्रैन्युलैरिटी, नियमितता और स्वच्छता में भिन्न हैं: हम यह सुनिश्चित कर सकते हैं कि हमारे देश के लिए इस वर्ष और अगले 10 वर्षों के लिए भी जीडीपी मूल्य है, लेकिन हम इसकी गारंटी नहीं दे सकते। हमारी स्मार्ट घड़ी का सेंसर किसी भी व्यायाम और किसी भी तापमान पर स्थिर रूप से काम करता है। यह भी हो सकता है कि समय श्रृंखला डेटा नियमित अंतराल पर उपलब्ध न हो, लेकिन केवल यादृच्छिक घटना बिंदुओं से एकत्र किया जा सकता है, जैसे रोग संक्रमण या सहज ग्राहक दौरे। हालाँकि, इन सभी प्रकार के समय श्रृंखला डेटा में जो समानता है, वह यह है कि वे समय के साथ एक ही स्रोत से एकत्र किए जाते हैं।
समय श्रृंखला को नियमित और साफ करना
एक बार जब हमारे पास समय श्रृंखला डेटा हो जाता है, तो अगला कदम इसे उपयुक्त ग्रैन्युलैरिटी पर समान दूरी पर, निरंतर और साफ बनाना है। आवश्यक कार्य डेटा के मूल आकार और हमारे पर भी निर्भर करते हैं विश्लेषिकी उद्देश्य। उदाहरण के लिए, यदि हम किसी उत्पाद के एक सप्ताह के प्रचार की योजना बना रहे हैं, तो हमें किसी उत्पाद की बिक्री का अवलोकन प्राप्त करने की तुलना में अधिक विस्तृत डेटा में रुचि हो सकती है।
छंटाई
समय श्रृंखला को समय के अनुसार क्रमबद्ध करने की आवश्यकता है। जब आप डेटा को प्रशिक्षण और परीक्षण सेट में विभाजित करते हैं, तो परीक्षण/प्रशिक्षण के लिए ऊपर/नीचे से डेटा लेकर रिकॉर्ड के बीच अस्थायी संरचना को संरक्षित करना याद रखें। यदि आपके डेटा में प्रति टाइमस्टैम्प एक से अधिक रिकॉर्ड हैं, तो आपको उन्हें टाइमस्टैम्प द्वारा एकत्रित करना होगा। उदाहरण के लिए, जब आपके पास प्रति दिन कई ऑर्डर होते हैं और आप दैनिक बिक्री में रुचि रखते हैं, तो आपको प्रत्येक दिन की बिक्री का योग करना होगा। इसके अलावा, यदि आप वर्तमान में आपके पास मौजूद डेटा की तुलना में किसी अन्य ग्रैन्युलैरिटी पर समय श्रृंखला में रुचि रखते हैं (उदाहरण के लिए, दैनिक बिक्री के बजाय मासिक बिक्री) तो आप डेटा को पसंदीदा ग्रैन्युलैरिटी पर एकत्र कर सकते हैं।
लापता मूल्य
यदि कुछ टाइमस्टैम्प गायब हैं, तो आपको उन्हें समय श्रृंखला में समान रूप से स्थान देने के लिए पेश करने की आवश्यकता है। कभी-कभी गायब रिकॉर्ड समय श्रृंखला की गतिशीलता का हिस्सा होते हैं (उदाहरण के लिए, एक शेयर बाजार शुक्रवार को बंद होता है और सोमवार को खुलता है)।
जब आप डेटा में गुम टाइमस्टैम्प का परिचय देते हैं, तो संबंधित मान निश्चित रूप से गायब होते हैं। आप इन लुप्त मानों को, उदाहरण के लिए, रैखिक प्रक्षेप या चलती औसत मानों द्वारा आरोपित कर सकते हैं। हालाँकि, याद रखें कि लुप्त मान लगाने की सबसे अच्छी तकनीक डेटा में नियमित गतिशीलता पर निर्भर करती है। उदाहरण के लिए, यदि आप दैनिक डेटा में साप्ताहिक मौसमी का निरीक्षण करते हैं, और एक शनिवार का मान गायब है, तो अंतिम शनिवार का मान संभवतः सबसे अच्छा प्रतिस्थापन है। यदि गायब मूल्य यादृच्छिक रूप से गायब नहीं हैं, जैसे कि सप्ताहांत में गायब शेयर बाजार समापन मूल्य, तो आप उन्हें एक निश्चित मूल्य से बदल सकते हैं, जो इस मामले में 0 होगा। दूसरी ओर, यदि लुप्त मान यादृच्छिक हैं और वे अतीत में काफी दूर तक घटित हुए हैं, तो आप लुप्त मान के बाद डेटा का उपयोग कर सकते हैं, और पुराने डेटा को अनदेखा कर सकते हैं।
अनियमित पैटर्न
तीव्र उतार-चढ़ाव और आउटलेर्स से निपटने का एक अच्छा तरीका डेटा को सुचारू करना है। कई तकनीकों का उपयोग किया जा सकता है, जैसे मूविंग एवरेज और घातांक सुगम करना. इसके अलावा, बॉक्स प्लॉट के बाहरी हिस्से में मौजूद मानों को काटने से डेटा सुचारू हो जाता है। ध्यान रखें कि डेटा में मजबूत मौसमीता एक व्यापक बॉक्स प्लॉट को जन्म दे सकती है, और फिर आउटलेर्स का पता लगाने के लिए एक सशर्त बॉक्स प्लॉट का उपयोग करना बेहतर है।
हालाँकि, कभी-कभी समय श्रृंखला बहुत ही अनियमित घटना दिखा रही होती है! ऐसे मामले में, आप समय श्रृंखला का एक उपसमूह निकालकर इसे अधिक नियमित बनाने का प्रयास कर सकते हैं, उदाहरण के लिए, पूरे सुपरमार्केट की बिक्री के बजाय केवल एक उत्पाद की बिक्री पर विचार करके, या डेटा को क्लस्टर करके।
समय श्रृंखला की खोज और परिवर्तन
इस बिंदु पर, हमारे पास अपना समय श्रृंखला डेटा उस आकार में है जो दृश्य और संख्यात्मक रूप से इसकी खोज के लिए उपयुक्त है। विभिन्न कथानक और आँकड़े समय श्रृंखला में दीर्घकालिक और अल्पकालिक पैटर्न और अस्थायी संबंधों को प्रकट करते हैं जिनका उपयोग हम इसकी गतिशीलता को बेहतर ढंग से समझने और इसके भविष्य के विकास की भविष्यवाणी करने के लिए कर सकते हैं।
समय श्रृंखला का दृश्य अन्वेषण
समय श्रृंखला की खोज के लिए मूल कथानक रेखा कथानक (चित्र 3) है जो समय श्रृंखला में संभावित दिशा, नियमित और अनियमित उतार-चढ़ाव, आउटलेर, अंतराल या मोड़ दिखाता है। यदि आप अपनी समय श्रृंखला में एक नियमित पैटर्न देखते हैं, जैसे कि पेय पदार्थों की बिक्री में वार्षिक मौसमी, तो आप मौसमी प्लॉट में प्रत्येक मौसमी चक्र (वर्ष) का अलग से निरीक्षण कर सकते हैं (चित्र 3)। मौसमी कथानक में आप आसानी से देख सकते हैं, उदाहरण के लिए, क्या इस वर्ष जुलाई पिछले वर्ष की तुलना में अधिक बिक्री वाला महीना था, या यदि मासिक बिक्री साल दर साल बढ़ रही है।
यदि आप इस बात में रुचि रखते हैं कि सीज़न के भीतर क्या होता है, जैसे कि गर्मियों के महीनों में औसत बिक्री क्या है और हर महीने बिक्री कितनी और किस दिशा में बदलती है, तो आप एक सशर्त बॉक्स प्लॉट (चित्र) में इस प्रकार की गतिशीलता का निरीक्षण कर सकते हैं 3). समय श्रृंखला की खोज के लिए एक और उपयोगी प्लॉट लैग प्लॉट (चित्रा 3) है। लैग प्लॉट वर्तमान मूल्यों और पिछले मूल्यों के बीच संबंध दिखाता है, उदाहरण के लिए, आज की बिक्री और सप्ताह पहले की बिक्री।
समय श्रृंखला का शास्त्रीय अपघटन
शास्त्रीय अपघटन, यानी, समय श्रृंखला को उसकी प्रवृत्ति, मौसमी और अवशिष्ट में विघटित करना, पूर्वानुमान के लिए एक अच्छा बेंचमार्क प्रदान करता है। समय श्रृंखला का शेष भाग, अवशिष्ट, माना जाता है स्थिर, और उदाहरण के लिए, ARIMA मॉडल द्वारा पूर्वानुमान लगाया जा सकता है। हालाँकि, याद रखें कि यदि अवशिष्ट श्रृंखला स्थिर नहीं है, तो कुछ अतिरिक्त परिवर्तनों की आवश्यकता हो सकती है, जैसे कि पहले क्रम में अंतर, या मूल समय श्रृंखला का लॉग परिवर्तन।
सबसे पहले, यदि समय श्रृंखला एक दिशा, एक प्रवृत्ति दिखाती है, तो समय श्रृंखला को डिट्रेंड किया जा सकता है, उदाहरण के लिए, डेटा के माध्यम से एक प्रतिगमन मॉडल को फिट करके, या एक चलती औसत मूल्य की गणना करके।
दूसरे, यदि समय श्रृंखला नियमित उतार-चढ़ाव दिखाती है - एक मौसमी - तो समय श्रृंखला को इसके लिए समायोजित किया जा सकता है। आप उस अंतराल को पा सकते हैं जहां समय श्रृंखला के स्वत: सहसंबंध कथानक में प्रमुख मौसमी घटनाएँ होती हैं। उदाहरण के लिए, यदि आप अंतराल 7 पर शिखर देखते हैं, और आपके पास दैनिक डेटा है, तो डेटा में साप्ताहिक मौसमीता होगी। जहां प्रमुख स्पाइक होता है, उस अंतराल पर डेटा को अलग करके मौसमी को समायोजित किया जा सकता है। यदि आप डेटा में दूसरी सीज़नलिटी को समायोजित करना चाहते हैं, तो आप समायोजित (विभिन्न) समय श्रृंखला के लिए प्रक्रिया को दोहराकर ऐसा कर सकते हैं।
अंत में, जब आप एक स्थिर समय श्रृंखला पर पहुंच गए हैं जो उदाहरण के लिए ARIMA मॉडल द्वारा मॉडलिंग के लिए तैयार है, तो आप उदाहरण के लिए अंतिम जांच कर सकते हैं, लजंग-बॉक्स परीक्षण स्थिरता के लिए.
समय श्रृंखला का मॉडलिंग और मूल्यांकन
अब हम समय श्रृंखला के अवशिष्ट भाग के मॉडलिंग की ओर बढ़ते हैं जिसमें इसकी अनियमित गतिशीलता शामिल है। हम ARIMA मॉडल के साथ ऐसा कर सकते हैं, यंत्र अधिगम मॉडल, तंत्रिका नेटवर्क और उनके कई रूप। हम अक्सर समय श्रृंखला के अवशिष्ट भाग को इन मॉडलों द्वारा मॉडल करते हैं, क्योंकि यह स्थिर है। हालाँकि, समय श्रृंखला को विघटित करना हमेशा आवश्यक नहीं होता है, क्योंकि कुछ मॉडल, उदाहरण के लिए मौसमी ARIMA मॉडल, गैर-स्थिर समय श्रृंखला के मॉडलिंग के लिए भी काम करते हैं।
निम्नलिखित में हम इन विभिन्न मॉडलिंग तकनीकों के कुछ गुण, उनकी समानताएं और अंतर एकत्र करते हैं, ताकि आप अपने उपयोग के मामले में सर्वश्रेष्ठ चुन सकें। यह भी याद रखें कि कई मॉडलों को प्रशिक्षित करना और यहां तक कि उनका एक समूह बनाना भी उपयोगी है!
एरीमा मॉडल
अरिमा (ऑटोरेग्रेसिव इंटीग्रेटेड मूविंग एवरेज) मॉडल वर्तमान और पिछले मूल्यों (एआर-भाग) के बीच एक रैखिक प्रतिगमन मॉडल है, और वर्तमान और पिछले पूर्वानुमान त्रुटियों (एमए-भाग) के बीच भी है। यदि मॉडल में गैर-शून्य I-भाग है, तो इसे स्थिर बनाने के लिए डेटा में अंतर किया जाता है। बुनियादी ARIMA मॉडल मानते हैं कि समय श्रृंखला स्थिर है, और स्थिर समय श्रृंखला में लंबी अवधि में पूर्वानुमानित पैटर्न नहीं होते हैं। दीर्घकालिक पूर्वानुमानों में घटती सटीकता को पूर्वानुमानों के बढ़ते विश्वास अंतराल में देखा जा सकता है। ARIMA मॉडल के प्रशिक्षण के लिए अधिक डेटा रखना हमेशा बेहतर नहीं होता है: बड़े डेटासेट ARIMA मॉडल के मॉडल मापदंडों का अनुमान लगाने में समय लेने वाले हो सकते हैं, साथ ही वास्तविक प्रक्रिया और मॉडल प्रक्रिया के बीच अंतर को बढ़ा-चढ़ाकर बता सकते हैं।
मशीन लर्निंग मॉडल
मशीन लर्निंग मॉडल विलंबित मानों को भविष्यवक्ता स्तंभों के रूप में उपयोग करते हैं, और वे लक्ष्य स्तंभ और भविष्यवक्ता स्तंभों के बीच की अस्थायी संरचना को अनदेखा करते हैं। मशीन लर्निंग मॉडल डेटा में दीर्घकालिक पैटर्न और महत्वपूर्ण मोड़ की पहचान भी कर सकते हैं, बशर्ते कि इन पैटर्न को स्थापित करने के लिए प्रशिक्षण डेटा में पर्याप्त डेटा प्रदान किया गया हो। सामान्य तौर पर, डेटा जितनी अधिक अनियमितताएँ दिखाता है, मॉडल को प्रशिक्षित करने के लिए उतने ही अधिक डेटा की आवश्यकता होती है। जब आप मशीन लर्निंग मॉडल लागू करते हैं, तो अवशिष्ट को मॉडल करने की अनुशंसा की जाती है। अन्यथा, आप एक ऐसा मॉडल बना सकते हैं जो शास्त्रीय अपघटन मॉडल से अधिक जटिल है, लेकिन जो वास्तव में इसके अलावा कुछ भी नया नहीं सीख रहा है!
मॉडल चयन पर युक्तियाँ
सबसे पहले, कुछ घटनाओं का पूर्वानुमान लगाना मुश्किल होता है, और ऐसे मामले में अक्सर यह समझ में आता है कि एक सरल मॉडल के लिए जाना चाहिए और किसी ऐसी चीज़ के मॉडलिंग में संसाधनों का निवेश नहीं करना चाहिए जिसका सटीक पूर्वानुमान नहीं लगाया जा सकता है।
दूसरे, मॉडल का प्रदर्शन ही एकमात्र मानदंड नहीं है। यदि महत्वपूर्ण निर्णय मॉडल के परिणामों पर आधारित होते हैं, तो इसकी व्याख्या थोड़े बेहतर प्रदर्शन से अधिक महत्वपूर्ण हो सकती है। जैसा कि कहा गया है, एक तंत्रिका नेटवर्क एक साधारण शास्त्रीय अपघटन मॉडल के मुकाबले हार सकता है, हालांकि यह थोड़ा बेहतर पूर्वानुमान लगाता है।
तीसरा, आपके मॉडल में व्याख्यात्मक चर जोड़ने से पूर्वानुमान सटीकता में सुधार हो सकता है। हालाँकि, ऐसे मॉडल में व्याख्यात्मक चर का भी पूर्वानुमान लगाने की आवश्यकता होती है, और मॉडल की बढ़ती जटिलता हमेशा बेहतर सटीकता के लायक नहीं होती है। कभी-कभी मोटे अनुमान निर्णयों का समर्थन करने के लिए पर्याप्त होते हैं: यदि शिपिंग मात्रा की गणना दसियों और सैकड़ों में की जाती है, तो पूर्वानुमानित मांग में अधिक ग्रैन्युलैरिटी की आवश्यकता नहीं होती है।
मॉडल मूल्यांकन
किसी मॉडल को प्रशिक्षित करने के बाद अगला कदम उसका मूल्यांकन करना है। इन-सैंपल पूर्वानुमान के लिए, परीक्षण सेट स्वयं प्रशिक्षण सेट है, इसलिए मॉडल प्रक्रिया उस डेटा से फिट होती है जिसका उपयोग मॉडल को प्रशिक्षित करने के लिए किया गया था। आउट-ऑफ़-सैंपल पूर्वानुमान के लिए, परीक्षण सेट समय में प्रशिक्षण सेट के बाद होता है।
समय श्रृंखला मॉडल के मूल्यांकन के लिए एक अनुशंसित त्रुटि मीट्रिक औसत पूर्ण प्रतिशत त्रुटि है (मैप), क्योंकि यह वास्तविक मूल्य के प्रतिशत के रूप में, सार्वभौमिक पैमाने पर त्रुटि प्रदान करता है। हालाँकि, यदि वास्तविक मान शून्य है, तो यह मीट्रिक परिभाषित नहीं है, और फिर अन्य त्रुटि मीट्रिक भी, जैसे मूल माध्य वर्ग त्रुटि (आरएमएसई), करूंगा। हालाँकि, जो अक्सर अनुशंसित किया जाता है वह है उपयोग न करना आर चुकता. आर-स्क्वायर मीट्रिक समय श्रृंखला विश्लेषण के संदर्भ में फिट नहीं है क्योंकि अतीत में सभी परिवर्तनशीलता को मॉडलिंग करने के बजाय लक्ष्य कॉलम की भविष्य की व्यवस्थित परिवर्तनशीलता की भविष्यवाणी करने पर ध्यान केंद्रित किया गया है।
समय श्रृंखला का पूर्वानुमान और पुनर्निर्माण
हम बस पहुँच गए! अंतिम चरण भविष्य के मूल्यों का पूर्वानुमान लगाना और सिग्नल का पुनर्निर्माण करना है।
गतिशील पूर्वानुमान
यदि आपके पास एक मॉडल है जो लंबी अवधि में सटीक पूर्वानुमान प्रदान नहीं कर सकता है, तो गतिशील तैनाती अक्सर आउट-ऑफ़-सैंपल पूर्वानुमान सटीकता में सुधार करती है। गतिशील परिनियोजन में, एक समय में भविष्य में केवल एक बिंदु का पूर्वानुमान लगाया जाता है, और अगला पूर्वानुमान उत्पन्न करने के लिए पिछले डेटा को इस पूर्वानुमान मान द्वारा अद्यतन किया जाता है (चित्र 5)।
प्रवृत्ति और मौसमी को बहाल करना
अंत में, यदि हम पूर्वानुमान लगाने से पहले समय श्रृंखला को विघटित करते हैं, तो हमें पूर्वानुमानों में प्रवृत्ति और/या मौसमीताओं को पुनर्स्थापित करने की आवश्यकता है। यदि हम डेटा को अलग करके मौसमी को समायोजित करते हैं, तो हम उस अंतराल पर मान जोड़कर सिग्नल का पुनर्निर्माण करना शुरू करते हैं जहां मौसमी होती है। उदाहरण के लिए, यदि हमारे पास दैनिक डेटा y है जहां हमने अंतराल 7 (साप्ताहिक मौसमी) पर मौसमी अंतर लागू किया है, तो इस मौसमी को बहाल करने के लिए पूर्वानुमान मूल्यों के लिए निम्नलिखित गणना की आवश्यकता होगी yt+1, yt+2, ..., yt+h :
जहां tप्रशिक्षण डेटा में अंतिम समय बिंदु है, और h पूर्वानुमान क्षितिज है.
दूसरी सीज़नलिटी को पुनर्स्थापित करने के लिए, हम पुनर्स्थापित समय श्रृंखला के लिए ऊपर वर्णित चरण को दोहराएंगे। यदि हम प्रवृत्ति घटक को समय श्रृंखला में पुनर्स्थापित करना चाहते हैं, तो हम पुनर्स्थापित समय श्रृंखला में प्रवृत्ति का प्रतिनिधित्व करने वाले प्रतिगमन मॉडल को लागू करेंगे।
एनालिटिक्स प्लेटफ़ॉर्म में पूर्ण टाइम सीरीज़ एप्लिकेशन
अंत में, आइए देखें कि हमारे एनालिटिक्स प्लेटफ़ॉर्म का उपयोग करके इन चरणों को कैसे व्यवहार में लाया जाए। कार्यप्रवाह ट्रांसफ़ॉर्मिंग और मॉडलिंग टाइम सीरीज़ तक पहुँचना (हब पर उपलब्ध) चित्र 6 में पहुंच से लेकर सफाई, विज़ुअली एक्सप्लोरिंग, डीकंपोज़िंग और मॉडलिंग टाइम सीरीज़ तक के चरण दिखाए गए हैं। इनमें से कुछ कार्यों के लिए हम उपयोग करते हैं समय श्रृंखला घटक जो वर्कफ़्लो को समय श्रृंखला के लिए विशिष्ट कार्यात्मकताओं के रूप में समाहित करता है: चयनित ग्रैन्युलैरिटी पर डेटा एकत्र करना, क्लासिक अपघटन करना, और बहुत कुछ।
इस उदाहरण में, हम उपयोग करते हैं नमूना - सुपरस्टोर द्वारा उपलब्ध कराया गया डेटा झाँकी. अपने विश्लेषण में हम 2014 से 2017 तक सभी उत्पादों के ऑर्डर पर ध्यान केंद्रित करते हैं - कुल मिलाकर 9994 रिकॉर्ड। हम प्रति दिन कुल बिक्री की गणना करके डेटा को समय श्रृंखला डेटा में दोबारा आकार देकर प्रीप्रोसेसिंग शुरू करते हैं। अब, हमारे पास प्रति दिन केवल एक मान है, लेकिन कुछ दिन गायब हैं क्योंकि इन दिनों कोई ऑर्डर सबमिट नहीं किया गया था। इसलिए, हम इन दिनों को समय श्रृंखला से परिचित कराते हैं और लापता बिक्री मूल्यों को एक निश्चित मान 0 से बदल देते हैं। उसके बाद, हम मासिक स्तर पर डेटा एकत्र करते हैं, और आगे के विश्लेषण में प्रत्येक महीने की औसत बिक्री पर विचार करते हैं।
दृश्य अन्वेषण के लिए, हम वार्षिक स्तर पर डेटा भी एकत्र करते हैं, और हमें पता चलता है कि वर्ष 2015 की शुरुआत में एक महत्वपूर्ण मोड़ है, जैसा कि चित्र 7 में दाईं ओर की रेखा प्लॉट से पता चलता है। बाईं ओर का लाइन प्लॉट डेटा में वार्षिक मौसमीता को दर्शाता है: प्रत्येक वर्ष के अंत में दो नियमित शिखर होते हैं, और प्रत्येक वर्ष की शुरुआत में एक निचला शिखर होता है। हम डेटा में वार्षिक मौसमीता का भी पता लगाते हैं, जैसा कि बाईं ओर एसीएफ प्लॉट में अंतराल 12 पर प्रमुख स्पाइक द्वारा दिखाया गया है। हम समय श्रृंखला को उसकी प्रवृत्ति, मौसमी और अवशिष्ट में विघटित करते हैं, और इन घटकों को चित्र 7 में मध्य में लाइन प्लॉट में दिखाया गया है। दाईं ओर ACF प्लॉट अवशिष्ट श्रृंखला में कोई महत्वपूर्ण स्वत: सहसंबंध नहीं दिखाता है।
इसके बाद, हम मासिक औसत बिक्री की अवशिष्ट श्रृंखला को ARIMA मॉडल के साथ मॉडल करते हैं। अंतराल 12 पर अंतर करने के बाद, समय श्रृंखला की लंबाई 36 अवलोकन है। हम AR और MA भागों के लिए अधिकतम ऑर्डर 4 और I भाग के लिए अधिकतम ऑर्डर 1 के साथ ऑटो ARIMA लर्नर घटक के साथ सर्वश्रेष्ठ मॉडल की तलाश कर रहे हैं। के आधार पर सर्वोत्तम प्रदर्शन करने वाला मॉडल एकैके सूचना कसौटी ARIMA (0, 1, 4) है, और नमूना पूर्वानुमानों के आधार पर परिणामी MAPE 1.153 है।
अंत में, हम मॉडल की आउट-ऑफ़-सैंपल पूर्वानुमान सटीकता का आकलन करते हैं। कार्यप्रवाह समय श्रृंखला का पूर्वानुमान और पुनर्निर्माण (हब पर उपलब्ध) चित्र 8 में दिखाया गया है कि वर्ष 2017 से 2014 (2016 अवलोकन) के मासिक डेटा और गतिशील परिनियोजन का उपयोग करके विजेता ARIMA (24) मॉडल के आधार पर 0,1,4 में दैनिक बिक्री का पूर्वानुमान कैसे लगाया जाए। दृष्टिकोण। उसके बाद, हम सिग्नल का पुनर्निर्माण करते हैं, इस मामले में, प्रवृत्ति और वार्षिक मौसमी को पूर्वानुमान मूल्यों (12 मासिक औसत बिक्री मूल्य) पर पुनर्स्थापित करते हैं। हम वास्तविक और पूर्वानुमानित मूल्यों की तुलना करते हैं, और 0.336 का एमएपीई प्राप्त करते हैं।
सारांश
समय श्रृंखला, चाहे वह नैनोसेकंड के बाद एक छोटी वस्तु नैनोसेकंड के व्यवहार को दर्शाने वाला सेंसर डेटा हो, 20 वीं शताब्दी के लिए व्यापक आर्थिक डेटा, या बीच में कुछ, विशिष्ट विश्लेषण तकनीकें हैं जो पहुंच, हेरफेर और मॉडलिंग चरणों पर लागू होती हैं।
इस लेख में, हमने आपको समय श्रृंखला के लिए विश्लेषण तकनीकों की मूल बातें से परिचित कराया है जो आपको समय श्रृंखला डेटा के साथ काम करते समय शुरुआत करने में मदद करती हैं।
संदर्भ
[1] चेम्बर्स, जॉन सी., सतिंदर के. मुलिक, और डोनाल्ड डी. स्मिथ। सही पूर्वानुमान तकनीक कैसे चुनें. हार्वर्ड यूनिवर्सिटी, ग्रेजुएट स्कूल ऑफ बिजनेस एडमिनिस्ट्रेशन, 1971।
[2] हाइंडमैन, रॉब जे., और जॉर्ज अथानासोपोलोस। पूर्वानुमान: सिद्धांत और अभ्यास. ओटेक्स्ट्स, 2018।
स्रोत: https://www.dataversity.net/building-a-time-series-analyse-application/
- पूर्ण
- अतिरिक्त
- विश्लेषण
- विश्लेषिकी
- आवेदन
- अनुप्रयोगों
- AR
- लेख
- स्वत:
- मूल बातें
- बेंचमार्क
- BEST
- पेय
- परिवर्तन
- मुक्केबाज़ी
- निर्माण
- इमारत
- व्यापार
- सफाई
- स्तंभ
- सामान्य
- अंग
- आत्मविश्वास
- देशों
- वर्तमान
- तिथि
- दिन
- मांग
- विकास
- रोग
- अनुमान
- कार्यक्रम
- व्यायाम
- अन्वेषण
- आकृति
- अंत में
- प्रथम
- फिट
- फोकस
- शुक्रवार
- भविष्य
- सकल घरेलू उत्पाद में
- सामान्य जानकारी
- जॉर्ज
- अच्छा
- स्नातक
- हैंडलिंग
- हावर्ड
- हार्वर्ड विश्वविद्यालय
- कैसे
- How To
- HTTPS
- सैकड़ों
- पहचान करना
- की छवि
- संक्रमण
- करें-
- IT
- जुलाई
- बड़ा
- नेतृत्व
- जानें
- सिखाने वाला
- सीख रहा हूँ
- स्तर
- लाइन
- लंबा
- यंत्र अधिगम
- प्रमुख
- बाजार
- मेट्रिक्स
- आदर्श
- मोडलिंग
- सोमवार
- मासिक डेटा
- महीने
- चाल
- नेटवर्क
- नेटवर्क
- तंत्रिका
- तंत्रिका नेटवर्क
- तंत्रिका जाल
- खोलता है
- आदेश
- आदेशों
- अन्य
- पैटर्न
- प्रदर्शन
- की योजना बना
- मंच
- भविष्यवाणी
- एस्ट्रो मॉल
- उत्पाद
- पदोन्नति
- अभिलेख
- प्रतीपगमन
- रिश्ते
- उपयुक्त संसाधन चुनें
- परिणाम
- विक्रय
- स्केल
- स्कूल के साथ
- चयनित
- भावना
- कई
- सेट
- शिपिंग
- सरल
- छोटा
- स्मार्ट
- आशुचित्र
- So
- प्रारंभ
- शुरू
- आँकड़े
- स्टॉक
- स्टॉक बाजार
- प्रस्तुत
- गर्मी
- समर्थन
- झाँकी
- लक्ष्य
- परीक्षण
- मूल बातें
- भविष्य
- पहर
- ऊपर का
- प्रशिक्षण
- परिवर्तन
- सार्वभौम
- विश्वविद्यालय
- मूल्य
- घड़ी
- सप्ताह
- साप्ताहिक
- एचएमबी क्या है?
- विकिपीडिया
- अंदर
- काम
- वर्कफ़्लो
- कसरत
- लायक
- वर्ष
- साल
- शून्य