Building A Time Series Analysis Application

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

लेखक के बारे में अधिक जानने के लिए क्लिक करें मैरिट विडमैन।

एक पूर्ण समय श्रृंखला विश्लेषण एप्लिकेशन निम्नलिखित चरणों को शामिल करता है डाटा विज्ञान समय श्रृंखला डेटा तक पहुँचने से लेकर परिवर्तन, मॉडलिंग, मूल्यांकन और तैनाती तक का चक्र। हालाँकि, समय श्रृंखला डेटा के लिए इन चरणों में विशिष्ट कार्य क्रॉस-अनुभागीय डेटा की तुलना में भिन्न होते हैं। उदाहरण के लिए, क्रॉस सेक्शनल डेटा को एक समय में एक वस्तु के स्नैपशॉट के रूप में एकत्र किया जाता है, जबकि समय श्रृंखला डेटा को एक समय अवधि में एक ही वस्तु का अवलोकन करके एकत्र किया जाता है। समय श्रृंखला डेटा में नियमित पैटर्न की अपनी विशिष्ट शब्दावली होती है, और वे मॉडलिंग समय श्रृंखला पर जाने से पहले आवश्यक प्रीप्रोसेसिंग निर्धारित करते हैं। समय श्रृंखला को कई प्रकार के मॉडलों के साथ तैयार किया जा सकता है, लेकिन विशिष्ट समय श्रृंखला मॉडल, जैसे ARIMA मॉडल, अवलोकनों के बीच अस्थायी संरचना का उपयोग करते हैं।

इस लेख में, हम समय श्रृंखला एप्लिकेशन के निर्माण की यात्रा में सबसे सामान्य कार्यों का परिचय देते हैं। अंत में, हमने एनालिटिक्स प्लेटफ़ॉर्म में एक उदाहरण एप्लिकेशन बनाकर सिद्धांत को व्यवहार में लाया।

समय श्रृंखला तक पहुँचना

टाइम सीरीज़ के विभिन्न स्रोत और अनुप्रयोग हैं: मांग की भविष्यवाणी के लिए दैनिक बिक्री डेटा, दीर्घकालिक राजनीतिक योजना के लिए वार्षिक व्यापक आर्थिक डेटा, कसरत सत्र का विश्लेषण करने के लिए स्मार्ट घड़ी से सेंसर डेटा, और भी बहुत कुछ। ये सभी समय श्रृंखलाएं, उदाहरण के लिए, उनकी ग्रैन्युलैरिटी, नियमितता और स्वच्छता में भिन्न हैं: हम यह सुनिश्चित कर सकते हैं कि हमारे देश के लिए इस वर्ष और अगले 10 वर्षों के लिए भी जीडीपी मूल्य है, लेकिन हम इसकी गारंटी नहीं दे सकते। हमारी स्मार्ट घड़ी का सेंसर किसी भी व्यायाम और किसी भी तापमान पर स्थिर रूप से काम करता है। यह भी हो सकता है कि समय श्रृंखला डेटा नियमित अंतराल पर उपलब्ध न हो, लेकिन केवल यादृच्छिक घटना बिंदुओं से एकत्र किया जा सकता है, जैसे रोग संक्रमण या सहज ग्राहक दौरे। हालाँकि, इन सभी प्रकार के समय श्रृंखला डेटा में जो समानता है, वह यह है कि वे समय के साथ एक ही स्रोत से एकत्र किए जाते हैं।

चित्र 1: समय श्रृंखला के कई अलग-अलग स्रोत हैं, छोटी एकल वस्तुओं जैसे मानव शरीर की मांसपेशियाँ से लेकर बड़ी इकाइयाँ, जैसे देश तक। सभी डेटा में जो समानता है वह यह है कि उन्हें समय के साथ एक ही वस्तु का अवलोकन करके एकत्र किया गया है। (छवि स्रोत: पता है)

समय श्रृंखला को नियमित और साफ करना

एक बार जब हमारे पास समय श्रृंखला डेटा हो जाता है, तो अगला कदम इसे उपयुक्त ग्रैन्युलैरिटी पर समान दूरी पर, निरंतर और साफ बनाना है। आवश्यक कार्य डेटा के मूल आकार और हमारे पर भी निर्भर करते हैं विश्लेषिकी उद्देश्य। उदाहरण के लिए, यदि हम किसी उत्पाद के एक सप्ताह के प्रचार की योजना बना रहे हैं, तो हमें किसी उत्पाद की बिक्री का अवलोकन प्राप्त करने की तुलना में अधिक विस्तृत डेटा में रुचि हो सकती है।

छंटाई

समय श्रृंखला को समय के अनुसार क्रमबद्ध करने की आवश्यकता है। जब आप डेटा को प्रशिक्षण और परीक्षण सेट में विभाजित करते हैं, तो परीक्षण/प्रशिक्षण के लिए ऊपर/नीचे से डेटा लेकर रिकॉर्ड के बीच अस्थायी संरचना को संरक्षित करना याद रखें। यदि आपके डेटा में प्रति टाइमस्टैम्प एक से अधिक रिकॉर्ड हैं, तो आपको उन्हें टाइमस्टैम्प द्वारा एकत्रित करना होगा। उदाहरण के लिए, जब आपके पास प्रति दिन कई ऑर्डर होते हैं और आप दैनिक बिक्री में रुचि रखते हैं, तो आपको प्रत्येक दिन की बिक्री का योग करना होगा। इसके अलावा, यदि आप वर्तमान में आपके पास मौजूद डेटा की तुलना में किसी अन्य ग्रैन्युलैरिटी पर समय श्रृंखला में रुचि रखते हैं (उदाहरण के लिए, दैनिक बिक्री के बजाय मासिक बिक्री) तो आप डेटा को पसंदीदा ग्रैन्युलैरिटी पर एकत्र कर सकते हैं।

लापता मूल्य

यदि कुछ टाइमस्टैम्प गायब हैं, तो आपको उन्हें समय श्रृंखला में समान रूप से स्थान देने के लिए पेश करने की आवश्यकता है। कभी-कभी गायब रिकॉर्ड समय श्रृंखला की गतिशीलता का हिस्सा होते हैं (उदाहरण के लिए, एक शेयर बाजार शुक्रवार को बंद होता है और सोमवार को खुलता है)।

जब आप डेटा में गुम टाइमस्टैम्प का परिचय देते हैं, तो संबंधित मान निश्चित रूप से गायब होते हैं। आप इन लुप्त मानों को, उदाहरण के लिए, रैखिक प्रक्षेप या चलती औसत मानों द्वारा आरोपित कर सकते हैं। हालाँकि, याद रखें कि लुप्त मान लगाने की सबसे अच्छी तकनीक डेटा में नियमित गतिशीलता पर निर्भर करती है। उदाहरण के लिए, यदि आप दैनिक डेटा में साप्ताहिक मौसमी का निरीक्षण करते हैं, और एक शनिवार का मान गायब है, तो अंतिम शनिवार का मान संभवतः सबसे अच्छा प्रतिस्थापन है। यदि गायब मूल्य यादृच्छिक रूप से गायब नहीं हैं, जैसे कि सप्ताहांत में गायब शेयर बाजार समापन मूल्य, तो आप उन्हें एक निश्चित मूल्य से बदल सकते हैं, जो इस मामले में 0 होगा। दूसरी ओर, यदि लुप्त मान यादृच्छिक हैं और वे अतीत में काफी दूर तक घटित हुए हैं, तो आप लुप्त मान के बाद डेटा का उपयोग कर सकते हैं, और पुराने डेटा को अनदेखा कर सकते हैं।

अनियमित पैटर्न

तीव्र उतार-चढ़ाव और आउटलेर्स से निपटने का एक अच्छा तरीका डेटा को सुचारू करना है। कई तकनीकों का उपयोग किया जा सकता है, जैसे मूविंग एवरेज और घातांक सुगम करना. इसके अलावा, बॉक्स प्लॉट के बाहरी हिस्से में मौजूद मानों को काटने से डेटा सुचारू हो जाता है। ध्यान रखें कि डेटा में मजबूत मौसमीता एक व्यापक बॉक्स प्लॉट को जन्म दे सकती है, और फिर आउटलेर्स का पता लगाने के लिए एक सशर्त बॉक्स प्लॉट का उपयोग करना बेहतर है।

हालाँकि, कभी-कभी समय श्रृंखला बहुत ही अनियमित घटना दिखा रही होती है! ऐसे मामले में, आप समय श्रृंखला का एक उपसमूह निकालकर इसे अधिक नियमित बनाने का प्रयास कर सकते हैं, उदाहरण के लिए, पूरे सुपरमार्केट की बिक्री के बजाय केवल एक उत्पाद की बिक्री पर विचार करके, या डेटा को क्लस्टर करके।

चित्र 2: डेटा को दोबारा आकार देना, गायब मानों और आउटलेर्स को संभालना, और डेटा का एक सबसेट निकालना समय श्रृंखला विश्लेषण में आगे के चरणों पर जाने से पहले समय श्रृंखला को साफ करने और नियमित करने के उदाहरण हैं। (छवि स्रोत: KNIME)

समय श्रृंखला की खोज और परिवर्तन

इस बिंदु पर, हमारे पास अपना समय श्रृंखला डेटा उस आकार में है जो दृश्य और संख्यात्मक रूप से इसकी खोज के लिए उपयुक्त है। विभिन्न कथानक और आँकड़े समय श्रृंखला में दीर्घकालिक और अल्पकालिक पैटर्न और अस्थायी संबंधों को प्रकट करते हैं जिनका उपयोग हम इसकी गतिशीलता को बेहतर ढंग से समझने और इसके भविष्य के विकास की भविष्यवाणी करने के लिए कर सकते हैं।

समय श्रृंखला का दृश्य अन्वेषण

समय श्रृंखला की खोज के लिए मूल कथानक रेखा कथानक (चित्र 3) है जो समय श्रृंखला में संभावित दिशा, नियमित और अनियमित उतार-चढ़ाव, आउटलेर, अंतराल या मोड़ दिखाता है। यदि आप अपनी समय श्रृंखला में एक नियमित पैटर्न देखते हैं, जैसे कि पेय पदार्थों की बिक्री में वार्षिक मौसमी, तो आप मौसमी प्लॉट में प्रत्येक मौसमी चक्र (वर्ष) का अलग से निरीक्षण कर सकते हैं (चित्र 3)। मौसमी कथानक में आप आसानी से देख सकते हैं, उदाहरण के लिए, क्या इस वर्ष जुलाई पिछले वर्ष की तुलना में अधिक बिक्री वाला महीना था, या यदि मासिक बिक्री साल दर साल बढ़ रही है।

यदि आप इस बात में रुचि रखते हैं कि सीज़न के भीतर क्या होता है, जैसे कि गर्मियों के महीनों में औसत बिक्री क्या है और हर महीने बिक्री कितनी और किस दिशा में बदलती है, तो आप एक सशर्त बॉक्स प्लॉट (चित्र) में इस प्रकार की गतिशीलता का निरीक्षण कर सकते हैं 3). समय श्रृंखला की खोज के लिए एक और उपयोगी प्लॉट लैग प्लॉट (चित्रा 3) है। लैग प्लॉट वर्तमान मूल्यों और पिछले मूल्यों के बीच संबंध दिखाता है, उदाहरण के लिए, आज की बिक्री और सप्ताह पहले की बिक्री।

समय श्रृंखला का शास्त्रीय अपघटन

शास्त्रीय अपघटन, यानी, समय श्रृंखला को उसकी प्रवृत्ति, मौसमी और अवशिष्ट में विघटित करना, पूर्वानुमान के लिए एक अच्छा बेंचमार्क प्रदान करता है। समय श्रृंखला का शेष भाग, अवशिष्ट, माना जाता है स्थिर, और उदाहरण के लिए, ARIMA मॉडल द्वारा पूर्वानुमान लगाया जा सकता है। हालाँकि, याद रखें कि यदि अवशिष्ट श्रृंखला स्थिर नहीं है, तो कुछ अतिरिक्त परिवर्तनों की आवश्यकता हो सकती है, जैसे कि पहले क्रम में अंतर, या मूल समय श्रृंखला का लॉग परिवर्तन।

सबसे पहले, यदि समय श्रृंखला एक दिशा, एक प्रवृत्ति दिखाती है, तो समय श्रृंखला को डिट्रेंड किया जा सकता है, उदाहरण के लिए, डेटा के माध्यम से एक प्रतिगमन मॉडल को फिट करके, या एक चलती औसत मूल्य की गणना करके।

दूसरे, यदि समय श्रृंखला नियमित उतार-चढ़ाव दिखाती है - एक मौसमी - तो समय श्रृंखला को इसके लिए समायोजित किया जा सकता है। आप उस अंतराल को पा सकते हैं जहां समय श्रृंखला के स्वत: सहसंबंध कथानक में प्रमुख मौसमी घटनाएँ होती हैं। उदाहरण के लिए, यदि आप अंतराल 7 पर शिखर देखते हैं, और आपके पास दैनिक डेटा है, तो डेटा में साप्ताहिक मौसमीता होगी। जहां प्रमुख स्पाइक होता है, उस अंतराल पर डेटा को अलग करके मौसमी को समायोजित किया जा सकता है। यदि आप डेटा में दूसरी सीज़नलिटी को समायोजित करना चाहते हैं, तो आप समायोजित (विभिन्न) समय श्रृंखला के लिए प्रक्रिया को दोहराकर ऐसा कर सकते हैं।

अंत में, जब आप एक स्थिर समय श्रृंखला पर पहुंच गए हैं जो उदाहरण के लिए ARIMA मॉडल द्वारा मॉडलिंग के लिए तैयार है, तो आप उदाहरण के लिए अंतिम जांच कर सकते हैं, लजंग-बॉक्स परीक्षण स्थिरता के लिए.

चित्र 3: लैग प्लॉट, कंडीशनल बॉक्स प्लॉट, लाइन प्लॉट, मौसमी प्लॉट और ऑटोसहसंबंध प्लॉट समय श्रृंखला की खोज के लिए उपयोगी हैं। (छवि स्रोत: KNIME)

समय श्रृंखला का मॉडलिंग और मूल्यांकन

अब हम समय श्रृंखला के अवशिष्ट भाग के मॉडलिंग की ओर बढ़ते हैं जिसमें इसकी अनियमित गतिशीलता शामिल है। हम ARIMA मॉडल के साथ ऐसा कर सकते हैं, यंत्र अधिगम मॉडल, तंत्रिका नेटवर्क और उनके कई रूप। हम अक्सर समय श्रृंखला के अवशिष्ट भाग को इन मॉडलों द्वारा मॉडल करते हैं, क्योंकि यह स्थिर है। हालाँकि, समय श्रृंखला को विघटित करना हमेशा आवश्यक नहीं होता है, क्योंकि कुछ मॉडल, उदाहरण के लिए मौसमी ARIMA मॉडल, गैर-स्थिर समय श्रृंखला के मॉडलिंग के लिए भी काम करते हैं।

निम्नलिखित में हम इन विभिन्न मॉडलिंग तकनीकों के कुछ गुण, उनकी समानताएं और अंतर एकत्र करते हैं, ताकि आप अपने उपयोग के मामले में सर्वश्रेष्ठ चुन सकें। यह भी याद रखें कि कई मॉडलों को प्रशिक्षित करना और यहां तक कि उनका एक समूह बनाना भी उपयोगी है!

एरीमा मॉडल

अरिमा (ऑटोरेग्रेसिव इंटीग्रेटेड मूविंग एवरेज) मॉडल वर्तमान और पिछले मूल्यों (एआर-भाग) के बीच एक रैखिक प्रतिगमन मॉडल है, और वर्तमान और पिछले पूर्वानुमान त्रुटियों (एमए-भाग) के बीच भी है। यदि मॉडल में गैर-शून्य I-भाग है, तो इसे स्थिर बनाने के लिए डेटा में अंतर किया जाता है। बुनियादी ARIMA मॉडल मानते हैं कि समय श्रृंखला स्थिर है, और स्थिर समय श्रृंखला में लंबी अवधि में पूर्वानुमानित पैटर्न नहीं होते हैं। दीर्घकालिक पूर्वानुमानों में घटती सटीकता को पूर्वानुमानों के बढ़ते विश्वास अंतराल में देखा जा सकता है। ARIMA मॉडल के प्रशिक्षण के लिए अधिक डेटा रखना हमेशा बेहतर नहीं होता है: बड़े डेटासेट ARIMA मॉडल के मॉडल मापदंडों का अनुमान लगाने में समय लेने वाले हो सकते हैं, साथ ही वास्तविक प्रक्रिया और मॉडल प्रक्रिया के बीच अंतर को बढ़ा-चढ़ाकर बता सकते हैं।

मशीन लर्निंग मॉडल

मशीन लर्निंग मॉडल विलंबित मानों को भविष्यवक्ता स्तंभों के रूप में उपयोग करते हैं, और वे लक्ष्य स्तंभ और भविष्यवक्ता स्तंभों के बीच की अस्थायी संरचना को अनदेखा करते हैं। मशीन लर्निंग मॉडल डेटा में दीर्घकालिक पैटर्न और महत्वपूर्ण मोड़ की पहचान भी कर सकते हैं, बशर्ते कि इन पैटर्न को स्थापित करने के लिए प्रशिक्षण डेटा में पर्याप्त डेटा प्रदान किया गया हो। सामान्य तौर पर, डेटा जितनी अधिक अनियमितताएँ दिखाता है, मॉडल को प्रशिक्षित करने के लिए उतने ही अधिक डेटा की आवश्यकता होती है। जब आप मशीन लर्निंग मॉडल लागू करते हैं, तो अवशिष्ट को मॉडल करने की अनुशंसा की जाती है। अन्यथा, आप एक ऐसा मॉडल बना सकते हैं जो शास्त्रीय अपघटन मॉडल से अधिक जटिल है, लेकिन जो वास्तव में इसके अलावा कुछ भी नया नहीं सीख रहा है!

मॉडल चयन पर युक्तियाँ

सबसे पहले, कुछ घटनाओं का पूर्वानुमान लगाना मुश्किल होता है, और ऐसे मामले में अक्सर यह समझ में आता है कि एक सरल मॉडल के लिए जाना चाहिए और किसी ऐसी चीज़ के मॉडलिंग में संसाधनों का निवेश नहीं करना चाहिए जिसका सटीक पूर्वानुमान नहीं लगाया जा सकता है।

दूसरे, मॉडल का प्रदर्शन ही एकमात्र मानदंड नहीं है। यदि महत्वपूर्ण निर्णय मॉडल के परिणामों पर आधारित होते हैं, तो इसकी व्याख्या थोड़े बेहतर प्रदर्शन से अधिक महत्वपूर्ण हो सकती है। जैसा कि कहा गया है, एक तंत्रिका नेटवर्क एक साधारण शास्त्रीय अपघटन मॉडल के मुकाबले हार सकता है, हालांकि यह थोड़ा बेहतर पूर्वानुमान लगाता है।

तीसरा, आपके मॉडल में व्याख्यात्मक चर जोड़ने से पूर्वानुमान सटीकता में सुधार हो सकता है। हालाँकि, ऐसे मॉडल में व्याख्यात्मक चर का भी पूर्वानुमान लगाने की आवश्यकता होती है, और मॉडल की बढ़ती जटिलता हमेशा बेहतर सटीकता के लायक नहीं होती है। कभी-कभी मोटे अनुमान निर्णयों का समर्थन करने के लिए पर्याप्त होते हैं: यदि शिपिंग मात्रा की गणना दसियों और सैकड़ों में की जाती है, तो पूर्वानुमानित मांग में अधिक ग्रैन्युलैरिटी की आवश्यकता नहीं होती है।

चित्र 4: उपलब्ध डेटा, डेटा की यादृच्छिकता, पूर्वानुमान क्षितिज, और मॉडल का उद्देश्य और व्याख्या यह निर्धारित करती है कि कौन सा मॉडल चुना गया है। ऊपरी बाएँ कोने में लाइन प्लॉट छोटे प्रशिक्षण डेटा के साथ प्रशिक्षित LSTM मॉडल की पूर्वानुमान सटीकता को दर्शाता है। निचले बाएँ कोने में लाइन प्लॉट पूरी तरह से यादृच्छिक प्रक्रिया के साथ-साथ डेटा में एक महत्वपूर्ण मोड़ दिखाते हैं। दाईं ओर का रेखा आलेख एक समय श्रृंखला के विकास को दर्शाता है जो ARIMA (2,1,1) प्रक्रिया का अनुसरण करता है। (छवि स्रोत: KNIME)

मॉडल मूल्यांकन

किसी मॉडल को प्रशिक्षित करने के बाद अगला कदम उसका मूल्यांकन करना है। इन-सैंपल पूर्वानुमान के लिए, परीक्षण सेट स्वयं प्रशिक्षण सेट है, इसलिए मॉडल प्रक्रिया उस डेटा से फिट होती है जिसका उपयोग मॉडल को प्रशिक्षित करने के लिए किया गया था। आउट-ऑफ़-सैंपल पूर्वानुमान के लिए, परीक्षण सेट समय में प्रशिक्षण सेट के बाद होता है।

समय श्रृंखला मॉडल के मूल्यांकन के लिए एक अनुशंसित त्रुटि मीट्रिक औसत पूर्ण प्रतिशत त्रुटि है (मैप), क्योंकि यह वास्तविक मूल्य के प्रतिशत के रूप में, सार्वभौमिक पैमाने पर त्रुटि प्रदान करता है। हालाँकि, यदि वास्तविक मान शून्य है, तो यह मीट्रिक परिभाषित नहीं है, और फिर अन्य त्रुटि मीट्रिक भी, जैसे मूल माध्य वर्ग त्रुटि (आरएमएसई), करूंगा। हालाँकि, जो अक्सर अनुशंसित किया जाता है वह है उपयोग न करना आर चुकता. आर-स्क्वायर मीट्रिक समय श्रृंखला विश्लेषण के संदर्भ में फिट नहीं है क्योंकि अतीत में सभी परिवर्तनशीलता को मॉडलिंग करने के बजाय लक्ष्य कॉलम की भविष्य की व्यवस्थित परिवर्तनशीलता की भविष्यवाणी करने पर ध्यान केंद्रित किया गया है।

समय श्रृंखला का पूर्वानुमान और पुनर्निर्माण

हम बस पहुँच गए! अंतिम चरण भविष्य के मूल्यों का पूर्वानुमान लगाना और सिग्नल का पुनर्निर्माण करना है।

गतिशील पूर्वानुमान

यदि आपके पास एक मॉडल है जो लंबी अवधि में सटीक पूर्वानुमान प्रदान नहीं कर सकता है, तो गतिशील तैनाती अक्सर आउट-ऑफ़-सैंपल पूर्वानुमान सटीकता में सुधार करती है। गतिशील परिनियोजन में, एक समय में भविष्य में केवल एक बिंदु का पूर्वानुमान लगाया जाता है, और अगला पूर्वानुमान उत्पन्न करने के लिए पिछले डेटा को इस पूर्वानुमान मान द्वारा अद्यतन किया जाता है (चित्र 5)।

चित्र 5: गतिशील परिनियोजन में एक समय में केवल एक पूर्वानुमान उत्पन्न होता है, और यह पूर्वानुमान पिछले डेटा में जोड़ा जाता है जिसका उपयोग समय से एक बिंदु आगे अगला पूर्वानुमान उत्पन्न करने के लिए किया जाता है। (छवि स्रोत: KNIME)

प्रवृत्ति और मौसमी को बहाल करना

अंत में, यदि हम पूर्वानुमान लगाने से पहले समय श्रृंखला को विघटित करते हैं, तो हमें पूर्वानुमानों में प्रवृत्ति और/या मौसमीताओं को पुनर्स्थापित करने की आवश्यकता है। यदि हम डेटा को अलग करके मौसमी को समायोजित करते हैं, तो हम उस अंतराल पर मान जोड़कर सिग्नल का पुनर्निर्माण करना शुरू करते हैं जहां मौसमी होती है। उदाहरण के लिए, यदि हमारे पास दैनिक डेटा y है जहां हमने अंतराल 7 (साप्ताहिक मौसमी) पर मौसमी अंतर लागू किया है, तो इस मौसमी को बहाल करने के लिए पूर्वानुमान मूल्यों के लिए निम्नलिखित गणना की आवश्यकता होगी y_t₊₁, y_t₊₂, ..., y_t_+h :

जहां tप्रशिक्षण डेटा में अंतिम समय बिंदु है, और h पूर्वानुमान क्षितिज है.

दूसरी सीज़नलिटी को पुनर्स्थापित करने के लिए, हम पुनर्स्थापित समय श्रृंखला के लिए ऊपर वर्णित चरण को दोहराएंगे। यदि हम प्रवृत्ति घटक को समय श्रृंखला में पुनर्स्थापित करना चाहते हैं, तो हम पुनर्स्थापित समय श्रृंखला में प्रवृत्ति का प्रतिनिधित्व करने वाले प्रतिगमन मॉडल को लागू करेंगे।

एनालिटिक्स प्लेटफ़ॉर्म में पूर्ण टाइम सीरीज़ एप्लिकेशन

अंत में, आइए देखें कि हमारे एनालिटिक्स प्लेटफ़ॉर्म का उपयोग करके इन चरणों को कैसे व्यवहार में लाया जाए। कार्यप्रवाह ट्रांसफ़ॉर्मिंग और मॉडलिंग टाइम सीरीज़ तक पहुँचना (हब पर उपलब्ध) चित्र 6 में पहुंच से लेकर सफाई, विज़ुअली एक्सप्लोरिंग, डीकंपोज़िंग और मॉडलिंग टाइम सीरीज़ तक के चरण दिखाए गए हैं। इनमें से कुछ कार्यों के लिए हम उपयोग करते हैं समय श्रृंखला घटक जो वर्कफ़्लो को समय श्रृंखला के लिए विशिष्ट कार्यात्मकताओं के रूप में समाहित करता है: चयनित ग्रैन्युलैरिटी पर डेटा एकत्र करना, क्लासिक अपघटन करना, और बहुत कुछ।

चित्र 6: समय श्रृंखला विश्लेषण में पहला चरण: समय श्रृंखला तक पहुंचना, परिवर्तन करना, सफाई करना, दृश्य रूप से अन्वेषण करना और मॉडलिंग करना। वर्कफ़्लो एक्सेसिंग ट्रांसफ़ॉर्मिंग और मॉडलिंग टाइम सीरीज़ हब पर उपलब्ध है। (छवि स्रोत: KNIME)

इस उदाहरण में, हम उपयोग करते हैं नमूना - सुपरस्टोर द्वारा उपलब्ध कराया गया डेटा झाँकी. अपने विश्लेषण में हम 2014 से 2017 तक सभी उत्पादों के ऑर्डर पर ध्यान केंद्रित करते हैं - कुल मिलाकर 9994 रिकॉर्ड। हम प्रति दिन कुल बिक्री की गणना करके डेटा को समय श्रृंखला डेटा में दोबारा आकार देकर प्रीप्रोसेसिंग शुरू करते हैं। अब, हमारे पास प्रति दिन केवल एक मान है, लेकिन कुछ दिन गायब हैं क्योंकि इन दिनों कोई ऑर्डर सबमिट नहीं किया गया था। इसलिए, हम इन दिनों को समय श्रृंखला से परिचित कराते हैं और लापता बिक्री मूल्यों को एक निश्चित मान 0 से बदल देते हैं। उसके बाद, हम मासिक स्तर पर डेटा एकत्र करते हैं, और आगे के विश्लेषण में प्रत्येक महीने की औसत बिक्री पर विचार करते हैं।

दृश्य अन्वेषण के लिए, हम वार्षिक स्तर पर डेटा भी एकत्र करते हैं, और हमें पता चलता है कि वर्ष 2015 की शुरुआत में एक महत्वपूर्ण मोड़ है, जैसा कि चित्र 7 में दाईं ओर की रेखा प्लॉट से पता चलता है। बाईं ओर का लाइन प्लॉट डेटा में वार्षिक मौसमीता को दर्शाता है: प्रत्येक वर्ष के अंत में दो नियमित शिखर होते हैं, और प्रत्येक वर्ष की शुरुआत में एक निचला शिखर होता है। हम डेटा में वार्षिक मौसमीता का भी पता लगाते हैं, जैसा कि बाईं ओर एसीएफ प्लॉट में अंतराल 12 पर प्रमुख स्पाइक द्वारा दिखाया गया है। हम समय श्रृंखला को उसकी प्रवृत्ति, मौसमी और अवशिष्ट में विघटित करते हैं, और इन घटकों को चित्र 7 में मध्य में लाइन प्लॉट में दिखाया गया है। दाईं ओर ACF प्लॉट अवशिष्ट श्रृंखला में कोई महत्वपूर्ण स्वत: सहसंबंध नहीं दिखाता है।

चित्र 7: वार्षिक मौसमी और निर्णायक मोड़ को दर्शाने वाले लाइन प्लॉट, मासिक डेटा में वार्षिक मौसमी और अवशिष्ट श्रृंखला में स्थिरता को दर्शाने वाले एसीएफ प्लॉट, और विघटित समय श्रृंखला की प्रवृत्ति, मौसमी और अवशिष्ट घटकों को दर्शाने वाला एक लाइन प्लॉट। (छवि स्रोत: KNIME)

इसके बाद, हम मासिक औसत बिक्री की अवशिष्ट श्रृंखला को ARIMA मॉडल के साथ मॉडल करते हैं। अंतराल 12 पर अंतर करने के बाद, समय श्रृंखला की लंबाई 36 अवलोकन है। हम AR और MA भागों के लिए अधिकतम ऑर्डर 4 और I भाग के लिए अधिकतम ऑर्डर 1 के साथ ऑटो ARIMA लर्नर घटक के साथ सर्वश्रेष्ठ मॉडल की तलाश कर रहे हैं। के आधार पर सर्वोत्तम प्रदर्शन करने वाला मॉडल एकैके सूचना कसौटी ARIMA (0, 1, 4) है, और नमूना पूर्वानुमानों के आधार पर परिणामी MAPE 1.153 है।

अंत में, हम मॉडल की आउट-ऑफ़-सैंपल पूर्वानुमान सटीकता का आकलन करते हैं। कार्यप्रवाह समय श्रृंखला का पूर्वानुमान और पुनर्निर्माण (हब पर उपलब्ध) चित्र 8 में दिखाया गया है कि वर्ष 2017 से 2014 (2016 अवलोकन) के मासिक डेटा और गतिशील परिनियोजन का उपयोग करके विजेता ARIMA (24) मॉडल के आधार पर 0,1,4 में दैनिक बिक्री का पूर्वानुमान कैसे लगाया जाए। दृष्टिकोण। उसके बाद, हम सिग्नल का पुनर्निर्माण करते हैं, इस मामले में, प्रवृत्ति और वार्षिक मौसमी को पूर्वानुमान मूल्यों (12 मासिक औसत बिक्री मूल्य) पर पुनर्स्थापित करते हैं। हम वास्तविक और पूर्वानुमानित मूल्यों की तुलना करते हैं, और 0.336 का एमएपीई प्राप्त करते हैं।

चित्र 8: गतिशील परिनियोजन का उपयोग करके ARIMA (2017) मॉडल द्वारा 0,1,4 में मासिक औसत बिक्री का पूर्वानुमान लगाने के लिए वर्कफ़्लो। पूर्वानुमान के बाद, प्रवृत्ति और वार्षिक मौसमी को पूर्वानुमान अवशेषों में बहाल किया जाता है, और पूर्वानुमान की सटीकता की गणना की जाती है। वर्कफ़्लो पूर्वानुमान और पुनर्निर्माण समय श्रृंखला हब पर उपलब्ध है। (छवि स्रोत: KNIME)

सारांश

समय श्रृंखला, चाहे वह नैनोसेकंड के बाद एक छोटी वस्तु नैनोसेकंड के व्यवहार को दर्शाने वाला सेंसर डेटा हो, 20 वीं शताब्दी के लिए व्यापक आर्थिक डेटा, या बीच में कुछ, विशिष्ट विश्लेषण तकनीकें हैं जो पहुंच, हेरफेर और मॉडलिंग चरणों पर लागू होती हैं।

इस लेख में, हमने आपको समय श्रृंखला के लिए विश्लेषण तकनीकों की मूल बातें से परिचित कराया है जो आपको समय श्रृंखला डेटा के साथ काम करते समय शुरुआत करने में मदद करती हैं।

संदर्भ

[1] चेम्बर्स, जॉन सी., सतिंदर के. मुलिक, और डोनाल्ड डी. स्मिथ। सही पूर्वानुमान तकनीक कैसे चुनें. हार्वर्ड यूनिवर्सिटी, ग्रेजुएट स्कूल ऑफ बिजनेस एडमिनिस्ट्रेशन, 1971।

[2] हाइंडमैन, रॉब जे., और जॉर्ज अथानासोपोलोस। पूर्वानुमान: सिद्धांत और अभ्यास. ओटेक्स्ट्स, 2018।

स्रोत: https://www.dataversity.net/building-a-time-series-analyse-application/

समय टिकट: अप्रैल १, २०२४

समय टिकट: जनवरी 18, 2024

केस स्टडी: कॉक्स ऑटोमोटिव डेटा ड्रिफ्ट और ईटीएल चुनौतियों का समाधान करता है

स्रोत क्लस्टर:

डेटावर्सिटी

स्रोत नोड: 806018

समय टिकट: अप्रैल 8, 2021

सटीक डेमो: रणनीतिक सोच - आपके मास्टर डेटा के लिए डेटा इंटीग्रिटी - डेटावर्सिटी

स्रोत क्लस्टर:

डेटावर्सिटी

स्रोत नोड: 2683057

समय टिकट: 24 मई 2023

डेटा एपिसोड 61 में मेरा करियर: जतिन सोलंकी, संस्थापक, डेक्यूब - डेटावर्सिटी

स्रोत क्लस्टर:

डेटावर्सिटी

स्रोत नोड: 2999869

समय टिकट: दिसम्बर 6, 2023

फरवरी 15 आरडब्ल्यूडीजी वेबिनार: फ्रेमवर्क और परिपक्वता मॉडल के साथ डेटा गवर्नेंस का अनुकूलन

स्रोत क्लस्टर:

डेटावर्सिटी

स्रोत नोड: 3035266

समय टिकट: दिसम्बर 20, 2023

एक समय श्रृंखला विश्लेषण अनुप्रयोग का निर्माण

प्लेटो द्वारा पुनर्प्रकाशित

समय श्रृंखला तक पहुँचना

समय श्रृंखला को नियमित और साफ करना

छंटाई

लापता मूल्य

अनियमित पैटर्न

समय श्रृंखला की खोज और परिवर्तन

समय श्रृंखला का दृश्य अन्वेषण

समय श्रृंखला का शास्त्रीय अपघटन

समय श्रृंखला का मॉडलिंग और मूल्यांकन

एरीमा मॉडल

मशीन लर्निंग मॉडल

मॉडल चयन पर युक्तियाँ

मॉडल मूल्यांकन

समय श्रृंखला का पूर्वानुमान और पुनर्निर्माण

गतिशील पूर्वानुमान

प्रवृत्ति और मौसमी को बहाल करना

एनालिटिक्स प्लेटफ़ॉर्म में पूर्ण टाइम सीरीज़ एप्लिकेशन

से अधिक डेटावर्सिटी

जीरो-ट्रस्ट आर्किटेक्चर की व्याख्या - डेटा विविधता

कुंजी-मूल्य डेटाबेस का रहस्योद्घाटन - डेटा विविधता

कैसे स्वचालन और एआई आईटी श्रम अंतराल को भर देगा

मशीन लर्निंग इंजीनियर बनाम डेटा साइंटिस्ट - डेटावर्सिटी

सटीक डेमो: रणनीतिक सोच - आपके मास्टर डेटा के लिए डेटा इंटीग्रिटी - डेटावर्सिटी

डेटा एपिसोड 61 में मेरा करियर: जतिन सोलंकी, संस्थापक, डेक्यूब - डेटावर्सिटी

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा