Κάντε κλικ για να μάθετε περισσότερα σχετικά με τον συγγραφέα Maarit Widmann.
Μια πλήρης εφαρμογή ανάλυσης χρονοσειρών καλύπτει τα βήματα στο α Επιστήμη δεδομένων από την πρόσβαση έως τη μετατροπή, τη μοντελοποίηση, την αξιολόγηση και την ανάπτυξη δεδομένων χρονοσειρών. Ωστόσο, για δεδομένα χρονοσειρών, οι συγκεκριμένες εργασίες σε αυτά τα βήματα διαφέρουν σε σύγκριση με τα συγχρονικά δεδομένα. Για παράδειγμα, τα δεδομένα διατομής συλλέγονται ως στιγμιότυπο ενός αντικειμένου σε ένα χρονικό σημείο, ενώ τα δεδομένα χρονοσειρών συλλέγονται παρατηρώντας το ίδιο αντικείμενο σε μια χρονική περίοδο. Τα κανονικά μοτίβα στα δεδομένα χρονοσειρών έχουν τη συγκεκριμένη ορολογία τους και καθορίζουν την απαιτούμενη προεπεξεργασία πριν προχωρήσουμε στη μοντελοποίηση χρονοσειρών. Οι χρονοσειρές μπορούν να μοντελοποιηθούν με πολλούς τύπους μοντέλων, αλλά συγκεκριμένα μοντέλα χρονοσειρών, όπως ένα μοντέλο ARIMA, χρησιμοποιούν τη χρονική δομή μεταξύ των παρατηρήσεων.
Σε αυτό το άρθρο, παρουσιάζουμε τις πιο συνηθισμένες εργασίες στο ταξίδι δημιουργίας μιας εφαρμογής χρονοσειράς. Τέλος, κάνουμε πράξη τη θεωρία δημιουργώντας ένα παράδειγμα εφαρμογής στην πλατφόρμα Analytics.
Πρόσβαση σε χρονοσειρές
Οι χρονολογικές σειρές έχουν διάφορες πηγές και εφαρμογές: δεδομένα ημερήσιων πωλήσεων για πρόβλεψη ζήτησης, ετήσια μακροοικονομικά δεδομένα για μακροπρόθεσμο πολιτικό σχεδιασμό, δεδομένα αισθητήρων από ένα έξυπνο ρολόι για την ανάλυση μιας περιόδου προπόνησης και πολλά άλλα. Όλες αυτές οι χρονοσειρές διαφέρουν, για παράδειγμα, ως προς την ακρίβεια, την κανονικότητα και την καθαρότητά τους: Μπορούμε να είμαστε σίγουροι ότι έχουμε μια αξία ΑΕΠ για τη χώρα μας για φέτος, αλλά και για τα επόμενα 10 χρόνια, αλλά δεν μπορούμε να εγγυηθούμε ότι Ο αισθητήρας του έξυπνου ρολογιού μας αποδίδει σταθερά σε οποιαδήποτε άσκηση και σε οποιαδήποτε θερμοκρασία. Μπορεί επίσης να μην είναι διαθέσιμα δεδομένα χρονοσειρών σε τακτά χρονικά διαστήματα, αλλά μπορούν να συλλεχθούν μόνο από τυχαία σημεία συμβάντων, όπως λοιμώξεις από ασθένειες ή αυθόρμητες επισκέψεις πελατών. Ωστόσο, το κοινό χαρακτηριστικό όλων αυτών των ειδών δεδομένων χρονοσειρών είναι ότι συλλέγονται από την ίδια πηγή με την πάροδο του χρόνου.
Τακτοποίηση και Καθαρισμός Χρονοσειρές
Μόλις έχουμε τα δεδομένα χρονοσειρών, το επόμενο βήμα είναι να τις κάνουμε ίσες αποστάσεις σε κατάλληλη κοκκοποίηση, συνεχές και καθαρό. Οι απαιτούμενες εργασίες εξαρτώνται από το αρχικό σχήμα των δεδομένων αλλά και από το δικό μας analytics σκοπός. Για παράδειγμα, εάν σχεδιάζουμε μια προώθηση μιας εβδομάδας ενός προϊόντος, μπορεί να μας ενδιαφέρουν πιο αναλυτικά δεδομένα παρά εάν θέλουμε να αποκτήσουμε μια επισκόπηση των πωλήσεων κάποιου προϊόντος.
Ταξινόμηση
Οι χρονοσειρές πρέπει να ταξινομηθούν κατά χρόνο. Όταν διαχωρίζετε δεδομένα σε σετ εκπαίδευσης και δοκιμών, θυμηθείτε να διατηρήσετε τη χρονική δομή μεταξύ των εγγραφών λαμβάνοντας δεδομένα από πάνω/κάτω για δοκιμή/εκπαίδευση. Εάν τα δεδομένα σας περιέχουν περισσότερες από μία εγγραφές ανά χρονική σήμανση, τότε θα πρέπει να τα συγκεντρώσετε κατά τη χρονική σήμανση. Για παράδειγμα, όταν έχετε πολλές παραγγελίες την ημέρα και σας ενδιαφέρουν οι ημερήσιες πωλήσεις, πρέπει να αθροίσετε τις πωλήσεις για κάθε ημέρα. Επιπλέον, εάν ενδιαφέρεστε για τις χρονοσειρές σε άλλη αναλυτικότητα από αυτήν που έχετε αυτήν τη στιγμή στα δεδομένα (για παράδειγμα, μηνιαίες πωλήσεις αντί για ημερήσιες πωλήσεις), μπορείτε να συγκεντρώσετε περαιτέρω τα δεδομένα με την προτιμώμενη ευαισθησία.
Λείπουν τιμές
Εάν λείπουν κάποιες χρονικές σημάνσεις, πρέπει να τις εισαγάγετε στη χρονοσειρά, ώστε να είναι ίσες μεταξύ τους. Μερικές φορές τα αρχεία που λείπουν αποτελούν μέρος της δυναμικής της χρονοσειράς (για παράδειγμα, μια χρηματιστηριακή αγορά κλείνει την Παρασκευή και ανοίγει τη Δευτέρα).
Όταν εισάγετε τις χρονικές σημάνσεις που λείπουν στα δεδομένα, λείπουν φυσικά οι αντίστοιχες τιμές. Μπορείτε να υπολογίσετε αυτές τις τιμές που λείπουν με, για παράδειγμα, γραμμική παρεμβολή ή κινούμενο μέσο όρο. Θυμηθείτε, ωστόσο, ότι η καλύτερη τεχνική για τον καταλογισμό τιμών που λείπουν εξαρτάται από την κανονική δυναμική στα δεδομένα. Για παράδειγμα, εάν επιθεωρήσετε την εβδομαδιαία εποχικότητα στα ημερήσια δεδομένα και λείπει μια τιμή ένα Σάββατο, τότε η τιμή του τελευταίου Σαββάτου είναι ίσως η καλύτερη αντικατάσταση. Εάν οι τιμές που λείπουν δεν λείπουν τυχαία, όπως οι τιμές κλεισίματος του χρηματιστηρίου που λείπουν τα Σαββατοκύριακα, μπορείτε να τις αντικαταστήσετε με μια σταθερή τιμή, η οποία θα ήταν 0 σε αυτήν την περίπτωση. Από την άλλη πλευρά, εάν οι τιμές που λείπουν είναι τυχαίες και εμφανίζονται αρκετά μακριά στο παρελθόν, μπορείτε να χρησιμοποιήσετε τα δεδομένα μετά την τιμή που λείπει και να αγνοήσετε τα παλαιότερα δεδομένα.
Ακανόνιστα μοτίβα
Ένας καλός τρόπος χειρισμού γρήγορων διακυμάνσεων και ακραίων τιμών είναι η εξομάλυνση των δεδομένων. Μπορούν να χρησιμοποιηθούν διάφορες τεχνικές, όπως π.χ κινητός μέσος όρος και εκθετική εξομάλυνση. Επίσης, η αποκοπή των τιμών που βρίσκονται έξω από τα μουστάκια ενός πλαισίου εξομαλύνει τα δεδομένα. Λάβετε υπόψη ότι η έντονη εποχικότητα στα δεδομένα μπορεί να οδηγήσει σε μια ευρέως διαδεδομένη γραφική παράσταση πλαισίου και, στη συνέχεια, είναι καλύτερο να χρησιμοποιήσετε μια γραφική παράσταση πλαισίου υπό όρους για τον εντοπισμό ακραίων τιμών.
Ωστόσο, μερικές φορές η χρονοσειρά δείχνει απλώς ένα πολύ ακανόνιστο φαινόμενο! Σε μια τέτοια περίπτωση, μπορείτε να προσπαθήσετε να κάνετε τη χρονοσειρά πιο κανονική εξάγοντας ένα υποσύνολο της, για παράδειγμα, λαμβάνοντας υπόψη μόνο τις πωλήσεις ενός προϊόντος αντί για τις πωλήσεις ολόκληρου του σούπερ μάρκετ ή ομαδοποιώντας τα δεδομένα.
Εξερεύνηση και Μεταμόρφωση Χρονοσειρών
Σε αυτό το σημείο, έχουμε τα δεδομένα χρονοσειρών μας με τη μορφή που είναι κατάλληλη για να τα εξερευνήσουμε οπτικά και αριθμητικά. Οι διαφορετικές γραφικές παραστάσεις και στατιστικές αποκαλύπτουν μακροπρόθεσμα και βραχυπρόθεσμα μοτίβα και χρονικές σχέσεις στις χρονοσειρές που μπορούμε να χρησιμοποιήσουμε για να κατανοήσουμε καλύτερα τη δυναμική της και να προβλέψουμε τη μελλοντική της εξέλιξη.
Οπτική Εξερεύνηση Χρονοσειρών
Η βασική γραφική παράσταση για την εξερεύνηση χρονοσειρών είναι η γραφική παράσταση γραμμής (Εικόνα 3) που δείχνει μια πιθανή κατεύθυνση, κανονικές και ακανόνιστες διακυμάνσεις, ακραίες τιμές, κενά ή σημεία καμπής στη χρονοσειρά. Εάν παρατηρήσετε ένα κανονικό μοτίβο στη χρονοσειρά σας, όπως η ετήσια εποχικότητα στις πωλήσεις ποτών, μπορείτε στη συνέχεια να επιθεωρήσετε κάθε εποχιακό κύκλο (έτος) ξεχωριστά σε μια εποχιακή γραφική παράσταση (Εικόνα 3). Στο εποχικό οικόπεδο μπορείτε εύκολα να δείτε, για παράδειγμα, εάν ο Ιούλιος ήταν ένας ισχυρότερος μήνας πωλήσεων φέτος από πέρυσι ή εάν οι μηνιαίες πωλήσεις αυξάνονται χρόνο με το χρόνο.
Εάν ενδιαφέρεστε για το τι συμβαίνει μέσα στις εποχές, όπως ποιες είναι οι διάμεσες πωλήσεις τους καλοκαιρινούς μήνες και πόσες και προς ποια κατεύθυνση ποικίλλουν οι πωλήσεις κάθε μήνα, μπορείτε να επιθεωρήσετε αυτά τα είδη δυναμικής σε μια γραφική παράσταση πλαισίου υπό όρους (Εικόνα 3). Μια άλλη χρήσιμη γραφική παράσταση για την εξερεύνηση χρονοσειρών είναι η γραφική παράσταση υστέρησης (Εικόνα 3). Το διάγραμμα υστέρησης δείχνει τη σχέση μεταξύ των τρεχουσών αξιών και των προηγούμενων αξιών, για παράδειγμα, οι πωλήσεις σήμερα και οι πωλήσεις την προηγούμενη εβδομάδα.
Κλασική αποσύνθεση χρονολογικών σειρών
Η κλασική αποσύνθεση, δηλαδή η αποσύνθεση της χρονοσειράς στην τάση, τις εποχικότητες και τις υπολειπόμενες, παρέχει ένα καλό σημείο αναφοράς για την πρόβλεψη. Το υπόλοιπο μέρος της χρονοσειράς, το υπόλοιπο, υποτίθεται ότι είναι στάσιμος, και μπορεί να προβλεφθεί από ένα μοντέλο ARIMA, για παράδειγμα. Θυμηθείτε, ωστόσο, ότι εάν η υπολειπόμενη σειρά δεν είναι σταθερή, ενδέχεται να απαιτηθούν ορισμένοι πρόσθετοι μετασχηματισμοί, όπως η διαφορά πρώτης τάξης ή ο μετασχηματισμός καταγραφής της αρχικής χρονοσειράς.
Πρώτον, εάν η χρονοσειρά δείχνει μια κατεύθυνση, μια τάση, η χρονοσειρά μπορεί να μειωθεί, για παράδειγμα, με την προσαρμογή ενός μοντέλου παλινδρόμησης μέσω των δεδομένων ή με τον υπολογισμό μιας τιμής κινητού μέσου όρου.
Δεύτερον, εάν η χρονοσειρά εμφανίζει μια κανονική διακύμανση – εποχικότητα – η χρονοσειρά μπορεί να προσαρμοστεί για αυτήν. Μπορείτε να βρείτε την υστέρηση όπου εμφανίζεται η κύρια εποχικότητα στην γραφική παράσταση αυτοσυσχέτισης της χρονοσειράς. Για παράδειγμα, εάν παρατηρήσετε μια κορυφή στην υστέρηση 7 και έχετε ημερήσια δεδομένα, τότε τα δεδομένα θα έχουν εβδομαδιαία εποχικότητα. Η εποχικότητα μπορεί να προσαρμοστεί διαφοροποιώντας τα δεδομένα στην υστέρηση όπου εμφανίζεται η κύρια απότομη αύξηση. Εάν θέλετε να προσαρμόσετε τη δεύτερη εποχικότητα στα δεδομένα, μπορείτε να το κάνετε επαναλαμβάνοντας τη διαδικασία για την προσαρμοσμένη (διαφοροποιημένη) χρονική σειρά.
Τέλος, όταν έχετε φτάσει σε μια σταθερή χρονοσειρά που είναι έτοιμη να μοντελοποιηθεί για παράδειγμα από ένα μοντέλο ARIMA, μπορείτε να κάνετε έναν τελικό έλεγχο με, για παράδειγμα, Δοκιμή Ljung-box για σταθερότητα.
Μοντελοποίηση και Αξιολόγηση Χρονοσειρών
Τώρα προχωράμε στη μοντελοποίηση του υπολειπόμενου τμήματος της χρονοσειράς που περιέχει την ακανόνιστη δυναμική της. Μπορούμε να το κάνουμε αυτό με τα μοντέλα ARIMA, μάθηση μηχανής μοντέλα, νευρωνικά δίκτυα και πολλές παραλλαγές τους. Συχνά μοντελοποιούμε το υπόλοιπο τμήμα της χρονοσειράς με αυτά τα μοντέλα, επειδή είναι ακίνητο. Ωστόσο, η αποσύνθεση της χρονοσειράς δεν είναι πάντα απαραίτητη, επειδή ορισμένα μοντέλα, όπως για παράδειγμα το εποχιακό μοντέλο ARIMA, λειτουργούν και για τη μοντελοποίηση μη σταθερών χρονοσειρών.
Στη συνέχεια συλλέγουμε μερικές ιδιότητες αυτών των διαφορετικών τεχνικών μοντελοποίησης, τις ομοιότητες και τις διαφορές τους, ώστε να μπορείτε να επιλέξετε την καλύτερη για την περίπτωση χρήσης σας. Θυμηθείτε επίσης ότι είναι χρήσιμο να εκπαιδεύετε πολλά μοντέλα, ακόμα και να δημιουργείτε ένα σύνολο από αυτά!
Μοντέλα ARIMA
ΑΡΙΜΑ Το μοντέλο (Autoregressive Integrated Moving Average) είναι ένα μοντέλο γραμμικής παλινδρόμησης μεταξύ της τρέχουσας και προηγούμενης τιμής (AR-part), καθώς και μεταξύ των τρεχόντων και των προηγούμενων σφαλμάτων πρόβλεψης (MA-part). Εάν το μοντέλο έχει ένα μη μηδενικό μέρος I, τότε τα δεδομένα διαφοροποιούνται για να γίνει ακίνητο. Τα βασικά μοντέλα ARIMA υποθέτουν ότι οι χρονοσειρές είναι σταθερές και οι σταθερές χρονοσειρές δεν έχουν προβλέψιμα μοτίβα μακροπρόθεσμα. Η φθίνουσα ακρίβεια στις μακροπρόθεσμες προβλέψεις φαίνεται στα αυξανόμενα διαστήματα εμπιστοσύνης των προβλέψεων. Η ύπαρξη περισσότερων δεδομένων δεν είναι πάντα καλύτερη για την εκπαίδευση μοντέλων ARIMA: Τα μεγάλα σύνολα δεδομένων μπορεί να κάνουν την εκτίμηση των παραμέτρων του μοντέλου ενός μοντέλου ARIMA χρονοβόρα, καθώς και να μεγαλοποιήσουν τη διαφορά μεταξύ της πραγματικής διαδικασίας και της διαδικασίας μοντέλου.
Μοντέλα Μηχανικής Μάθησης
Τα μοντέλα μηχανικής εκμάθησης χρησιμοποιούν τις τιμές με καθυστέρηση ως στήλες πρόβλεψης και αγνοούν τη χρονική δομή μεταξύ της στήλης στόχου και των στηλών πρόβλεψης. Τα μοντέλα μηχανικής μάθησης μπορούν επίσης να προσδιορίσουν μακροπρόθεσμα μοτίβα και σημεία καμπής στα δεδομένα, υπό την προϋπόθεση ότι παρέχονται αρκετά δεδομένα στα δεδομένα εκπαίδευσης για τη δημιουργία αυτών των προτύπων. Γενικά, όσο περισσότερες παρατυπίες δείχνουν τα δεδομένα, τόσο περισσότερα δεδομένα χρειάζονται για την εκπαίδευση του μοντέλου. Όταν εφαρμόζετε ένα μοντέλο μηχανικής εκμάθησης, συνιστάται η μοντελοποίηση του υπολειπόμενου. Διαφορετικά, μπορεί να δημιουργήσετε ένα μοντέλο που είναι πιο περίπλοκο από το κλασικό μοντέλο αποσύνθεσης, αλλά που στην πραγματικότητα δεν μαθαίνει τίποτα νέο επιπλέον!
Συμβουλές για την επιλογή μοντέλου
Πρώτον, ορισμένα φαινόμενα είναι δύσκολο να προβλεφθούν και σε μια τέτοια περίπτωση είναι συχνά λογικό να επιλέγουμε ένα απλούστερο μοντέλο και να μην επενδύουμε πόρους στη μοντελοποίηση κάτι που δεν μπορεί να προβλεφθεί με ακρίβεια.
Δεύτερον, η απόδοση του μοντέλου δεν είναι το μόνο κριτήριο. Εάν οι σημαντικές αποφάσεις βασίζονται στα αποτελέσματα του μοντέλου, η ερμηνευσιμότητα του μπορεί να είναι πιο σημαντική από μια ελαφρώς καλύτερη απόδοση. Τούτου λεχθέντος, ένα νευρωνικό δίκτυο μπορεί να χάσει έναντι ενός απλού κλασικού μοντέλου αποσύνθεσης, αν και προβλέπει λίγο καλύτερα.
Τρίτον, η προσθήκη επεξηγηματικών μεταβλητών στο μοντέλο σας μπορεί να βελτιώσει την ακρίβεια της πρόβλεψης. Ωστόσο, σε ένα τέτοιο μοντέλο πρέπει να προβλέπονται και οι επεξηγηματικές μεταβλητές, και η αυξανόμενη πολυπλοκότητα του μοντέλου δεν αξίζει πάντα την καλύτερη ακρίβεια. Μερικές φορές οι πρόχειρες εκτιμήσεις είναι αρκετές για να υποστηρίξουν τις αποφάσεις: Εάν τα ποσά αποστολής υπολογίζονται σε δεκάδες και εκατοντάδες, τότε η προβλεπόμενη ζήτηση δεν χρειάζεται επίσης να έχει μεγαλύτερη ευαισθησία.
Αξιολόγηση μοντέλου
Μετά την εκπαίδευση ενός μοντέλου, το επόμενο βήμα είναι να το αξιολογήσετε. Για την πρόβλεψη εντός δείγματος, το σύνολο δοκιμής είναι το ίδιο το σύνολο εκπαίδευσης, επομένως η διαδικασία του μοντέλου προσαρμόζεται στα δεδομένα που χρησιμοποιήθηκαν για την εκπαίδευση του μοντέλου. Για πρόβλεψη εκτός δείγματος, το σετ δοκιμής είναι μεταγενέστερο του σετ εκπαίδευσης στο χρόνο.
Μια συνιστώμενη μέτρηση σφάλματος για την αξιολόγηση ενός μοντέλου χρονοσειράς είναι το μέσο απόλυτο ποσοστό σφάλματος (ΧΑΡΤΗΣ), αφού παρέχει το σφάλμα σε καθολική κλίμακα, ως ποσοστό της πραγματικής τιμής. Ωστόσο, εάν η πραγματική τιμή είναι μηδέν, αυτή η μέτρηση δεν ορίζεται και στη συνέχεια άλλες μετρήσεις σφάλματος, όπως η ρίζα του μέσου τετραγώνου του σφάλματος (RMSE), θα κάνω. Αυτό που συχνά συνιστάται, ωστόσο, είναι να ΜΗΝ χρησιμοποιείτε R-τετράγωνο. Η μέτρηση του τετραγώνου R δεν ταιριάζει στο πλαίσιο της ανάλυσης χρονοσειρών, επειδή η εστίαση είναι στην πρόβλεψη της μελλοντικής συστηματικής μεταβλητότητας της στήλης-στόχου αντί της μοντελοποίησης όλης της μεταβλητότητας στο παρελθόν.
Πρόβλεψη και Ανακατασκευή Χρονοσειρών
Σχεδόν φτάσαμε! Το τελευταίο βήμα είναι η πρόβλεψη μελλοντικών τιμών και η ανακατασκευή του σήματος.
Δυναμική Πρόβλεψη
Εάν έχετε ένα μοντέλο που δεν μπορεί να παρέχει ακριβείς προβλέψεις μακροπρόθεσμα, η δυναμική ανάπτυξη συχνά βελτιώνει την ακρίβεια πρόβλεψης εκτός δείγματος. Στη δυναμική ανάπτυξη, μόνο ένα σημείο στο μέλλον προβλέπεται κάθε φορά και τα προηγούμενα δεδομένα ενημερώνονται από αυτήν την τιμή πρόβλεψης για τη δημιουργία της επόμενης πρόβλεψης (Εικόνα 5).
Επαναφορά της τάσης και της εποχικότητας
Τέλος, αν αποσυνθέσουμε τη χρονοσειρά πριν από την πρόβλεψη, θα πρέπει να επαναφέρουμε την τάση ή/και τις εποχικές παραμέτρους στις προβλέψεις. Εάν προσαρμόσουμε την εποχικότητα διαφοροποιώντας τα δεδομένα, ξεκινάμε την ανακατασκευή του σήματος προσθέτοντας τιμές στην υστέρηση όπου εμφανίζεται η εποχικότητα. Για παράδειγμα, αν είχαμε καθημερινά δεδομένα y όπου εφαρμόσαμε εποχιακή διαφορά στην υστέρηση 7 (εβδομαδιαία εποχικότητα), η επαναφορά αυτής της εποχικότητας θα απαιτούσε τον ακόλουθο υπολογισμό στις προβλεπόμενες τιμές yt+1, yt+2, ..., yt+h :
όπου tείναι το τελευταίο χρονικό σημείο στα δεδομένα εκπαίδευσης και h είναι ο ορίζοντας πρόβλεψης.
Προκειμένου να αποκατασταθεί η δεύτερη εποχικότητα, θα επαναλάβουμε το βήμα που περιγράφηκε παραπάνω για την αποκατεστημένη χρονοσειρά. Εάν θέλαμε να επαναφέρουμε τη συνιστώσα τάσης στη χρονοσειρά, θα εφαρμόζαμε το μοντέλο παλινδρόμησης που αντιπροσωπεύει την τάση στην αποκατεστημένη χρονοσειρά.
Ολοκληρώστε την εφαρμογή Time Series στην πλατφόρμα Analytics
Τέλος, ας ρίξουμε μια ματιά στο πώς να μετατρέψετε αυτά τα βήματα στην πράξη χρησιμοποιώντας την Πλατφόρμα Analytics. Η ροή εργασίας Πρόσβαση σε Χρονοσειρές Μετασχηματισμού και Μοντελοποίησης (διαθέσιμο στο Hub) στην Εικόνα 6 δείχνει τα βήματα από την πρόσβαση έως τον καθαρισμό, την οπτική εξερεύνηση, την αποσύνθεση και τη μοντελοποίηση χρονοσειρών. Για ορισμένες από αυτές τις εργασίες, χρησιμοποιούμε στοιχεία χρονοσειρών που ενσωματώνουν τις ροές εργασιών ως λειτουργίες που αφορούν συγκεκριμένες χρονοσειρές: συγκεντρώστε τα δεδομένα στην επιλεγμένη ευαισθησία, εκτελέστε την κλασική αποσύνθεση και πολλά άλλα.
Σε αυτό το παράδειγμα, χρησιμοποιούμε το Sample – Superstore δεδομένα που παρέχονται από Ζώσα σκηνική εικών. Στην ανάλυσή μας εστιάζουμε στις παραγγελίες όλων των προϊόντων από το 2014 έως το 2017 – συνολικά 9994 εγγραφές. Ξεκινάμε την προεπεξεργασία αναδιαμορφώνοντας τα δεδομένα σε δεδομένα χρονοσειρών υπολογίζοντας τις συνολικές πωλήσεις ανά ημέρα. Πλέον, έχουμε μόνο μία τιμή ανά ημέρα, αλλά λείπουν κάποιες ημέρες επειδή δεν υποβλήθηκαν παραγγελίες αυτές τις ημέρες. Επομένως, εισάγουμε αυτές τις μέρες τις χρονοσειρές και αντικαθιστούμε τις τιμές πωλήσεων που λείπουν με μια σταθερή τιμή 0. Μετά από αυτό, συγκεντρώνουμε τα δεδομένα σε μηνιαίο επίπεδο και εξετάζουμε τις μέσες πωλήσεις κάθε μήνα σε περαιτέρω ανάλυση.
Για οπτική εξερεύνηση, συγκεντρώνουμε επίσης τα δεδομένα σε ετήσιο επίπεδο και ανακαλύπτουμε ότι υπάρχει ένα σημείο καμπής στην αρχή του έτους 2015, όπως δείχνει η γραφική παράσταση στα δεξιά στο Σχήμα 7. Το διάγραμμα γραμμής στα αριστερά δείχνει την ετήσια εποχικότητα στα δεδομένα: υπάρχουν δύο κανονικές κορυφές στο τέλος κάθε έτους και μια χαμηλότερη κορυφή στην αρχή κάθε έτους. Ανιχνεύουμε επίσης την ετήσια εποχικότητα στα δεδομένα, όπως φαίνεται από την κύρια ακμή στην υστέρηση 12 στην γραφική παράσταση ACF στα αριστερά. Αποσυνθέτουμε τη χρονική σειρά στην τάση, την εποχικότητα και την υπολειμματική της και αυτές οι συνιστώσες φαίνονται στο διάγραμμα γραμμής στη μέση στο Σχήμα 7. Η γραφική παράσταση ACF στα δεξιά δεν δείχνει σημαντική αυτοσυσχέτιση στην υπολειπόμενη σειρά.
Στη συνέχεια, μοντελοποιούμε την υπολειπόμενη σειρά των μέσων μηνιαίων πωλήσεων με ένα μοντέλο ARIMA. Μετά τη διαφορά στην υστέρηση 12, το μήκος της χρονοσειράς είναι 36 παρατηρήσεις. Αναζητούμε το καλύτερο μοντέλο με το εξάρτημα Auto ARIMA Learner με μέγιστη παραγγελία 4 για τα ανταλλακτικά AR και MA και μέγιστη παραγγελία 1 για το τμήμα I. Το μοντέλο με την καλύτερη απόδοση που βασίζεται σε Κριτήριο πληροφοριών Akaike είναι ARIMA (0, 1, 4) και ο MAPE που προκύπτει με βάση τις προβλέψεις εντός του δείγματος είναι 1.153.
Τέλος, αξιολογούμε την ακρίβεια πρόβλεψης του μοντέλου εκτός δείγματος. Η ροή εργασίας Πρόβλεψη και Ανακατασκευή Χρονοσειρών (διαθέσιμο στο Hub) στο Σχήμα 8 δείχνει τον τρόπο πρόβλεψης των ημερήσιων πωλήσεων το 2017 με βάση τα μηνιαία δεδομένα για τα έτη 2014 έως 2016 (24 παρατηρήσεις) και το νικητήριο μοντέλο ARIMA (0,1,4) χρησιμοποιώντας τη δυναμική ανάπτυξη πλησιάζω. Μετά από αυτό, ανακατασκευάζουμε το σήμα, σε αυτήν την περίπτωση, επαναφέρουμε την τάση και την ετήσια εποχικότητα στις προβλεπόμενες τιμές (12 μηνιαίες μέσες τιμές πωλήσεων). Συγκρίνουμε τις πραγματικές και τις προβλεπόμενες τιμές και λαμβάνουμε ΧΑΡΤΗ 0.336.
Χαρακτηριστικά
Χρονικές σειρές, είτε πρόκειται για δεδομένα αισθητήρων που δείχνουν τη συμπεριφορά ενός μικροσκοπικού αντικειμένου νανοδευτερόλεπτο μετά από νανοδευτερόλεπτο, μακροοικονομικά δεδομένα για τον 20ο αιώνα ή κάτι ενδιάμεσο, έχουν συγκεκριμένες τεχνικές ανάλυσης που ισχύουν για τα βήματα πρόσβασης, χειρισμού και μοντελοποίησης.
Σε αυτό το άρθρο, σας παρουσιάσαμε τις βασικές τεχνικές ανάλυσης για χρονολογικές σειρές που σας βοηθούν να ξεκινήσετε όταν εργάζεστε με δεδομένα χρονοσειρών.
αναφορές
[1] Chambers, John C., Satinder K. Mullick και Donald D. Smith. Πώς να επιλέξετε τη σωστή τεχνική πρόβλεψης. Πανεπιστήμιο Harvard, Graduate School of Business Administration, 1971.
[2] Hyndman, Rob J. και George Athanasopoulos. Πρόβλεψη: Αρχές και Πρακτική. OTexts, 2018.
Πηγή: https://www.dataversity.net/building-a-time-series-analysis-application/
- Απόλυτος
- Πρόσθετος
- ανάλυση
- analytics
- Εφαρμογή
- εφαρμογές
- AR
- άρθρο
- αυτόματη
- Βασικά
- αναφοράς
- ΚΑΛΎΤΕΡΟΣ
- Ποτο
- σώμα
- Κουτί
- χτίζω
- Κτίριο
- επιχείρηση
- Καθάρισμα
- Στήλη
- Κοινός
- συστατικό
- εμπιστοσύνη
- χώρες
- Ρεύμα
- ημερομηνία
- ημέρα
- Ζήτηση
- Ανάπτυξη
- Νόσος
- εκτιμήσεις
- Συμβάν
- Άσκηση
- εξερεύνηση
- Εικόνα
- Τελικά
- Όνομα
- ταιριάζουν
- Συγκέντρωση
- Παρασκευή
- μελλοντικός
- ΑΕΠ
- General
- Γεώργιος
- καλός
- αποφοιτήσουν
- Χειρισμός
- Harvard
- Πανεπιστήμιο του Χάρβαρντ
- Πως
- Πώς να
- HTTPS
- Εκατοντάδες
- προσδιορίσει
- εικόνα
- Λοιμώξεις
- πληροφορίες
- IT
- Ιούλιος
- large
- οδηγήσει
- ΜΑΘΑΊΝΩ
- μαθητευόμενος
- μάθηση
- Επίπεδο
- γραμμή
- Μακριά
- μάθηση μηχανής
- μεγάλες
- αγορά
- Metrics
- μοντέλο
- μοντελοποίηση
- Δευτέρα
- μηνιαία στοιχεία
- μήνες
- μετακινήσετε
- δίκτυο
- δίκτυα
- Νευρικός
- νευρικό σύστημα
- νευρωνικά δίκτυα
- ανοίγει
- τάξη
- παραγγελιών
- ΑΛΛΑ
- πρότυπο
- επίδοση
- σχεδιασμό
- πλατφόρμες
- πρόβλεψη
- Προϊόν
- Προϊόντα
- προαγωγή
- αρχεία
- οπισθοδρόμηση
- Σχέσεις
- Υποστηρικτικό υλικό
- Αποτελέσματα
- εμπορικός
- Κλίμακα
- Σχολείο
- επιλέγονται
- αίσθηση
- Σειρές
- σειρά
- επιλέξτε ταχυδρομικά τέλη
- Απλούς
- small
- έξυπνος
- Στιγμιότυπο
- So
- Εκκίνηση
- ξεκίνησε
- στατιστική
- στοκ
- χρηματιστηριακή αγορά
- υποβάλλονται
- καλοκαίρι
- υποστήριξη
- Ζώσα σκηνική εικών
- στόχος
- δοκιμή
- Τα Βασικά
- Το μέλλον
- ώρα
- κορυφή
- Εκπαίδευση
- Μεταμόρφωση
- Παγκόσμιος
- πανεπιστήμιο
- αξία
- Δες
- εβδομάδα
- εβδομαδιαίος
- Τι είναι
- Wikipedia
- εντός
- Εργασία
- ροής εργασίας
- προπόνηση
- αξία
- έτος
- χρόνια
- μηδέν