Klõpsake autori kohta lisateabe saamiseks Maarit Widmann.
Täielik aegridade analüüsi rakendus hõlmab punktis a toodud samme andmed Science tsükkel juurdepääsust aegridade andmete teisendamise, modelleerimise, hindamise ja juurutamiseni. Kuid aegridade andmete puhul erinevad nende sammude konkreetsed ülesanded võrreldes ristlõikeandmetega. Näiteks kogutakse ristlõikeandmeid ühe objekti hetktõmmisena ühel ajahetkel, samas kui aegridade andmeid kogutakse sama objekti vaatlemisel teatud ajaperioodi jooksul. Aegridade andmete tavapärastel mustritel on oma spetsiifiline terminoloogia ja need määravad enne aegridade modelleerimisele üleminekut vajaliku eeltöötluse. Aegridu saab modelleerida mitut tüüpi mudelitega, kuid teatud aegridade mudelid, näiteks ARIMA mudel, kasutavad vaatluste vahelist ajalist struktuuri.
Selles artiklis tutvustame aegrearakenduse loomise teekonnal levinumaid ülesandeid. Lõpuks rakendame teooria praktikas, luues Analyticsi platvormil näidisrakenduse.
Juurdepääs ajaseeriatele
Aegridadel on erinevad allikad ja rakendused: igapäevased müügiandmed nõudluse prognoosimiseks, iga-aastased makromajanduslikud andmed pikaajaliseks poliitiliseks planeerimiseks, nutikella andurite andmed treeningute analüüsimiseks ja palju muud. Kõik need aegread erinevad näiteks oma detailsuse, regulaarsuse ja puhtuse poolest: võime olla kindlad, et meil on oma riigi jaoks selle aasta ja ka järgmise 10 aasta SKT väärtus olemas, kuid me ei saa garanteerida, et meie nutikella andur toimib stabiilselt mis tahes treeningul ja igal temperatuuril. Samuti võib juhtuda, et aegridade andmed pole regulaarsete ajavahemike järel saadaval, vaid neid saab koguda ainult juhuslikest sündmuste punktidest, nagu haigusinfektsioonid või spontaansed kliendikülastused. Kõigil seda tüüpi aegridade andmetel on aga ühine see, et neid kogutakse aja jooksul samast allikast.
Reguleerimise ja puhastamise aja sari
Kui meil on aegrea andmed, tuleb järgmiseks sammuks muuta need võrdsete vahedega sobiva teralisusega, pidevaks ja puhtaks. Nõutavad ülesanded sõltuvad andmete algsest kujust ja ka meie analytics eesmärk. Näiteks kui plaanime mõne toote ühenädalast reklaami, võiksime olla huvitatud üksikasjalikumatest andmetest kui siis, kui soovime saada ülevaadet mõne toote müügist.
sortimine
Aegridad tuleb aja järgi sortida. Andmete jagamisel treening- ja testikomplektidesse pidage meeles, et säilitaksite kirjete vahelise ajalise struktuuri, võttes testimiseks/koolituseks andmeid ülalt/alt. Kui teie andmed sisaldavad rohkem kui ühte kirjet ajatempli kohta, peate need ajatempli järgi koondama. Näiteks kui teil on päevas mitu tellimust ja olete huvitatud igapäevasest müügist, peate iga päeva müügid summeerima. Lisaks, kui olete huvitatud aegreadest, mille detailsus on teistsugune kui see, mis teil praegu andmetes on (nt igakuine müük päevamüügi asemel), saate andmeid eelistatud detailsusega veelgi koondada.
Puuduvad väärtused
Kui mõned ajatemplid puuduvad, peate need aegreas tutvustama, et need oleksid võrdsete vahedega. Mõnikord on puuduolevad rekordid osa aegrea dünaamikast (näiteks aktsiaturg suletakse reedel ja avaneb esmaspäeval).
Kui sisestate andmetele puuduvad ajatemplid, siis vastavad väärtused loomulikult puuduvad. Saate need puuduvad väärtused arvutada näiteks lineaarse interpolatsiooni või liikuva keskmise väärtuste abil. Pidage siiski meeles, et parim puuduvate väärtuste arvutamise tehnika sõltub andmete regulaarsest dünaamikast. Näiteks kui kontrollite iganädalast hooajalisust igapäevastes andmetes ja ühe laupäeva väärtus puudub, on viimase laupäeva väärtus tõenäoliselt parim asendus. Kui puuduvad väärtused ei puudu juhuslikult, näiteks nädalavahetustel puuduvad aktsiaturu sulgemishinnad, saate need asendada fikseeritud väärtusega, mis antud juhul oleks 0. Teisest küljest, kui puuduvad väärtused on juhuslikud ja need esinevad piisavalt kaugel minevikus, võite kasutada puuduva väärtuse järel olevaid andmeid ja ignoreerida vanemaid andmeid.
Ebaregulaarsed mustrid
Üks hea viis kiirete kõikumiste ja kõrvalekallete käsitlemiseks on andmete silumine. Kasutada saab mitmeid tehnikaid, nt libisev keskmine ja eksponentsiaalne silumine. Samuti silub andmeid kastigraafiku vurridest väljaspool olevate väärtuste lõikamine. Pidage meeles, et andmete tugev sesoonsus võib viia laialt levinud kastigraafikuni ja siis on parem kasutada kõrvalekallete tuvastamiseks tingimuslikku kastdiagrammi.
Kuid mõnikord näitavad aegread lihtsalt väga ebaregulaarset nähtust! Sellisel juhul võite proovida muuta aegrida korrapärasemaks, eraldades sellest alamhulga, näiteks võttes arvesse ainult ühe toote müüki kogu supermarketi müügi asemel või rühmitades andmed.
Ajaseeriate uurimine ja muutmine
Praegu on meil aegridade andmed sellisel kujul, mis sobib nende visuaalseks ja numbriliseks uurimiseks. Erinevad graafikud ja statistika näitavad aegridade pika- ja lühiajalisi mustreid ja ajalisi seoseid, mida saame kasutada selle dünaamika paremaks mõistmiseks ja edasise arengu ennustamiseks.
Ajaseeria visuaalne uurimine
Aegridade uurimise põhigraafik on joondiagramm (joonis 3), mis näitab võimalikku suunda, korrapäraseid ja ebaregulaarseid kõikumisi, kõrvalekaldeid, lünki või pöördepunkte aegreas. Kui jälgite oma aegreas regulaarset mustrit, näiteks jookide müügi iga-aastast hooajalisust, saate seejärel vaadata iga hooajalist tsüklit (aastat) hooajalisel graafikul eraldi (joonis 3). Hooajalisel graafikul on näiteks hästi näha, kas juuli oli sel aastal tugevam müügikuu kui mullu või kas igakuine müük kasvab aasta-aastalt.
Kui teid huvitab, mis toimub aastaaegadel, näiteks milline on suvekuude keskmine müük ning kui palju ja millises suunas müük iga kuu varieerub, saate seda tüüpi dünaamikat kontrollida tingimuslikul kastigraafikul (joonis 3). Veel üks kasulik graafik aegridade uurimiseks on viivitusgraafik (joonis 3). Viivitusgraafik näitab praeguste väärtuste ja varasemate väärtuste vahelist seost, näiteks müük täna ja müük nädal varem.
Aegridade klassikaline lagunemine
Klassikaline dekompositsioon, st aegridade jaotamine selle trendideks, hooajalisuseks ja jääkväärtuseks, on prognoosimiseks hea etalon. Aegrea ülejäänud osa, jääk, peaks olema statsionaarneja seda saab prognoosida näiteks ARIMA mudeli abil. Pidage siiski meeles, et kui jääkseeria ei ole statsionaarne, võib osutuda vajalikuks mõned täiendavad teisendused, näiteks esimest järku diferentseerimine või algse aegrea logiteisendus.
Esiteks, kui aegrida näitab suunda, trendi, saab aegrida detrendeerida, näiteks sobitades andmete kaudu regressioonimudeli või arvutades liikuva keskmise väärtuse.
Teiseks, kui aegrida näitab regulaarset kõikumist – hooajalisust –, saab aegrida selle järgi kohandada. Peamise hooajalisuse ilmnemise viivituse leiate aegrea autokorrelatsioonigraafikult. Näiteks kui jälgite tipphetke 7. viivituse ajal ja teil on igapäevased andmed, on andmetel iganädalane hooajalisus. Hooajalisust saab kohandada, eristades andmeid viivituse ajal, kus ilmneb suurim hüpe. Kui soovite andmetes korrigeerida teist hooajalisust, saate seda teha, korrates protseduuri korrigeeritud (erinev) aegridade jaoks.
Lõpuks, kui olete jõudnud statsionaarse aegreani, mis on valmis modelleerimiseks näiteks ARIMA mudeliga, saate teha viimase kontrolli näiteks Ljung-kasti test statsionaarsuse jaoks.
Aegridade modelleerimine ja hindamine
Nüüd liigume edasi aegrea jääkosa modelleerimise juurde, mis sisaldab selle ebaregulaarset dünaamikat. Saame seda teha ARIMA mudelitega, masinõpe mudelid, närvivõrgud ja paljud nende variatsioonid. Sageli modelleerime nende mudelite järgi aegrea jääkosa, kuna see on statsionaarne. Samas ei ole aegridade dekomponeerimine alati vajalik, sest mõned mudelid, nagu näiteks hooajaline ARIMA mudel, töötavad ka mittestatsionaarsete aegridade modelleerimiseks.
Järgnevalt kogume kokku nende erinevate modelleerimistehnikate mõned omadused, nende sarnasused ja erinevused, et saaksite valida oma kasutusjuhtumile sobivaima. Pidage meeles ka seda, et kasulik on koolitada mitut mudelit ja isegi luua neist ansambel!
ARIMA mudelid
ARIMA (Autoregressive Integrated Moving Average) mudel on lineaarne regressioonimudel praeguse ja mineviku väärtuste (AR-osa) ning ka praeguse ja mineviku prognoosivigade vahel (MA-osa). Kui mudelil on nullist erinev I-osa, siis andmed diferentseeritakse, et muuta see statsionaarseks. ARIMA põhimudelid eeldavad, et aegrida on statsionaarne ja statsionaarsetel aegridadel ei ole pikemas perspektiivis prognoositavaid mustreid. Pikaajaliste prognooside täpsuse vähenemine on näha prognooside suurenevates usaldusvahemikes. ARIMA mudelite koolitamiseks ei ole alati parem omada rohkem andmeid: suured andmestikud võivad muuta ARIMA mudeli mudeliparameetrite hindamise aeganõudvaks ning liialdada tegeliku protsessi ja mudeliprotsessi erinevustega.
Masinõppe mudelid
Masinõppemudelid kasutavad ennustajate veergudena viivitatud väärtusi ja eiravad sihtveergude ja ennustajate veergude vahelist ajalist struktuuri. Masinõppemudelid võivad tuvastada ka andmete pikaajalisi mustreid ja pöördepunkte, eeldusel, et koolitusandmetes on nende mustrite loomiseks piisavalt andmeid. Üldiselt, mida rohkem ebakorrapärasusi andmed näitavad, seda rohkem andmeid on mudeli treenimiseks vaja. Kui rakendate masinõppe mudelit, on soovitatav modelleerida jääk. Vastasel juhul võite luua mudeli, mis on keerulisem kui klassikaline lagunemismudel, kuid mis tegelikult ei õpi lisaks sellele midagi uut!
Näpunäiteid mudeli valimisel
Esiteks on mõnda nähtust raske prognoosida ja sellisel juhul on sageli mõttekas valida lihtsam mudel ja mitte investeerida ressursse millegi modelleerimiseks, mida pole võimalik täpselt prognoosida.
Teiseks pole mudeli jõudlus ainus kriteerium. Kui olulised otsused põhinevad mudeli tulemustel, võib selle tõlgendatavus olla olulisem kui veidi parem tulemus. Sellegipoolest võib närvivõrk kaotada lihtsa klassikalise lagunemismudeli ees, kuigi see prognoosib veidi paremat.
Kolmandaks võib mudelile selgitavate muutujate lisamine prognoosi täpsust parandada. Sellise mudeli puhul tuleb aga prognoosida ka eksplitseerivaid muutujaid ning mudeli keerukuse kasv ei ole alati paremat täpsust väärt. Mõnikord piisab otsuste toetuseks umbkaudsetest hinnangutest: kui saatesummad on arvutatud kümnetes ja sadades, siis ei pea prognoositav nõudlus ka suurema detailsusega olema.
Mudeli hindamine
Pärast mudeli väljaõpetamist on järgmine samm selle hindamine. Valimisisese prognoosimise jaoks on testikomplekt koolituskomplekt ise, seega kohandatakse mudeliprotsess andmetega, mida mudeli treenimiseks kasutati. Valimivälise prognoosi jaoks järgneb testikomplekt ajaliselt treeningkomplektile.
Üks soovitatav veamõõdik aegridade mudeli hindamiseks on keskmine absoluutne protsentuaalne viga (KAART), kuna see annab vea universaalses skaalas protsendina tegelikust väärtusest. Kui aga tegelik väärtus on null, siis seda mõõdikut ei defineerita ja siis ka muid veamõõdikuid, nagu ruudu keskmine viga (RMSE), teeb seda. Sageli soovitatakse aga MITTE kasutada R-ruut. R-ruudu mõõdik ei sobi aegridade analüüsi konteksti, kuna keskendutakse sihtveeru tulevase süstemaatilise varieeruvuse ennustamisele, selle asemel, et modelleerida kogu mineviku varieeruvust.
Ajasdade prognoosimine ja rekonstrueerimine
Oleme peaaegu kohal! Viimane samm on tulevaste väärtuste prognoosimine ja signaali rekonstrueerimine.
Dünaamiline prognoosimine
Kui teil on mudel, mis ei suuda pikas perspektiivis täpseid prognoose pakkuda, parandab dünaamiline juurutamine sageli valimivälise prognoosi täpsust. Dünaamilise juurutamise korral prognoositakse korraga ainult ühte tulevikupunkti ja järgmise prognoosi loomiseks värskendatakse mineviku andmeid selle prognoosiväärtusega (joonis 5).
Trendide ja hooajalisuse taastamine
Lõpuks, kui lahutame aegread enne prognoosimist, peame taastama prognooside trendi ja/või hooajalisuse. Kui kohandame hooajalisust andmete eristamise teel, alustame signaali rekonstrueerimist, lisades väärtused hooajalisuse esinemise viivituse ajal. Näiteks kui meil olid päevaandmed y, mille puhul rakendasime hooajalist erinevust 7. viivitusega (nädalane hooajalisus), oleks selle hooajalisuse taastamiseks vaja teha prognoosiväärtuste jaoks järgmine arvutus. yt+1, yt+2, ... yt+h :
kus ti on viimane ajapunkt treeningandmetes ja h on prognoosihorisont.
Teise hooajalisuse taastamiseks kordame ülalkirjeldatud sammu taastatud aegridade puhul. Kui sooviksime taastada trendikomponendi aegridadele, rakendaksime taastatud aegridadele trendi esindavat regressioonimudelit.
Täitke aegridade rakendus Analyticsi platvormil
Lõpuks vaatame, kuidas neid samme meie Analyticsi platvormi kasutades praktikaks muuta. Töövoog Juurdepääs teisendus- ja modelleerimisajasarjadele (saadaval jaoturis) joonisel 6 näitab samme juurdepääsust puhastamiseni, visuaalse uurimise, lagunemise ja aegridade modelleerimiseni. Mõnede nende ülesannete puhul kasutame aegridade komponendid mis koondavad töövoogusid aegridadele spetsiifiliste funktsioonidena: koondavad andmed valitud detailsusega, teostavad klassikalist dekomponeerimist ja palju muud.
Selles näites kasutame Näidis – Superstore poolt esitatud andmed Elav pilt. Analüüsis keskendume kõikide toodete tellimustele aastatel 2014-2017 – kokku 9994 rekordit. Eeltöötlust alustame andmete ümberkujundamisega aegridade andmeteks, arvutades välja müügi kogusumma päevas. Nüüd on meil ainult üks väärtus päevas, kuid mõned päevad on puudu, kuna neil päevadel ei esitatud ühtegi tellimust. Seetõttu tutvustame nendel päevadel aegrida ja asendame puuduvad müügiväärtused fikseeritud väärtusega 0. Seejärel koondame andmed kuu tasemel ning edasises analüüsis arvestame iga kuu keskmist müüki.
Visuaalseks uurimiseks koondame andmed ka aasta tasemel ja saame teada, et 2015. aasta alguses on pöördepunkt, nagu näitab joonisel 7 paremal olev joondiagramm. Vasakpoolne joondiagramm näitab andmete aastast hooajalisust: iga aasta lõpus on kaks regulaarset tippu ja iga aasta alguses madalam tipp. Samuti tuvastame andmetes iga-aastase hooajalisuse, nagu näitab vasakpoolsel ACF-i graafikul 12. viivituse suur hüpe. Jaotame aegread selle trendideks, hooajalisuseks ja jääkväärtuseks ning need komponendid on näidatud joonise 7 keskel asuval joondiagrammil. Parempoolne ACF-i graafik ei näita jääkridades olulist autokorrelatsiooni.
Järgmisena modelleerime ARIMA mudeliga kuu keskmise müügi jääkrea. Pärast diferentseerimist viivitusega 12 on aegrea pikkus 36 vaatlust. Otsime parimat mudelit Auto ARIMA Learner komponendiga, mille AR ja MA osade jaoks on maksimaalselt 4 ja I osa jaoks max tellimus 1. Kõige paremini toimiv mudel, mis põhineb Akaike infokriteerium on ARIMA (0, 1, 4) ja saadud MAPE valimi prognooside põhjal on 1.153.
Lõpuks hindame mudeli valimivälise prognoosi täpsust. Töövoog Ajasdade prognoosimine ja rekonstrueerimine (saadaval jaoturis) joonisel 8 näitab, kuidas prognoosida 2017. aasta igapäevast müüki aastate 2014–2016 kuuandmete põhjal (24 vaatlust) ja võitnud ARIMA (0,1,4) mudelit, kasutades dünaamilist juurutamist. lähenemine. Pärast seda rekonstrueerime signaali, antud juhul taastame trendi ja aastase hooajalisuse prognoositud väärtustele (12 kuu keskmised müügiväärtused). Võrdleme tegelikke ja prognoositud väärtusi ning saame MAPE väärtuseks 0.336.
kokkuvõte
Aegridadel, olgu need siis anduriandmed, mis näitavad väikese objekti käitumist nanosekundi järel, 20. sajandi makromajanduslikud andmed või midagi vahepealset, sisaldavad spetsiifilisi analüütilisi meetodeid, mis kehtivad juurdepääsu, manipuleerimise ja modelleerimise etappidele.
Selles artiklis oleme tutvustanud teile aegridade analüüsitehnikate põhitõdesid, mis aitavad teil aegridade andmetega töötamist alustada.
viited
[1] Chambers, John C., Satinder K. Mullick ja Donald D. Smith. Kuidas valida õige prognoosimistehnika. Harvardi ülikool, ärijuhtimise kõrgkool, 1971.
[2] Hyndman, Rob J. ja George Athanasopoulos. Prognoosimine: põhimõtted ja praktika. OTexts, 2018.
Allikas: https://www.dataversity.net/building-a-time-series-analysis-application/
- absoluutne
- Täiendavad lisad
- analüüs
- analytics
- taotlus
- rakendused
- AR
- artikkel
- auto
- Alused
- võrrelda
- BEST
- Joogid
- keha
- Kast
- ehitama
- Ehitus
- äri
- puhastamine
- Veerg
- ühine
- komponent
- usaldus
- riikides
- Praegune
- andmed
- päev
- Nõudlus
- & Tarkvaraarendus
- haigus
- hinnangul
- sündmus
- Teostama
- uurimine
- Joonis
- Lõpuks
- esimene
- sobima
- Keskenduma
- Reede
- tulevik
- SKP
- Üldine
- George
- hea
- koolilõpetaja
- Käsitsemine
- Harvardi
- Harvardi ülikool
- Kuidas
- Kuidas
- HTTPS
- sajad
- identifitseerima
- pilt
- Infektsioonid
- info
- IT
- Juuli
- suur
- viima
- Õppida
- õppija
- õppimine
- Tase
- joon
- Pikk
- masinõpe
- peamine
- Turg
- Meetrika
- mudel
- modelleerimine
- Esmaspäev
- igakuised andmed
- kuu
- liikuma
- võrk
- võrgustikud
- Neural
- Närvivõrgus
- närvivõrgud
- Avaneb
- et
- tellimuste
- Muu
- Muster
- jõudlus
- planeerimine
- inimesele
- ennustus
- Toode
- Toodet
- edendamine
- andmed
- regressioon
- Suhted
- Vahendid
- Tulemused
- müük
- Skaala
- Kool
- väljavalitud
- tunne
- Seeria
- komplekt
- Transport TASUTA
- lihtne
- väike
- nutikas
- Snapshot
- So
- algus
- alustatud
- statistika
- varu
- aktsiaturg
- esitatud
- suvi
- toetama
- Elav pilt
- sihtmärk
- test
- Põhitõed
- Tulevik
- aeg
- ülemine
- koolitus
- Transformation
- Universaalne
- Ülikool
- väärtus
- Watch
- nädal
- iga nädal
- Mis on
- Wikipedia
- jooksul
- Töö
- töövoog
- treening
- väärt
- aasta
- aastat
- null