คลิกเพื่อดูข้อมูลเพิ่มเติมเกี่ยวกับผู้เขียน มาริต วิดมันน์.
แอปพลิเคชันการวิเคราะห์อนุกรมเวลาที่สมบูรณ์ครอบคลุมขั้นตอนใน a ข้อมูลวิทยาศาสตร์ วงจรจากการเข้าถึงสู่การเปลี่ยนแปลง การสร้างแบบจำลอง การประเมิน และการปรับใช้ข้อมูลอนุกรมเวลา อย่างไรก็ตาม สำหรับข้อมูลอนุกรมเวลา งานเฉพาะในขั้นตอนเหล่านี้จะแตกต่างกันเมื่อเปรียบเทียบกับข้อมูลแบบตัดขวาง ตัวอย่างเช่น ข้อมูลตัดขวางจะถูกรวบรวมเป็นสแน็ปช็อตของวัตถุหนึ่งชิ้น ณ จุดหนึ่ง ในขณะที่ข้อมูลอนุกรมเวลาจะถูกรวบรวมโดยการสังเกตวัตถุเดียวกันในช่วงเวลาหนึ่ง รูปแบบปกติในข้อมูลอนุกรมเวลามีคำศัพท์เฉพาะ และกำหนดการประมวลผลล่วงหน้าที่จำเป็นก่อนที่จะไปยังอนุกรมเวลาของการสร้างแบบจำลอง อนุกรมเวลาสามารถสร้างแบบจำลองด้วยแบบจำลองได้หลายประเภท แต่แบบจำลองอนุกรมเวลาเฉพาะ เช่น แบบจำลอง ARIMA ใช้โครงสร้างชั่วคราวระหว่างการสังเกต
ในบทความนี้ เราจะแนะนำงานทั่วไปในการเดินทางของการสร้างแอปพลิเคชันอนุกรมเวลา สุดท้าย เรานำทฤษฎีไปปฏิบัติโดยการสร้างแอปพลิเคชันตัวอย่างในแพลตฟอร์ม Analytics
การเข้าถึงอนุกรมเวลา
อนุกรมเวลามีแหล่งที่มาและการใช้งานที่หลากหลาย: ข้อมูลยอดขายรายวันสำหรับการคาดการณ์ความต้องการ ข้อมูลเศรษฐกิจมหภาคประจำปีสำหรับการวางแผนทางการเมืองในระยะยาว ข้อมูลเซ็นเซอร์จากนาฬิกาอัจฉริยะสำหรับวิเคราะห์เซสชั่นการออกกำลังกาย และอื่นๆ อีกมากมาย อนุกรมเวลาทั้งหมดนี้แตกต่างกัน ตัวอย่างเช่น ในความละเอียด ความสม่ำเสมอ และความสะอาด: เราสามารถมั่นใจได้ว่าเราจะมีมูลค่า GDP สำหรับประเทศของเราสำหรับปีนี้และสำหรับ 10 ปีข้างหน้าด้วย แต่เราไม่สามารถรับประกันได้ว่า เซ็นเซอร์ของสมาร์ทวอทช์ของเราทำงานได้อย่างเสถียรในทุกการออกกำลังกายและในทุกอุณหภูมิ อาจเป็นไปได้ว่าข้อมูลอนุกรมเวลาไม่พร้อมใช้งานในช่วงเวลาปกติ แต่สามารถรวบรวมได้จากจุดเหตุการณ์สุ่มเท่านั้น เช่น การติดเชื้อโรค หรือการเยี่ยมชมของลูกค้าโดยธรรมชาติ ข้อมูลอนุกรมเวลาประเภทนี้ทั้งหมดมีเหมือนกันคือ ข้อมูลเหล่านี้ถูกรวบรวมจากแหล่งเดียวกันเมื่อเวลาผ่านไป
อนุกรมเวลาปกติและทำความสะอาด
เมื่อเรามีข้อมูลอนุกรมเวลาแล้ว ขั้นตอนต่อไปคือการเว้นระยะห่างเท่าๆ กันที่ความละเอียดที่เหมาะสม ต่อเนื่อง และสะอาด งานที่จำเป็นขึ้นอยู่กับรูปร่างดั้งเดิมของข้อมูลและของเรา การวิเคราะห์ วัตถุประสงค์. ตัวอย่างเช่น หากเราวางแผนโปรโมตผลิตภัณฑ์หนึ่งสัปดาห์ เราอาจสนใจข้อมูลที่ละเอียดกว่าหากต้องการดูภาพรวมของยอดขายของผลิตภัณฑ์บางรายการ
การเรียงลำดับ
ต้องจัดเรียงอนุกรมเวลาตามเวลา เมื่อคุณแบ่งพาร์ติชั่นข้อมูลออกเป็นชุดการฝึกและการทดสอบ อย่าลืมรักษาโครงสร้างชั่วคราวระหว่างเร็กคอร์ดด้วยการนำข้อมูลจากด้านบน/ด้านล่างมาทดสอบ/ฝึกอบรม หากข้อมูลของคุณมีมากกว่าหนึ่งบันทึกต่อการประทับเวลา คุณจะต้องรวมข้อมูลเหล่านั้นโดยการประทับเวลา ตัวอย่างเช่น เมื่อคุณมีคำสั่งซื้อหลายรายการต่อวันและสนใจยอดขายรายวัน คุณต้องรวมยอดขายในแต่ละวัน นอกจากนี้ หากคุณสนใจอนุกรมเวลาที่ความละเอียดอื่นมากกว่าที่คุณมีอยู่ในข้อมูลในปัจจุบัน (เช่น ยอดขายรายเดือนแทนที่จะเป็นยอดขายรายวัน) คุณสามารถรวมข้อมูลที่ความละเอียดที่ต้องการเพิ่มเติมได้
ค่าที่หายไป
หากไม่มีการประทับเวลาบางรายการ คุณต้องแนะนำให้รู้จักกับอนุกรมเวลาเพื่อให้มีระยะห่างเท่ากัน บางครั้งบันทึกที่ขาดหายไปเป็นส่วนหนึ่งของการเปลี่ยนแปลงของอนุกรมเวลา (เช่น ตลาดหุ้นปิดในวันศุกร์และเปิดในวันจันทร์)
เมื่อคุณแนะนำการประทับเวลาที่ขาดหายไปกับข้อมูล ค่าที่สอดคล้องกันจะหายไปแน่นอน คุณสามารถระบุค่าที่ขาดหายไปเหล่านี้ได้ เช่น การประมาณค่าเชิงเส้นหรือค่าเฉลี่ยเคลื่อนที่ โปรดจำไว้ว่า เทคนิคที่ดีที่สุดสำหรับการใส่ค่าที่หายไปนั้นขึ้นอยู่กับไดนามิกปกติในข้อมูล ตัวอย่างเช่น หากคุณตรวจสอบฤดูกาลรายสัปดาห์ในข้อมูลรายวัน และค่าในวันเสาร์หนึ่งหายไป ค่าของวันเสาร์ที่แล้วน่าจะเป็นการแทนที่ที่ดีที่สุด หากค่าที่หายไปไม่หายไปโดยการสุ่ม เช่น ราคาปิดของตลาดหุ้นที่ขาดหายไปในช่วงสุดสัปดาห์ คุณสามารถแทนที่ด้วยค่าคงที่ซึ่งจะเป็น 0 ในกรณีนี้ ในทางกลับกัน หากค่าที่หายไปเป็นค่าสุ่มและเกิดขึ้นในอดีตมากพอ คุณสามารถใช้ข้อมูลหลังค่าที่หายไป และละเว้นข้อมูลที่เก่ากว่า
รูปแบบที่ผิดปกติ
วิธีหนึ่งที่ดีในการจัดการความผันผวนอย่างรวดเร็วและค่าผิดปกติคือทำให้ข้อมูลราบรื่น ใช้ได้หลายเทคนิค เช่น ค่าเฉลี่ยการเคลื่อนที่ และ การปรับให้เรียบแบบเลขชี้กำลัง. นอกจากนี้ การตัดค่าที่อยู่นอกหนวดของพล็อตกล่องจะทำให้ข้อมูลราบรื่น พึงระลึกไว้เสมอว่าฤดูกาลที่เข้มข้นของข้อมูลอาจนำไปสู่การลงจุดแบบกล่องที่แพร่หลาย จากนั้นจึงควรใช้การลงจุดแบบกล่องแบบมีเงื่อนไขเพื่อตรวจหาค่าผิดปกติ
อย่างไรก็ตาม บางครั้งอนุกรมเวลาก็แสดงปรากฏการณ์ที่ผิดปกติอย่างมาก! ในกรณีเช่นนี้ คุณสามารถพยายามทำให้อนุกรมเวลาเป็นปกติมากขึ้นโดยแยกส่วนย่อยของอนุกรมนั้นออก ตัวอย่างเช่น โดยพิจารณาเฉพาะยอดขายของผลิตภัณฑ์เดียวแทนการขายของซูเปอร์มาร์เก็ตทั้งหมด หรือโดยการจัดกลุ่มข้อมูล
สำรวจและเปลี่ยนแปลงอนุกรมเวลา
ณ จุดนี้ เรามีข้อมูลอนุกรมเวลาในรูปทรงที่เหมาะสำหรับการสำรวจด้วยภาพและตัวเลข โครงเรื่องและสถิติต่างๆ เผยให้เห็นรูปแบบระยะยาวและระยะสั้น และความสัมพันธ์ทางโลกในอนุกรมเวลาที่เราสามารถใช้เพื่อให้เข้าใจถึงพลวัตของมันได้ดีขึ้น และคาดการณ์การพัฒนาในอนาคต
การสำรวจด้วยสายตาของอนุกรมเวลา
พล็อตพื้นฐานสำหรับการสำรวจอนุกรมเวลาคือ พล็อตเส้นตรง (รูปที่ 3) ที่แสดงทิศทางที่เป็นไปได้ ความผันผวนปกติและไม่สม่ำเสมอ ค่าผิดปกติ ช่องว่าง หรือจุดเปลี่ยนในอนุกรมเวลา หากคุณสังเกตรูปแบบปกติในอนุกรมเวลาของคุณ เช่น ฤดูกาลประจำปีในการขายเครื่องดื่ม คุณสามารถตรวจสอบแต่ละรอบตามฤดูกาล (ปี) แยกกันในแปลงตามฤดูกาล (รูปที่ 3) ในแผนภาพตามฤดูกาล คุณสามารถเห็นได้ง่าย ๆ เช่น หากเดือนกรกฎาคมเป็นเดือนที่มียอดขายแข็งแกร่งกว่าปีที่แล้ว หรือหากยอดขายรายเดือนเพิ่มขึ้นทุกปี
หากคุณสนใจในสิ่งที่เกิดขึ้นภายในฤดูกาล เช่น ยอดขายเฉลี่ยในเดือนฤดูร้อนคือเท่าใด และยอดขายแตกต่างกันไปในแต่ละเดือนไปในทิศทางใด คุณสามารถตรวจสอบไดนามิกเหล่านี้ได้ในกล่องพล็อตแบบมีเงื่อนไข (รูป) 3). พล็อตที่มีประโยชน์อีกประการหนึ่งสำหรับการสำรวจอนุกรมเวลาคือ พล็อตความล่าช้า (รูปที่ 3) พล็อตความล่าช้าจะแสดงความสัมพันธ์ระหว่างค่าปัจจุบันและค่าในอดีต เช่น ยอดขายวันนี้และสัปดาห์ของยอดขายก่อนหน้า
การสลายตัวแบบคลาสสิกของอนุกรมเวลา
การสลายตัวแบบคลาสสิก กล่าวคือ การแบ่งอนุกรมเวลาออกเป็นแนวโน้ม ฤดูกาล และส่วนที่เหลือ เป็นเกณฑ์มาตรฐานที่ดีสำหรับการคาดการณ์ ส่วนที่เหลือของอนุกรมเวลา เศษที่เหลือ ควรจะเป็น หยุดนิ่งและสามารถคาดการณ์ได้ด้วยโมเดล ARIMA เป็นต้น อย่างไรก็ตาม โปรดจำไว้ว่า หากอนุกรมที่เหลือไม่อยู่กับที่ อาจจำเป็นต้องมีการแปลงเพิ่มเติมบางอย่าง เช่น ความแตกต่างของลำดับแรก หรือการแปลงบันทึกของอนุกรมเวลาดั้งเดิม
ประการแรก หากอนุกรมเวลาแสดงทิศทาง แนวโน้ม อนุกรมเวลาสามารถป้องกันได้ ตัวอย่างเช่น โดยการปรับแบบจำลองการถดถอยผ่านข้อมูล หรือโดยการคำนวณมูลค่าเฉลี่ยเคลื่อนที่
ประการที่สอง หากอนุกรมเวลาแสดงความผันผวนตามปกติ – ฤดูกาล – อนุกรมเวลาสามารถปรับเปลี่ยนได้ คุณสามารถค้นหาความล่าช้าที่ฤดูกาลหลักเกิดขึ้นในแผนภาพความสัมพันธ์อัตโนมัติของอนุกรมเวลา ตัวอย่างเช่น หากคุณสังเกตเห็นจุดสูงสุดที่ lag 7 และคุณมีข้อมูลรายวัน ข้อมูลนั้นจะมีฤดูกาลประจำสัปดาห์ ฤดูกาลสามารถปรับเปลี่ยนได้โดยแยกความแตกต่างของข้อมูลที่ล่าช้าซึ่งมีการเพิ่มขึ้นอย่างรวดเร็ว หากคุณต้องการปรับฤดูกาลที่สองในข้อมูล คุณสามารถทำได้โดยทำซ้ำขั้นตอนสำหรับอนุกรมเวลาที่ปรับแล้ว (ต่างกัน)
สุดท้าย เมื่อคุณถึงอนุกรมเวลาที่อยู่กับที่ซึ่งพร้อมที่จะสร้างแบบจำลอง เช่น โมเดล ARIMA คุณสามารถตรวจสอบขั้นสุดท้ายได้ เช่น การทดสอบ Ljung-box เพื่อความนิ่ง
การสร้างแบบจำลองและการประเมินอนุกรมเวลา
ตอนนี้เราไปยังการสร้างแบบจำลองส่วนที่เหลือของอนุกรมเวลาที่มีไดนามิกที่ผิดปกติ เราสามารถทำได้ด้วยโมเดล ARIMA เรียนรู้เครื่อง โมเดล โครงข่ายประสาทเทียม และรูปแบบต่างๆ มากมาย เรามักสร้างแบบจำลองส่วนที่เหลือของอนุกรมเวลาด้วยแบบจำลองเหล่านี้ เนื่องจากเป็นแบบอยู่กับที่ อย่างไรก็ตาม การแยกอนุกรมเวลาไม่จำเป็นเสมอไป เนื่องจากบางรุ่น เช่น โมเดล ARIMA ตามฤดูกาล ยังสามารถทำงานเพื่อสร้างแบบจำลองอนุกรมเวลาที่ไม่อยู่กับที่
ต่อไปนี้ เราจะรวบรวมคุณสมบัติบางประการของเทคนิคการสร้างแบบจำลองที่แตกต่างกันเหล่านี้ ความเหมือนและความแตกต่าง เพื่อให้คุณสามารถเลือกสิ่งที่ดีที่สุดสำหรับกรณีการใช้งานของคุณ จำไว้ด้วยว่าการฝึกโมเดลหลายๆ รุ่น หรือแม้แต่สร้างทั้งชุดก็มีประโยชน์!
โมเดล ARIMA
อาริมะ แบบจำลอง (Autoregressive Integrated Moving Average) เป็นแบบจำลองการถดถอยเชิงเส้นระหว่างค่าปัจจุบันและในอดีต (ส่วน AR) และระหว่างข้อผิดพลาดการคาดการณ์ในปัจจุบันและในอดีต (ส่วน MA) หากโมเดลมีส่วน I ที่ไม่เป็นศูนย์ ข้อมูลจะมีความแตกต่างกันเพื่อให้อยู่นิ่ง แบบจำลอง ARIMA พื้นฐานถือว่าอนุกรมเวลาเป็นแบบอยู่กับที่ และอนุกรมเวลาที่อยู่กับที่ไม่มีรูปแบบที่คาดเดาได้ในระยะยาว ความแม่นยำที่ลดลงในการพยากรณ์ระยะยาวสามารถเห็นได้ในช่วงความเชื่อมั่นที่เพิ่มขึ้นของการคาดการณ์ การมีข้อมูลเพิ่มเติมไม่ได้ดีเสมอไปสำหรับการฝึกโมเดล ARIMA: ชุดข้อมูลขนาดใหญ่อาจทำให้การประมาณค่าพารามิเตอร์แบบจำลองของแบบจำลอง ARIMA ใช้เวลานาน รวมทั้งทำให้ความแตกต่างระหว่างกระบวนการจริงกับกระบวนการแบบจำลองเกินจริง
โมเดลการเรียนรู้ของเครื่อง
โมเดลแมชชีนเลิร์นนิงใช้ค่าที่ล้าหลังเป็นคอลัมน์ตัวทำนาย และไม่สนใจโครงสร้างชั่วคราวระหว่างคอลัมน์เป้าหมายและคอลัมน์ตัวทำนาย โมเดลการเรียนรู้ของเครื่องยังสามารถระบุรูปแบบระยะยาวและจุดเปลี่ยนในข้อมูลได้ โดยต้องมีข้อมูลเพียงพอในข้อมูลการฝึกอบรมเพื่อสร้างรูปแบบเหล่านี้ โดยทั่วไป ยิ่งข้อมูลแสดงความผิดปกติมากเท่าใด ก็ยิ่งจำเป็นต้องมีข้อมูลมากขึ้นสำหรับการฝึกโมเดล เมื่อคุณใช้แบบจำลองแมชชีนเลิร์นนิง ขอแนะนำให้สร้างแบบจำลองส่วนที่เหลือ มิฉะนั้น คุณอาจสร้างแบบจำลองที่ซับซ้อนกว่าแบบจำลองการสลายตัวแบบคลาสสิก แต่ที่จริงแล้วไม่ได้เรียนรู้อะไรใหม่นอกเหนือจากนั้น!
เคล็ดลับในการเลือกรุ่น
ประการแรก ปรากฏการณ์บางอย่างคาดการณ์ได้ยาก และในกรณีเช่นนี้ มักจะเหมาะสมที่จะเลือกใช้แบบจำลองที่ง่ายกว่าและไม่ลงทุนทรัพยากรในการสร้างแบบจำลองบางอย่างที่ไม่สามารถคาดการณ์ได้อย่างแม่นยำ
ประการที่สอง ประสิทธิภาพของโมเดลไม่ใช่เกณฑ์เพียงอย่างเดียว หากการตัดสินใจที่สำคัญขึ้นอยู่กับผลลัพธ์ของแบบจำลอง ความสามารถในการตีความได้อาจมีความสำคัญมากกว่าประสิทธิภาพที่ดีขึ้นเล็กน้อย ที่กล่าวว่าโครงข่ายประสาทเทียมอาจสูญเสียเมื่อเทียบกับแบบจำลองการสลายตัวแบบคลาสสิก แม้ว่าจะคาดการณ์ได้ดีกว่าเล็กน้อย
ประการที่สาม การเพิ่มตัวแปรอธิบายให้กับแบบจำลองของคุณอาจช่วยปรับปรุงความแม่นยำในการคาดการณ์ อย่างไรก็ตาม ในแบบจำลองดังกล่าว จำเป็นต้องมีการคาดการณ์ตัวแปรอธิบายด้วย และความซับซ้อนที่เพิ่มขึ้นของแบบจำลองนั้นไม่คุ้มกับความแม่นยำที่ดีกว่าเสมอไป บางครั้งการประมาณการคร่าวๆ ก็เพียงพอแล้วที่จะสนับสนุนการตัดสินใจ: หากจำนวนการจัดส่งคำนวณเป็นหลักสิบและหลายร้อย ความต้องการที่คาดการณ์ก็ไม่จำเป็นต้องมีความละเอียดมากขึ้นเช่นกัน
การประเมินแบบจำลอง
หลังจากฝึกโมเดลแล้ว ขั้นตอนต่อไปคือการประเมิน สำหรับการพยากรณ์ในตัวอย่าง ชุดทดสอบคือชุดการฝึก ดังนั้นกระบวนการของแบบจำลองจึงเหมาะสมกับข้อมูลที่ใช้สำหรับการฝึกโมเดล สำหรับการคาดการณ์ที่ไม่อยู่ในกลุ่มตัวอย่าง ชุดทดสอบจะอยู่ต่อจากชุดการฝึกในเวลา
ตัววัดข้อผิดพลาดที่แนะนำสำหรับการประเมินแบบจำลองอนุกรมเวลาคือค่าความผิดพลาดเปอร์เซ็นต์สัมบูรณ์เฉลี่ย (แผนที่) เนื่องจากแสดงข้อผิดพลาดในระดับสากล เป็นเปอร์เซ็นต์ของค่าจริง อย่างไรก็ตาม หากค่าจริงเป็นศูนย์ เมตริกนี้จะไม่ได้กำหนดไว้ และเมตริกข้อผิดพลาดอื่นๆ เช่น ค่าเฉลี่ยรูทข้อผิดพลาดกำลังสอง (RMSE), จะทำ. แต่ที่มักแนะนำคือห้ามใช้ R-กำลังสอง. เมตริก R-squared ไม่เหมาะกับบริบทของการวิเคราะห์อนุกรมเวลา เนื่องจากโฟกัสอยู่ที่การคาดการณ์ความแปรปรวนอย่างเป็นระบบในอนาคตของคอลัมน์เป้าหมาย แทนที่จะสร้างแบบจำลองความแปรปรวนทั้งหมดในอดีต
การพยากรณ์และการสร้างอนุกรมเวลาขึ้นใหม่
เราเกือบจะอยู่ที่นั่นแล้ว! ขั้นตอนสุดท้ายคือการคาดการณ์ค่าในอนาคตและสร้างสัญญาณใหม่
การพยากรณ์แบบไดนามิก
หากคุณมีแบบจำลองที่ไม่สามารถให้การคาดการณ์ที่แม่นยำในระยะยาวได้ การปรับใช้แบบไดนามิกมักจะปรับปรุงความแม่นยำของการคาดการณ์ที่ไม่อยู่ในตัวอย่าง ในการปรับใช้แบบไดนามิก คาดการณ์เพียงจุดเดียวในอนาคตในแต่ละครั้ง และข้อมูลในอดีตจะได้รับการอัปเดตโดยค่าการคาดการณ์นี้เพื่อสร้างการคาดการณ์ครั้งต่อไป (รูปที่ 5)
ฟื้นฟูเทรนด์และฤดูกาล
สุดท้าย หากเราแยกย่อยอนุกรมเวลาก่อนการคาดการณ์ เราจำเป็นต้องคืนค่าแนวโน้มและ/หรือฤดูกาลให้เป็นการคาดการณ์ หากเราปรับฤดูกาลโดยแยกความแตกต่างของข้อมูล เราจะเริ่มสร้างสัญญาณใหม่โดยเพิ่มค่าที่เวลาหน่วงที่เกิดฤดูกาล ตัวอย่างเช่น หากเรามีข้อมูลรายวัน y ซึ่งเราใช้ผลต่างตามฤดูกาลที่เวลาล่าช้า 7 (ฤดูกาลประจำสัปดาห์) การคืนค่าฤดูกาลนี้จะต้องมีการคำนวณต่อไปนี้เป็นค่าการคาดการณ์ yt+1, yt+2, ... , yt+h :
ที่ไหน tเป็นจุดสุดท้ายในข้อมูลการฝึก และ h คือขอบฟ้าพยากรณ์
ในการคืนค่าฤดูกาลที่สอง เราจะทำซ้ำขั้นตอนที่อธิบายไว้ข้างต้นสำหรับอนุกรมเวลาที่คืนค่า หากเราต้องการคืนค่าองค์ประกอบแนวโน้มเป็นอนุกรมเวลา เราจะใช้แบบจำลองการถดถอยที่แสดงถึงแนวโน้มกับอนุกรมเวลาที่กู้คืน
กรอกแอปพลิเคชันอนุกรมเวลาในแพลตฟอร์มการวิเคราะห์
สุดท้าย มาดูวิธีเปลี่ยนขั้นตอนเหล่านี้ให้กลายเป็นการปฏิบัติโดยใช้แพลตฟอร์ม Analytics ของเรา เวิร์กโฟลว์ การเข้าถึงอนุกรมเวลาการแปลงและการสร้างแบบจำลอง (มีอยู่ในฮับ) ในรูปที่ 6 แสดงขั้นตอนตั้งแต่การเข้าถึงไปจนถึงการทำความสะอาด การสำรวจด้วยสายตา การย่อยสลาย และการสร้างแบบจำลองอนุกรมเวลา สำหรับงานเหล่านี้ เราใช้ ส่วนประกอบอนุกรมเวลา ที่สรุปเวิร์กโฟลว์เป็นฟังก์ชันเฉพาะสำหรับอนุกรมเวลา: รวบรวมข้อมูลที่ความละเอียดที่เลือก ดำเนินการสลายแบบคลาสสิก และอื่นๆ
ในตัวอย่างนี้เราใช้ไฟล์ ตัวอย่าง – Superstore ข้อมูลโดย ฉาก. ในการวิเคราะห์ของเรา เรามุ่งเน้นไปที่คำสั่งซื้อผลิตภัณฑ์ทั้งหมดตั้งแต่ปี 2014 ถึง 2017 – รวมทั้งหมด 9994 รายการ เราเริ่มต้นการประมวลผลล่วงหน้าโดยปรับรูปแบบข้อมูลเป็นข้อมูลอนุกรมเวลาโดยการคำนวณยอดขายรวมต่อวัน ขณะนี้ เรามีเพียงหนึ่งค่าต่อวัน แต่บางวันหายไปเนื่องจากไม่มีการส่งคำสั่งซื้อในวันนี้ ดังนั้นเราจึงแนะนำวันเหล่านี้ให้กับอนุกรมเวลาและแทนที่มูลค่าการขายที่ขาดหายไปด้วยค่าคงที่ 0 หลังจากนั้น เราจะรวบรวมข้อมูลในระดับรายเดือน และพิจารณายอดขายเฉลี่ยในแต่ละเดือนในการวิเคราะห์เพิ่มเติม
สำหรับการสำรวจด้วยภาพ เรายังรวบรวมข้อมูลในระดับรายปี และเราพบว่ามีจุดหักเหที่ต้นปี 2015 ตามที่แสดงแผนภาพเส้นทางด้านขวาในรูปที่ 7 แผนภาพเส้นทางด้านซ้ายแสดงฤดูกาลประจำปีในข้อมูล: มีจุดสูงสุดปกติสองจุด ณ สิ้นปีในแต่ละปี และจุดสูงสุดที่ต่ำกว่าเมื่อต้นปีในแต่ละปี เรายังตรวจพบข้อมูลฤดูกาลประจำปีในข้อมูลดังที่แสดงโดยเพิ่มขึ้นอย่างรวดเร็วที่สำคัญที่ความล่าช้า 12 ในพล็อต ACF ทางด้านซ้าย เราแยกอนุกรมเวลาออกเป็นแนวโน้ม ฤดูกาล และค่าคงเหลือ และองค์ประกอบเหล่านี้แสดงในแผนภาพเส้นตรงกลางในรูปที่ 7 พล็อต ACF ทางด้านขวาไม่แสดงความสัมพันธ์อัตโนมัติที่มีนัยสำคัญในชุดข้อมูลที่เหลือ
ต่อไป เราจำลองชุดข้อมูลคงเหลือของยอดขายเฉลี่ยรายเดือนด้วยแบบจำลอง ARIMA หลังจากแยกความแตกต่างที่แล็ก 12 ความยาวของอนุกรมเวลาคือ 36 การสังเกต เรามองหาโมเดลที่ดีที่สุดที่มีส่วนประกอบ Auto ARIMA Learner ที่มีคำสั่งซื้อสูงสุด 4 สำหรับชิ้นส่วน AR และ MA และคำสั่งซื้อสูงสุด 1 สำหรับชิ้นส่วน I โมเดลที่มีประสิทธิภาพดีที่สุดขึ้นอยู่กับ เกณฑ์ข้อมูล Akaike คือ ARIMA (0, 1, 4) และ MAPE ที่เป็นผลลัพธ์ตามการคาดการณ์ในตัวอย่างคือ 1.153
สุดท้าย เราประเมินความถูกต้องของการคาดการณ์ที่ไม่อยู่ในตัวอย่าง เวิร์กโฟลว์ การพยากรณ์และการสร้างอนุกรมเวลาขึ้นใหม่ (มีอยู่ในฮับ) ในรูปที่ 8 แสดงวิธีคาดการณ์ยอดขายรายวันในปี 2017 ตามข้อมูลรายเดือนในปี 2014 ถึง 2016 (การสังเกต 24 ครั้ง) และแบบจำลอง ARIMA ที่ชนะ (0,1,4) โดยใช้การปรับใช้แบบไดนามิก เข้าใกล้. หลังจากนั้น เราสร้างสัญญาณขึ้นใหม่ ในกรณีนี้ คืนค่าแนวโน้มและฤดูกาลประจำปีให้เป็นค่าที่คาดการณ์ (มูลค่าการขายเฉลี่ย 12 เดือน) เราเปรียบเทียบค่าจริงและค่าพยากรณ์ และรับ MAPE ที่ 0.336
สรุป
อนุกรมเวลา ไม่ว่าจะเป็นข้อมูลเซ็นเซอร์ที่แสดงพฤติกรรมของวัตถุขนาดเล็กในระดับนาโนวินาทีหลังระดับนาโนวินาที ข้อมูลเศรษฐกิจมหภาคสำหรับศตวรรษที่ 20 หรือบางอย่างในระหว่างนั้น มีเทคนิคการวิเคราะห์เฉพาะที่ใช้กับขั้นตอนการเข้าถึง การจัดการ และการสร้างแบบจำลอง
ในบทความนี้ เราได้แนะนำคุณเกี่ยวกับพื้นฐานของเทคนิคการวิเคราะห์สำหรับอนุกรมเวลาที่ช่วยให้คุณเริ่มต้นเมื่อคุณทำงานกับข้อมูลอนุกรมเวลา
อ้างอิง
[1] Chambers, John C., Satinder K. Mullick และ Donald D. Smith วิธีการเลือกเทคนิคการพยากรณ์ที่เหมาะสม. มหาวิทยาลัยฮาร์วาร์ด บัณฑิตวิทยาลัยบริหารธุรกิจ พ.ศ. 1971
[2] Hyndman, Rob J. และ George Athanasopoulos การพยากรณ์: หลักการและการปฏิบัติ. โอเท็กซ์, 2018.
ที่มา: https://www.dataversity.net/building-a-time-series-analysis-application/
- แน่นอน
- เพิ่มเติม
- การวิเคราะห์
- การวิเคราะห์
- การใช้งาน
- การใช้งาน
- AR
- บทความ
- รถยนต์
- ข้อมูลพื้นฐานเกี่ยวกับ
- มาตรฐาน
- ที่ดีที่สุด
- เครื่องดื่ม
- ร่างกาย
- กล่อง
- สร้าง
- การก่อสร้าง
- ธุรกิจ
- การทำความสะอาด
- คอลัมน์
- ร่วมกัน
- ส่วนประกอบ
- ความมั่นใจ
- ประเทศ
- ปัจจุบัน
- ข้อมูล
- วัน
- ความต้องการ
- พัฒนาการ
- โรค
- ประมาณการ
- เหตุการณ์
- การออกกำลังกาย
- การสำรวจ
- รูป
- ในที่สุด
- ชื่อจริง
- พอดี
- โฟกัส
- วันศุกร์
- อนาคต
- จีดีพี
- General
- จอร์จ
- ดี
- สำเร็จการศึกษา
- การจัดการ
- ฮาร์วาร์
- มหาวิทยาลัยฮาร์วาร์ด
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- ร้อย
- แยกแยะ
- ภาพ
- การติดเชื้อ
- ข้อมูล
- IT
- กรกฎาคม
- ใหญ่
- นำ
- เรียนรู้
- ผู้เรียน
- การเรียนรู้
- ชั้น
- Line
- นาน
- เรียนรู้เครื่อง
- สำคัญ
- ตลาด
- ตัวชี้วัด
- แบบ
- การสร้างแบบจำลอง
- วันจันทร์
- ข้อมูลรายเดือน
- เดือน
- ย้าย
- เครือข่าย
- เครือข่าย
- ประสาท
- เครือข่ายประสาท
- เครือข่ายประสาทเทียม
- เปิด
- ใบสั่ง
- คำสั่งซื้อ
- อื่นๆ
- แบบแผน
- การปฏิบัติ
- การวางแผน
- เวที
- คำทำนาย
- ผลิตภัณฑ์
- ผลิตภัณฑ์
- โปรโมชั่น
- บันทึก
- ถดถอย
- ความสัมพันธ์
- แหล่งข้อมูล
- ผลสอบ
- ขาย
- ขนาด
- โรงเรียน
- เลือก
- ความรู้สึก
- ชุด
- ชุด
- การส่งสินค้า
- ง่าย
- เล็ก
- สมาร์ท
- ภาพย่อ
- So
- เริ่มต้น
- ข้อความที่เริ่ม
- สถิติ
- สต็อก
- ตลาดหลักทรัพย์
- ส่ง
- ฤดูร้อน
- สนับสนุน
- ฉาก
- เป้า
- ทดสอบ
- ข้อมูลพื้นฐานเกี่ยวกับ
- ก้าวสู่อนาคต
- เวลา
- ด้านบน
- การฝึกอบรม
- การแปลง
- สากล
- มหาวิทยาลัย
- ความคุ้มค่า
- นาฬิกา
- สัปดาห์
- รายสัปดาห์
- ความหมายของ
- วิกิพีเดีย
- ภายใน
- งาน
- เวิร์กโฟลว์
- การออกกำลังกาย
- คุ้มค่า
- ปี
- ปี
- เป็นศูนย์