การสร้างแอปพลิเคชันการวิเคราะห์อนุกรมเวลา

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

คลิกเพื่อดูข้อมูลเพิ่มเติมเกี่ยวกับผู้เขียน มาริต วิดมันน์.

แอปพลิเคชันการวิเคราะห์อนุกรมเวลาที่สมบูรณ์ครอบคลุมขั้นตอนใน a ข้อมูลวิทยาศาสตร์ วงจรจากการเข้าถึงสู่การเปลี่ยนแปลง การสร้างแบบจำลอง การประเมิน และการปรับใช้ข้อมูลอนุกรมเวลา อย่างไรก็ตาม สำหรับข้อมูลอนุกรมเวลา งานเฉพาะในขั้นตอนเหล่านี้จะแตกต่างกันเมื่อเปรียบเทียบกับข้อมูลแบบตัดขวาง ตัวอย่างเช่น ข้อมูลตัดขวางจะถูกรวบรวมเป็นสแน็ปช็อตของวัตถุหนึ่งชิ้น ณ จุดหนึ่ง ในขณะที่ข้อมูลอนุกรมเวลาจะถูกรวบรวมโดยการสังเกตวัตถุเดียวกันในช่วงเวลาหนึ่ง รูปแบบปกติในข้อมูลอนุกรมเวลามีคำศัพท์เฉพาะ และกำหนดการประมวลผลล่วงหน้าที่จำเป็นก่อนที่จะไปยังอนุกรมเวลาของการสร้างแบบจำลอง อนุกรมเวลาสามารถสร้างแบบจำลองด้วยแบบจำลองได้หลายประเภท แต่แบบจำลองอนุกรมเวลาเฉพาะ เช่น แบบจำลอง ARIMA ใช้โครงสร้างชั่วคราวระหว่างการสังเกต

ในบทความนี้ เราจะแนะนำงานทั่วไปในการเดินทางของการสร้างแอปพลิเคชันอนุกรมเวลา สุดท้าย เรานำทฤษฎีไปปฏิบัติโดยการสร้างแอปพลิเคชันตัวอย่างในแพลตฟอร์ม Analytics

การเข้าถึงอนุกรมเวลา

อนุกรมเวลามีแหล่งที่มาและการใช้งานที่หลากหลาย: ข้อมูลยอดขายรายวันสำหรับการคาดการณ์ความต้องการ ข้อมูลเศรษฐกิจมหภาคประจำปีสำหรับการวางแผนทางการเมืองในระยะยาว ข้อมูลเซ็นเซอร์จากนาฬิกาอัจฉริยะสำหรับวิเคราะห์เซสชั่นการออกกำลังกาย และอื่นๆ อีกมากมาย อนุกรมเวลาทั้งหมดนี้แตกต่างกัน ตัวอย่างเช่น ในความละเอียด ความสม่ำเสมอ และความสะอาด: เราสามารถมั่นใจได้ว่าเราจะมีมูลค่า GDP สำหรับประเทศของเราสำหรับปีนี้และสำหรับ 10 ปีข้างหน้าด้วย แต่เราไม่สามารถรับประกันได้ว่า เซ็นเซอร์ของสมาร์ทวอทช์ของเราทำงานได้อย่างเสถียรในทุกการออกกำลังกายและในทุกอุณหภูมิ อาจเป็นไปได้ว่าข้อมูลอนุกรมเวลาไม่พร้อมใช้งานในช่วงเวลาปกติ แต่สามารถรวบรวมได้จากจุดเหตุการณ์สุ่มเท่านั้น เช่น การติดเชื้อโรค หรือการเยี่ยมชมของลูกค้าโดยธรรมชาติ ข้อมูลอนุกรมเวลาประเภทนี้ทั้งหมดมีเหมือนกันคือ ข้อมูลเหล่านี้ถูกรวบรวมจากแหล่งเดียวกันเมื่อเวลาผ่านไป

รูปที่ 1: อนุกรมเวลามีแหล่งที่มาต่างๆ มากมาย ตั้งแต่วัตถุชิ้นเล็กๆ ชิ้นเดียว เช่น กล้ามเนื้อในร่างกายมนุษย์ ไปจนถึงสิ่งที่ใหญ่กว่า เช่น ประเทศต่างๆ สิ่งที่ข้อมูลทั้งหมดมีเหมือนกันคือข้อมูลเหล่านี้ถูกเก็บรวบรวมโดยการสังเกตวัตถุเดียวกันในช่วงเวลาหนึ่ง (ที่มาของภาพ: ไคม์)

อนุกรมเวลาปกติและทำความสะอาด

เมื่อเรามีข้อมูลอนุกรมเวลาแล้ว ขั้นตอนต่อไปคือการเว้นระยะห่างเท่าๆ กันที่ความละเอียดที่เหมาะสม ต่อเนื่อง และสะอาด งานที่จำเป็นขึ้นอยู่กับรูปร่างดั้งเดิมของข้อมูลและของเรา การวิเคราะห์ วัตถุประสงค์. ตัวอย่างเช่น หากเราวางแผนโปรโมตผลิตภัณฑ์หนึ่งสัปดาห์ เราอาจสนใจข้อมูลที่ละเอียดกว่าหากต้องการดูภาพรวมของยอดขายของผลิตภัณฑ์บางรายการ

การเรียงลำดับ

ต้องจัดเรียงอนุกรมเวลาตามเวลา เมื่อคุณแบ่งพาร์ติชั่นข้อมูลออกเป็นชุดการฝึกและการทดสอบ อย่าลืมรักษาโครงสร้างชั่วคราวระหว่างเร็กคอร์ดด้วยการนำข้อมูลจากด้านบน/ด้านล่างมาทดสอบ/ฝึกอบรม หากข้อมูลของคุณมีมากกว่าหนึ่งบันทึกต่อการประทับเวลา คุณจะต้องรวมข้อมูลเหล่านั้นโดยการประทับเวลา ตัวอย่างเช่น เมื่อคุณมีคำสั่งซื้อหลายรายการต่อวันและสนใจยอดขายรายวัน คุณต้องรวมยอดขายในแต่ละวัน นอกจากนี้ หากคุณสนใจอนุกรมเวลาที่ความละเอียดอื่นมากกว่าที่คุณมีอยู่ในข้อมูลในปัจจุบัน (เช่น ยอดขายรายเดือนแทนที่จะเป็นยอดขายรายวัน) คุณสามารถรวมข้อมูลที่ความละเอียดที่ต้องการเพิ่มเติมได้

ค่าที่หายไป

หากไม่มีการประทับเวลาบางรายการ คุณต้องแนะนำให้รู้จักกับอนุกรมเวลาเพื่อให้มีระยะห่างเท่ากัน บางครั้งบันทึกที่ขาดหายไปเป็นส่วนหนึ่งของการเปลี่ยนแปลงของอนุกรมเวลา (เช่น ตลาดหุ้นปิดในวันศุกร์และเปิดในวันจันทร์)

เมื่อคุณแนะนำการประทับเวลาที่ขาดหายไปกับข้อมูล ค่าที่สอดคล้องกันจะหายไปแน่นอน คุณสามารถระบุค่าที่ขาดหายไปเหล่านี้ได้ เช่น การประมาณค่าเชิงเส้นหรือค่าเฉลี่ยเคลื่อนที่ โปรดจำไว้ว่า เทคนิคที่ดีที่สุดสำหรับการใส่ค่าที่หายไปนั้นขึ้นอยู่กับไดนามิกปกติในข้อมูล ตัวอย่างเช่น หากคุณตรวจสอบฤดูกาลรายสัปดาห์ในข้อมูลรายวัน และค่าในวันเสาร์หนึ่งหายไป ค่าของวันเสาร์ที่แล้วน่าจะเป็นการแทนที่ที่ดีที่สุด หากค่าที่หายไปไม่หายไปโดยการสุ่ม เช่น ราคาปิดของตลาดหุ้นที่ขาดหายไปในช่วงสุดสัปดาห์ คุณสามารถแทนที่ด้วยค่าคงที่ซึ่งจะเป็น 0 ในกรณีนี้ ในทางกลับกัน หากค่าที่หายไปเป็นค่าสุ่มและเกิดขึ้นในอดีตมากพอ คุณสามารถใช้ข้อมูลหลังค่าที่หายไป และละเว้นข้อมูลที่เก่ากว่า

รูปแบบที่ผิดปกติ

วิธีหนึ่งที่ดีในการจัดการความผันผวนอย่างรวดเร็วและค่าผิดปกติคือทำให้ข้อมูลราบรื่น ใช้ได้หลายเทคนิค เช่น ค่าเฉลี่ยการเคลื่อนที่ และ การปรับให้เรียบแบบเลขชี้กำลัง. นอกจากนี้ การตัดค่าที่อยู่นอกหนวดของพล็อตกล่องจะทำให้ข้อมูลราบรื่น พึงระลึกไว้เสมอว่าฤดูกาลที่เข้มข้นของข้อมูลอาจนำไปสู่การลงจุดแบบกล่องที่แพร่หลาย จากนั้นจึงควรใช้การลงจุดแบบกล่องแบบมีเงื่อนไขเพื่อตรวจหาค่าผิดปกติ

อย่างไรก็ตาม บางครั้งอนุกรมเวลาก็แสดงปรากฏการณ์ที่ผิดปกติอย่างมาก! ในกรณีเช่นนี้ คุณสามารถพยายามทำให้อนุกรมเวลาเป็นปกติมากขึ้นโดยแยกส่วนย่อยของอนุกรมนั้นออก ตัวอย่างเช่น โดยพิจารณาเฉพาะยอดขายของผลิตภัณฑ์เดียวแทนการขายของซูเปอร์มาร์เก็ตทั้งหมด หรือโดยการจัดกลุ่มข้อมูล

รูปที่ 2: การปรับรูปร่างข้อมูลใหม่ การจัดการค่าที่หายไปและค่าผิดปกติ และการดึงข้อมูลชุดย่อยเป็นตัวอย่างของการทำความสะอาดและการปรับอนุกรมเวลาให้เป็นมาตรฐาน ก่อนที่จะไปยังขั้นตอนเพิ่มเติมในการวิเคราะห์อนุกรมเวลา (ที่มาของภาพ: KNIME)

สำรวจและเปลี่ยนแปลงอนุกรมเวลา

ณ จุดนี้ เรามีข้อมูลอนุกรมเวลาในรูปทรงที่เหมาะสำหรับการสำรวจด้วยภาพและตัวเลข โครงเรื่องและสถิติต่างๆ เผยให้เห็นรูปแบบระยะยาวและระยะสั้น และความสัมพันธ์ทางโลกในอนุกรมเวลาที่เราสามารถใช้เพื่อให้เข้าใจถึงพลวัตของมันได้ดีขึ้น และคาดการณ์การพัฒนาในอนาคต

การสำรวจด้วยสายตาของอนุกรมเวลา

พล็อตพื้นฐานสำหรับการสำรวจอนุกรมเวลาคือ พล็อตเส้นตรง (รูปที่ 3) ที่แสดงทิศทางที่เป็นไปได้ ความผันผวนปกติและไม่สม่ำเสมอ ค่าผิดปกติ ช่องว่าง หรือจุดเปลี่ยนในอนุกรมเวลา หากคุณสังเกตรูปแบบปกติในอนุกรมเวลาของคุณ เช่น ฤดูกาลประจำปีในการขายเครื่องดื่ม คุณสามารถตรวจสอบแต่ละรอบตามฤดูกาล (ปี) แยกกันในแปลงตามฤดูกาล (รูปที่ 3) ในแผนภาพตามฤดูกาล คุณสามารถเห็นได้ง่าย ๆ เช่น หากเดือนกรกฎาคมเป็นเดือนที่มียอดขายแข็งแกร่งกว่าปีที่แล้ว หรือหากยอดขายรายเดือนเพิ่มขึ้นทุกปี

หากคุณสนใจในสิ่งที่เกิดขึ้นภายในฤดูกาล เช่น ยอดขายเฉลี่ยในเดือนฤดูร้อนคือเท่าใด และยอดขายแตกต่างกันไปในแต่ละเดือนไปในทิศทางใด คุณสามารถตรวจสอบไดนามิกเหล่านี้ได้ในกล่องพล็อตแบบมีเงื่อนไข (รูป) 3). พล็อตที่มีประโยชน์อีกประการหนึ่งสำหรับการสำรวจอนุกรมเวลาคือ พล็อตความล่าช้า (รูปที่ 3) พล็อตความล่าช้าจะแสดงความสัมพันธ์ระหว่างค่าปัจจุบันและค่าในอดีต เช่น ยอดขายวันนี้และสัปดาห์ของยอดขายก่อนหน้า

การสลายตัวแบบคลาสสิกของอนุกรมเวลา

การสลายตัวแบบคลาสสิก กล่าวคือ การแบ่งอนุกรมเวลาออกเป็นแนวโน้ม ฤดูกาล และส่วนที่เหลือ เป็นเกณฑ์มาตรฐานที่ดีสำหรับการคาดการณ์ ส่วนที่เหลือของอนุกรมเวลา เศษที่เหลือ ควรจะเป็น หยุดนิ่งและสามารถคาดการณ์ได้ด้วยโมเดล ARIMA เป็นต้น อย่างไรก็ตาม โปรดจำไว้ว่า หากอนุกรมที่เหลือไม่อยู่กับที่ อาจจำเป็นต้องมีการแปลงเพิ่มเติมบางอย่าง เช่น ความแตกต่างของลำดับแรก หรือการแปลงบันทึกของอนุกรมเวลาดั้งเดิม

ประการแรก หากอนุกรมเวลาแสดงทิศทาง แนวโน้ม อนุกรมเวลาสามารถป้องกันได้ ตัวอย่างเช่น โดยการปรับแบบจำลองการถดถอยผ่านข้อมูล หรือโดยการคำนวณมูลค่าเฉลี่ยเคลื่อนที่

ประการที่สอง หากอนุกรมเวลาแสดงความผันผวนตามปกติ – ฤดูกาล – อนุกรมเวลาสามารถปรับเปลี่ยนได้ คุณสามารถค้นหาความล่าช้าที่ฤดูกาลหลักเกิดขึ้นในแผนภาพความสัมพันธ์อัตโนมัติของอนุกรมเวลา ตัวอย่างเช่น หากคุณสังเกตเห็นจุดสูงสุดที่ lag 7 และคุณมีข้อมูลรายวัน ข้อมูลนั้นจะมีฤดูกาลประจำสัปดาห์ ฤดูกาลสามารถปรับเปลี่ยนได้โดยแยกความแตกต่างของข้อมูลที่ล่าช้าซึ่งมีการเพิ่มขึ้นอย่างรวดเร็ว หากคุณต้องการปรับฤดูกาลที่สองในข้อมูล คุณสามารถทำได้โดยทำซ้ำขั้นตอนสำหรับอนุกรมเวลาที่ปรับแล้ว (ต่างกัน)

สุดท้าย เมื่อคุณถึงอนุกรมเวลาที่อยู่กับที่ซึ่งพร้อมที่จะสร้างแบบจำลอง เช่น โมเดล ARIMA คุณสามารถตรวจสอบขั้นสุดท้ายได้ เช่น การทดสอบ Ljung-box เพื่อความนิ่ง

รูปที่ 3: พล็อตล่าช้า พล็อตกล่องเงื่อนไข พล็อตเส้น พล็อตตามฤดูกาล และพล็อตความสัมพันธ์อัตโนมัติมีประโยชน์สำหรับการสำรวจอนุกรมเวลาด้วยสายตา (ที่มาของภาพ: KNIME)

การสร้างแบบจำลองและการประเมินอนุกรมเวลา

ตอนนี้เราไปยังการสร้างแบบจำลองส่วนที่เหลือของอนุกรมเวลาที่มีไดนามิกที่ผิดปกติ เราสามารถทำได้ด้วยโมเดล ARIMA เรียนรู้เครื่อง โมเดล โครงข่ายประสาทเทียม และรูปแบบต่างๆ มากมาย เรามักสร้างแบบจำลองส่วนที่เหลือของอนุกรมเวลาด้วยแบบจำลองเหล่านี้ เนื่องจากเป็นแบบอยู่กับที่ อย่างไรก็ตาม การแยกอนุกรมเวลาไม่จำเป็นเสมอไป เนื่องจากบางรุ่น เช่น โมเดล ARIMA ตามฤดูกาล ยังสามารถทำงานเพื่อสร้างแบบจำลองอนุกรมเวลาที่ไม่อยู่กับที่

ต่อไปนี้ เราจะรวบรวมคุณสมบัติบางประการของเทคนิคการสร้างแบบจำลองที่แตกต่างกันเหล่านี้ ความเหมือนและความแตกต่าง เพื่อให้คุณสามารถเลือกสิ่งที่ดีที่สุดสำหรับกรณีการใช้งานของคุณ จำไว้ด้วยว่าการฝึกโมเดลหลายๆ รุ่น หรือแม้แต่สร้างทั้งชุดก็มีประโยชน์!

โมเดล ARIMA

อาริมะ แบบจำลอง (Autoregressive Integrated Moving Average) เป็นแบบจำลองการถดถอยเชิงเส้นระหว่างค่าปัจจุบันและในอดีต (ส่วน AR) และระหว่างข้อผิดพลาดการคาดการณ์ในปัจจุบันและในอดีต (ส่วน MA) หากโมเดลมีส่วน I ที่ไม่เป็นศูนย์ ข้อมูลจะมีความแตกต่างกันเพื่อให้อยู่นิ่ง แบบจำลอง ARIMA พื้นฐานถือว่าอนุกรมเวลาเป็นแบบอยู่กับที่ และอนุกรมเวลาที่อยู่กับที่ไม่มีรูปแบบที่คาดเดาได้ในระยะยาว ความแม่นยำที่ลดลงในการพยากรณ์ระยะยาวสามารถเห็นได้ในช่วงความเชื่อมั่นที่เพิ่มขึ้นของการคาดการณ์ การมีข้อมูลเพิ่มเติมไม่ได้ดีเสมอไปสำหรับการฝึกโมเดล ARIMA: ชุดข้อมูลขนาดใหญ่อาจทำให้การประมาณค่าพารามิเตอร์แบบจำลองของแบบจำลอง ARIMA ใช้เวลานาน รวมทั้งทำให้ความแตกต่างระหว่างกระบวนการจริงกับกระบวนการแบบจำลองเกินจริง

โมเดลการเรียนรู้ของเครื่อง

โมเดลแมชชีนเลิร์นนิงใช้ค่าที่ล้าหลังเป็นคอลัมน์ตัวทำนาย และไม่สนใจโครงสร้างชั่วคราวระหว่างคอลัมน์เป้าหมายและคอลัมน์ตัวทำนาย โมเดลการเรียนรู้ของเครื่องยังสามารถระบุรูปแบบระยะยาวและจุดเปลี่ยนในข้อมูลได้ โดยต้องมีข้อมูลเพียงพอในข้อมูลการฝึกอบรมเพื่อสร้างรูปแบบเหล่านี้ โดยทั่วไป ยิ่งข้อมูลแสดงความผิดปกติมากเท่าใด ก็ยิ่งจำเป็นต้องมีข้อมูลมากขึ้นสำหรับการฝึกโมเดล เมื่อคุณใช้แบบจำลองแมชชีนเลิร์นนิง ขอแนะนำให้สร้างแบบจำลองส่วนที่เหลือ มิฉะนั้น คุณอาจสร้างแบบจำลองที่ซับซ้อนกว่าแบบจำลองการสลายตัวแบบคลาสสิก แต่ที่จริงแล้วไม่ได้เรียนรู้อะไรใหม่นอกเหนือจากนั้น!

เคล็ดลับในการเลือกรุ่น

ประการแรก ปรากฏการณ์บางอย่างคาดการณ์ได้ยาก และในกรณีเช่นนี้ มักจะเหมาะสมที่จะเลือกใช้แบบจำลองที่ง่ายกว่าและไม่ลงทุนทรัพยากรในการสร้างแบบจำลองบางอย่างที่ไม่สามารถคาดการณ์ได้อย่างแม่นยำ

ประการที่สอง ประสิทธิภาพของโมเดลไม่ใช่เกณฑ์เพียงอย่างเดียว หากการตัดสินใจที่สำคัญขึ้นอยู่กับผลลัพธ์ของแบบจำลอง ความสามารถในการตีความได้อาจมีความสำคัญมากกว่าประสิทธิภาพที่ดีขึ้นเล็กน้อย ที่กล่าวว่าโครงข่ายประสาทเทียมอาจสูญเสียเมื่อเทียบกับแบบจำลองการสลายตัวแบบคลาสสิก แม้ว่าจะคาดการณ์ได้ดีกว่าเล็กน้อย

ประการที่สาม การเพิ่มตัวแปรอธิบายให้กับแบบจำลองของคุณอาจช่วยปรับปรุงความแม่นยำในการคาดการณ์ อย่างไรก็ตาม ในแบบจำลองดังกล่าว จำเป็นต้องมีการคาดการณ์ตัวแปรอธิบายด้วย และความซับซ้อนที่เพิ่มขึ้นของแบบจำลองนั้นไม่คุ้มกับความแม่นยำที่ดีกว่าเสมอไป บางครั้งการประมาณการคร่าวๆ ก็เพียงพอแล้วที่จะสนับสนุนการตัดสินใจ: หากจำนวนการจัดส่งคำนวณเป็นหลักสิบและหลายร้อย ความต้องการที่คาดการณ์ก็ไม่จำเป็นต้องมีความละเอียดมากขึ้นเช่นกัน

รูปที่ 4: ข้อมูลที่มีอยู่ การสุ่มข้อมูล ขอบฟ้าการคาดการณ์ และวัตถุประสงค์ของแบบจำลองและความสามารถในการตีความจะกำหนดรูปแบบที่เลือก พล็อตเส้นที่มุมบนซ้ายแสดงความแม่นยำในการคาดการณ์ของแบบจำลอง LSTM ที่ฝึกด้วยข้อมูลการฝึกขนาดเล็ก แผนภาพเส้นตรงที่มุมล่างซ้ายแสดงกระบวนการสุ่มทั้งหมด รวมถึงจุดเปลี่ยนในข้อมูล พล็อตเส้นทางด้านขวาแสดงการพัฒนาอนุกรมเวลาที่ตามหลังกระบวนการ ARIMA (2,1,1) (ที่มาของภาพ: KNIME)

การประเมินแบบจำลอง

หลังจากฝึกโมเดลแล้ว ขั้นตอนต่อไปคือการประเมิน สำหรับการพยากรณ์ในตัวอย่าง ชุดทดสอบคือชุดการฝึก ดังนั้นกระบวนการของแบบจำลองจึงเหมาะสมกับข้อมูลที่ใช้สำหรับการฝึกโมเดล สำหรับการคาดการณ์ที่ไม่อยู่ในกลุ่มตัวอย่าง ชุดทดสอบจะอยู่ต่อจากชุดการฝึกในเวลา

ตัววัดข้อผิดพลาดที่แนะนำสำหรับการประเมินแบบจำลองอนุกรมเวลาคือค่าความผิดพลาดเปอร์เซ็นต์สัมบูรณ์เฉลี่ย (แผนที่) เนื่องจากแสดงข้อผิดพลาดในระดับสากล เป็นเปอร์เซ็นต์ของค่าจริง อย่างไรก็ตาม หากค่าจริงเป็นศูนย์ เมตริกนี้จะไม่ได้กำหนดไว้ และเมตริกข้อผิดพลาดอื่นๆ เช่น ค่าเฉลี่ยรูทข้อผิดพลาดกำลังสอง (RMSE), จะทำ. แต่ที่มักแนะนำคือห้ามใช้ R-กำลังสอง. เมตริก R-squared ไม่เหมาะกับบริบทของการวิเคราะห์อนุกรมเวลา เนื่องจากโฟกัสอยู่ที่การคาดการณ์ความแปรปรวนอย่างเป็นระบบในอนาคตของคอลัมน์เป้าหมาย แทนที่จะสร้างแบบจำลองความแปรปรวนทั้งหมดในอดีต

การพยากรณ์และการสร้างอนุกรมเวลาขึ้นใหม่

เราเกือบจะอยู่ที่นั่นแล้ว! ขั้นตอนสุดท้ายคือการคาดการณ์ค่าในอนาคตและสร้างสัญญาณใหม่

การพยากรณ์แบบไดนามิก

หากคุณมีแบบจำลองที่ไม่สามารถให้การคาดการณ์ที่แม่นยำในระยะยาวได้ การปรับใช้แบบไดนามิกมักจะปรับปรุงความแม่นยำของการคาดการณ์ที่ไม่อยู่ในตัวอย่าง ในการปรับใช้แบบไดนามิก คาดการณ์เพียงจุดเดียวในอนาคตในแต่ละครั้ง และข้อมูลในอดีตจะได้รับการอัปเดตโดยค่าการคาดการณ์นี้เพื่อสร้างการคาดการณ์ครั้งต่อไป (รูปที่ 5)

รูปที่ 5: ในการปรับใช้แบบไดนามิก เพียงหนึ่งการคาดการณ์จะถูกสร้างขึ้นในแต่ละครั้ง และการคาดการณ์นี้จะถูกเพิ่มไปยังข้อมูลในอดีตที่ใช้ในการสร้างการคาดการณ์ถัดไปในช่วงเวลาหนึ่งในอนาคต (ที่มาของภาพ: KNIME)

ฟื้นฟูเทรนด์และฤดูกาล

สุดท้าย หากเราแยกย่อยอนุกรมเวลาก่อนการคาดการณ์ เราจำเป็นต้องคืนค่าแนวโน้มและ/หรือฤดูกาลให้เป็นการคาดการณ์ หากเราปรับฤดูกาลโดยแยกความแตกต่างของข้อมูล เราจะเริ่มสร้างสัญญาณใหม่โดยเพิ่มค่าที่เวลาหน่วงที่เกิดฤดูกาล ตัวอย่างเช่น หากเรามีข้อมูลรายวัน y ซึ่งเราใช้ผลต่างตามฤดูกาลที่เวลาล่าช้า 7 (ฤดูกาลประจำสัปดาห์) การคืนค่าฤดูกาลนี้จะต้องมีการคำนวณต่อไปนี้เป็นค่าการคาดการณ์ y_t₊₁, y_t₊₂, ... , y_t_+h :

ที่ไหน tเป็นจุดสุดท้ายในข้อมูลการฝึก และ h คือขอบฟ้าพยากรณ์

ในการคืนค่าฤดูกาลที่สอง เราจะทำซ้ำขั้นตอนที่อธิบายไว้ข้างต้นสำหรับอนุกรมเวลาที่คืนค่า หากเราต้องการคืนค่าองค์ประกอบแนวโน้มเป็นอนุกรมเวลา เราจะใช้แบบจำลองการถดถอยที่แสดงถึงแนวโน้มกับอนุกรมเวลาที่กู้คืน

กรอกแอปพลิเคชันอนุกรมเวลาในแพลตฟอร์มการวิเคราะห์

สุดท้าย มาดูวิธีเปลี่ยนขั้นตอนเหล่านี้ให้กลายเป็นการปฏิบัติโดยใช้แพลตฟอร์ม Analytics ของเรา เวิร์กโฟลว์ การเข้าถึงอนุกรมเวลาการแปลงและการสร้างแบบจำลอง (มีอยู่ในฮับ) ในรูปที่ 6 แสดงขั้นตอนตั้งแต่การเข้าถึงไปจนถึงการทำความสะอาด การสำรวจด้วยสายตา การย่อยสลาย และการสร้างแบบจำลองอนุกรมเวลา สำหรับงานเหล่านี้ เราใช้ ส่วนประกอบอนุกรมเวลา ที่สรุปเวิร์กโฟลว์เป็นฟังก์ชันเฉพาะสำหรับอนุกรมเวลา: รวบรวมข้อมูลที่ความละเอียดที่เลือก ดำเนินการสลายแบบคลาสสิก และอื่นๆ

รูปที่ 6: ขั้นตอนแรกในการวิเคราะห์อนุกรมเวลา: การเข้าถึง การเปลี่ยนแปลง การทำความสะอาด การสำรวจด้วยสายตา และการสร้างแบบจำลองอนุกรมเวลา เวิร์กโฟลว์ Accessing Transforming and Modeling Time Series มีอยู่ในฮับ (ที่มาของภาพ: KNIME)

ในตัวอย่างนี้เราใช้ไฟล์ ตัวอย่าง – Superstore ข้อมูลโดย ฉาก. ในการวิเคราะห์ของเรา เรามุ่งเน้นไปที่คำสั่งซื้อผลิตภัณฑ์ทั้งหมดตั้งแต่ปี 2014 ถึง 2017 – รวมทั้งหมด 9994 รายการ เราเริ่มต้นการประมวลผลล่วงหน้าโดยปรับรูปแบบข้อมูลเป็นข้อมูลอนุกรมเวลาโดยการคำนวณยอดขายรวมต่อวัน ขณะนี้ เรามีเพียงหนึ่งค่าต่อวัน แต่บางวันหายไปเนื่องจากไม่มีการส่งคำสั่งซื้อในวันนี้ ดังนั้นเราจึงแนะนำวันเหล่านี้ให้กับอนุกรมเวลาและแทนที่มูลค่าการขายที่ขาดหายไปด้วยค่าคงที่ 0 หลังจากนั้น เราจะรวบรวมข้อมูลในระดับรายเดือน และพิจารณายอดขายเฉลี่ยในแต่ละเดือนในการวิเคราะห์เพิ่มเติม

สำหรับการสำรวจด้วยภาพ เรายังรวบรวมข้อมูลในระดับรายปี และเราพบว่ามีจุดหักเหที่ต้นปี 2015 ตามที่แสดงแผนภาพเส้นทางด้านขวาในรูปที่ 7 แผนภาพเส้นทางด้านซ้ายแสดงฤดูกาลประจำปีในข้อมูล: มีจุดสูงสุดปกติสองจุด ณ สิ้นปีในแต่ละปี และจุดสูงสุดที่ต่ำกว่าเมื่อต้นปีในแต่ละปี เรายังตรวจพบข้อมูลฤดูกาลประจำปีในข้อมูลดังที่แสดงโดยเพิ่มขึ้นอย่างรวดเร็วที่สำคัญที่ความล่าช้า 12 ในพล็อต ACF ทางด้านซ้าย เราแยกอนุกรมเวลาออกเป็นแนวโน้ม ฤดูกาล และค่าคงเหลือ และองค์ประกอบเหล่านี้แสดงในแผนภาพเส้นตรงกลางในรูปที่ 7 พล็อต ACF ทางด้านขวาไม่แสดงความสัมพันธ์อัตโนมัติที่มีนัยสำคัญในชุดข้อมูลที่เหลือ

รูปที่ 7: แผนภาพเส้นแสดงฤดูกาลประจำปีและจุดเปลี่ยน แผนภาพ ACF แสดงฤดูกาลประจำปีในข้อมูลรายเดือนและความคงที่ในชุดข้อมูลคงเหลือ และแผนภาพเส้นแสดงแนวโน้ม ฤดูกาล และส่วนประกอบที่เหลือของอนุกรมเวลาที่สลายตัว (ที่มาของภาพ: KNIME)

ต่อไป เราจำลองชุดข้อมูลคงเหลือของยอดขายเฉลี่ยรายเดือนด้วยแบบจำลอง ARIMA หลังจากแยกความแตกต่างที่แล็ก 12 ความยาวของอนุกรมเวลาคือ 36 การสังเกต เรามองหาโมเดลที่ดีที่สุดที่มีส่วนประกอบ Auto ARIMA Learner ที่มีคำสั่งซื้อสูงสุด 4 สำหรับชิ้นส่วน AR และ MA และคำสั่งซื้อสูงสุด 1 สำหรับชิ้นส่วน I โมเดลที่มีประสิทธิภาพดีที่สุดขึ้นอยู่กับ เกณฑ์ข้อมูล Akaike คือ ARIMA (0, 1, 4) และ MAPE ที่เป็นผลลัพธ์ตามการคาดการณ์ในตัวอย่างคือ 1.153

สุดท้าย เราประเมินความถูกต้องของการคาดการณ์ที่ไม่อยู่ในตัวอย่าง เวิร์กโฟลว์ การพยากรณ์และการสร้างอนุกรมเวลาขึ้นใหม่ (มีอยู่ในฮับ) ในรูปที่ 8 แสดงวิธีคาดการณ์ยอดขายรายวันในปี 2017 ตามข้อมูลรายเดือนในปี 2014 ถึง 2016 (การสังเกต 24 ครั้ง) และแบบจำลอง ARIMA ที่ชนะ (0,1,4) โดยใช้การปรับใช้แบบไดนามิก เข้าใกล้. หลังจากนั้น เราสร้างสัญญาณขึ้นใหม่ ในกรณีนี้ คืนค่าแนวโน้มและฤดูกาลประจำปีให้เป็นค่าที่คาดการณ์ (มูลค่าการขายเฉลี่ย 12 เดือน) เราเปรียบเทียบค่าจริงและค่าพยากรณ์ และรับ MAPE ที่ 0.336

รูปที่ 8: เวิร์กโฟลว์เพื่อคาดการณ์ยอดขายเฉลี่ยรายเดือนในปี 2017 โดยแบบจำลอง ARIMA (0,1,4) โดยใช้การปรับใช้แบบไดนามิก หลังจากการคาดการณ์ แนวโน้มและฤดูกาลประจำปีจะกลับคืนสู่ยอดคงเหลือของการคาดการณ์ และคำนวณความถูกต้องของการคาดการณ์ ลำดับเวลาการคาดการณ์และการสร้างใหม่ของเวิร์กโฟลว์มีอยู่ในฮับ (ที่มาของภาพ: KNIME)

สรุป

อนุกรมเวลา ไม่ว่าจะเป็นข้อมูลเซ็นเซอร์ที่แสดงพฤติกรรมของวัตถุขนาดเล็กในระดับนาโนวินาทีหลังระดับนาโนวินาที ข้อมูลเศรษฐกิจมหภาคสำหรับศตวรรษที่ 20 หรือบางอย่างในระหว่างนั้น มีเทคนิคการวิเคราะห์เฉพาะที่ใช้กับขั้นตอนการเข้าถึง การจัดการ และการสร้างแบบจำลอง

ในบทความนี้ เราได้แนะนำคุณเกี่ยวกับพื้นฐานของเทคนิคการวิเคราะห์สำหรับอนุกรมเวลาที่ช่วยให้คุณเริ่มต้นเมื่อคุณทำงานกับข้อมูลอนุกรมเวลา

อ้างอิง

[1] Chambers, John C., Satinder K. Mullick และ Donald D. Smith วิธีการเลือกเทคนิคการพยากรณ์ที่เหมาะสม. มหาวิทยาลัยฮาร์วาร์ด บัณฑิตวิทยาลัยบริหารธุรกิจ พ.ศ. 1971

[2] Hyndman, Rob J. และ George Athanasopoulos การพยากรณ์: หลักการและการปฏิบัติ. โอเท็กซ์, 2018.

ที่มา: https://www.dataversity.net/building-a-time-series-analysis-application/

ประทับเวลา: April 9, 2021

ประทับเวลา: ม.ค. 18, 2024

กรณีศึกษา: Cox Automotive แก้ปัญหา Data Drift และ ETL

คลัสเตอร์ต้นทาง:

ข้อมูล

โหนดต้นทาง: 806018

ประทับเวลา: เมษายน 8, 2021

การสาธิตอย่างแม่นยำ: การคิดเชิงกลยุทธ์ – ความสมบูรณ์ของข้อมูลสำหรับข้อมูลหลักของคุณ – DATAVERSITY

คลัสเตอร์ต้นทาง:

ข้อมูล

โหนดต้นทาง: 2683057

ประทับเวลา: May 24, 2023

อาชีพของฉันในข้อมูล ตอนที่ 61: Jatin Solanki ผู้ก่อตั้ง Decube – DATAVERSITY

คลัสเตอร์ต้นทาง:

ข้อมูล

โหนดต้นทาง: 2999869

ประทับเวลา: ธันวาคม 6, 2023

15 ก.พ. การสัมมนาผ่านเว็บ RWDG: การเพิ่มประสิทธิภาพการกำกับดูแลข้อมูลด้วยกรอบงานและแบบจำลองความพร้อม

คลัสเตอร์ต้นทาง:

ข้อมูล

โหนดต้นทาง: 3035266

ประทับเวลา: ธันวาคม 20, 2023

การสร้างแอปพลิเคชันการวิเคราะห์อนุกรมเวลา

เผยแพร่ซ้ำโดยเพลโต

การเข้าถึงอนุกรมเวลา

อนุกรมเวลาปกติและทำความสะอาด

การเรียงลำดับ

ค่าที่หายไป

รูปแบบที่ผิดปกติ

สำรวจและเปลี่ยนแปลงอนุกรมเวลา

การสำรวจด้วยสายตาของอนุกรมเวลา

การสลายตัวแบบคลาสสิกของอนุกรมเวลา

การสร้างแบบจำลองและการประเมินอนุกรมเวลา

โมเดล ARIMA

โมเดลการเรียนรู้ของเครื่อง

เคล็ดลับในการเลือกรุ่น

การประเมินแบบจำลอง

การพยากรณ์และการสร้างอนุกรมเวลาขึ้นใหม่

การพยากรณ์แบบไดนามิก

ฟื้นฟูเทรนด์และฤดูกาล

กรอกแอปพลิเคชันอนุกรมเวลาในแพลตฟอร์มการวิเคราะห์

เพิ่มเติมจาก ข้อมูล

อธิบายสถาปัตยกรรม Zero-Trust – DATAVERSITY

ฐานข้อมูลคีย์-ค่ากระจ่าง – DATAVERSITY

ระบบอัตโนมัติและ AI จะเติมเต็มช่องว่างด้านแรงงานไอทีได้อย่างไร

วิศวกรการเรียนรู้ของเครื่องกับนักวิทยาศาสตร์ข้อมูล – DATAVERSITY

การสาธิตอย่างแม่นยำ: การคิดเชิงกลยุทธ์ – ความสมบูรณ์ของข้อมูลสำหรับข้อมูลหลักของคุณ – DATAVERSITY

อาชีพของฉันในข้อมูล ตอนที่ 61: Jatin Solanki ผู้ก่อตั้ง Decube – DATAVERSITY

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้