ایک ٹائم سیریز تجزیہ ایپلی کیشن کی تعمیر

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

مصنف کے بارے میں مزید جاننے کے لیے کلک کریں۔ ماریٹ وِڈمین۔

ایک مکمل وقت کی سیریز کے تجزیہ کی درخواست a کے مراحل کا احاطہ کرتی ہے۔ ڈیٹا سائنس ٹرانسفارمنگ، ماڈلنگ، تشخیص، اور ٹائم سیریز ڈیٹا کی تعیناتی تک رسائی سے لے کر سائیکل۔ تاہم، ٹائم سیریز ڈیٹا کے لیے ان مراحل میں مخصوص کام کراس سیکشنل ڈیٹا کے مقابلے میں مختلف ہوتے ہیں۔ مثال کے طور پر، کراس سیکشنل ڈیٹا کو ایک وقت میں ایک آبجیکٹ کے سنیپ شاٹ کے طور پر جمع کیا جاتا ہے، جب کہ ٹائم سیریز کا ڈیٹا ایک وقت کے دوران ایک ہی چیز کا مشاہدہ کرکے جمع کیا جاتا ہے۔ ٹائم سیریز کے ڈیٹا میں باقاعدہ پیٹرن کی اپنی مخصوص اصطلاحات ہوتی ہیں، اور وہ ماڈلنگ ٹائم سیریز پر جانے سے پہلے مطلوبہ پری پروسیسنگ کا تعین کرتے ہیں۔ ٹائم سیریز کو کئی قسم کے ماڈلز کے ساتھ ماڈل بنایا جا سکتا ہے، لیکن مخصوص ٹائم سیریز کے ماڈل، جیسے ARIMA ماڈل، مشاہدات کے درمیان عارضی ڈھانچے کا استعمال کرتے ہیں۔

اس مضمون میں، ہم ٹائم سیریز ایپلی کیشن بنانے کے سفر میں سب سے عام کاموں کا تعارف کراتے ہیں۔ آخر میں، ہم تجزیاتی پلیٹ فارم میں ایک مثال ایپلی کیشن بنا کر نظریہ کو عملی جامہ پہناتے ہیں۔

ٹائم سیریز تک رسائی

ٹائم سیریز میں مختلف ذرائع اور ایپلی کیشنز ہیں: ڈیمانڈ کی پیشن گوئی کے لیے روزانہ کی فروخت کا ڈیٹا، طویل مدتی سیاسی منصوبہ بندی کے لیے سالانہ میکرو اکنامک ڈیٹا، ورزش کے سیشن کا تجزیہ کرنے کے لیے اسمارٹ واچ سے سینسر ڈیٹا، اور بہت کچھ۔ یہ تمام ٹائم سیریز مختلف ہیں، مثال کے طور پر، ان کی دانے داریت، باقاعدگی اور صفائی میں: ہم اس بات کا یقین کر سکتے ہیں کہ ہمارے ملک کے لیے اس سال اور اگلے 10 سالوں کے لیے بھی جی ڈی پی کی قدر ہے، لیکن ہم اس بات کی ضمانت نہیں دے سکتے کہ ہماری سمارٹ گھڑی کا سینسر کسی بھی ورزش اور کسی بھی درجہ حرارت پر مستحکم کارکردگی کا مظاہرہ کرتا ہے۔ یہ بھی ہو سکتا ہے کہ ٹائم سیریز کا ڈیٹا باقاعدہ وقفوں پر دستیاب نہ ہو، لیکن اسے صرف بے ترتیب واقعات کے پوائنٹس سے اکٹھا کیا جا سکتا ہے، جیسے کہ بیماری کے انفیکشن یا کسٹمر کے اچانک دورے۔ ان تمام قسم کے ٹائم سیریز ڈیٹا میں جو چیز مشترک ہے، وہ یہ ہے کہ وہ وقت کے ساتھ ساتھ ایک ہی ذریعہ سے جمع کیے جاتے ہیں۔

شکل 1: ٹائم سیریز کے بہت سے مختلف ذرائع ہوتے ہیں، چھوٹی اکیلی اشیاء جیسے کہ انسانی جسم میں پٹھوں سے لے کر بڑی ہستیوں جیسے ممالک تک۔ تمام اعداد و شمار میں جو چیز مشترک ہے وہ یہ ہے کہ وہ وقت کے ساتھ ایک ہی چیز کا مشاہدہ کرکے جمع کیے گئے ہیں۔ (تصویری ماخذ: KNIME)

ریگولرائزنگ اور کلیننگ ٹائم سیریز

ایک بار جب ہمارے پاس ٹائم سیریز کا ڈیٹا ہو جائے تو اگلا مرحلہ یہ ہے کہ اسے ایک مناسب گرانولریٹی، مسلسل اور صاف ستھرا بنا دیا جائے۔ مطلوبہ کاموں کا انحصار ڈیٹا کی اصل شکل پر اور ہمارے تجزیاتی مقصد مثال کے طور پر، اگر ہم کسی پروڈکٹ کی ایک ہفتے کی تشہیر کی منصوبہ بندی کر رہے ہیں، تو ہو سکتا ہے کہ ہم کسی پروڈکٹ کی فروخت کا جائزہ حاصل کرنے کے بجائے زیادہ دانے دار ڈیٹا میں دلچسپی لیں۔

چھانٹ

ٹائم سیریز کو وقت کے حساب سے ترتیب دینے کی ضرورت ہے۔ جب آپ ڈیٹا کو ٹریننگ اور ٹیسٹ سیٹ میں تقسیم کرتے ہیں، تو یاد رکھیں کہ ٹیسٹنگ/ٹریننگ کے لیے اوپر/نیچے سے ڈیٹا لے کر ریکارڈز کے درمیان عارضی ڈھانچہ کو محفوظ رکھیں۔ اگر آپ کے ڈیٹا میں فی ٹائم اسٹیمپ ایک سے زیادہ ریکارڈ ہیں، تو آپ کو ٹائم اسٹیمپ کے حساب سے ان کو جمع کرنے کی ضرورت ہے۔ مثال کے طور پر، جب آپ کے پاس روزانہ ایک سے زیادہ آرڈرز ہوتے ہیں اور آپ روزانہ کی فروخت میں دلچسپی رکھتے ہیں، تو آپ کو ہر دن کی فروخت کا مجموعہ کرنا ہوگا۔ مزید برآں، اگر آپ وقت کی سیریز میں دلچسپی رکھتے ہیں اس کے مقابلے میں جو آپ کے پاس فی الحال ڈیٹا میں ہے (مثال کے طور پر، روزانہ کی فروخت کے بجائے ماہانہ فروخت) آپ ترجیحی گرانولریٹی پر ڈیٹا کو مزید جمع کر سکتے ہیں۔

لاپتہ اقدار

اگر کچھ ٹائم اسٹیمپ غائب ہیں، تو آپ کو انہیں ٹائم سیریز میں متعارف کرانے کی ضرورت ہے تاکہ اسے مساوی فاصلہ بنایا جا سکے۔ بعض اوقات گمشدہ ریکارڈ ٹائم سیریز کی حرکیات کا حصہ ہوتے ہیں (مثال کے طور پر، اسٹاک مارکیٹ جمعہ کو بند ہوتی ہے اور پیر کو کھلتی ہے)۔

جب آپ ڈیٹا میں گم شدہ ٹائم اسٹیمپ متعارف کراتے ہیں، تو یقیناً متعلقہ اقدار غائب ہوتی ہیں۔ آپ ان گمشدہ اقدار کو مثال کے طور پر، لکیری انٹرپولیشن یا حرکت پذیر اوسط قدروں سے لگا سکتے ہیں۔ یاد رکھیں، اگرچہ، گمشدہ اقدار کو شمار کرنے کے لیے بہترین تکنیک کا انحصار ڈیٹا میں باقاعدہ حرکیات پر ہے۔ مثال کے طور پر، اگر آپ روزانہ کے اعداد و شمار میں ہفتہ وار موسم کا معائنہ کرتے ہیں، اور ایک ہفتہ کی قدر غائب ہے، تو آخری ہفتہ کی قدر شاید بہترین متبادل ہے۔ اگر گمشدہ قدریں بے ترتیب طور پر غائب نہیں ہوتی ہیں، جیسے ہفتے کے آخر میں لاپتہ اسٹاک مارکیٹ بند ہونے والی قیمتیں، آپ انہیں ایک مقررہ قدر سے بدل سکتے ہیں، جو اس معاملے میں 0 ہوگی۔ دوسری طرف، اگر گمشدہ قدریں بے ترتیب ہیں اور وہ ماضی میں کافی حد تک واقع ہوئی ہیں، تو آپ گمشدہ قدر کے بعد ڈیٹا استعمال کر سکتے ہیں، اور پرانے ڈیٹا کو نظر انداز کر سکتے ہیں۔

فاسد پیٹرن

تیزی سے اتار چڑھاؤ اور آؤٹ لیرز سے نمٹنے کا ایک اچھا طریقہ ڈیٹا کو ہموار کرنا ہے۔ کئی تکنیکیں استعمال کی جا سکتی ہیں، جیسے موونگ ایوریج اور تیزی سے ہموار کرنا. اس کے علاوہ، باکس پلاٹ کے سرگوشیوں کے باہر موجود اقدار کو کاٹنا ڈیٹا کو ہموار کرتا ہے۔ اس بات کو ذہن میں رکھیں کہ اعداد و شمار میں موسم کی مضبوطی وسیع پیمانے پر باکس پلاٹ کا باعث بن سکتی ہے، اور پھر باہر جانے والوں کا پتہ لگانے کے لیے مشروط باکس پلاٹ کا استعمال کرنا بہتر ہے۔

تاہم، بعض اوقات ٹائم سیریز صرف ایک بہت ہی فاسد رجحان دکھا رہی ہوتی ہے! ایسی صورت میں، آپ اس کے ذیلی سیٹ کو نکال کر ٹائم سیریز کو مزید باقاعدہ بنانے کی کوشش کر سکتے ہیں، مثال کے طور پر، پوری سپر مارکیٹ کی فروخت کے بجائے صرف ایک پروڈکٹ کی فروخت پر غور کر کے، یا ڈیٹا کو کلسٹر کر کے۔

شکل 2: ڈیٹا کو دوبارہ ترتیب دینا، گمشدہ اقدار اور آؤٹ لیرز کو ہینڈل کرنا، اور ڈیٹا کے ذیلی سیٹ کو نکالنا ٹائم سیریز کے مزید مراحل پر جانے سے پہلے ٹائم سیریز کو صاف کرنے اور ریگولرائز کرنے کی مثالیں ہیں۔ (تصویری ماخذ: KNIME)

ایکسپلورنگ اور ٹرانسفارمنگ ٹائم سیریز

اس وقت، ہمارے پاس ہمارے ٹائم سیریز کا ڈیٹا اس شکل میں ہے جو اسے ضعف اور عددی طور پر تلاش کرنے کے لیے موزوں ہے۔ مختلف پلاٹ اور اعدادوشمار ٹائم سیریز میں طویل اور قلیل مدتی نمونوں اور وقتی تعلقات کو ظاہر کرتے ہیں جنہیں ہم اس کی حرکیات کو بہتر طور پر سمجھنے اور اس کی مستقبل کی ترقی کی پیشین گوئی کرنے کے لیے استعمال کر سکتے ہیں۔

ٹائم سیریز کی بصری ریسرچ

ٹائم سیریز کو تلاش کرنے کے لیے بنیادی پلاٹ تھی لائن پلاٹ (شکل 3) ہے جو ٹائم سیریز میں ممکنہ سمت، باقاعدہ اور بے قاعدہ اتار چڑھاو، آؤٹ لیرز، گیپس، یا ٹرننگ پوائنٹس دکھاتا ہے۔ اگر آپ اپنی ٹائم سیریز میں ایک باقاعدہ پیٹرن کا مشاہدہ کرتے ہیں، جیسے مشروبات کی فروخت میں سالانہ موسمی، تو آپ موسمی پلاٹ (شکل 3) میں ہر موسمی دور (سال) کا الگ الگ معائنہ کر سکتے ہیں۔ سیزنل پلاٹ میں آپ آسانی سے دیکھ سکتے ہیں، مثال کے طور پر، اگر جولائی پچھلے سال کے مقابلے اس سال زیادہ سیلز مہینہ تھا، یا اگر ماہانہ سیلز سال بہ سال بڑھ رہی ہے۔

اگر آپ اس بات میں دلچسپی رکھتے ہیں کہ موسموں میں کیا ہوتا ہے، جیسے کہ گرمیوں کے مہینوں میں اوسط فروخت کیا ہوتی ہے اور ہر ماہ فروخت کتنی اور کس سمت میں مختلف ہوتی ہے، تو آپ مشروط باکس پلاٹ میں اس قسم کی حرکیات کا معائنہ کر سکتے ہیں(شکل 3)۔ ٹائم سیریز کی تلاش کے لیے ایک اور مفید پلاٹ وقفہ پلاٹ ہے (شکل 3)۔ وقفہ پلاٹ موجودہ اقدار اور ماضی کی قدروں کے درمیان تعلق کو ظاہر کرتا ہے، مثال کے طور پر، آج کی فروخت اور ہفتے سے پہلے کی فروخت۔

ٹائم سیریز کی کلاسیکی سڑن

کلاسیکی سڑن، یعنی وقت کی سیریز کو اس کے رجحان، موسمی اور بقایا میں گلنا، پیشن گوئی کے لیے ایک اچھا معیار فراہم کرتا ہے۔ ٹائم سیریز کا بقیہ حصہ، بقایا، سمجھا جاتا ہے۔ اسٹیشنری، اور مثال کے طور پر ARIMA ماڈل کے ذریعہ پیش گوئی کی جاسکتی ہے۔ یاد رکھیں، اگرچہ، اگر بقایا سلسلہ ساکن نہیں ہے، تو کچھ اضافی تبدیلیوں کی ضرورت ہو سکتی ہے، جیسے پہلے ترتیب میں فرق، یا اصل وقت کی سیریز کی لاگ تبدیلی۔

سب سے پہلے، اگر ٹائم سیریز ایک سمت، رجحان دکھاتی ہے، تو ٹائم سیریز کو روکا جا سکتا ہے، مثال کے طور پر، ڈیٹا کے ذریعے ریگریشن ماڈل کو فٹ کر کے، یا ایک متحرک اوسط قدر کا حساب لگا کر۔

دوم، اگر ٹائم سیریز ایک باقاعدہ اتار چڑھاؤ دکھاتی ہے – ایک موسمی – ٹائم سیریز کو اس کے لیے ایڈجسٹ کیا جا سکتا ہے۔ آپ اس وقفے کو تلاش کر سکتے ہیں جہاں ٹائم سیریز کے خودکار تعلق پلاٹ میں اہم موسمی پن واقع ہوتا ہے۔ مثال کے طور پر، اگر آپ وقفہ 7 پر چوٹی کا مشاہدہ کرتے ہیں، اور آپ کے پاس روزانہ ڈیٹا ہوتا ہے، تو ڈیٹا میں ہفتہ وار موسمی ہوتا ہے۔ اس وقفے پر جہاں بڑا اضافہ ہوتا ہے وہاں ڈیٹا کو مختلف کر کے موسم کو ایڈجسٹ کیا جا سکتا ہے۔ اگر آپ ڈیٹا میں دوسری سیزنالٹی کو ایڈجسٹ کرنا چاہتے ہیں، تو آپ ایڈجسٹ شدہ (متفرق) ٹائم سیریز کے طریقہ کار کو دہرا کر ایسا کر سکتے ہیں۔

آخر میں، جب آپ ایک اسٹیشنری ٹائم سیریز تک پہنچ چکے ہیں جو مثال کے طور پر ARIMA ماڈل کے ذریعہ تیار کرنے کے لئے تیار ہے، تو آپ اس کے ساتھ حتمی جانچ کر سکتے ہیں، مثال کے طور پر، لجنگ باکس ٹیسٹ اسٹیشنری کے لیے

شکل 3: وقفہ پلاٹ، کنڈیشنل باکس پلاٹ، لائن پلاٹ، سیزنل پلاٹ اور آٹو ریلیشن پلاٹ ٹائم سیریز کو بصری طور پر تلاش کرنے کے لیے مفید ہیں۔ (تصویری ماخذ: KNIME)

ماڈلنگ اور وقت کی سیریز کا اندازہ

اب ہم ٹائم سیریز کے بقایا حصے کی ماڈلنگ کی طرف بڑھتے ہیں جس میں اس کی فاسد حرکیات شامل ہیں۔ ہم یہ ARIMA ماڈلز کے ساتھ کر سکتے ہیں، مشین لرننگ ماڈلز، عصبی نیٹ ورکس، اور ان کے بہت سے تغیرات۔ ہم اکثر ٹائم سیریز کے بقایا حصے کو ان ماڈلز کے ذریعے ماڈل بناتے ہیں، کیونکہ یہ ساکن ہے۔ تاہم، ٹائم سیریز کو گلنا ہمیشہ ضروری نہیں ہوتا ہے، کیونکہ کچھ ماڈلز، مثال کے طور پر موسمی ARIMA ماڈل، نان سٹیشنری ٹائم سیریز کی ماڈلنگ کے لیے بھی کام کرتے ہیں۔

مندرجہ ذیل میں ہم ماڈلنگ کی ان مختلف تکنیکوں کی چند خصوصیات، ان کی مماثلتوں اور اختلافات کو جمع کرتے ہیں، تاکہ آپ اپنے استعمال کے معاملے کے لیے بہترین کو منتخب کر سکیں۔ یہ بھی یاد رکھیں کہ متعدد ماڈلز کو تربیت دینا، اور یہاں تک کہ ان کا ایک جوڑا بنانا بھی مفید ہے!

اریما ماڈلز

اریما۔ (Autoregressive Integrated Moving Average) ماڈل موجودہ اور ماضی کی اقدار (AR-part) اور موجودہ اور ماضی کی پیشن گوئی کی غلطیوں (MA-part) کے درمیان ایک لکیری ریگریشن ماڈل ہے۔ اگر ماڈل میں غیر صفر I-حصہ ہے، تو اسے ساکن بنانے کے لیے ڈیٹا میں فرق ہے۔ بنیادی ARIMA ماڈلز فرض کرتے ہیں کہ ٹائم سیریز سٹیشنری ہے، اور سٹیشنری ٹائم سیریز میں طویل مدتی میں پیش گوئی کے قابل نمونے نہیں ہوتے ہیں۔ طویل مدتی پیشین گوئیوں میں گرتی درستگی پیشین گوئیوں کے بڑھتے ہوئے اعتماد کے وقفوں میں دیکھی جا سکتی ہے۔ ARIMA ماڈلز کی تربیت کے لیے زیادہ ڈیٹا کا ہونا ہمیشہ بہتر نہیں ہوتا: بڑے ڈیٹا سیٹس ARIMA ماڈل کے ماڈل پیرامیٹرز کا تخمینہ لگانے میں وقت لگا سکتے ہیں، اور ساتھ ہی حقیقی عمل اور ماڈل کے عمل کے درمیان فرق کو بڑھا چڑھا کر پیش کر سکتے ہیں۔

مشین لرننگ ماڈلز

مشین لرننگ ماڈلز پیچھے رہ جانے والی اقدار کو پیشین گوئی کرنے والے کالم کے طور پر استعمال کرتے ہیں، اور وہ ہدف کالم اور پیشین گوئی کرنے والے کالموں کے درمیان عارضی ڈھانچے کو نظر انداز کرتے ہیں۔ مشین لرننگ ماڈلز ڈیٹا میں طویل مدتی نمونوں اور ٹرننگ پوائنٹس کی بھی نشاندہی کر سکتے ہیں، بشرطیکہ ان نمونوں کو قائم کرنے کے لیے تربیتی ڈیٹا میں کافی ڈیٹا فراہم کیا جائے۔ عام طور پر، اعداد و شمار میں جتنی زیادہ بے ضابطگیاں ہوتی ہیں، ماڈل کی تربیت کے لیے اتنے ہی زیادہ ڈیٹا کی ضرورت ہوتی ہے۔ جب آپ مشین لرننگ ماڈل لاگو کرتے ہیں، تو یہ تجویز کیا جاتا ہے کہ بقایا ماڈل بنائیں۔ بصورت دیگر، آپ ایک ایسا ماڈل بنا سکتے ہیں جو کلاسیکی سڑنے والے ماڈل سے زیادہ پیچیدہ ہو، لیکن جو حقیقت میں اس کے اوپر کچھ نیا نہیں سیکھ رہا ہو!

ماڈل سلیکشن پر تجاویز

سب سے پہلے، کچھ مظاہر کی پیشن گوئی کرنا مشکل ہے، اور ایسی صورت میں اکثر یہ سمجھ میں آتا ہے کہ ایک آسان ماڈل کی طرف جانا اور کسی ایسی چیز کی ماڈلنگ میں وسائل کی سرمایہ کاری نہ کرنا جس کی درست پیش گوئی نہیں کی جا سکتی۔

دوم، ماڈل کی کارکردگی واحد معیار نہیں ہے۔ اگر اہم فیصلے ماڈل کے نتائج پر مبنی ہیں، تو اس کی تشریح قدرے بہتر کارکردگی سے زیادہ اہم ہو سکتی ہے۔ اس نے کہا، ایک عصبی نیٹ ورک ایک سادہ کلاسیکی سڑن ماڈل کے خلاف ہار سکتا ہے حالانکہ اس کی پیشن گوئی قدرے بہتر ہے۔

سوم، اپنے ماڈل میں وضاحتی متغیرات شامل کرنے سے پیشن گوئی کی درستگی بہتر ہو سکتی ہے۔ تاہم، ایسے ماڈل میں وضاحتی متغیرات کی بھی پیشن گوئی کی ضرورت ہے، اور ماڈل کی بڑھتی ہوئی پیچیدگی ہمیشہ بہتر درستگی کے قابل نہیں ہوتی۔ فیصلوں کی تائید کے لیے بعض اوقات موٹے تخمینے کافی ہوتے ہیں: اگر ترسیل کی مقدار کو دسیوں اور سینکڑوں میں شمار کیا جائے، تو پیشن گوئی کی طلب میں بھی زیادہ گرانولریٹی کی ضرورت نہیں ہے۔

شکل 4: دستیاب ڈیٹا، ڈیٹا کی بے ترتیب پن، پیشین گوئی افق، اور ماڈل کا مقصد اور تشریح بھی اس بات کا تعین کرتی ہے کہ کون سا ماڈل منتخب کیا گیا ہے۔ اوپر بائیں کونے میں لائن پلاٹ چھوٹے تربیتی ڈیٹا کے ساتھ تربیت یافتہ LSTM ماڈل کی پیشن گوئی کی درستگی کو ظاہر کرتا ہے۔ نیچے بائیں کونے میں لائن پلاٹ مکمل طور پر بے ترتیب عمل کے ساتھ ساتھ ڈیٹا میں ایک اہم موڑ بھی دکھاتے ہیں۔ دائیں طرف لائن پلاٹ ایک ٹائم سیریز کی ترقی کو ظاہر کرتا ہے جو ARIMA (2,1,1) کے عمل کی پیروی کرتا ہے۔ (تصویری ماخذ: KNIME)

ماڈل کی تشخیص

ایک ماڈل کو تربیت دینے کے بعد، اگلا مرحلہ اس کا جائزہ لینا ہے۔ نمونہ کے اندر پیشین گوئی کے لیے، ٹیسٹ سیٹ خود ٹریننگ سیٹ ہے، اس لیے ماڈل کے عمل کو اس ڈیٹا پر فٹ کیا جاتا ہے جو ماڈل کی تربیت کے لیے استعمال کیے گئے تھے۔ نمونے سے باہر کی پیشین گوئی کے لیے، ٹیسٹ سیٹ وقت پر طے شدہ تربیت کے بعد ہوتا ہے۔

ٹائم سیریز ماڈل کا اندازہ کرنے کے لیے ایک تجویز کردہ غلطی میٹرک اوسط مطلق فیصد کی خرابی ہے (نقشہ بنائیں)، چونکہ یہ حقیقی قدر کے فیصد کے طور پر، عالمگیر پیمانے میں غلطی فراہم کرتا ہے۔ تاہم، اگر حقیقی قدر صفر ہے، تو اس میٹرک کی وضاحت نہیں کی گئی ہے، اور پھر دیگر ایرر میٹرکس، جیسے کہ روٹ کا مطلب مربع غلطی (RMSE)، کروں گا. جو اکثر تجویز کیا جاتا ہے، اگرچہ، استعمال نہ کرنا ہے۔ آر مربع. R-squared میٹرک ٹائم سیریز کے تجزیہ کے سیاق و سباق میں فٹ نہیں بیٹھتا ہے کیونکہ توجہ ماضی میں تمام تغیرات کو ماڈلنگ کرنے کے بجائے ہدف کے کالم کے مستقبل کے منظم تغیرات کی پیشین گوئی پر مرکوز ہے۔

پیشن گوئی اور تعمیر نو وقت سیریز

ہم تقریبا وہاں ہیں! آخری مرحلہ مستقبل کی اقدار کی پیشن گوئی کرنا اور سگنل کی تشکیل نو کرنا ہے۔

متحرک پیشن گوئی

اگر آپ کے پاس ایسا ماڈل ہے جو طویل مدتی میں درست پیشن گوئی فراہم نہیں کر سکتا، متحرک تعیناتی اکثر نمونہ سے باہر کی پیشن گوئی کی درستگی کو بہتر بناتی ہے۔ متحرک تعیناتی میں، ایک وقت میں مستقبل میں صرف ایک نقطہ کی پیشن گوئی کی جاتی ہے، اور ماضی کے اعداد و شمار کو اس پیشن گوئی کی قدر کے ذریعے اپ ڈیٹ کیا جاتا ہے تاکہ اگلی پیشن گوئی پیدا کی جا سکے (شکل 5)۔

شکل 5: متحرک تعیناتی میں ایک وقت میں صرف ایک پیشن گوئی پیدا کی جاتی ہے، اور یہ پیشن گوئی ماضی کے اعداد و شمار میں شامل کی جاتی ہے جو کہ اگلی پیشن گوئی کو وقت کے ساتھ ساتھ ایک ٹائم پوائنٹ بنانے کے لیے استعمال کیا جاتا ہے۔ (تصویری ماخذ: KNIME)

رجحان اور موسموں کو بحال کرنا

آخر میں، اگر ہم پیشن گوئی کرنے سے پہلے ٹائم سیریز کو تحلیل کرتے ہیں، تو ہمیں رجحان اور/یا موسمی حالات کو پیشین گوئیوں میں بحال کرنے کی ضرورت ہے۔ اگر ہم اعداد و شمار میں فرق کر کے موسمییت کو ایڈجسٹ کرتے ہیں، تو ہم اس وقفے پر اقدار کو شامل کر کے سگنل کو دوبارہ بنانا شروع کر دیتے ہیں جہاں موسمی ہوتا ہے۔ مثال کے طور پر، اگر ہمارے پاس روزانہ ڈیٹا y ہوتا ہے جہاں ہم نے وقفہ 7 (ہفتہ وار موسمی) پر موسمی فرق کو لاگو کیا تھا، تو اس موسمی کو بحال کرنے کے لیے پیشن گوئی کی قدروں کے لیے درج ذیل حساب کی ضرورت ہوگی۔ y_t₊₁, y_t₊₂، ...، y_t_+h :

کہاں tتربیتی ڈیٹا میں آخری وقت ہے، اور h پیشن گوئی افق ہے.

دوسری موسمی حالت کو بحال کرنے کے لیے، ہم بحال شدہ ٹائم سیریز کے لیے اوپر بیان کردہ مرحلہ کو دہرائیں گے۔ اگر ہم ٹرینڈ جزو کو ٹائم سیریز میں بحال کرنا چاہتے ہیں، تو ہم ریگریشن ماڈل کو بحال شدہ ٹائم سیریز پر لاگو کریں گے۔

تجزیاتی پلیٹ فارم میں ٹائم سیریز کی درخواست مکمل کریں۔

آخر میں، آئیے اس پر ایک نظر ڈالتے ہیں کہ ہمارے تجزیاتی پلیٹ فارم کا استعمال کرتے ہوئے ان اقدامات کو کیسے عملی شکل دی جائے۔ ورک فلو ٹرانسفارمنگ اور ماڈلنگ ٹائم سیریز تک رسائی (حب پر دستیاب) شکل 6 میں صفائی، بصری طور پر دریافت، سڑنے، اور ماڈلنگ ٹائم سیریز تک رسائی کے مراحل دکھاتا ہے۔ ان میں سے کچھ کاموں کے لیے، ہم استعمال کرتے ہیں۔ ٹائم سیریز کے اجزاء جو کہ ورک فلو کو ٹائم سیریز کے لیے مخصوص فنکشنلٹیز کے طور پر سمیٹتا ہے: ڈیٹا کو منتخب گرینولریٹی پر جمع کریں، کلاسک سڑن کو انجام دیں، اور بہت کچھ۔

شکل 6: ٹائم سیریز کے تجزیہ میں پہلا مرحلہ: رسائی، تبدیلی، صفائی، ضعف کی تلاش، اور ماڈلنگ ٹائم سیریز۔ ورک فلو ایکسیسنگ ٹرانسفارمنگ اور ماڈلنگ ٹائم سیریز حب پر دستیاب ہے۔ (تصویری ماخذ: KNIME)

اس مثال میں ، ہم استعمال کرتے ہیں نمونہ - سپر اسٹور کی طرف سے فراہم کردہ ڈیٹا جھانکی. اپنے تجزیے میں ہم 2014 سے 2017 تک کے تمام پروڈکٹس کے آرڈرز پر فوکس کرتے ہیں – مجموعی طور پر 9994 ریکارڈ۔ ہم روزانہ کی کل فروخت کا حساب لگا کر ڈیٹا کو ٹائم سیریز کے ڈیٹا میں تبدیل کرکے پری پروسیسنگ شروع کرتے ہیں۔ اب، ہمارے پاس فی دن صرف ایک قیمت ہے، لیکن کچھ دن غائب ہیں کیونکہ ان دنوں کوئی آرڈر جمع نہیں کیا گیا تھا۔ اس لیے، ہم ان دنوں کو ٹائم سیریز سے متعارف کراتے ہیں اور فروخت کی گمشدہ اقدار کو ایک مقررہ قدر 0 سے بدل دیتے ہیں۔ اس کے بعد، ہم ماہانہ سطح پر ڈیٹا کو جمع کرتے ہیں، اور مزید تجزیہ میں ہر مہینے کی اوسط فروخت پر غور کرتے ہیں۔

بصری تلاش کے لیے، ہم اعداد و شمار کو سالانہ سطح پر بھی جمع کرتے ہیں، اور ہمیں پتہ چلتا ہے کہ سال 2015 کے آغاز میں ایک اہم موڑ ہے، جیسا کہ تصویر 7 میں دائیں جانب لائن پلاٹ دکھاتا ہے۔ بائیں طرف لائن پلاٹ اعداد و شمار میں سالانہ موسمی حالت کو ظاہر کرتا ہے: ہر سال کے آخر میں دو باقاعدہ چوٹیاں ہوتی ہیں، اور ہر سال کے شروع میں ایک نچلی چوٹی ہوتی ہے۔ ہم اعداد و شمار میں سالانہ موسم کا بھی پتہ لگاتے ہیں، جیسا کہ بائیں جانب ACF پلاٹ میں وقفہ 12 پر بڑے اسپائک سے دکھایا گیا ہے۔ ہم وقت کی سیریز کو اس کے رجحان، موسمی اور بقایا میں تحلیل کرتے ہیں، اور ان اجزاء کو تصویر 7 میں درمیان میں لائن پلاٹ میں دکھایا گیا ہے۔ دائیں طرف کا ACF پلاٹ بقایا سیریز میں کوئی اہم خود کار تعلق نہیں دکھاتا ہے۔

شکل 7: لائن پلاٹ جو سالانہ موسمی اور اہم موڑ دکھاتے ہیں، ACF پلاٹ ماہانہ ڈیٹا میں سالانہ موسمی اور بقایا سیریز میں سٹیشنریٹی دکھاتے ہیں، اور ایک لائن پلاٹ جو رجحان، موسمی، اور بوسیدہ ٹائم سیریز کے بقایا اجزاء کو ظاہر کرتا ہے۔ (تصویری ماخذ: KNIME)

اگلا، ہم ماہانہ اوسط فروخت کی بقایا سیریز کو ARIMA ماڈل کے ساتھ ماڈل بناتے ہیں۔ وقفہ 12 میں فرق کرنے کے بعد، ٹائم سیریز کی لمبائی 36 مشاہدات ہے۔ ہم AR اور MA حصوں کے لیے زیادہ سے زیادہ آرڈر 4 اور I حصے کے لیے زیادہ سے زیادہ آرڈر 1 کے ساتھ آٹو ARIMA لرنر جزو کے ساتھ بہترین ماڈل تلاش کرتے ہیں۔ کی بنیاد پر بہترین کارکردگی کا مظاہرہ کرنے والا ماڈل اکائیک انفارمیشن کسوٹی ARIMA (0, 1, 4) ہے، اور نمونے میں پیشین گوئیوں پر مبنی نتیجہ MAPE 1.153 ہے۔

آخر میں، ہم ماڈل کی نمونہ سے باہر کی پیشن گوئی کی درستگی کا اندازہ لگاتے ہیں۔ ورک فلو پیشن گوئی اور تعمیر نو وقت سیریز (حب پر دستیاب) شکل 8 میں دکھایا گیا ہے کہ سال 2017 سے 2014 کے ماہانہ ڈیٹا (2016 مشاہدات) اور متحرک تعیناتی کا استعمال کرتے ہوئے جیتنے والے ARIMA (24) ماڈل کی بنیاد پر 0,1,4 میں یومیہ فروخت کی پیشن گوئی کیسے کی جائے۔ نقطہ نظر اس کے بعد، ہم سگنل کی تشکیل نو کرتے ہیں، اس صورت میں، رجحان اور سالانہ موسمی کو پیشن گوئی کی اقدار (12 ماہانہ اوسط سیلز ویلیوز) پر بحال کریں۔ ہم اصل اور پیشن گوئی کی قدروں کا موازنہ کرتے ہیں، اور 0.336 کا MAPE حاصل کرتے ہیں۔

شکل 8: متحرک تعیناتی کا استعمال کرتے ہوئے ARIMA (2017) ماڈل کے ذریعے 0,1,4 میں ماہانہ اوسط فروخت کی پیش گوئی کرنے کے لیے ورک فلو۔ پیشن گوئی کے بعد، رجحان اور سالانہ موسم کی پیشن گوئی کے بقایا جات کو بحال کر دیا جاتا ہے، اور پیشن گوئی کی درستگی کا حساب لگایا جاتا ہے۔ ورک فلو فورکاسٹنگ اور ری کنسٹرکٹنگ ٹائم سیریز حب پر دستیاب ہے۔ (تصویری ماخذ: KNIME)

خلاصہ

ٹائم سیریز، یہ سینسر ڈیٹا ہو جو نینو سیکنڈ کے بعد ایک چھوٹی چیز نینو سیکنڈ کے رویے کو ظاہر کرتا ہو، 20 ویں صدی کا میکرو اکنامک ڈیٹا، یا اس کے درمیان کچھ، مخصوص تجزیاتی تکنیکیں ہیں جو رسائی، ہیرا پھیری اور ماڈلنگ کے مراحل پر لاگو ہوتی ہیں۔

اس مضمون میں، ہم نے آپ کو ٹائم سیریز کے لیے تجزیاتی تکنیک کی بنیادی باتوں سے متعارف کرایا ہے جو آپ کو ٹائم سیریز کے ڈیٹا کے ساتھ کام کرتے وقت شروع کرنے میں مدد کرتی ہیں۔

حوالہ جات

[1] چیمبرز، جان سی، ستیندر کے ملک، اور ڈونلڈ ڈی سمتھ۔ صحیح پیشن گوئی کی تکنیک کا انتخاب کیسے کریں۔. ہارورڈ یونیورسٹی، گریجویٹ سکول آف بزنس ایڈمنسٹریشن، 1971۔

[2] ہینڈ مین، روب جے، اور جارج ایتھاناسوپولوس۔ پیشن گوئی: اصول اور عمل. OT ٹیکسٹس، 2018۔

ماخذ: https://www.dataversity.net/building-a-time-series-analysis-application/

ٹائم اسٹیمپ: اپریل 9، 2021