লেখক সম্পর্কে আরো জানতে ক্লিক করুন মারিত উইডম্যান।
একটি সম্পূর্ণ সময় সিরিজ বিশ্লেষণ অ্যাপ্লিকেশন একটি ধাপ কভার করে ডেটা বিজ্ঞান টাইম সিরিজ ডেটা অ্যাক্সেস করা থেকে রূপান্তর, মডেলিং, মূল্যায়ন এবং স্থাপন করা পর্যন্ত চক্র। যাইহোক, টাইম সিরিজ ডেটার জন্য এই ধাপগুলির নির্দিষ্ট কাজগুলি ক্রস-বিভাগীয় ডেটার তুলনায় আলাদা। উদাহরণস্বরূপ, ক্রস-বিভাগীয় ডেটা এক সময়ে একটি বস্তুর স্ন্যাপশট হিসাবে সংগ্রহ করা হয়, যেখানে সময় সিরিজের ডেটা একটি নির্দিষ্ট সময়ের মধ্যে একই বস্তু পর্যবেক্ষণ করে সংগ্রহ করা হয়। টাইম সিরিজ ডেটার নিয়মিত প্যাটার্নগুলির তাদের নির্দিষ্ট পরিভাষা রয়েছে এবং তারা মডেলিং টাইম সিরিজে যাওয়ার আগে প্রয়োজনীয় প্রিপ্রসেসিং নির্ধারণ করে। টাইম সিরিজকে অনেক ধরণের মডেল দিয়ে মডেল করা যেতে পারে, তবে নির্দিষ্ট সময় সিরিজের মডেল, যেমন একটি ARIMA মডেল, পর্যবেক্ষণের মধ্যে সাময়িক কাঠামো ব্যবহার করে।
এই নিবন্ধে, আমরা একটি টাইম সিরিজ অ্যাপ্লিকেশন তৈরির যাত্রায় সবচেয়ে সাধারণ কাজগুলি উপস্থাপন করি। অবশেষে, আমরা অ্যানালিটিক্স প্ল্যাটফর্মে একটি উদাহরণ অ্যাপ্লিকেশন তৈরি করে তত্ত্বটিকে বাস্তবে প্রয়োগ করি।
টাইম সিরিজ অ্যাক্সেস করা হচ্ছে
টাইম সিরিজের বিভিন্ন উত্স এবং অ্যাপ্লিকেশন রয়েছে: চাহিদা পূর্বাভাসের জন্য দৈনিক বিক্রয় ডেটা, দীর্ঘমেয়াদী রাজনৈতিক পরিকল্পনার জন্য বার্ষিক সামষ্টিক অর্থনৈতিক ডেটা, ওয়ার্কআউট সেশন বিশ্লেষণের জন্য একটি স্মার্ট ঘড়ি থেকে সেন্সর ডেটা এবং আরও অনেক কিছু। এই সমস্ত সময়ের সিরিজগুলি আলাদা, উদাহরণস্বরূপ, তাদের কণিকা, নিয়মিততা এবং পরিচ্ছন্নতার মধ্যে: আমরা নিশ্চিত হতে পারি যে আমাদের দেশের জন্য এই বছরের জন্য এবং পরবর্তী 10 বছরের জন্যও আমাদের একটি জিডিপি মান আছে, কিন্তু আমরা গ্যারান্টি দিতে পারি না যে আমাদের স্মার্ট ঘড়ির সেন্সর যেকোনো ব্যায়ামে এবং যেকোনো তাপমাত্রায় স্থিরভাবে কাজ করে। এটি এমনও হতে পারে যে টাইম সিরিজ ডেটা নিয়মিত বিরতিতে পাওয়া যায় না, তবে শুধুমাত্র এলোমেলো ঘটনা পয়েন্ট থেকে সংগ্রহ করা যেতে পারে, যেমন রোগ সংক্রমণ বা স্বতঃস্ফূর্ত গ্রাহক পরিদর্শন। এই সমস্ত ধরণের টাইম সিরিজ ডেটার মধ্যে যা মিল রয়েছে তা হল, সময়ের সাথে সাথে একই উত্স থেকে সংগ্রহ করা হয়।
নিয়মিতকরণ এবং সময় সিরিজ পরিষ্কার করা
একবার আমাদের কাছে টাইম সিরিজ ডেটা হয়ে গেলে, পরবর্তী ধাপ হল এটিকে একটি উপযুক্ত গ্রানুলারিটিতে সমানভাবে ব্যবধানে, ক্রমাগত এবং পরিষ্কার করা। প্রয়োজনীয় কাজগুলি ডেটার মূল আকৃতি এবং আমাদের উপর নির্ভর করে বৈশ্লেষিক ন্যায় উদ্দেশ্য উদাহরণস্বরূপ, যদি আমরা একটি পণ্যের এক-সপ্তাহের প্রচারের পরিকল্পনা করি, আমরা যদি কিছু পণ্যের বিক্রয়ের একটি ওভারভিউ পেতে চাই তার চেয়ে আমরা আরও দানাদার ডেটাতে আগ্রহী হতে পারি।
শ্রেণীবিভাজন
টাইম সিরিজ সময় অনুসারে সাজাতে হবে। আপনি যখন প্রশিক্ষণ এবং পরীক্ষার সেটে ডেটা ভাগ করেন, তখন পরীক্ষা/প্রশিক্ষণের জন্য উপরের/নীচ থেকে ডেটা নিয়ে রেকর্ডগুলির মধ্যে অস্থায়ী কাঠামো সংরক্ষণ করতে ভুলবেন না। যদি আপনার ডেটাতে টাইমস্ট্যাম্প প্রতি একাধিক রেকর্ড থাকে, তাহলে আপনাকে টাইমস্ট্যাম্প দ্বারা সেগুলিকে একত্রিত করতে হবে। উদাহরণস্বরূপ, যখন আপনার প্রতিদিন একাধিক অর্ডার থাকে এবং আপনি দৈনিক বিক্রয়ে আগ্রহী হন, তখন আপনাকে প্রতিটি দিনের বিক্রয়ের যোগফল দিতে হবে। উপরন্তু, আপনি যদি ডেটাতে বর্তমানে যা আছে তার চেয়ে অন্য গ্রানুলিটি-তে টাইম সিরিজে আগ্রহী হন (উদাহরণস্বরূপ, দৈনিক বিক্রয়ের পরিবর্তে মাসিক বিক্রয়) আপনি পছন্দের গ্রানুলিটিতে ডেটা আরও একত্রিত করতে পারেন।
অনুপস্থিত মানের
কিছু টাইমস্ট্যাম্প অনুপস্থিত থাকলে, এটিকে সমানভাবে ব্যবধানে তৈরি করার জন্য আপনাকে টাইম সিরিজের সাথে পরিচয় করিয়ে দিতে হবে। কখনও কখনও অনুপস্থিত রেকর্ডগুলি টাইম সিরিজের গতিবিদ্যার একটি অংশ (উদাহরণস্বরূপ, একটি স্টক মার্কেট শুক্রবারে বন্ধ হয় এবং সোমবার খোলে)।
আপনি যখন ডেটাতে অনুপস্থিত টাইমস্ট্যাম্পগুলি প্রবর্তন করেন, তখন সংশ্লিষ্ট মান অবশ্যই অনুপস্থিত থাকে। আপনি এই অনুপস্থিত মানগুলিকে, উদাহরণস্বরূপ, রৈখিক ইন্টারপোলেশন বা চলমান গড় মানগুলি দ্বারা অভিযুক্ত করতে পারেন। মনে রাখবেন, যদিও, অনুপস্থিত মান অনুপ্রাণিত করার জন্য সর্বোত্তম কৌশলটি ডেটাতে নিয়মিত গতিশীলতার উপর নির্ভর করে। উদাহরণস্বরূপ, যদি আপনি দৈনিক ডেটাতে সাপ্তাহিক ঋতু পরিদর্শন করেন এবং একটি শনিবারের একটি মান অনুপস্থিত থাকে, তাহলে শেষ শনিবারের মানটি সম্ভবত সেরা প্রতিস্থাপন। যদি অনুপস্থিত মানগুলি এলোমেলোভাবে অনুপস্থিত না হয়, যেমন সপ্তাহান্তে অনুপস্থিত স্টক মার্কেট বন্ধের মূল্য, আপনি একটি নির্দিষ্ট মান দ্বারা প্রতিস্থাপন করতে পারেন, যা এই ক্ষেত্রে 0 হবে৷ অন্যদিকে, যদি অনুপস্থিত মানগুলি এলোমেলো হয় এবং সেগুলি অতীতে যথেষ্ট পরিমাণে ঘটে থাকে তবে আপনি অনুপস্থিত মানটির পরে ডেটা ব্যবহার করতে পারেন এবং পুরানো ডেটা উপেক্ষা করতে পারেন।
অনিয়মিত প্যাটার্ন
দ্রুত ওঠানামা এবং আউটলায়ারগুলি পরিচালনা করার একটি ভাল উপায় হল ডেটা মসৃণ করা। বেশ কিছু কৌশল ব্যবহার করা যেতে পারে, যেমন চলন্ত গড় এবং সূচক মসৃণকরণ. এছাড়াও, একটি বক্স প্লটের ফিসকারের বাইরে থাকা মানগুলিকে কাটা ডেটা মসৃণ করে। মনে রাখবেন যে ডেটাতে শক্তিশালী মৌসুমীতা একটি বিস্তৃত বক্স প্লটের দিকে নিয়ে যেতে পারে এবং তারপরে বহিরাগতদের সনাক্ত করতে একটি শর্তসাপেক্ষ বক্স প্লট ব্যবহার করা ভাল।
যাইহোক, মাঝে মাঝে টাইম সিরিজ শুধুমাত্র একটি খুব অনিয়মিত ঘটনা দেখাচ্ছে! এই ধরনের ক্ষেত্রে, আপনি একটি উপসেট বের করে টাইম সিরিজকে আরও নিয়মিত করার চেষ্টা করতে পারেন, উদাহরণস্বরূপ, পুরো সুপারমার্কেটের বিক্রয়ের পরিবর্তে শুধুমাত্র একটি পণ্যের বিক্রয় বিবেচনা করে বা ডেটা ক্লাস্টার করে।
সময় সিরিজ অন্বেষণ এবং রূপান্তর
এই মুহুর্তে, আমাদের টাইম সিরিজ ডেটা এমন আকারে রয়েছে যা এটিকে দৃশ্যত এবং সংখ্যাগতভাবে অন্বেষণ করার জন্য উপযুক্ত। বিভিন্ন প্লট এবং পরিসংখ্যান টাইম সিরিজে দীর্ঘ- এবং স্বল্প-মেয়াদী নিদর্শন এবং সাময়িক সম্পর্ক প্রকাশ করে যা আমরা এর গতিশীলতা আরও ভালভাবে বুঝতে এবং এর ভবিষ্যত বিকাশের পূর্বাভাস দিতে ব্যবহার করতে পারি।
সময় সিরিজের ভিজ্যুয়াল এক্সপ্লোরেশন
টাইম সিরিজ অন্বেষণের জন্য মৌলিক প্লট হল লাইন প্লট (চিত্র 3) যা একটি সম্ভাব্য দিক, নিয়মিত এবং অনিয়মিত ওঠানামা, আউটলাইয়ার, ফাঁক, বা সময় সিরিজের টার্নিং পয়েন্ট দেখায়। আপনি যদি আপনার টাইম সিরিজে একটি নিয়মিত প্যাটার্ন পর্যবেক্ষণ করেন, যেমন পানীয় বিক্রির ক্ষেত্রে বার্ষিক ঋতুতা, তাহলে আপনি প্রতিটি মৌসুমী চক্র (বছর) আলাদাভাবে একটি মৌসুমী প্লটে (চিত্র 3) পরিদর্শন করতে পারেন। সিজনাল প্লটে আপনি সহজেই দেখতে পাবেন, উদাহরণস্বরূপ, জুলাই যদি গত বছরের তুলনায় এই বছর একটি শক্তিশালী বিক্রয় মাস ছিল, অথবা যদি মাসিক বিক্রি প্রতি বছর বাড়ছে।
আপনি যদি ঋতুগুলির মধ্যে কী ঘটতে আগ্রহী হন, যেমন গ্রীষ্মের মাসগুলিতে মধ্যম বিক্রি কী এবং প্রতি মাসে বিক্রি কতটা এবং কোন দিকে পরিবর্তিত হয়, আপনি শর্তসাপেক্ষ বক্স প্লটে এই ধরনের গতিবিদ্যা পরিদর্শন করতে পারেন (চিত্র 3)। টাইম সিরিজ অন্বেষণ করার জন্য আরেকটি দরকারী প্লট হল ল্যাগ প্লট (চিত্র 3)। ল্যাগ প্লট বর্তমান মান এবং অতীত মানের মধ্যে সম্পর্ক দেখায়, উদাহরণস্বরূপ, বিক্রয় আজ এবং বিক্রয় সপ্তাহ আগে।
সময় সিরিজের ক্লাসিক্যাল পচন
ধ্রুপদী পচন, অর্থাৎ, সময় সিরিজকে তার প্রবণতা, ঋতু এবং অবশিষ্টাংশের মধ্যে পচানো, পূর্বাভাসের জন্য একটি ভাল বেঞ্চমার্ক প্রদান করে। সময় সিরিজের অবশিষ্ট অংশ, অবশিষ্টাংশ, অনুমিত হয় নিশ্চল, এবং একটি ARIMA মডেল দ্বারা পূর্বাভাস করা যেতে পারে, উদাহরণস্বরূপ। মনে রাখবেন, যদিও, অবশিষ্ট সিরিজ স্থির না হলে, কিছু অতিরিক্ত রূপান্তরের প্রয়োজন হতে পারে, যেমন প্রথম ক্রম ভিন্নতা, বা মূল সময় সিরিজের লগ রূপান্তর।
প্রথমত, যদি টাইম সিরিজটি একটি দিক, একটি প্রবণতা দেখায়, তাহলে টাইম সিরিজটি কমানো যেতে পারে, উদাহরণস্বরূপ, ডেটার মাধ্যমে একটি রিগ্রেশন মডেল ফিট করে বা একটি চলমান গড় মান গণনা করে।
দ্বিতীয়ত, যদি টাইম সিরিজ নিয়মিত ওঠানামা দেখায় - একটি ঋতুতা - সময় সিরিজ এটির জন্য সামঞ্জস্য করা যেতে পারে। টাইম সিরিজের স্বয়ংক্রিয় সম্পর্ক প্লটে যেখানে প্রধান ঋতুতা ঘটে সেখানে আপনি ল্যাগটি খুঁজে পেতে পারেন। উদাহরণ স্বরূপ, আপনি যদি 7 ল্যাগ এ পিক পর্যবেক্ষণ করেন এবং আপনার কাছে দৈনিক ডেটা থাকে, তাহলে ডেটাতে সাপ্তাহিক মৌসুমীতা থাকবে। যেখানে প্রধান স্পাইক ঘটে সেখানে ব্যবধানে ডেটার পার্থক্য করে ঋতুতা সামঞ্জস্য করা যেতে পারে। আপনি যদি ডেটাতে দ্বিতীয় ঋতু সামঞ্জস্য করতে চান তবে আপনি সামঞ্জস্যপূর্ণ (পার্থক্য) সময় সিরিজের পদ্ধতিটি পুনরাবৃত্তি করে এটি করতে পারেন।
অবশেষে, যখন আপনি একটি স্থির সময় সিরিজে পৌঁছেছেন যা একটি ARIMA মডেল দ্বারা মডেল করার জন্য প্রস্তুত, আপনি একটি চূড়ান্ত পরীক্ষা করতে পারেন, উদাহরণস্বরূপ, Ljung-বক্স পরীক্ষা স্থিরতার জন্য।
মডেলিং এবং সময় সিরিজ মূল্যায়ন
এখন আমরা টাইম সিরিজের অবশিষ্ট অংশের মডেলিংয়ের দিকে এগিয়ে যাই যা এর অনিয়মিত গতিশীলতা ধারণ করে। আমরা ARIMA মডেলের সাথে এটি করতে পারি, মেশিন লার্নিং মডেল, নিউরাল নেটওয়ার্ক এবং তাদের অনেক বৈচিত্র। আমরা প্রায়শই এই মডেলগুলির দ্বারা টাইম সিরিজের অবশিষ্ট অংশ মডেল করি, কারণ এটি স্থির। যাইহোক, টাইম সিরিজের পচন সবসময় প্রয়োজন হয় না, কারণ কিছু মডেল, যেমন মৌসুমী ARIMA মডেল, নন-স্টেশনারি টাইম সিরিজের মডেলিংয়ের জন্যও কাজ করে।
নিম্নলিখিতটিতে আমরা এই বিভিন্ন মডেলিং কৌশলগুলির কয়েকটি বৈশিষ্ট্য, তাদের মিল এবং পার্থক্য সংগ্রহ করি, যাতে আপনি আপনার ব্যবহারের ক্ষেত্রে সেরাটি বেছে নিতে পারেন। এটাও মনে রাখবেন যে একাধিক মডেলকে প্রশিক্ষিত করা এবং এমনকি তাদের একটি সংমিশ্রণ তৈরি করাও দরকারী!
আরিমা মডেল
আরিমা (অটোরিগ্রেসিভ ইন্টিগ্রেটেড মুভিং এভারেজ) মডেলটি বর্তমান এবং অতীতের মানগুলির (এআর-পার্ট) এবং বর্তমান এবং অতীতের পূর্বাভাস ত্রুটিগুলির (এমএ-পার্ট) মধ্যে একটি রৈখিক রিগ্রেশন মডেল। যদি মডেলটিতে একটি নন-জিরো আই-অংশ থাকে, তবে এটিকে স্থির করার জন্য ডেটা পার্থক্য করা হয়। বেসিক ARIMA মডেলগুলি ধরে নেয় যে টাইম সিরিজ স্থির, এবং স্থির সময় সিরিজের দীর্ঘমেয়াদে অনুমানযোগ্য প্যাটার্ন নেই। দীর্ঘমেয়াদী পূর্বাভাসের ক্রমবর্ধমান নির্ভুলতা পূর্বাভাসের ক্রমবর্ধমান আত্মবিশ্বাসের ব্যবধানে দেখা যায়। ARIMA মডেলের প্রশিক্ষণের জন্য আরও ডেটা থাকা সর্বদা ভাল নয়: বড় ডেটাসেটগুলি একটি ARIMA মডেলের মডেল প্যারামিটারগুলি অনুমান করতে সময় সাপেক্ষ করতে পারে, সেইসাথে সত্য প্রক্রিয়া এবং মডেল প্রক্রিয়ার মধ্যে পার্থক্যকে অতিরঞ্জিত করতে পারে।
মেশিন লার্নিং মডেল
মেশিন লার্নিং মডেলগুলি পিছিয়ে থাকা মানগুলিকে ভবিষ্যদ্বাণীকারী কলাম হিসাবে ব্যবহার করে এবং তারা লক্ষ্য কলাম এবং ভবিষ্যদ্বাণীকারী কলামগুলির মধ্যে অস্থায়ী কাঠামোকে উপেক্ষা করে। মেশিন লার্নিং মডেলগুলি দীর্ঘমেয়াদী প্যাটার্নগুলি এবং ডেটাতে টার্নিং পয়েন্টগুলিও সনাক্ত করতে পারে, যদি এই প্যাটার্নগুলি স্থাপন করার জন্য প্রশিক্ষণ ডেটাতে যথেষ্ট ডেটা সরবরাহ করা হয়। সাধারণভাবে, ডেটা যত বেশি অনিয়ম দেখায়, মডেলের প্রশিক্ষণের জন্য তত বেশি ডেটা প্রয়োজন। আপনি যখন একটি মেশিন লার্নিং মডেল প্রয়োগ করেন, তখন অবশিষ্টাংশ মডেল করার পরামর্শ দেওয়া হয়। অন্যথায়, আপনি এমন একটি মডেল তৈরি করতে পারেন যা শাস্ত্রীয় পচনশীল মডেলের চেয়ে আরও জটিল, কিন্তু যা আসলে এর উপরে নতুন কিছু শিখছে না!
মডেল নির্বাচন টিপস
প্রথমত, কিছু ঘটনা ভবিষ্যদ্বাণী করা কঠিন, এবং এই ধরনের ক্ষেত্রে প্রায়শই একটি সহজ মডেলের জন্য যাওয়া এবং সঠিকভাবে পূর্বাভাস দেওয়া যায় না এমন কিছুর মডেলিংয়ে সংস্থান বিনিয়োগ না করা বোঝায়।
দ্বিতীয়ত, মডেলের কর্মক্ষমতাই একমাত্র মাপকাঠি নয়। যদি গুরুত্বপূর্ণ সিদ্ধান্তগুলি মডেলের ফলাফলের উপর ভিত্তি করে হয়, তবে এর ব্যাখ্যাযোগ্যতা কিছুটা ভাল পারফরম্যান্সের চেয়ে বেশি গুরুত্বপূর্ণ হতে পারে। এটি বলেছে, একটি নিউরাল নেটওয়ার্ক একটি সাধারণ ক্লাসিক্যাল পচন মডেলের বিরুদ্ধে হারাতে পারে যদিও এটি কিছুটা ভাল পূর্বাভাস দেয়।
তৃতীয়ত, আপনার মডেলে ব্যাখ্যামূলক ভেরিয়েবল যোগ করলে পূর্বাভাসের নির্ভুলতা উন্নত হতে পারে। যাইহোক, এই ধরনের মডেলে ব্যাখ্যামূলক ভেরিয়েবলেরও পূর্বাভাস দেওয়া দরকার, এবং মডেলের ক্রমবর্ধমান জটিলতা সর্বদা ভাল নির্ভুলতার মূল্য নয়। কখনও কখনও মোটামুটি অনুমানগুলি সিদ্ধান্তগুলিকে সমর্থন করার জন্য যথেষ্ট: যদি শিপিংয়ের পরিমাণ দশ এবং শতকের মধ্যে গণনা করা হয়, তাহলে পূর্বাভাসের চাহিদারও একটি বড় গ্রানুলারিটি থাকতে হবে না।
মডেল মূল্যায়ন
একটি মডেল প্রশিক্ষণের পর, পরবর্তী ধাপ এটি মূল্যায়ন করা হয়। নমুনা পূর্বাভাসের জন্য, পরীক্ষার সেটটি নিজেই প্রশিক্ষণ সেট, তাই মডেল প্রক্রিয়াটি মডেলের প্রশিক্ষণের জন্য ব্যবহৃত ডেটাতে লাগানো হয়। নমুনা বহির্ভূত পূর্বাভাসের জন্য, পরীক্ষার সেটটি সময়মতো প্রশিক্ষণের পরে সেট করা হয়।
একটি টাইম সিরিজ মডেল মূল্যায়নের জন্য একটি প্রস্তাবিত ত্রুটি মেট্রিক হল গড় পরম শতাংশ ত্রুটি (মানচিত্র), যেহেতু এটি একটি সার্বজনীন স্কেলে ত্রুটি প্রদান করে, প্রকৃত মানের শতাংশ হিসাবে। যাইহোক, যদি সত্যিকারের মান শূন্য হয়, তবে এই মেট্রিকটি সংজ্ঞায়িত করা হয় না, এবং তারপরে অন্যান্য ত্রুটির মেট্রিক্সও, যেমন রুট মানে বর্গক্ষেত্র ত্রুটি (RMSE), করব. যা প্রায়ই সুপারিশ করা হয়, যদিও, ব্যবহার না করা আর-বর্গীয়. R-squared মেট্রিক টাইম সিরিজ বিশ্লেষণের প্রেক্ষাপটের সাথে খাপ খায় না কারণ অতীতের সমস্ত পরিবর্তনশীলতার মডেল করার পরিবর্তে লক্ষ্য কলামের ভবিষ্যত পদ্ধতিগত পরিবর্তনশীলতার পূর্বাভাস দেওয়া হয়।
পূর্বাভাস এবং পুনর্গঠন সময় সিরিজ
আমরা প্রায় সেখানে! শেষ ধাপ হল ভবিষ্যৎ মান পূর্বাভাস এবং সংকেত পুনর্গঠন।
গতিশীল পূর্বাভাস
আপনার যদি এমন একটি মডেল থাকে যা দীর্ঘমেয়াদে সঠিক পূর্বাভাস প্রদান করতে পারে না, তবে গতিশীল স্থাপনা প্রায়শই নমুনার বাইরের পূর্বাভাসের নির্ভুলতাকে উন্নত করে। গতিশীল স্থাপনায়, ভবিষ্যতে শুধুমাত্র একটি বিন্দু একটি সময়ে পূর্বাভাস করা হয়, এবং অতীতের ডেটা পরবর্তী পূর্বাভাস তৈরি করতে এই পূর্বাভাস মান দ্বারা আপডেট করা হয় (চিত্র 5)।
প্রবণতা এবং ঋতু পুনরুদ্ধার করা
পরিশেষে, যদি আমরা পূর্বাভাস দেওয়ার আগে টাইম সিরিজকে পচিয়ে ফেলি, তাহলে আমাদের পূর্বাভাসের প্রবণতা এবং/অথবা মৌসুমীতা পুনরুদ্ধার করতে হবে। যদি আমরা ডেটার পার্থক্য করে ঋতুত্বকে সামঞ্জস্য করি, আমরা যেখানে ঋতুত্ব ঘটে সেখানে মান যোগ করে সংকেত পুনর্গঠন শুরু করি। উদাহরণস্বরূপ, যদি আমাদের দৈনিক ডেটা y থাকে যেখানে আমরা ল্যাগ 7 (সাপ্তাহিক ঋতুতা) এ ঋতুগত পার্থক্য প্রয়োগ করি, এই ঋতুতা পুনরুদ্ধার করার জন্য পূর্বাভাসের মানগুলির জন্য নিম্নলিখিত গণনার প্রয়োজন হবে yt+1, yt+2,..., yt+h :
কোথায় tপ্রশিক্ষণ তথ্যের শেষ সময় পয়েন্ট, এবং h পূর্বাভাস দিগন্ত হয়.
দ্বিতীয় মৌসুমীতা পুনরুদ্ধার করার জন্য, আমরা পুনরুদ্ধার করা সময় সিরিজের জন্য উপরে বর্ণিত ধাপটি পুনরাবৃত্তি করব। যদি আমরা টাইম সিরিজে প্রবণতা উপাদান পুনরুদ্ধার করতে চাই, তাহলে আমরা পুনরুদ্ধার করা টাইম সিরিজে ট্রেন্ডের প্রতিনিধিত্বকারী রিগ্রেশন মডেল প্রয়োগ করব।
অ্যানালিটিক্স প্ল্যাটফর্মে সম্পূর্ণ টাইম সিরিজ অ্যাপ্লিকেশন
পরিশেষে, আসুন আমাদের অ্যানালিটিক্স প্ল্যাটফর্ম ব্যবহার করে এই পদক্ষেপগুলিকে কীভাবে অনুশীলনে পরিণত করা যায় তা দেখে নেওয়া যাক। কর্মপ্রবাহ ট্রান্সফর্মিং এবং মডেলিং টাইম সিরিজ অ্যাক্সেস করা (হাব-এ উপলব্ধ) চিত্র 6-এ অ্যাক্সেস থেকে শুরু করে পরিচ্ছন্নতা, দৃশ্যত অন্বেষণ, পচন এবং মডেলিং টাইম সিরিজের ধাপগুলি দেখায়। এই কিছু কাজের জন্য, আমরা ব্যবহার করি সময় সিরিজের উপাদান যেটি টাইম সিরিজের জন্য নির্দিষ্ট কার্যকারিতা হিসাবে কার্যপ্রবাহকে এনক্যাপসুলেট করে: নির্বাচিত গ্রানুলারিটিতে ডেটা একত্রিত করুন, ক্লাসিক পচন সঞ্চালন করুন এবং আরও অনেক কিছু।
এই উদাহরণে, আমরা এটি ব্যবহার করি নমুনা - সুপারস্টোর দ্বারা প্রদত্ত তথ্য মনের উপরে স্পষ্ট ছবির ন্যায় ছাপ. আমাদের বিশ্লেষণে আমরা 2014 থেকে 2017 পর্যন্ত সমস্ত পণ্যের অর্ডারের উপর ফোকাস করি – মোট 9994টি রেকর্ড। আমরা প্রতিদিন মোট বিক্রয় গণনা করে ডেটাকে টাইম সিরিজ ডেটাতে পুনর্নির্মাণ করে প্রিপ্রসেসিং শুরু করি। এখন, আমাদের প্রতিদিন শুধুমাত্র একটি মান আছে, কিন্তু কিছু দিন অনুপস্থিত কারণ এই দিনে কোন অর্ডার জমা দেওয়া হয়নি। অতএব, আমরা এই দিনগুলিকে টাইম সিরিজের সাথে পরিচয় করিয়ে দিই এবং অনুপস্থিত বিক্রয় মানগুলিকে একটি নির্দিষ্ট মান 0 দিয়ে প্রতিস্থাপন করি। এর পরে, আমরা মাসিক স্তরে ডেটা একত্রিত করি এবং আরও বিশ্লেষণে প্রতি মাসে গড় বিক্রয় বিবেচনা করি।
ভিজ্যুয়াল অন্বেষণের জন্য, আমরা একটি বার্ষিক স্তরে ডেটাও একত্রিত করি, এবং আমরা খুঁজে পাই যে 2015 সালের শুরুতে একটি টার্নিং পয়েন্ট আছে, যেমন চিত্র 7-এ ডানদিকে লাইন প্লট দেখায়৷ বাম দিকের লাইন প্লটটি ডেটাতে বার্ষিক মৌসুমীতা দেখায়: প্রতি বছরের শেষে দুটি নিয়মিত শিখর থাকে এবং প্রতি বছরের শুরুতে একটি নিম্ন শিখর থাকে। আমরা ডেটাতে বার্ষিক মৌসুমীতাও শনাক্ত করি, যেমনটি বাম দিকের ACF প্লটে ল্যাগ 12-এ প্রধান স্পাইক দ্বারা দেখানো হয়েছে। আমরা টাইম সিরিজটিকে এর প্রবণতা, ঋতুতা এবং অবশিষ্টাংশে পচিয়ে দিই, এবং এই উপাদানগুলিকে চিত্র 7-এর মাঝখানে লাইন প্লটে দেখানো হয়েছে। ডানদিকের ACF প্লট অবশিষ্ট সিরিজে কোন উল্লেখযোগ্য স্বয়ংক্রিয় সম্পর্ক দেখায় না।
এর পরে, আমরা একটি ARIMA মডেলের সাথে মাসিক গড় বিক্রয়ের অবশিষ্ট সিরিজ মডেল করি। ল্যাগ 12 এ পার্থক্য করার পরে, সময় সিরিজের দৈর্ঘ্য হল 36 টি পর্যবেক্ষণ। আমরা AR এবং MA অংশের জন্য সর্বোচ্চ অর্ডার 4 এবং I অংশের জন্য সর্বোচ্চ অর্ডার 1 সহ অটো ARIMA লার্নার উপাদান সহ সেরা মডেলটি খুঁজছি। উপর ভিত্তি করে সেরা পারফরম্যান্স মডেল আকাইকে তথ্য মাপদণ্ড হল ARIMA (0, 1, 4), এবং নমুনা পূর্বাভাসের উপর ভিত্তি করে ফলস্বরূপ MAPE হল 1.153।
অবশেষে, আমরা মডেলের বাইরের নমুনা পূর্বাভাসের নির্ভুলতা মূল্যায়ন করি। কর্মপ্রবাহ পূর্বাভাস এবং পুনর্গঠন সময় সিরিজ (হাব-এ উপলব্ধ) চিত্র 8-তে দেখানো হয়েছে কিভাবে 2017 থেকে 2014 সালের মাসিক ডেটার উপর ভিত্তি করে (2016টি পর্যবেক্ষণ) এবং গতিশীল স্থাপনা ব্যবহার করে বিজয়ী ARIMA (24) মডেলের উপর ভিত্তি করে 0,1,4 সালে দৈনিক বিক্রয়ের পূর্বাভাস দেওয়া হয়। পন্থা এর পরে, আমরা সংকেত পুনর্গঠন করি, এই ক্ষেত্রে, পূর্বাভাসের মানগুলিতে প্রবণতা এবং বার্ষিক মৌসুমীতা পুনরুদ্ধার করি (12 মাসিক গড় বিক্রয় মান)। আমরা প্রকৃত এবং পূর্বাভাসের মান তুলনা করি এবং 0.336 এর একটি MAPE পাই।
সারাংশ
টাইম সিরিজ, ন্যানোসেকেন্ডের পর একটি ক্ষুদ্র বস্তুর ন্যানোসেকেন্ডের আচরণ দেখানো সেন্সর ডেটাই হোক, 20 শতকের সামষ্টিক অর্থনৈতিক ডেটা, বা এর মধ্যের কিছু, নির্দিষ্ট বিশ্লেষণ কৌশল রয়েছে যা অ্যাক্সেস, ম্যানিপুলেট এবং মডেলিং ধাপে প্রযোজ্য।
এই নিবন্ধে, আমরা আপনাকে টাইম সিরিজের বিশ্লেষণী কৌশলগুলির মূল বিষয়গুলির সাথে পরিচয় করিয়ে দিয়েছি যা আপনাকে সময় সিরিজ ডেটা নিয়ে কাজ করার সময় শুরু করতে সাহায্য করে।
তথ্যসূত্র
[১] চেম্বার্স, জন সি., সতিন্দর কে. মল্লিক এবং ডোনাল্ড ডি. স্মিথ। কিভাবে সঠিক পূর্বাভাস কৌশল চয়ন করুন. হার্ভার্ড বিশ্ববিদ্যালয়, গ্রাজুয়েট স্কুল অফ বিজনেস অ্যাডমিনিস্ট্রেশন, 1971।
[২] হাইন্ডম্যান, রব জে., এবং জর্জ আথানাসোপুলোস। পূর্বাভাস: নীতি এবং অনুশীলন. OTটেক্সট, 2018।
সূত্র: https://www.dataversity.net/building-a-time-series-analysis-application/
- পরম
- অতিরিক্ত
- বিশ্লেষণ
- বৈশ্লেষিক ন্যায়
- আবেদন
- অ্যাপ্লিকেশন
- AR
- প্রবন্ধ
- গাড়ী
- মূলতত্ব
- উচ্চতার চিহ্ন
- সর্বোত্তম
- পানীয়
- শরীর
- বক্স
- নির্মাণ করা
- ভবন
- ব্যবসায়
- পরিস্কার করা
- স্তম্ভ
- সাধারণ
- উপাদান
- বিশ্বাস
- দেশ
- বর্তমান
- উপাত্ত
- দিন
- চাহিদা
- উন্নয়ন
- রোগ
- অনুমান
- ঘটনা
- ব্যায়াম
- অন্বেষণ
- ব্যক্তিত্ব
- পরিশেষে
- প্রথম
- ফিট
- কেন্দ্রবিন্দু
- শুক্রবার
- ভবিষ্যৎ
- জিডিপি
- সাধারণ
- জর্জ
- ভাল
- স্নাতক
- হ্যান্ডলিং
- হার্ভার্ড
- হার্ভার্ড বিশ্ববিদ্যালয়
- কিভাবে
- কিভাবে
- HTTPS দ্বারা
- শত শত
- সনাক্ত করা
- ভাবমূর্তি
- সংক্রমণ
- তথ্য
- IT
- জুলাই
- বড়
- নেতৃত্ব
- শিখতে
- শিক্ষার্থী
- শিক্ষা
- উচ্চতা
- লাইন
- দীর্ঘ
- মেশিন লার্নিং
- মুখ্য
- বাজার
- ছন্দোবিজ্ঞান
- মডেল
- মূর্তিনির্মাণ
- সোমবার
- মাসিক তথ্য
- মাসের
- পদক্ষেপ
- নেটওয়ার্ক
- নেটওয়ার্ক
- নিউরাল
- স্নায়বিক নেটওয়ার্ক
- নিউরাল নেটওয়ার্ক
- প্রর্দশিত
- ক্রম
- আদেশ
- অন্যান্য
- প্যাটার্ন
- কর্মক্ষমতা
- পরিকল্পনা
- মাচা
- ভবিষ্যদ্বাণী
- পণ্য
- পণ্য
- পদোন্নতি
- রেকর্ড
- প্রত্যাগতি
- সম্পর্ক
- Resources
- ফলাফল
- বিক্রয়
- স্কেল
- স্কুল
- নির্বাচিত
- অনুভূতি
- ক্রম
- সেট
- পরিবহন
- সহজ
- ছোট
- স্মার্ট
- স্ন্যাপশট
- So
- শুরু
- শুরু
- পরিসংখ্যান
- স্টক
- পুঁজিবাজার
- পেশ
- গ্রীষ্ম
- সমর্থন
- মনের উপরে স্পষ্ট ছবির ন্যায় ছাপ
- লক্ষ্য
- পরীক্ষা
- অধিকার
- ভবিষ্যৎ
- সময়
- শীর্ষ
- প্রশিক্ষণ
- রুপান্তর
- সার্বজনীন
- বিশ্ববিদ্যালয়
- মূল্য
- ওয়াচ
- সপ্তাহান্তিক কাল
- সাপ্তাহিক
- উইকিপিডিয়া
- মধ্যে
- হয়া যাই ?
- কর্মপ্রবাহ
- workout আপনি
- মূল্য
- বছর
- বছর
- শূন্য