ডেটা ইম্পুটেশনের দিকে দৃষ্টিভঙ্গি

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

ডেটা ইম্পুটেশনের পদ্ধতি
দ্বারা ফোটো রন ল্যাচ

বাস্তব-বিশ্বের ডেটা সেট কদাচিৎ নিখুঁত এবং প্রায়ই অনুপস্থিত মান বা অসম্পূর্ণ তথ্য সহ আসে। এই ত্রুটিগুলি মানব উপাদান (ভুলভাবে ভরা বা অপূর্ণ জরিপ) বা প্রযুক্তি (সেন্সর ত্রুটিপূর্ণ) কারণে হতে পারে। যাই হোক না কেন, আপনার কাছে প্রায়শই অনুপস্থিত মান বা তথ্য থাকে।

অবশ্যই, এটি একটি সমস্যা উপস্থাপন করে। অনুপস্থিত মান ব্যতীত, সমগ্র ডেটা সেটটি অব্যবহারযোগ্য বলে বিবেচিত হতে পারে। কিন্তু যেহেতু এটি যথেষ্ট সময়, প্রচেষ্টা, এবং (অনেক ক্ষেত্রে) অর্থ লাগে উচ্চ মানের ডেটা অর্জন করুন, ভুল তথ্য নিষ্পত্তি করা এবং আবার শুরু করা কার্যকর বিকল্প নাও হতে পারে। পরিবর্তে, আমাদের অবশ্যই এই অনুপস্থিত মানগুলির চারপাশে কাজ করার বা প্রতিস্থাপন করার একটি উপায় খুঁজে বের করতে হবে। এখানেই ডেটা ইম্প্যুটেশন আসে।

এই নির্দেশিকাটি ডেটা ইম্প্যুটেশন কী এবং সেইসাথে এটি সমর্থন করে এমন পদ্ধতির ধরন নিয়ে আলোচনা করবে।

যদিও আমরা অনুপস্থিত বা দূষিত ডেটা প্রতিস্থাপন করতে পারি না, তবে ডেটা সেটটিকে এখনও ব্যবহারযোগ্য করার অনুমতি দেওয়ার জন্য আমরা কিছু পদ্ধতি ব্যবহার করতে পারি। ডেটা ইম্পুটেশন এটি অর্জনের জন্য সবচেয়ে নির্ভরযোগ্য কৌশলগুলির মধ্যে একটি। যাইহোক, আমাদের প্রথমে সনাক্ত করতে হবে কোন ধরণের ডেটা অনুপস্থিত এবং কেন।

পরিসংখ্যান এবং তথ্য বিজ্ঞানে, তিনটি প্রধান ধরণের অনুপস্থিত ডেটা রয়েছে:

এলোমেলোভাবে অনুপস্থিত (MAR), যেখানে অনুপস্থিত ডেটা একটি পরিবর্তনশীলের সাথে সংযুক্ত থাকে এবং শেষ পর্যন্ত পর্যবেক্ষণ বা ট্রেস করা যায়। অনেক ক্ষেত্রে, এটি আপনাকে জনসংখ্যা বা ডেটা বিষয় সম্পর্কে আরও তথ্য প্রদান করতে পারে। উদাহরণস্বরূপ, একটি নির্দিষ্ট বয়সের লোকেরা একটি সমীক্ষায় একটি প্রশ্ন এড়িয়ে যাওয়ার বা নির্দিষ্ট সময়ে তাদের ডিভাইস থেকে ট্র্যাকিং সিস্টেমগুলি সরানোর সিদ্ধান্ত নিতে পারে।
এলোমেলোভাবে সম্পূর্ণ অনুপস্থিত (MCAR), যেখানে অনুপস্থিত তথ্য একটি পরিবর্তনশীল পর্যবেক্ষণ বা ট্রেস করা যাবে না. কেন ডেটা অনুপস্থিত তা নির্ণয় করা প্রায় অসম্ভব।
অনুপস্থিত ডেটা যা এলোমেলোভাবে অনুপস্থিত (NMAR), যেখানে অনুপস্থিত ডেটা আগ্রহের একটি পরিবর্তনশীলের সাথে সংযুক্ত থাকে। বেশিরভাগ ক্ষেত্রে, এই অনুপস্থিত ডেটা উপেক্ষা করা যেতে পারে। NMAR ঘটতে পারে যখন একজন জরিপ গ্রহণকারী তাদের জন্য প্রযোজ্য নয় এমন একটি প্রশ্ন এড়িয়ে যান।

অনুপস্থিত ডেটা নিয়ে কাজ করা

বর্তমানে, অনুপস্থিত ডেটা মানগুলি মোকাবেলা করার জন্য আপনার কাছে তিনটি প্রাথমিক বিকল্প রয়েছে:

মুছিয়াতা
অনুদান
অবজ্ঞা করুন

সম্পূর্ণ ডেটা সেট নিষ্পত্তি করার পরিবর্তে, আপনি তালিকা অনুযায়ী মুছে ফেলা হিসাবে পরিচিত ব্যবহার করতে পারেন। এতে অনুপস্থিত তথ্য বা মান সহ রেকর্ডগুলি মুছে ফেলা জড়িত। তালিকা অনুযায়ী মুছে ফেলার প্রধান সুবিধা হল এটি অনুপস্থিত ডেটার তিনটি বিভাগকে সমর্থন করে।

যাইহোক, এর ফলে অতিরিক্ত ডেটা ক্ষতি হতে পারে। এটি সুপারিশ করা হয় যে আপনি শুধুমাত্র ব্যবহার করুন তালিকা অনুসারে মুছে ফেলা যেখানে বর্তমান (পর্যবেক্ষিত) মানগুলির তুলনায় অনুপস্থিত (পর্যবেক্ষিত) মানগুলির একটি বড় সংখ্যা রয়েছে, প্রধানত কারণ তাদের অনুমান বা প্রতিস্থাপন করার জন্য পর্যাপ্ত ডেটা নেই।

যদি পর্যবেক্ষণ করা অনুপস্থিত ডেটা গুরুত্বপূর্ণ না হয় (অজ্ঞানযোগ্য) এবং শুধুমাত্র কয়েকটি মান অনুপস্থিত থাকে, আপনি সেগুলি উপেক্ষা করতে পারেন এবং আপনার যা আছে তা নিয়ে কাজ করতে পারেন। যাইহোক, এটি সবসময় একটি সম্ভাবনা নয়। ডেটা ইম্প্যুটেশন একটি তৃতীয় এবং সম্ভাব্য আরও কার্যকর সমাধান প্রদান করে।

ডেটা অনুপস্থিতিতে অনুপস্থিত মানগুলি প্রতিস্থাপন করা জড়িত যাতে ডেটা সেটগুলি এখনও ব্যবহারযোগ্য হতে পারে। ডেটা ইম্পিউটেশন পদ্ধতির দুটি বিভাগ রয়েছে:

একক
বহু

মিন ইম্পুটেশন (MI) হল একক-ডেটা ইম্প্যুটেশনের অন্যতম বিখ্যাত রূপ।

গড় ইম্পুটেশন (MI)

MI হল সরল অনুযোগের একটি রূপ। এর মধ্যে পর্যবেক্ষিত মানগুলির গড় গণনা করা এবং অনুপস্থিত মানগুলি অনুমান করতে ফলাফলগুলি ব্যবহার করা জড়িত। দুর্ভাগ্যক্রমে, এই পদ্ধতিটি অকার্যকর বলে প্রমাণিত হয়েছে। এটি অনেক পক্ষপাতমূলক অনুমানের দিকে নিয়ে যেতে পারে, এমনকি যখন ডেটা সম্পূর্ণরূপে এলোমেলোভাবে অনুপস্থিত থাকে। উপরন্তু, অনুমানগুলির "নির্ভুলতা" অনুপস্থিত মানগুলির সংখ্যার উপর নির্ভর করে।

উদাহরণস্বরূপ, যদি প্রচুর সংখ্যক অনুপস্থিত পর্যবেক্ষিত মান থাকে, গড় অভিযোজন ব্যবহার করে মান অবমূল্যায়ন হতে পারে. সুতরাং, এটি শুধুমাত্র কয়েকটি অনুপস্থিত মান সহ ডেটা সেট এবং ভেরিয়েবলের জন্য আরও উপযুক্ত।

ম্যানুয়াল প্রতিস্থাপন

এই পরিস্থিতিতে, একজন অপারেটর অনুপস্থিত মানগুলি প্রতিস্থাপন করতে ডেটা সেটের মানগুলির পূর্ব জ্ঞান ব্যবহার করতে পারে। এটি একটি একক অনুযোগ পদ্ধতি যা অপারেটরের মেমরি বা জ্ঞানের উপর নির্ভর করে এবং কখনও কখনও একটি আদর্শ সংখ্যার পূর্ব জ্ঞান হিসাবে উল্লেখ করা হয়। নির্ভুলতা অপারেটরের মানগুলি স্মরণ করার ক্ষমতার উপর নির্ভর করে, তাই এই পদ্ধতিটি শুধুমাত্র কয়েকটি অনুপস্থিত মান সহ ডেটা সেটের জন্য আরও উপযুক্ত হতে পারে।

K- নিকটতম প্রতিবেশী (K-NN)

K- নিকটতম প্রতিবেশী হল একটি বিখ্যাত কৌশল যা মেশিন লার্নিং-এ রিগ্রেশন এবং শ্রেণীবিভাগ সমস্যা সমাধানের জন্য ব্যবহৃত হয়। এটি অনুপস্থিত ডেটা মানের গড় ব্যবহার করে প্রতিবেশীদের অনুপস্থিত ডেটা মান গণনা করতে এবং এটিকে অভিযুক্ত করে। দ্য K-NN পদ্ধতি সাধারণ গড় অনুযোগের চেয়ে অনেক বেশি কার্যকর এবং MCAR এবং MAR মানগুলির জন্য আদর্শ।

প্রতিকল্পন

প্রতিস্থাপনের মধ্যে একটি নতুন ব্যক্তি বা জরিপ বা পরীক্ষার বিষয় খুঁজে পাওয়া জড়িত। এটি এমন একটি বিষয় হওয়া উচিত যা মূল নমুনায় নির্বাচিত হয়নি।

রিগ্রেশন ইম্পুটেশন

রিগ্রেশন একটি নির্ভরশীল ভেরিয়েবলের শক্তি (সাধারণত Y হিসাবে নির্দিষ্ট করা হয়) স্বাধীন ভেরিয়েবলের একটি সংগ্রহে (সাধারণত X হিসাবে চিহ্নিত) নির্ধারণ করার চেষ্টা করে। লিনিয়ার রিগ্রেশন হল রিগ্রেশনের সবচেয়ে পরিচিত রূপ। অনুপস্থিত মান পূর্বাভাস বা নির্ধারণ করতে এটি সর্বোত্তম ফিটের লাইন ব্যবহার করে। ফলস্বরূপ, এটি একটি রিগ্রেশন মডেলের মাধ্যমে দৃশ্যমানভাবে ডেটা উপস্থাপন করার জন্য সর্বোত্তম পদ্ধতি।

যখন রৈখিক রিগ্রেশন হল একধরনের নির্ধারক রিগ্রেশন যেখানে অনুপস্থিত এবং বর্তমান মানগুলির মধ্যে একটি সঠিক সম্পর্ক প্রতিষ্ঠিত হয়, অনুপস্থিত মানগুলি রিগ্রেশন মডেলের 100% পূর্বাভাস দিয়ে প্রতিস্থাপিত হয়। তবে এই পদ্ধতির একটি সীমাবদ্ধতা রয়েছে। ডিটারমিনিস্টিক রৈখিক রিগ্রেশন প্রায়শই মানগুলির মধ্যে সম্পর্কের ঘনিষ্ঠতার একটি অত্যধিক মূল্যায়ন হতে পারে।

স্টচাস্টিক রৈখিক রিগ্রেশনের একটি (এলোমেলো) ত্রুটি শব্দ প্রবর্তন করে নির্ধারক রিগ্রেশনের "অতি-নির্ভুলতার" জন্য ক্ষতিপূরণ দেয় কারণ দুটি পরিস্থিতি বা ভেরিয়েবল খুব কমই পুরোপুরি সংযুক্ত থাকে। এটি রিগ্রেশন ব্যবহার করে অনুপস্থিত মান পূরণ করা আরও উপযুক্ত করে তোলে।

হট ডেক স্যাম্পলিং

এই পদ্ধতির মধ্যে একটি বিষয় থেকে একটি এলোমেলোভাবে নির্বাচিত মান নির্বাচন করা জড়িত যার মান অনুপস্থিত বিষয়ের অনুরূপ। এর জন্য আপনাকে বিষয় বা ব্যক্তিদের অনুসন্ধান করতে হবে এবং তারপর তাদের মান ব্যবহার করে অনুপস্থিত ডেটা পূরণ করতে হবে।

হট ডেক স্যাম্পলিং পদ্ধতি প্রাপ্য মানগুলির পরিসরকে সীমাবদ্ধ করে। উদাহরণস্বরূপ, যদি আপনার নমুনাটি 20 থেকে 25 বছরের মধ্যে একটি বয়সের মধ্যে সীমাবদ্ধ থাকে, তাহলে আপনার ফলাফল সর্বদা এই সংখ্যার মধ্যে থাকবে, প্রতিস্থাপন মানের সম্ভাব্য নির্ভুলতা বৃদ্ধি করবে। অভিযোগের এই পদ্ধতির জন্য বিষয়/ব্যক্তি এলোমেলোভাবে নির্বাচিত হয়।

কোল্ড ডেক স্যাম্পলিং

এই পদ্ধতিতে ডেটা সেটের অন্যান্য সকল ভেরিয়েবল/প্যারামিটারের জন্য অনুরূপ বা অভিন্ন মান রয়েছে এমন একটি ব্যক্তি/বিষয় অনুসন্ধান করা জড়িত। উদাহরণস্বরূপ, বিষয়ের মান অনুপস্থিত বিষয়ের সমান উচ্চতা, সাংস্কৃতিক পটভূমি এবং বয়স থাকতে পারে। এটি হট ডেক নমুনা থেকে পৃথক যে বিষয়গুলি পদ্ধতিগতভাবে নির্বাচিত এবং পুনরায় ব্যবহার করা হয়।

যদিও অনুপস্থিত ডেটা মোকাবেলা করার জন্য অনেকগুলি বিকল্প এবং কৌশল রয়েছে, তবে প্রতিকারের চেয়ে প্রতিরোধ সর্বদা ভাল। গবেষকদের কঠোরভাবে প্রয়োগ করতে হবে পরীক্ষার জন্য পরিকল্পনা এবং পড়াশোনা। অধ্যয়নের একটি স্পষ্ট মিশন বিবৃতি বা লক্ষ্য মনে রাখতে হবে।

প্রায়শই, গবেষকরা একটি অধ্যয়নকে অতিরিক্ত জটিল করে তোলে বা প্রতিবন্ধকতার বিরুদ্ধে পরিকল্পনা করতে ব্যর্থ হয়, যার ফলস্বরূপ অনুপস্থিত বা অপর্যাপ্ত ডেটা হয়। ডেটা সংগ্রহের উপর একটি সুনির্দিষ্ট ফোকাস রাখার সময় অধ্যয়নের নকশাকে সরল করা সর্বদা সর্বোত্তম।

অধ্যয়নের লক্ষ্য পূরণের জন্য আপনার প্রয়োজনীয় ডেটা সংগ্রহ করুন এবং এর বেশি কিছু নয়। আপনাকে নিশ্চিত করতে হবে যে অধ্যয়ন বা পরীক্ষায় জড়িত সমস্ত যন্ত্র এবং সেন্সর সর্বদা সম্পূর্ণরূপে কার্যকরী। অধ্যয়নের অগ্রগতির সাথে সাথে আপনার ডেটা/প্রতিক্রিয়াগুলির নিয়মিত ব্যাকআপ তৈরি করার কথা বিবেচনা করুন।

ডেটা হারিয়ে যাওয়া একটি সাধারণ ঘটনা। এমনকি আপনি যদি সর্বোত্তম অনুশীলনগুলি প্রয়োগ করেন, তবুও আপনি অসম্পূর্ণ ডেটাতে ভুগতে পারেন। সৌভাগ্যবশত, সত্যের পরে এই সমস্যাটি সমাধান করার উপায় রয়েছে।

নাহলা ডেভিস একজন সফটওয়্যার ডেভেলপার এবং প্রযুক্তি লেখক। প্রযুক্তিগত লেখার জন্য তার কাজকে সম্পূর্ণ সময় উৎসর্গ করার আগে, তিনি একটি Inc. 5,000 এক্সপেরিয়েনশিয়াল ব্র্যান্ডিং প্রতিষ্ঠানে লিড প্রোগ্রামার হিসাবে কাজ করার জন্য — অন্যান্য চমকপ্রদ জিনিসগুলির মধ্যে পরিচালনা করেছিলেন যার ক্লায়েন্টদের মধ্যে রয়েছে Samsung, Time Warner, Netflix, এবং Sony।