দ্বারা ফোটো রন ল্যাচ
বাস্তব-বিশ্বের ডেটা সেট কদাচিৎ নিখুঁত এবং প্রায়ই অনুপস্থিত মান বা অসম্পূর্ণ তথ্য সহ আসে। এই ত্রুটিগুলি মানব উপাদান (ভুলভাবে ভরা বা অপূর্ণ জরিপ) বা প্রযুক্তি (সেন্সর ত্রুটিপূর্ণ) কারণে হতে পারে। যাই হোক না কেন, আপনার কাছে প্রায়শই অনুপস্থিত মান বা তথ্য থাকে।
অবশ্যই, এটি একটি সমস্যা উপস্থাপন করে। অনুপস্থিত মান ব্যতীত, সমগ্র ডেটা সেটটি অব্যবহারযোগ্য বলে বিবেচিত হতে পারে। কিন্তু যেহেতু এটি যথেষ্ট সময়, প্রচেষ্টা, এবং (অনেক ক্ষেত্রে) অর্থ লাগে উচ্চ মানের ডেটা অর্জন করুন, ভুল তথ্য নিষ্পত্তি করা এবং আবার শুরু করা কার্যকর বিকল্প নাও হতে পারে। পরিবর্তে, আমাদের অবশ্যই এই অনুপস্থিত মানগুলির চারপাশে কাজ করার বা প্রতিস্থাপন করার একটি উপায় খুঁজে বের করতে হবে। এখানেই ডেটা ইম্প্যুটেশন আসে।
এই নির্দেশিকাটি ডেটা ইম্প্যুটেশন কী এবং সেইসাথে এটি সমর্থন করে এমন পদ্ধতির ধরন নিয়ে আলোচনা করবে।
যদিও আমরা অনুপস্থিত বা দূষিত ডেটা প্রতিস্থাপন করতে পারি না, তবে ডেটা সেটটিকে এখনও ব্যবহারযোগ্য করার অনুমতি দেওয়ার জন্য আমরা কিছু পদ্ধতি ব্যবহার করতে পারি। ডেটা ইম্পুটেশন এটি অর্জনের জন্য সবচেয়ে নির্ভরযোগ্য কৌশলগুলির মধ্যে একটি। যাইহোক, আমাদের প্রথমে সনাক্ত করতে হবে কোন ধরণের ডেটা অনুপস্থিত এবং কেন।
পরিসংখ্যান এবং তথ্য বিজ্ঞানে, তিনটি প্রধান ধরণের অনুপস্থিত ডেটা রয়েছে:
- এলোমেলোভাবে অনুপস্থিত (MAR), যেখানে অনুপস্থিত ডেটা একটি পরিবর্তনশীলের সাথে সংযুক্ত থাকে এবং শেষ পর্যন্ত পর্যবেক্ষণ বা ট্রেস করা যায়। অনেক ক্ষেত্রে, এটি আপনাকে জনসংখ্যা বা ডেটা বিষয় সম্পর্কে আরও তথ্য প্রদান করতে পারে। উদাহরণস্বরূপ, একটি নির্দিষ্ট বয়সের লোকেরা একটি সমীক্ষায় একটি প্রশ্ন এড়িয়ে যাওয়ার বা নির্দিষ্ট সময়ে তাদের ডিভাইস থেকে ট্র্যাকিং সিস্টেমগুলি সরানোর সিদ্ধান্ত নিতে পারে।
- এলোমেলোভাবে সম্পূর্ণ অনুপস্থিত (MCAR), যেখানে অনুপস্থিত তথ্য একটি পরিবর্তনশীল পর্যবেক্ষণ বা ট্রেস করা যাবে না. কেন ডেটা অনুপস্থিত তা নির্ণয় করা প্রায় অসম্ভব।
- অনুপস্থিত ডেটা যা এলোমেলোভাবে অনুপস্থিত (NMAR), যেখানে অনুপস্থিত ডেটা আগ্রহের একটি পরিবর্তনশীলের সাথে সংযুক্ত থাকে। বেশিরভাগ ক্ষেত্রে, এই অনুপস্থিত ডেটা উপেক্ষা করা যেতে পারে। NMAR ঘটতে পারে যখন একজন জরিপ গ্রহণকারী তাদের জন্য প্রযোজ্য নয় এমন একটি প্রশ্ন এড়িয়ে যান।
অনুপস্থিত ডেটা নিয়ে কাজ করা
বর্তমানে, অনুপস্থিত ডেটা মানগুলি মোকাবেলা করার জন্য আপনার কাছে তিনটি প্রাথমিক বিকল্প রয়েছে:
- মুছিয়াতা
- অনুদান
- অবজ্ঞা করুন
সম্পূর্ণ ডেটা সেট নিষ্পত্তি করার পরিবর্তে, আপনি তালিকা অনুযায়ী মুছে ফেলা হিসাবে পরিচিত ব্যবহার করতে পারেন। এতে অনুপস্থিত তথ্য বা মান সহ রেকর্ডগুলি মুছে ফেলা জড়িত। তালিকা অনুযায়ী মুছে ফেলার প্রধান সুবিধা হল এটি অনুপস্থিত ডেটার তিনটি বিভাগকে সমর্থন করে।
যাইহোক, এর ফলে অতিরিক্ত ডেটা ক্ষতি হতে পারে। এটি সুপারিশ করা হয় যে আপনি শুধুমাত্র ব্যবহার করুন তালিকা অনুসারে মুছে ফেলা যেখানে বর্তমান (পর্যবেক্ষিত) মানগুলির তুলনায় অনুপস্থিত (পর্যবেক্ষিত) মানগুলির একটি বড় সংখ্যা রয়েছে, প্রধানত কারণ তাদের অনুমান বা প্রতিস্থাপন করার জন্য পর্যাপ্ত ডেটা নেই।
যদি পর্যবেক্ষণ করা অনুপস্থিত ডেটা গুরুত্বপূর্ণ না হয় (অজ্ঞানযোগ্য) এবং শুধুমাত্র কয়েকটি মান অনুপস্থিত থাকে, আপনি সেগুলি উপেক্ষা করতে পারেন এবং আপনার যা আছে তা নিয়ে কাজ করতে পারেন। যাইহোক, এটি সবসময় একটি সম্ভাবনা নয়। ডেটা ইম্প্যুটেশন একটি তৃতীয় এবং সম্ভাব্য আরও কার্যকর সমাধান প্রদান করে।
ডেটা অনুপস্থিতিতে অনুপস্থিত মানগুলি প্রতিস্থাপন করা জড়িত যাতে ডেটা সেটগুলি এখনও ব্যবহারযোগ্য হতে পারে। ডেটা ইম্পিউটেশন পদ্ধতির দুটি বিভাগ রয়েছে:
- একক
- বহু
মিন ইম্পুটেশন (MI) হল একক-ডেটা ইম্প্যুটেশনের অন্যতম বিখ্যাত রূপ।
গড় ইম্পুটেশন (MI)
MI হল সরল অনুযোগের একটি রূপ। এর মধ্যে পর্যবেক্ষিত মানগুলির গড় গণনা করা এবং অনুপস্থিত মানগুলি অনুমান করতে ফলাফলগুলি ব্যবহার করা জড়িত। দুর্ভাগ্যক্রমে, এই পদ্ধতিটি অকার্যকর বলে প্রমাণিত হয়েছে। এটি অনেক পক্ষপাতমূলক অনুমানের দিকে নিয়ে যেতে পারে, এমনকি যখন ডেটা সম্পূর্ণরূপে এলোমেলোভাবে অনুপস্থিত থাকে। উপরন্তু, অনুমানগুলির "নির্ভুলতা" অনুপস্থিত মানগুলির সংখ্যার উপর নির্ভর করে।
উদাহরণস্বরূপ, যদি প্রচুর সংখ্যক অনুপস্থিত পর্যবেক্ষিত মান থাকে, গড় অভিযোজন ব্যবহার করে মান অবমূল্যায়ন হতে পারে. সুতরাং, এটি শুধুমাত্র কয়েকটি অনুপস্থিত মান সহ ডেটা সেট এবং ভেরিয়েবলের জন্য আরও উপযুক্ত।
ম্যানুয়াল প্রতিস্থাপন
এই পরিস্থিতিতে, একজন অপারেটর অনুপস্থিত মানগুলি প্রতিস্থাপন করতে ডেটা সেটের মানগুলির পূর্ব জ্ঞান ব্যবহার করতে পারে। এটি একটি একক অনুযোগ পদ্ধতি যা অপারেটরের মেমরি বা জ্ঞানের উপর নির্ভর করে এবং কখনও কখনও একটি আদর্শ সংখ্যার পূর্ব জ্ঞান হিসাবে উল্লেখ করা হয়। নির্ভুলতা অপারেটরের মানগুলি স্মরণ করার ক্ষমতার উপর নির্ভর করে, তাই এই পদ্ধতিটি শুধুমাত্র কয়েকটি অনুপস্থিত মান সহ ডেটা সেটের জন্য আরও উপযুক্ত হতে পারে।
K- নিকটতম প্রতিবেশী (K-NN)
K- নিকটতম প্রতিবেশী হল একটি বিখ্যাত কৌশল যা মেশিন লার্নিং-এ রিগ্রেশন এবং শ্রেণীবিভাগ সমস্যা সমাধানের জন্য ব্যবহৃত হয়। এটি অনুপস্থিত ডেটা মানের গড় ব্যবহার করে প্রতিবেশীদের অনুপস্থিত ডেটা মান গণনা করতে এবং এটিকে অভিযুক্ত করে। দ্য K-NN পদ্ধতি সাধারণ গড় অনুযোগের চেয়ে অনেক বেশি কার্যকর এবং MCAR এবং MAR মানগুলির জন্য আদর্শ।
প্রতিকল্পন
প্রতিস্থাপনের মধ্যে একটি নতুন ব্যক্তি বা জরিপ বা পরীক্ষার বিষয় খুঁজে পাওয়া জড়িত। এটি এমন একটি বিষয় হওয়া উচিত যা মূল নমুনায় নির্বাচিত হয়নি।
রিগ্রেশন ইম্পুটেশন
রিগ্রেশন একটি নির্ভরশীল ভেরিয়েবলের শক্তি (সাধারণত Y হিসাবে নির্দিষ্ট করা হয়) স্বাধীন ভেরিয়েবলের একটি সংগ্রহে (সাধারণত X হিসাবে চিহ্নিত) নির্ধারণ করার চেষ্টা করে। লিনিয়ার রিগ্রেশন হল রিগ্রেশনের সবচেয়ে পরিচিত রূপ। অনুপস্থিত মান পূর্বাভাস বা নির্ধারণ করতে এটি সর্বোত্তম ফিটের লাইন ব্যবহার করে। ফলস্বরূপ, এটি একটি রিগ্রেশন মডেলের মাধ্যমে দৃশ্যমানভাবে ডেটা উপস্থাপন করার জন্য সর্বোত্তম পদ্ধতি।
যখন রৈখিক রিগ্রেশন হল একধরনের নির্ধারক রিগ্রেশন যেখানে অনুপস্থিত এবং বর্তমান মানগুলির মধ্যে একটি সঠিক সম্পর্ক প্রতিষ্ঠিত হয়, অনুপস্থিত মানগুলি রিগ্রেশন মডেলের 100% পূর্বাভাস দিয়ে প্রতিস্থাপিত হয়। তবে এই পদ্ধতির একটি সীমাবদ্ধতা রয়েছে। ডিটারমিনিস্টিক রৈখিক রিগ্রেশন প্রায়শই মানগুলির মধ্যে সম্পর্কের ঘনিষ্ঠতার একটি অত্যধিক মূল্যায়ন হতে পারে।
স্টচাস্টিক রৈখিক রিগ্রেশনের একটি (এলোমেলো) ত্রুটি শব্দ প্রবর্তন করে নির্ধারক রিগ্রেশনের "অতি-নির্ভুলতার" জন্য ক্ষতিপূরণ দেয় কারণ দুটি পরিস্থিতি বা ভেরিয়েবল খুব কমই পুরোপুরি সংযুক্ত থাকে। এটি রিগ্রেশন ব্যবহার করে অনুপস্থিত মান পূরণ করা আরও উপযুক্ত করে তোলে।
হট ডেক স্যাম্পলিং
এই পদ্ধতির মধ্যে একটি বিষয় থেকে একটি এলোমেলোভাবে নির্বাচিত মান নির্বাচন করা জড়িত যার মান অনুপস্থিত বিষয়ের অনুরূপ। এর জন্য আপনাকে বিষয় বা ব্যক্তিদের অনুসন্ধান করতে হবে এবং তারপর তাদের মান ব্যবহার করে অনুপস্থিত ডেটা পূরণ করতে হবে।
হট ডেক স্যাম্পলিং পদ্ধতি প্রাপ্য মানগুলির পরিসরকে সীমাবদ্ধ করে। উদাহরণস্বরূপ, যদি আপনার নমুনাটি 20 থেকে 25 বছরের মধ্যে একটি বয়সের মধ্যে সীমাবদ্ধ থাকে, তাহলে আপনার ফলাফল সর্বদা এই সংখ্যার মধ্যে থাকবে, প্রতিস্থাপন মানের সম্ভাব্য নির্ভুলতা বৃদ্ধি করবে। অভিযোগের এই পদ্ধতির জন্য বিষয়/ব্যক্তি এলোমেলোভাবে নির্বাচিত হয়।
কোল্ড ডেক স্যাম্পলিং
এই পদ্ধতিতে ডেটা সেটের অন্যান্য সকল ভেরিয়েবল/প্যারামিটারের জন্য অনুরূপ বা অভিন্ন মান রয়েছে এমন একটি ব্যক্তি/বিষয় অনুসন্ধান করা জড়িত। উদাহরণস্বরূপ, বিষয়ের মান অনুপস্থিত বিষয়ের সমান উচ্চতা, সাংস্কৃতিক পটভূমি এবং বয়স থাকতে পারে। এটি হট ডেক নমুনা থেকে পৃথক যে বিষয়গুলি পদ্ধতিগতভাবে নির্বাচিত এবং পুনরায় ব্যবহার করা হয়।
যদিও অনুপস্থিত ডেটা মোকাবেলা করার জন্য অনেকগুলি বিকল্প এবং কৌশল রয়েছে, তবে প্রতিকারের চেয়ে প্রতিরোধ সর্বদা ভাল। গবেষকদের কঠোরভাবে প্রয়োগ করতে হবে পরীক্ষার জন্য পরিকল্পনা এবং পড়াশোনা। অধ্যয়নের একটি স্পষ্ট মিশন বিবৃতি বা লক্ষ্য মনে রাখতে হবে।
প্রায়শই, গবেষকরা একটি অধ্যয়নকে অতিরিক্ত জটিল করে তোলে বা প্রতিবন্ধকতার বিরুদ্ধে পরিকল্পনা করতে ব্যর্থ হয়, যার ফলস্বরূপ অনুপস্থিত বা অপর্যাপ্ত ডেটা হয়। ডেটা সংগ্রহের উপর একটি সুনির্দিষ্ট ফোকাস রাখার সময় অধ্যয়নের নকশাকে সরল করা সর্বদা সর্বোত্তম।
অধ্যয়নের লক্ষ্য পূরণের জন্য আপনার প্রয়োজনীয় ডেটা সংগ্রহ করুন এবং এর বেশি কিছু নয়। আপনাকে নিশ্চিত করতে হবে যে অধ্যয়ন বা পরীক্ষায় জড়িত সমস্ত যন্ত্র এবং সেন্সর সর্বদা সম্পূর্ণরূপে কার্যকরী। অধ্যয়নের অগ্রগতির সাথে সাথে আপনার ডেটা/প্রতিক্রিয়াগুলির নিয়মিত ব্যাকআপ তৈরি করার কথা বিবেচনা করুন।
ডেটা হারিয়ে যাওয়া একটি সাধারণ ঘটনা। এমনকি আপনি যদি সর্বোত্তম অনুশীলনগুলি প্রয়োগ করেন, তবুও আপনি অসম্পূর্ণ ডেটাতে ভুগতে পারেন। সৌভাগ্যবশত, সত্যের পরে এই সমস্যাটি সমাধান করার উপায় রয়েছে।
নাহলা ডেভিস একজন সফটওয়্যার ডেভেলপার এবং প্রযুক্তি লেখক। প্রযুক্তিগত লেখার জন্য তার কাজকে সম্পূর্ণ সময় উৎসর্গ করার আগে, তিনি একটি Inc. 5,000 এক্সপেরিয়েনশিয়াল ব্র্যান্ডিং প্রতিষ্ঠানে লিড প্রোগ্রামার হিসাবে কাজ করার জন্য — অন্যান্য চমকপ্রদ জিনিসগুলির মধ্যে পরিচালনা করেছিলেন যার ক্লায়েন্টদের মধ্যে রয়েছে Samsung, Time Warner, Netflix, এবং Sony।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- উত্স: https://www.kdnuggets.com/2023/01/approaches-data-imputation.html?utm_source=rss&utm_medium=rss&utm_campaign=approaches-to-data-imputation
- 000
- a
- ক্ষমতা
- সম্পর্কে
- অনুপস্থিত
- সঠিকতা
- অতিরিক্ত
- উপরন্তু
- ঠিকানা
- সুবিধা
- পর
- বিরুদ্ধে
- সব
- সর্বদা
- মধ্যে
- এবং
- প্রয়োগ করা
- অভিগমন
- পন্থা
- যথাযথ
- কাছাকাছি
- লভ্য
- প্রচেষ্টা
- পটভূমি
- ব্যাক-আপ
- কারণ
- আগে
- সর্বোত্তম
- সেরা অভ্যাস
- উত্তম
- মধ্যে
- ব্র্যান্ডিং
- গণক
- না পারেন
- কেস
- মামলা
- বিভাগ
- কিছু
- মনোনীত
- শ্রেণীবিন্যাস
- পরিষ্কার
- ক্লায়েন্ট
- সংগ্রহ
- আসা
- সাধারণ
- সম্পূর্ণরূপে
- সংযুক্ত
- অতএব
- বিবেচনা
- গণ্যমান্য
- পারা
- পথ
- তৈরি করা হচ্ছে
- সাংস্কৃতিক
- আরোগ্য
- উপাত্ত
- তথ্য হারানোর
- তথ্য বিজ্ঞান
- তথ্য সেট
- ডেটা সেট
- লেনদেন
- ডিলিং
- জনসংখ্যার উপাত্ত
- নির্ভরশীল
- নির্ভর করে
- নকশা
- নির্ধারণ
- বিকাশকারী
- ডিভাইস
- আলোচনা করা
- না
- কার্যকর
- প্রচেষ্টা
- যথেষ্ট
- নিশ্চিত করা
- সমগ্র
- ভুল
- প্রতিষ্ঠিত
- অনুমান
- এমন কি
- উদাহরণ
- অভিজ্ঞতা
- ব্যর্থ
- বিখ্যাত
- বিখ্যাত
- কয়েক
- পূরণ করা
- ভরা
- আবিষ্কার
- আবিষ্কার
- প্রথম
- ফিট
- কেন্দ্রবিন্দু
- ফর্ম
- ফর্ম
- ভাগ্যক্রমে
- থেকে
- সম্পূর্ণ
- সম্পূর্ণরূপে
- কার্মিক
- লক্ষ্য
- গোল
- মহান
- বৃহত্তর
- গ্রুপ
- কৌশল
- উচ্চতা
- উচ্চ গুনসম্পন্ন
- গরম
- যাহোক
- এইচটিএমএল
- HTTPS দ্বারা
- মানবীয়
- মানব উপাদান
- আইবিএম
- আদর্শ
- অভিন্ন
- সনাক্ত করা
- বাস্তবায়ন
- গুরুত্বপূর্ণ
- অসম্ভব
- in
- ইনক
- অন্তর্ভুক্ত করা
- ভুল
- ক্রমবর্ধমান
- স্বাধীন
- স্বতন্ত্র
- ব্যক্তি
- অদক্ষ
- তথ্য
- উদাহরণ
- পরিবর্তে
- যন্ত্র
- স্বার্থ
- উপস্থাপক
- জড়িত
- IT
- কেডনুগেটস
- জ্ঞান
- পরিচিত
- নেতৃত্ব
- শিক্ষা
- সীমাবদ্ধতা
- সীমা
- লাইন
- ক্ষতি
- মেশিন
- মেশিন লার্নিং
- প্রধান
- তৈরি করে
- পরিচালিত
- অনেক
- সম্মেলন
- স্মৃতি
- পদ্ধতি
- পদ্ধতি
- মন
- অনুপস্থিত
- মিশন
- মিশন বিবৃতি
- মডেল
- টাকা
- অধিক
- সেতু
- প্রায়
- প্রয়োজন
- প্রতিবেশী
- Netflix এর
- নতুন
- সংখ্যা
- সংখ্যার
- অফার
- ONE
- অপারেটর
- অপশন সমূহ
- সংগঠন
- মূল
- অন্যান্য
- সম্প্রদায়
- নির্ভুল
- স্থাপন
- পরিকল্পনা
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- সম্ভাবনা
- সম্ভাব্য
- সম্ভাব্য
- চর্চা
- ভবিষ্যদ্বাণী করা
- ভবিষ্যদ্বাণী
- বর্তমান
- উপস্থাপন
- প্রতিরোধ
- প্রাথমিক
- পূর্বে
- সমস্যা
- সমস্যা
- প্রোগ্রামার
- প্রমাণিত
- প্রদান
- প্রশ্ন
- এলোমেলো
- পরিসর
- সুপারিশ করা
- রেকর্ড
- উল্লেখ করা
- প্রত্যাগতি
- নিয়মিত
- সম্পর্ক
- বিশ্বাসযোগ্য
- অপসারণ
- প্রতিস্থাপন করা
- প্রতিস্থাপিত
- প্রতিনিধিত্বমূলক
- প্রয়োজন
- গবেষকরা
- সীমাবদ্ধ
- ফল
- ফলাফল
- একই
- স্যামসাং
- বিজ্ঞান
- সার্চ
- অনুসন্ধানের
- কদাপি
- নির্বাচিত
- নির্বাচন
- সেন্সর
- পরিবেশন করা
- সেট
- সেট
- উচিত
- অনুরূপ
- সহজ
- সহজতর করা
- থেকে
- একক
- অবস্থা
- পরিস্থিতিতে
- So
- সফটওয়্যার
- সমাধান
- সনি
- নিদিষ্ট
- শুরু হচ্ছে
- বিবৃতি
- পরিসংখ্যান
- এখনো
- শক্তি
- গবেষণায়
- অধ্যয়ন
- বিষয়
- উপযুক্ত
- সমর্থন
- জরিপ
- সিস্টেম
- লাগে
- প্রযুক্তি
- কারিগরী
- প্রযুক্তি
- প্রযুক্তিঃ
- পরীক্ষা
- সার্জারির
- তাদের
- কিছু
- তৃতীয়
- তিন
- দ্বারা
- বাঁধা
- সময়
- বার
- থেকে
- অনুসরণকরণ
- ধরনের
- পরিণামে
- ব্যবহার
- সাধারণত
- মূল্য
- মানগুলি
- টেকসই
- ওয়ার্নার
- উপায়
- সুপরিচিত
- কি
- যে
- যখন
- হু
- ইচ্ছা
- ছাড়া
- হয়া যাই ?
- লেখক
- লেখা
- X
- আপনার
- zephyrnet