کی طرف سے تصویر رون لیچ
حقیقی دنیا کے ڈیٹا سیٹ شاذ و نادر ہی کامل ہوتے ہیں اور اکثر گمشدہ اقدار یا نامکمل معلومات کے ساتھ آتے ہیں۔ یہ خرابیاں انسانی عنصر (غلط طریقے سے بھرے یا غیر بھرے ہوئے سروے) یا ٹیکنالوجی (خرابی والے سینسرز) کی وجہ سے ہو سکتی ہیں۔ معاملہ کچھ بھی ہو، آپ کے پاس اکثر اقدار یا معلومات غائب رہتی ہیں۔
یقینا، یہ ایک مسئلہ پیش کرتا ہے. گمشدہ اقدار کے بغیر، پورے ڈیٹا سیٹ کو ناقابل استعمال سمجھا جا سکتا ہے۔ لیکن چونکہ اس میں کافی وقت، کوشش، اور (بہت سے معاملات میں) پیسہ لگتا ہے۔ اعلی معیار کا ڈیٹا حاصل کریں۔غلط ڈیٹا کو ضائع کرنا اور دوبارہ شروع کرنا قابل عمل آپشن نہیں ہو سکتا۔ اس کے بجائے، ہمیں ان گمشدہ اقدار کے ارد گرد کام کرنے یا تبدیل کرنے کا راستہ تلاش کرنا چاہیے۔ یہ وہ جگہ ہے جہاں ڈیٹا کی تقرری آتی ہے۔
اس گائیڈ میں اس بات پر تبادلہ خیال کیا جائے گا کہ اعداد و شمار کا تقاضہ کیا ہے اور ساتھ ہی اس کی حمایت کرنے والے طریقوں کی اقسام۔
اگرچہ ہم گمشدہ یا کرپٹ ڈیٹا کو تبدیل نہیں کر سکتے، لیکن ایسے طریقے ہیں جو ہم ڈیٹا سیٹ کو قابل استعمال رہنے کی اجازت دینے کے لیے استعمال کر سکتے ہیں۔ اس کو حاصل کرنے کے لیے ڈیٹا امپیوٹیشن سب سے زیادہ قابل اعتماد تکنیکوں میں سے ایک ہے۔ تاہم، ہمیں پہلے اس بات کی شناخت کرنی چاہیے کہ کس قسم کا ڈیٹا غائب ہے اور کیوں۔
اعداد و شمار اور ڈیٹا سائنس میں، لاپتہ ڈیٹا کی تین اہم اقسام ہیں:
- بے ترتیب طور پر غائب (MAR)، جہاں گمشدہ ڈیٹا کو متغیر سے جوڑا جاتا ہے اور بالآخر مشاہدہ یا سراغ لگایا جاسکتا ہے۔ بہت سے معاملات میں، یہ آپ کو ڈیموگرافکس یا ڈیٹا کے مضامین کے بارے میں مزید معلومات فراہم کر سکتا ہے۔ مثال کے طور پر، ایک خاص عمر کے لوگ سروے پر سوال چھوڑنے یا مخصوص اوقات میں اپنے آلات سے ٹریکنگ سسٹم ہٹانے کا فیصلہ کر سکتے ہیں۔
- بے ترتیب پر مکمل طور پر غائب (MCAR)، جہاں غائب ڈیٹا متغیر کا مشاہدہ یا سراغ نہیں لگایا جا سکتا۔ یہ جاننا تقریباً ناممکن ہے کہ ڈیٹا کیوں غائب ہے۔
- گمشدہ ڈیٹا جو بے ترتیب طور پر غائب نہیں ہے (NMAR)، جہاں گمشدہ ڈیٹا دلچسپی کے متغیر سے منسلک ہے۔ زیادہ تر معاملات میں، اس گمشدہ ڈیٹا کو نظر انداز کیا جا سکتا ہے۔ NMAR اس وقت ہو سکتا ہے جب سروے کرنے والا کوئی ایسا سوال چھوڑ دیتا ہے جو ان پر لاگو نہیں ہوتا ہے۔
گمشدہ ڈیٹا سے نمٹنا
فی الحال، آپ کے پاس ڈیٹا کی گمشدہ اقدار سے نمٹنے کے لیے تین بنیادی اختیارات ہیں:
- منسوخی
- بدنامی
- نظرانداز کریں
پورے ڈیٹا سیٹ کو ضائع کرنے کے بجائے، آپ اسے استعمال کر سکتے ہیں جسے فہرست کے مطابق حذف کرنا کہا جاتا ہے۔ اس میں گمشدہ معلومات یا اقدار والے ریکارڈز کو حذف کرنا شامل ہے۔ فہرست کے لحاظ سے حذف کرنے کا سب سے بڑا فائدہ یہ ہے کہ یہ گمشدہ ڈیٹا کی تینوں اقسام کو سپورٹ کرتا ہے۔
تاہم، اس کے نتیجے میں اضافی ڈیٹا ضائع ہو سکتا ہے۔ یہ سفارش کی جاتی ہے کہ آپ صرف استعمال کریں۔ فہرست کے مطابق حذف کرنا ایسی صورتوں میں جہاں موجود (مشاہدہ) قدروں سے زیادہ تعداد میں غائب (مشاہدہ) قدریں ہیں، بنیادی طور پر اس لیے کہ ان کا اندازہ لگانے یا تبدیل کرنے کے لیے کافی ڈیٹا نہیں ہے۔
اگر مشاہدہ شدہ گمشدہ ڈیٹا اہم نہیں ہے (ناقابل توجہ) اور صرف چند اقدار غائب ہیں، تو آپ انہیں نظر انداز کر سکتے ہیں اور جو کچھ آپ کے پاس ہے اس کے ساتھ کام کر سکتے ہیں۔ تاہم، یہ ہمیشہ ایک امکان نہیں ہے. اعداد و شمار کا تقاضہ ایک تیسرا اور ممکنہ طور پر زیادہ قابل عمل حل پیش کرتا ہے۔
ڈیٹا کے تقاضے میں غیر حاضر اقدار کو تبدیل کرنا شامل ہے تاکہ ڈیٹا سیٹ اب بھی قابل استعمال ہو سکیں۔ اعداد و شمار کے تقرر کے طریقوں کی دو قسمیں ہیں:
- سنگل
- ایک سے زیادہ
مین امپیوٹیشن (MI) سنگل ڈیٹا امپیوٹیشن کی سب سے مشہور شکلوں میں سے ایک ہے۔
میان امپیوٹیشن (MI)
MI سادہ تقلید کی ایک شکل ہے۔ اس میں مشاہدہ شدہ اقدار کے وسط کا حساب لگانا اور گمشدہ اقدار کا اندازہ لگانے کے لیے نتائج کا استعمال کرنا شامل ہے۔ بدقسمتی سے، یہ طریقہ غیر موثر ثابت ہوا ہے. یہ بہت سے متعصب تخمینوں کا باعث بن سکتا ہے، یہاں تک کہ جب ڈیٹا مکمل طور پر بے ترتیب طور پر غائب ہو۔ مزید برآں، تخمینوں کی "درستگی" کا انحصار گمشدہ اقدار کی تعداد پر ہے۔
مثال کے طور پر، اگر مشاہدہ شدہ قدروں کی ایک بڑی تعداد غائب ہے، مطلب کا استعمال کرتے ہوئے قدر کو کم کرنے کا باعث بن سکتا ہے۔ اس طرح، یہ ڈیٹا سیٹس اور متغیرات کے لیے صرف چند گم شدہ اقدار کے لیے بہتر ہے۔
دستی تبدیلی
اس صورت حال میں، ایک آپریٹر گمشدہ اقدار کو تبدیل کرنے کے لیے ڈیٹا سیٹ کی قدروں کی پیشگی معلومات کا استعمال کر سکتا ہے۔ یہ ایک واحد تقلید کا طریقہ ہے جو آپریٹر کی یادداشت یا علم پر انحصار کرتا ہے اور بعض اوقات اسے مثالی نمبر کی پیشگی معلومات بھی کہا جاتا ہے۔ درستگی آپریٹر کی اقدار کو یاد کرنے کی صلاحیت پر منحصر ہے، لہذا یہ طریقہ صرف چند گم شدہ اقدار کے ساتھ ڈیٹا سیٹ کے لیے زیادہ موزوں ہو سکتا ہے۔
K-قریب ترین پڑوسی (K-NN)
K-nearest پڑوسی ایک تکنیک ہے جو مشین لرننگ میں رجعت اور درجہ بندی کے مسائل کو حل کرنے کے لیے مشہور ہے۔ یہ گمشدہ ڈیٹا ویلیو کے ہمسایوں کی گمشدہ ڈیٹا ویلیو کا حساب لگانے اور اس پر الزام لگانے کے لیے استعمال کرتا ہے۔ دی K-NN طریقہ یہ سادہ مطلب سے کہیں زیادہ موثر ہے اور MCAR اور MAR اقدار کے لیے مثالی ہے۔
متبادل
متبادل میں ایک نئے فرد کو تلاش کرنا یا سروے یا ٹیسٹ کے تابع ہونا شامل ہے۔ یہ ایک ایسا مضمون ہونا چاہیے جسے اصل نمونے میں منتخب نہیں کیا گیا تھا۔
Regression Imputation
رجعت ایک منحصر متغیر کی طاقت کا تعین کرنے کی کوشش کرتا ہے (عام طور پر Y کے طور پر بیان کیا جاتا ہے) آزاد متغیرات کے مجموعہ تک (عام طور پر X کے طور پر بیان کیا جاتا ہے)۔ لکیری رجعت رجعت کی سب سے مشہور شکل ہے۔ یہ گمشدہ قدر کی پیش گوئی یا تعین کرنے کے لیے بہترین فٹ کی لائن کا استعمال کرتا ہے۔ نتیجتاً، ریگریشن ماڈل کے ذریعے بصری طور پر ڈیٹا کی نمائندگی کرنے کا یہ بہترین طریقہ ہے۔
جب لکیری رجعت تعییناتی رجعت کی ایک شکل ہوتی ہے جہاں لاپتہ اور موجودہ اقدار کے درمیان قطعی تعلق قائم ہوتا ہے، گمشدہ اقدار کو رجعت کے ماڈل کی 100% پیشین گوئی سے بدل دیا جاتا ہے۔ تاہم، اس طریقہ کار کی ایک حد ہے۔ تعییناتی لکیری رجعت کا نتیجہ اکثر اقدار کے درمیان تعلق کی قربت کا حد سے زیادہ اندازہ لگا سکتا ہے۔
سٹوچسٹک لکیری رجعت ایک (بے ترتیب) غلطی کی اصطلاح متعارف کروا کر تعییناتی رجعت کی "زیادہ درستگی" کی تلافی کرتا ہے کیونکہ دو حالات یا متغیرات شاذ و نادر ہی بالکل مربوط ہوتے ہیں۔ یہ رجعت کا استعمال کرتے ہوئے گمشدہ اقدار کو بھرنا زیادہ مناسب بناتا ہے۔
ہاٹ ڈیک سیمپلنگ
اس نقطہ نظر میں کسی موضوع سے تصادفی طور پر منتخب کردہ قدر کو منتخب کرنا شامل ہے جس میں اس موضوع سے ملتی جلتی دوسری قدریں موجود ہیں جس میں قدر نہیں ہے۔ اس کے لیے آپ کو مضامین یا افراد کو تلاش کرنے اور پھر ان کی اقدار کا استعمال کرتے ہوئے گمشدہ ڈیٹا کو پُر کرنے کی ضرورت ہے۔
گرم ڈیک کے نمونے لینے کا طریقہ قابل حصول اقدار کی حد کو محدود کرتا ہے۔ مثال کے طور پر، اگر آپ کا نمونہ 20 اور 25 کے درمیان عمر کے گروپ تک محدود ہے، تو آپ کا نتیجہ ہمیشہ ان نمبروں کے درمیان ہوگا، جس سے متبادل قدر کی ممکنہ درستگی میں اضافہ ہوگا۔ تقرری کے اس طریقے کے لیے مضامین/افراد کا انتخاب بے ترتیب طور پر کیا جاتا ہے۔
کولڈ ڈیک سیمپلنگ
اس طریقہ کار میں کسی ایسے فرد/موضوع کی تلاش شامل ہے جس کی ڈیٹا سیٹ میں دیگر تمام متغیرات/پیرامیٹرز کے لیے یکساں یا یکساں اقدار ہوں۔ مثال کے طور پر، موضوع کی اونچائی، ثقافتی پس منظر، اور اس موضوع کی عمر اتنی ہی ہو سکتی ہے جس کی قدریں غائب ہیں۔ یہ گرم ڈیک کے نمونے لینے سے مختلف ہے کہ مضامین کو منظم طریقے سے منتخب کیا جاتا ہے اور دوبارہ استعمال کیا جاتا ہے۔
اگرچہ گمشدہ ڈیٹا سے نمٹنے کے لیے بہت سے اختیارات اور تکنیکیں موجود ہیں، لیکن روک تھام ہمیشہ علاج سے بہتر ہوتی ہے۔ محققین کو سختی سے عمل درآمد کرنا ہوگا۔ تجربات کی منصوبہ بندی اور مطالعہ. مطالعہ میں ایک واضح مشن کا بیان یا مقصد ذہن میں ہونا چاہیے۔
اکثر، محققین کسی مطالعہ کو زیادہ پیچیدہ بناتے ہیں یا رکاوٹوں کے خلاف منصوبہ بندی کرنے میں ناکام رہتے ہیں، جس کے نتیجے میں ڈیٹا غائب یا ناکافی ہوتا ہے۔ ڈیٹا اکٹھا کرنے پر قطعی توجہ دیتے ہوئے مطالعہ کے ڈیزائن کو آسان بنانا ہمیشہ بہتر ہوتا ہے۔
صرف وہی ڈیٹا اکٹھا کریں جس کی آپ کو مطالعہ کے اہداف کو پورا کرنے کی ضرورت ہے اور اس سے زیادہ کچھ نہیں۔ آپ کو یہ بھی یقینی بنانا چاہیے کہ مطالعہ یا تجربات میں شامل تمام آلات اور سینسر ہر وقت مکمل طور پر کام کر رہے ہوں۔ جیسے جیسے مطالعہ آگے بڑھتا ہے اپنے ڈیٹا/جوابات کا باقاعدہ بیک اپ بنانے پر غور کریں۔
ڈیٹا غائب ہونا ایک عام سی بات ہے۔ یہاں تک کہ اگر آپ بہترین طریقوں کو لاگو کرتے ہیں، تب بھی آپ کو نامکمل ڈیٹا کا سامنا کرنا پڑ سکتا ہے۔ خوش قسمتی سے، حقیقت کے بعد اس مسئلے کو حل کرنے کے طریقے موجود ہیں۔
نالہ ڈیوس ایک سافٹ ویئر ڈویلپر اور ٹیک مصنف ہے۔ اپنے کام کو مکمل وقت تکنیکی تحریر کے لیے وقف کرنے سے پہلے، اس نے - دیگر دلچسپ چیزوں کے علاوہ - ایک Inc. 5,000 تجرباتی برانڈنگ تنظیم میں ایک لیڈ پروگرامر کے طور پر خدمات انجام دینے کا انتظام کیا جس کے کلائنٹس میں Samsung، Time Warner، Netflix، اور Sony شامل ہیں۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو بلاک چین۔ Web3 Metaverse Intelligence. علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://www.kdnuggets.com/2023/01/approaches-data-imputation.html?utm_source=rss&utm_medium=rss&utm_campaign=approaches-to-data-imputation
- 000
- a
- کی صلاحیت
- ہمارے بارے میں
- غیر حاضر
- درستگی
- ایڈیشنل
- اس کے علاوہ
- پتہ
- فائدہ
- کے بعد
- کے خلاف
- تمام
- ہمیشہ
- کے درمیان
- اور
- کا اطلاق کریں
- نقطہ نظر
- نقطہ نظر
- مناسب
- ارد گرد
- قابل حصول۔
- کوششیں
- پس منظر
- بیک اپ
- کیونکہ
- اس سے پہلے
- BEST
- بہترین طریقوں
- بہتر
- کے درمیان
- برانڈ
- حساب
- نہیں کر سکتے ہیں
- کیس
- مقدمات
- اقسام
- کچھ
- منتخب کیا
- درجہ بندی
- واضح
- کلائنٹس
- مجموعہ
- کس طرح
- کامن
- مکمل طور پر
- منسلک
- اس کے نتیجے میں
- غور کریں
- کافی
- سکتا ہے
- کورس
- تخلیق
- ثقافتی
- علاج
- اعداد و شمار
- ڈیٹا کے نقصان
- ڈیٹا سائنس
- ڈیٹا سیٹ
- ڈیٹا سیٹ
- نمٹنے کے
- معاملہ
- آبادی
- انحصار
- انحصار کرتا ہے
- ڈیزائن
- اس بات کا تعین
- ڈیولپر
- کے الات
- بات چیت
- نہیں کرتا
- موثر
- کوشش
- کافی
- کو یقینی بنانے کے
- پوری
- خرابی
- قائم
- اندازوں کے مطابق
- بھی
- مثال کے طور پر
- تجرباتی
- FAIL
- مشہور
- مشہور
- چند
- بھرنے
- بھرے
- مل
- تلاش
- پہلا
- فٹ
- توجہ مرکوز
- فارم
- فارم
- خوش قسمتی سے
- سے
- مکمل
- مکمل طور پر
- فنکشنل
- مقصد
- اہداف
- عظیم
- زیادہ سے زیادہ
- گروپ
- رہنمائی
- اونچائی
- اعلی معیار کی
- HOT
- تاہم
- HTML
- HTTPS
- انسانی
- انسانی عنصر
- IBM
- مثالی
- ایک جیسے
- شناخت
- پر عملدرآمد
- اہم
- ناممکن
- in
- انکارپوریٹڈ
- شامل
- غلط طریقے سے
- اضافہ
- آزاد
- انفرادی
- افراد
- ناکافی
- معلومات
- مثال کے طور پر
- کے بجائے
- آلات
- دلچسپی
- متعارف کرانے
- ملوث
- IT
- KDnuggets
- علم
- جانا جاتا ہے
- قیادت
- سیکھنے
- حد کے
- حدود
- لائن
- بند
- مشین
- مشین لرننگ
- مین
- بناتا ہے
- میں کامیاب
- بہت سے
- سے ملو
- یاد داشت
- طریقہ
- طریقوں
- برا
- لاپتہ
- مشن
- مشن کا بیان
- ماڈل
- قیمت
- زیادہ
- سب سے زیادہ
- تقریبا
- ضرورت ہے
- پڑوسیوں
- Netflix کے
- نئی
- تعداد
- تعداد
- تجویز
- ایک
- آپریٹر
- آپشنز کے بھی
- تنظیم
- اصل
- دیگر
- لوگ
- کامل
- رکھ
- منصوبہ
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- امکان
- ممکنہ
- ممکنہ طور پر
- طریقوں
- پیشن گوئی
- کی پیشن گوئی
- حال (-)
- تحفہ
- روک تھام
- پرائمری
- پہلے
- مسئلہ
- مسائل
- پروگرامر
- ثابت
- فراہم
- سوال
- بے ترتیب
- رینج
- سفارش کی
- ریکارڈ
- کہا جاتا ہے
- رجعت
- باقاعدہ
- تعلقات
- قابل اعتماد
- ہٹا
- کی جگہ
- کی جگہ
- نمائندگی
- کی ضرورت ہے
- محققین
- محدود
- نتیجہ
- نتائج کی نمائش
- اسی
- سیمسنگ
- سائنس
- تلاش کریں
- تلاش
- مکمل طور پر
- منتخب
- منتخب
- سینسر
- خدمت
- مقرر
- سیٹ
- ہونا چاہئے
- اسی طرح
- سادہ
- آسان بنانے
- بعد
- ایک
- صورتحال
- حالات
- So
- سافٹ ویئر کی
- حل
- سونی
- مخصوص
- شروع
- بیان
- کے اعداد و شمار
- ابھی تک
- طاقت
- مطالعہ
- مطالعہ
- موضوع
- موزوں
- کی حمایت کرتا ہے
- سروے
- سسٹمز
- لیتا ہے
- ٹیک
- ٹیکنیکل
- تکنیک
- ٹیکنالوجی
- ٹیسٹ
- ۔
- ان
- چیزیں
- تھرڈ
- تین
- کے ذریعے
- بندھے ہوئے
- وقت
- اوقات
- کرنے کے لئے
- ٹریکنگ
- اقسام
- آخر میں
- استعمال کی شرائط
- عام طور پر
- قیمت
- اقدار
- قابل عمل
- وارنر
- طریقوں
- اچھی طرح سے جانا جاتا ہے
- کیا
- کیا ہے
- جس
- جبکہ
- ڈبلیو
- گے
- بغیر
- کام
- مصنف
- تحریری طور پر
- X
- اور
- زیفیرنیٹ