ڈیٹا امپیوٹیشن کے لیے اپروچز

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

ڈیٹا امپیوٹیشن تک رسائی
کی طرف سے تصویر رون لیچ

حقیقی دنیا کے ڈیٹا سیٹ شاذ و نادر ہی کامل ہوتے ہیں اور اکثر گمشدہ اقدار یا نامکمل معلومات کے ساتھ آتے ہیں۔ یہ خرابیاں انسانی عنصر (غلط طریقے سے بھرے یا غیر بھرے ہوئے سروے) یا ٹیکنالوجی (خرابی والے سینسرز) کی وجہ سے ہو سکتی ہیں۔ معاملہ کچھ بھی ہو، آپ کے پاس اکثر اقدار یا معلومات غائب رہتی ہیں۔

یقینا، یہ ایک مسئلہ پیش کرتا ہے. گمشدہ اقدار کے بغیر، پورے ڈیٹا سیٹ کو ناقابل استعمال سمجھا جا سکتا ہے۔ لیکن چونکہ اس میں کافی وقت، کوشش، اور (بہت سے معاملات میں) پیسہ لگتا ہے۔ اعلی معیار کا ڈیٹا حاصل کریں۔غلط ڈیٹا کو ضائع کرنا اور دوبارہ شروع کرنا قابل عمل آپشن نہیں ہو سکتا۔ اس کے بجائے، ہمیں ان گمشدہ اقدار کے ارد گرد کام کرنے یا تبدیل کرنے کا راستہ تلاش کرنا چاہیے۔ یہ وہ جگہ ہے جہاں ڈیٹا کی تقرری آتی ہے۔

اس گائیڈ میں اس بات پر تبادلہ خیال کیا جائے گا کہ اعداد و شمار کا تقاضہ کیا ہے اور ساتھ ہی اس کی حمایت کرنے والے طریقوں کی اقسام۔

اگرچہ ہم گمشدہ یا کرپٹ ڈیٹا کو تبدیل نہیں کر سکتے، لیکن ایسے طریقے ہیں جو ہم ڈیٹا سیٹ کو قابل استعمال رہنے کی اجازت دینے کے لیے استعمال کر سکتے ہیں۔ اس کو حاصل کرنے کے لیے ڈیٹا امپیوٹیشن سب سے زیادہ قابل اعتماد تکنیکوں میں سے ایک ہے۔ تاہم، ہمیں پہلے اس بات کی شناخت کرنی چاہیے کہ کس قسم کا ڈیٹا غائب ہے اور کیوں۔

اعداد و شمار اور ڈیٹا سائنس میں، لاپتہ ڈیٹا کی تین اہم اقسام ہیں:

بے ترتیب طور پر غائب (MAR)، جہاں گمشدہ ڈیٹا کو متغیر سے جوڑا جاتا ہے اور بالآخر مشاہدہ یا سراغ لگایا جاسکتا ہے۔ بہت سے معاملات میں، یہ آپ کو ڈیموگرافکس یا ڈیٹا کے مضامین کے بارے میں مزید معلومات فراہم کر سکتا ہے۔ مثال کے طور پر، ایک خاص عمر کے لوگ سروے پر سوال چھوڑنے یا مخصوص اوقات میں اپنے آلات سے ٹریکنگ سسٹم ہٹانے کا فیصلہ کر سکتے ہیں۔
بے ترتیب پر مکمل طور پر غائب (MCAR)، جہاں غائب ڈیٹا متغیر کا مشاہدہ یا سراغ نہیں لگایا جا سکتا۔ یہ جاننا تقریباً ناممکن ہے کہ ڈیٹا کیوں غائب ہے۔
گمشدہ ڈیٹا جو بے ترتیب طور پر غائب نہیں ہے (NMAR)، جہاں گمشدہ ڈیٹا دلچسپی کے متغیر سے منسلک ہے۔ زیادہ تر معاملات میں، اس گمشدہ ڈیٹا کو نظر انداز کیا جا سکتا ہے۔ NMAR اس وقت ہو سکتا ہے جب سروے کرنے والا کوئی ایسا سوال چھوڑ دیتا ہے جو ان پر لاگو نہیں ہوتا ہے۔

گمشدہ ڈیٹا سے نمٹنا

فی الحال، آپ کے پاس ڈیٹا کی گمشدہ اقدار سے نمٹنے کے لیے تین بنیادی اختیارات ہیں:

منسوخی
بدنامی
نظرانداز کریں

پورے ڈیٹا سیٹ کو ضائع کرنے کے بجائے، آپ اسے استعمال کر سکتے ہیں جسے فہرست کے مطابق حذف کرنا کہا جاتا ہے۔ اس میں گمشدہ معلومات یا اقدار والے ریکارڈز کو حذف کرنا شامل ہے۔ فہرست کے لحاظ سے حذف کرنے کا سب سے بڑا فائدہ یہ ہے کہ یہ گمشدہ ڈیٹا کی تینوں اقسام کو سپورٹ کرتا ہے۔

تاہم، اس کے نتیجے میں اضافی ڈیٹا ضائع ہو سکتا ہے۔ یہ سفارش کی جاتی ہے کہ آپ صرف استعمال کریں۔ فہرست کے مطابق حذف کرنا ایسی صورتوں میں جہاں موجود (مشاہدہ) قدروں سے زیادہ تعداد میں غائب (مشاہدہ) قدریں ہیں، بنیادی طور پر اس لیے کہ ان کا اندازہ لگانے یا تبدیل کرنے کے لیے کافی ڈیٹا نہیں ہے۔

اگر مشاہدہ شدہ گمشدہ ڈیٹا اہم نہیں ہے (ناقابل توجہ) اور صرف چند اقدار غائب ہیں، تو آپ انہیں نظر انداز کر سکتے ہیں اور جو کچھ آپ کے پاس ہے اس کے ساتھ کام کر سکتے ہیں۔ تاہم، یہ ہمیشہ ایک امکان نہیں ہے. اعداد و شمار کا تقاضہ ایک تیسرا اور ممکنہ طور پر زیادہ قابل عمل حل پیش کرتا ہے۔

ڈیٹا کے تقاضے میں غیر حاضر اقدار کو تبدیل کرنا شامل ہے تاکہ ڈیٹا سیٹ اب بھی قابل استعمال ہو سکیں۔ اعداد و شمار کے تقرر کے طریقوں کی دو قسمیں ہیں:

سنگل
ایک سے زیادہ

مین امپیوٹیشن (MI) سنگل ڈیٹا امپیوٹیشن کی سب سے مشہور شکلوں میں سے ایک ہے۔

میان امپیوٹیشن (MI)

MI سادہ تقلید کی ایک شکل ہے۔ اس میں مشاہدہ شدہ اقدار کے وسط کا حساب لگانا اور گمشدہ اقدار کا اندازہ لگانے کے لیے نتائج کا استعمال کرنا شامل ہے۔ بدقسمتی سے، یہ طریقہ غیر موثر ثابت ہوا ہے. یہ بہت سے متعصب تخمینوں کا باعث بن سکتا ہے، یہاں تک کہ جب ڈیٹا مکمل طور پر بے ترتیب طور پر غائب ہو۔ مزید برآں، تخمینوں کی "درستگی" کا انحصار گمشدہ اقدار کی تعداد پر ہے۔

مثال کے طور پر، اگر مشاہدہ شدہ قدروں کی ایک بڑی تعداد غائب ہے، مطلب کا استعمال کرتے ہوئے قدر کو کم کرنے کا باعث بن سکتا ہے۔ اس طرح، یہ ڈیٹا سیٹس اور متغیرات کے لیے صرف چند گم شدہ اقدار کے لیے بہتر ہے۔

دستی تبدیلی

اس صورت حال میں، ایک آپریٹر گمشدہ اقدار کو تبدیل کرنے کے لیے ڈیٹا سیٹ کی قدروں کی پیشگی معلومات کا استعمال کر سکتا ہے۔ یہ ایک واحد تقلید کا طریقہ ہے جو آپریٹر کی یادداشت یا علم پر انحصار کرتا ہے اور بعض اوقات اسے مثالی نمبر کی پیشگی معلومات بھی کہا جاتا ہے۔ درستگی آپریٹر کی اقدار کو یاد کرنے کی صلاحیت پر منحصر ہے، لہذا یہ طریقہ صرف چند گم شدہ اقدار کے ساتھ ڈیٹا سیٹ کے لیے زیادہ موزوں ہو سکتا ہے۔

K-قریب ترین پڑوسی (K-NN)

K-nearest پڑوسی ایک تکنیک ہے جو مشین لرننگ میں رجعت اور درجہ بندی کے مسائل کو حل کرنے کے لیے مشہور ہے۔ یہ گمشدہ ڈیٹا ویلیو کے ہمسایوں کی گمشدہ ڈیٹا ویلیو کا حساب لگانے اور اس پر الزام لگانے کے لیے استعمال کرتا ہے۔ دی K-NN طریقہ یہ سادہ مطلب سے کہیں زیادہ موثر ہے اور MCAR اور MAR اقدار کے لیے مثالی ہے۔

متبادل

متبادل میں ایک نئے فرد کو تلاش کرنا یا سروے یا ٹیسٹ کے تابع ہونا شامل ہے۔ یہ ایک ایسا مضمون ہونا چاہیے جسے اصل نمونے میں منتخب نہیں کیا گیا تھا۔

Regression Imputation

رجعت ایک منحصر متغیر کی طاقت کا تعین کرنے کی کوشش کرتا ہے (عام طور پر Y کے طور پر بیان کیا جاتا ہے) آزاد متغیرات کے مجموعہ تک (عام طور پر X کے طور پر بیان کیا جاتا ہے)۔ لکیری رجعت رجعت کی سب سے مشہور شکل ہے۔ یہ گمشدہ قدر کی پیش گوئی یا تعین کرنے کے لیے بہترین فٹ کی لائن کا استعمال کرتا ہے۔ نتیجتاً، ریگریشن ماڈل کے ذریعے بصری طور پر ڈیٹا کی نمائندگی کرنے کا یہ بہترین طریقہ ہے۔

جب لکیری رجعت تعییناتی رجعت کی ایک شکل ہوتی ہے جہاں لاپتہ اور موجودہ اقدار کے درمیان قطعی تعلق قائم ہوتا ہے، گمشدہ اقدار کو رجعت کے ماڈل کی 100% پیشین گوئی سے بدل دیا جاتا ہے۔ تاہم، اس طریقہ کار کی ایک حد ہے۔ تعییناتی لکیری رجعت کا نتیجہ اکثر اقدار کے درمیان تعلق کی قربت کا حد سے زیادہ اندازہ لگا سکتا ہے۔

سٹوچسٹک لکیری رجعت ایک (بے ترتیب) غلطی کی اصطلاح متعارف کروا کر تعییناتی رجعت کی "زیادہ درستگی" کی تلافی کرتا ہے کیونکہ دو حالات یا متغیرات شاذ و نادر ہی بالکل مربوط ہوتے ہیں۔ یہ رجعت کا استعمال کرتے ہوئے گمشدہ اقدار کو بھرنا زیادہ مناسب بناتا ہے۔

ہاٹ ڈیک سیمپلنگ

اس نقطہ نظر میں کسی موضوع سے تصادفی طور پر منتخب کردہ قدر کو منتخب کرنا شامل ہے جس میں اس موضوع سے ملتی جلتی دوسری قدریں موجود ہیں جس میں قدر نہیں ہے۔ اس کے لیے آپ کو مضامین یا افراد کو تلاش کرنے اور پھر ان کی اقدار کا استعمال کرتے ہوئے گمشدہ ڈیٹا کو پُر کرنے کی ضرورت ہے۔

گرم ڈیک کے نمونے لینے کا طریقہ قابل حصول اقدار کی حد کو محدود کرتا ہے۔ مثال کے طور پر، اگر آپ کا نمونہ 20 اور 25 کے درمیان عمر کے گروپ تک محدود ہے، تو آپ کا نتیجہ ہمیشہ ان نمبروں کے درمیان ہوگا، جس سے متبادل قدر کی ممکنہ درستگی میں اضافہ ہوگا۔ تقرری کے اس طریقے کے لیے مضامین/افراد کا انتخاب بے ترتیب طور پر کیا جاتا ہے۔

کولڈ ڈیک سیمپلنگ

اس طریقہ کار میں کسی ایسے فرد/موضوع کی تلاش شامل ہے جس کی ڈیٹا سیٹ میں دیگر تمام متغیرات/پیرامیٹرز کے لیے یکساں یا یکساں اقدار ہوں۔ مثال کے طور پر، موضوع کی اونچائی، ثقافتی پس منظر، اور اس موضوع کی عمر اتنی ہی ہو سکتی ہے جس کی قدریں غائب ہیں۔ یہ گرم ڈیک کے نمونے لینے سے مختلف ہے کہ مضامین کو منظم طریقے سے منتخب کیا جاتا ہے اور دوبارہ استعمال کیا جاتا ہے۔

اگرچہ گمشدہ ڈیٹا سے نمٹنے کے لیے بہت سے اختیارات اور تکنیکیں موجود ہیں، لیکن روک تھام ہمیشہ علاج سے بہتر ہوتی ہے۔ محققین کو سختی سے عمل درآمد کرنا ہوگا۔ تجربات کی منصوبہ بندی اور مطالعہ. مطالعہ میں ایک واضح مشن کا بیان یا مقصد ذہن میں ہونا چاہیے۔

اکثر، محققین کسی مطالعہ کو زیادہ پیچیدہ بناتے ہیں یا رکاوٹوں کے خلاف منصوبہ بندی کرنے میں ناکام رہتے ہیں، جس کے نتیجے میں ڈیٹا غائب یا ناکافی ہوتا ہے۔ ڈیٹا اکٹھا کرنے پر قطعی توجہ دیتے ہوئے مطالعہ کے ڈیزائن کو آسان بنانا ہمیشہ بہتر ہوتا ہے۔

صرف وہی ڈیٹا اکٹھا کریں جس کی آپ کو مطالعہ کے اہداف کو پورا کرنے کی ضرورت ہے اور اس سے زیادہ کچھ نہیں۔ آپ کو یہ بھی یقینی بنانا چاہیے کہ مطالعہ یا تجربات میں شامل تمام آلات اور سینسر ہر وقت مکمل طور پر کام کر رہے ہوں۔ جیسے جیسے مطالعہ آگے بڑھتا ہے اپنے ڈیٹا/جوابات کا باقاعدہ بیک اپ بنانے پر غور کریں۔

ڈیٹا غائب ہونا ایک عام سی بات ہے۔ یہاں تک کہ اگر آپ بہترین طریقوں کو لاگو کرتے ہیں، تب بھی آپ کو نامکمل ڈیٹا کا سامنا کرنا پڑ سکتا ہے۔ خوش قسمتی سے، حقیقت کے بعد اس مسئلے کو حل کرنے کے طریقے موجود ہیں۔

نالہ ڈیوس ایک سافٹ ویئر ڈویلپر اور ٹیک مصنف ہے۔ اپنے کام کو مکمل وقت تکنیکی تحریر کے لیے وقف کرنے سے پہلے، اس نے - دیگر دلچسپ چیزوں کے علاوہ - ایک Inc. 5,000 تجرباتی برانڈنگ تنظیم میں ایک لیڈ پروگرامر کے طور پر خدمات انجام دینے کا انتظام کیا جس کے کلائنٹس میں Samsung، Time Warner، Netflix، اور Sony شامل ہیں۔