بنیادی شرح کی غلط فہمی اور ڈیٹا سائنس پر اس کا اثر

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

بنیادی شرح کی غلطی اور ڈیٹا سائنس پر اس کا اثر

مصنف کی طرف سے تصویر

ڈیٹا اور مختلف متغیرات کے ساتھ کام کرتے وقت، ایک متغیر یا قدر کو دوسرے سے بڑا قرار دینا آسان ہے۔ ہم یہ فرض کر سکتے ہیں کہ ایک مخصوص متغیر یا ڈیٹا پوائنٹ کا آؤٹ پٹ پر زیادہ اثر تھا، لیکن ہمیں کتنا یقین ہے کہ دوسرے متغیرات کا مساوی اثر ہے؟

اعداد و شمار میں، بنیادی شرح کو ان کلاسوں کے امکانات کے طور پر دیکھا جا سکتا ہے جو "فیچرل شواہد" پر غیر مشروط ہیں۔ آپ بنیادی شرح کو اپنے پیشگی امکانی مفروضے کے طور پر دیکھ سکتے ہیں۔

بنیادی شرح تحقیق میں اہم ٹولز ہیں۔ مثال کے طور پر، اگر ہم ایک دوا ساز کمپنی ہیں اور ایک نئی ویکسینیشن تیار کرنے اور بھیجنے کے عمل میں ہیں، تو ہم علاج کی کامیابی کو دیکھنا چاہتے ہیں۔ اگر ہمارے پاس 4000 لوگ ہیں جو یہ ویکسینیشن لینے کے لیے تیار ہیں، اور ہمارا بنیادی شرح 1/25 ہے۔

اس کا مطلب ہے کہ 160 افراد میں سے صرف 4000 لوگ ہی علاج سے صحت یاب ہو سکیں گے۔ دواسازی کی دنیا میں، یہ کامیابی کی شرح بہت کم ہے۔ تحقیق، اور درستگی کو بہتر بنانے اور اس بات کو یقینی بنانے کے لیے کہ پروڈکٹ اچھی کارکردگی کا مظاہرہ کرے گی، اس طرح بنیادی شرحوں کا استعمال کیا جا سکتا ہے۔

اگر ہم الفاظ کو الگ الگ کریں تو یہ ہمیں بہتر سمجھ دے گا۔ غلط فہمی کا مطلب ہے غلط عقیدہ یا غلط استدلال۔ اگر اب ہم اسے اوپر کی بنیادی شرح کی اپنی تعریف کے ساتھ جوڑ دیں۔

بنیادی شرح کی غلط فہمی، جسے بنیادی شرح تعصب اور بنیادی شرح کو نظر انداز بھی کہا جاتا ہے، تمام متعلقہ اعداد و شمار کو مدنظر نہ رکھنے کی صورت میں، کسی مخصوص صورت حال پر فیصلہ کرنے کا امکان ہے۔

بنیادی شرح کی غلط فہمی میں بنیادی شرح کے بارے میں معلومات کے ساتھ ساتھ دیگر متعلقہ معلومات بھی ہوتی ہیں۔ یہ مختلف وجوہات کی وجہ سے ہو سکتا ہے جیسے کہ ڈیٹا کی اچھی طرح سے جانچ پڑتال اور تجزیہ نہ کرنا، یا ڈیٹا کے کسی مخصوص حصے کے حق میں لاعلمی۔

بنیادی شرح کی غلط فہمی کسی کے لئے موجودہ بنیادی شرح کی معلومات کو نظر انداز کرنے، نئی معلومات کو آگے بڑھانے اور اس کے حق میں ہونے کے رجحان کو بیان کرتی ہے۔ یہ ثبوت پر مبنی استدلال کے بنیادی اصولوں کے خلاف ہے۔

آپ عام طور پر مالیاتی صنعت میں اس کے بارے میں سنیں گے۔ مثال کے طور پر، سرمایہ کار غیر معقول معلومات پر اپنی خریداری یا اشتراک کے حربوں کی بنیاد رکھیں گے، جس کی وجہ سے مارکیٹ میں اتار چڑھاؤ آتا ہے - باوجود اس کے کہ ان کے علم میں بنیادی شرح ہے۔

لہذا اب ہمیں بنیادی شرح اور بنیادی شرح کی غلط فہمی کی بہتر سمجھ ہے۔ ڈیٹا سائنس میں اس کی مطابقت اور اثر کیا ہے؟

ہم نے 'کلاسز کے امکانات' اور 'تمام متعلقہ ڈیٹا کو مدنظر رکھتے ہوئے' کے بارے میں بات کی ہے۔ اگر آپ ڈیٹا سائنٹسٹ، یا مشین لرننگ انجینئر ہیں، یا دروازے پر قدم جما رہے ہیں - آپ کو معلوم ہوگا کہ درست نتائج پیدا کرنے، آپ کے مشین لرننگ ماڈل کے سیکھنے کے عمل اور اعلی کارکردگی والے ماڈلز تیار کرنے کے لیے کتنے اہم امکانات اور متعلقہ ڈیٹا ہیں۔

ڈیٹا کے بارے میں تجزیہ کرنے اور پیشین گوئیاں کرنے کے لیے یا آپ کے مشین لرننگ ماڈل کے لیے درست نتائج پیدا کرنے کے لیے - آپ کو ڈیٹا کے ہر حصے کو مدنظر رکھنا ہوگا۔ جب آپ اپنے ڈیٹا کو پہلی بار دیکھ رہے ہیں تو اسکیننگ کر رہے ہیں، آپ کچھ حصوں کو متعلقہ اور دیگر حصوں کو غیر متعلقہ سمجھ سکتے ہیں۔ تاہم، یہ آپ کا فیصلہ ہے اور ابھی تک حقیقت پر مبنی نہیں ہے جب تک کہ مناسب تجزیہ نہ ہو جائے۔

جیسا کہ اوپر ذکر کیا گیا ہے، ابتدائی بنیاد کی شرح آپ کو درستگی کو یقینی بنانے اور اعلیٰ کارکردگی کے ماڈل تیار کرنے میں مدد کرتی ہے۔ تو ہم ڈیٹا سائنس میں یہ کیسے کر سکتے ہیں؟

کنفیوژن میٹرکس

کنفیوژن میٹرکس کارکردگی کی پیمائش ہے جو درجہ بندی کے مسئلے پر پیشین گوئی کے نتائج کا خلاصہ فراہم کرتی ہے۔ کنفیوژن میٹرکس تمام نتائج پر مبنی ہیں: درست، غلط، مثبت اور منفی۔

کنفیوژن میٹرکس جانچ کے مرحلے کے دوران ہمارے ماڈل کی پیشین گوئیوں کی نمائندگی کرتا ہے۔ کنفیوژن میٹرکس میں جھوٹے-منفی اور غلط-مثبت بنیادی شرح کی غلطی کی مثالیں ہیں۔

سچا مثبت (TP) - آپ کے ماڈل نے مثبت پیشین گوئی کی ہے اور یہ مثبت ہے۔
سچا منفی (TN) - آپ کے ماڈل نے منفی پیش گوئی کی ہے اور یہ منفی ہے۔
غلط مثبت (FP) - آپ کے ماڈل نے مثبت پیشین گوئی کی ہے اور یہ منفی ہے۔
غلط منفی (FN) - آپ کے ماڈل نے منفی پیش گوئی کی ہے اور یہ مثبت ہے۔

ایک کنفیوژن میٹرکس 5 مختلف میٹرکس کا حساب لگا سکتا ہے تاکہ ہمیں اپنے ماڈل کی درستگی کی پیمائش کرنے میں مدد ملے:

غلط درجہ بندی = FP + FN / TP + TN + FP + FN
درستگی = TP / TP + FP
درستگی = TP + TN / TP + TN + FP + FN
خصوصیت = TN / TN + FP
حساسیت عرف Recall = TP / TP + FN

کنفیوژن میٹرکس کو بہتر طور پر سمجھنے کے لیے، ایک تصور کو دیکھنا بہتر ہے:

مصنف کی طرف سے تصویر

جیسا کہ آپ اس مضمون سے گزر رہے ہیں، آپ شاید بنیادی شرح کی غلط فہمی کی مختلف وجوہات کے بارے میں سوچ سکتے ہیں، جیسے کہ تمام متعلقہ ڈیٹا کو مدنظر نہ رکھنا، انسانی غلطی، یا درستگی کی کمی۔

اگرچہ یہ سب سچ ہیں اور بنیادی شرح کی غلطی کی وجہ میں اضافہ کرتے ہیں۔ ان سب کا تعلق پہلی جگہ بنیادی شرح کی معلومات کو نظر انداز کرنے کے سب سے بڑے مسئلے سے ہے۔ بنیادی شرح کی معلومات کو اکثر نظر انداز کر دیا جاتا ہے کیونکہ اسے غیر متعلقہ سمجھا جاتا ہے، تاہم، بنیادی شرح کی معلومات لوگوں کا بہت وقت اور پیسہ بچا سکتی ہے۔ دستیاب بنیادی شرح کی معلومات کا استعمال آپ کو اس بات کے بارے میں امکانات بنانے میں زیادہ درست ہونے کی اجازت دیتا ہے کہ آیا کوئی واقعہ پیش آئے گا۔

بنیادی شرح کی معلومات کو استعمال کرنے سے آپ کو بنیادی شرح کی غلط فہمی سے بچنے میں مدد ملے گی۔

غلطیاں جیسے کہ آراء، خودکار عمل وغیرہ سے آگاہ ہونا - آپ کو بنیادی شرح کی غلط فہمی کے مسئلے سے نمٹنے اور ممکنہ غلطیوں کو کم کرنے کی اجازت دے گا۔ جب آپ کسی خاص واقعے کے پیش آنے کے امکان کی پیمائش کر رہے ہوتے ہیں، تو Bayesian طریقے بنیادی شرح کی غلط فہمی کو کم کرنے میں اس میں مدد کر سکتے ہیں۔

ڈیٹا سائنس میں بنیادی شرح اہم ہے کیونکہ یہ آپ کو اپنے مطالعہ یا پروجیکٹ کا اندازہ لگانے کے بارے میں بنیادی سمجھ سے آراستہ کرتا ہے، اور اپنے ماڈل کو بہتر بناتا ہے - درستگی اور کارکردگی میں مجموعی اضافہ فراہم کرتا ہے۔

اگر آپ طبی میدان میں بنیادی شرح کے بارے میں کوئی ویڈیو دیکھنا چاہتے ہیں، تو یہ ویڈیو دیکھیں: میڈیکل ٹیسٹ پیراڈاکس

نشا آریہ KDnuggets میں ڈیٹا سائنٹسٹ، فری لانس ٹیکنیکل رائٹر اور کمیونٹی مینیجر ہیں۔ وہ خاص طور پر ڈیٹا سائنس کیریئر کے مشورے یا سبق اور ڈیٹا سائنس کے بارے میں تھیوری پر مبنی علم فراہم کرنے میں دلچسپی رکھتی ہے۔ وہ مختلف طریقوں کو بھی دریافت کرنا چاہتی ہیں جن سے مصنوعی ذہانت انسانی زندگی کی لمبی عمر کو فائدہ پہنچا سکتی ہے۔ ایک شوقین سیکھنے والا، اپنے تکنیکی علم اور تحریری مہارتوں کو وسیع کرنے کی کوشش کر رہا ہے، جبکہ دوسروں کی رہنمائی میں مدد کرتا ہے۔