افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

اہم اعدادوشمار ڈیٹا سائنسدانوں کو جاننے کی ضرورت ہے۔

ٹیگز: Bayes تھیوریم, ڈیٹا سائنس, احتمال, اعداد و شمار

متعدد بنیادی شماریاتی تصورات کو ہر ڈیٹا سائنسدان کے ذریعہ اچھی طرح سے سراہا جانا چاہئے - پرجوش سے لے کر پیشہ ور تک۔ یہاں، ہم آپ کے ڈیٹا میں ابتدائی بصیرت لانے والے کلیدی ٹولز لانے کے لیے تفہیم کو بڑھانے کے لیے Python میں کوڈ کے ٹکڑے فراہم کرتے ہیں۔

تبصروں

By لکشمی ایس سنیل, IIT Indore '23 | GHC '21 اسکالر.

شماریاتی تجزیہ ہمیں ہاتھ میں موجود ڈیٹا سے قیمتی بصیرت حاصل کرنے کی اجازت دیتا ہے۔ مختلف ٹولز کا استعمال کرتے ہوئے ڈیٹا کا تجزیہ کرنے کے لیے اہم شماریاتی تصورات اور تکنیکوں کی درست گرفت بالکل ضروری ہے۔

اس سے پہلے کہ ہم تفصیلات میں جائیں، آئیے اس مضمون میں شامل موضوعات پر ایک نظر ڈالتے ہیں:

وضاحتی بمقابلہ تخمینی اعدادوشمار
ڈیٹا کی اقسام
امکان اور Bayes' Theorem
مرکزی رجحان کے اقدامات
کھوکھلی
Kurtosis
بازی کے اقدامات
ہم آہنگی
باہمی تعلق۔
امکانات کی تقسیم
مفروضے کا امتحان
رجریشن

وضاحتی بمقابلہ تخمینی اعدادوشمار

اعداد و شمار مجموعی طور پر ڈیٹا کی جمع، تنظیم، تجزیہ، تشریح، اور پیشکش سے متعلق ہیں۔ اعداد و شمار کے اندر، دو اہم شاخیں ہیں:

وضاحتی اعداد و شمار: اس میں اعداد و شمار کی خصوصیات کو بیان کرنا، اعداد و شمار کو یا تو چارٹ/گرافس کے ذریعے بصری طور پر ترتیب دینا اور پیش کرنا شامل ہے یا مرکزی رجحان، تغیر پذیری، اور تقسیم کے اقدامات کا استعمال کرتے ہوئے عددی حسابات کے ذریعے۔ ایک قابل ذکر نکتہ یہ ہے کہ پہلے سے معلوم اعداد و شمار کی بنیاد پر نتائج اخذ کیے جاتے ہیں۔
تخمینہ شماریات: اس میں ان سے لیے گئے نمونوں کا استعمال کرتے ہوئے بڑی آبادیوں کے بارے میں قیاس آرائیاں کرنا اور ان کے بارے میں عام کرنا شامل ہے۔ لہذا، زیادہ پیچیدہ حسابات کی ضرورت ہے. حتمی نتائج مفروضے کی جانچ، ارتباط، اور رجعت تجزیہ جیسی تکنیکوں کا استعمال کرتے ہوئے تیار کیے جاتے ہیں۔ پیشن گوئی شدہ مستقبل کے نتائج اور اخذ کردہ نتائج دستیاب ڈیٹا کی سطح سے باہر ہیں۔

ڈیٹا کی اقسام

موزوں ترین اعدادوشمار کی تکنیکوں کا استعمال کرتے ہوئے مناسب ایکسپلوریٹری ڈیٹا اینالیسس (EDA) انجام دینے کے لیے، ہمیں یہ سمجھنے کی ضرورت ہے کہ ہم کس قسم کے ڈیٹا پر کام کر رہے ہیں۔

زمرہ دار ڈیٹا

زمرہ دار ڈیٹا کسی فرد کی جنس، خون کا گروپ، مادری زبان وغیرہ جیسے معیار کے متغیرات کی نمائندگی کرتا ہے۔ زمرہ دار ڈیٹا بھی بغیر کسی ریاضیاتی معنی کے عددی اقدار کی شکل میں ہوتا ہے۔ مثال کے طور پر، اگر جنس متغیر ہے، تو عورت کو 1 سے اور مرد کو 0 سے ظاہر کیا جا سکتا ہے۔

برائے نام اعداد و شمار: اقدار متغیرات کو لیبل کرتی ہیں، اور زمروں کے درمیان کوئی متعین درجہ بندی نہیں ہے، یعنی کوئی ترتیب یا سمت نہیں ہے — مثال کے طور پر، مذہب، جنس وغیرہ۔ صرف دو زمروں والے برائے نام پیمانوں کو "متضاد" کہا جاتا ہے۔
عام ڈیٹا: زمرہ جات کے درمیان ترتیب یا درجہ بندی موجود ہے—مثال کے طور پر، معیار کی درجہ بندی، تعلیمی سطح، طالب علم کے لیٹر گریڈ وغیرہ۔

عددی ڈیٹا

عددی اعداد و شمار مقداری متغیرات کی نمائندگی کرتا ہے جن کا اظہار صرف اعداد کے لحاظ سے ہوتا ہے۔ مثال کے طور پر، کسی فرد کا قد، وزن وغیرہ۔

مجرد ڈیٹا: قدریں قابل شمار ہیں اور انٹیجرز ہیں (اکثر پوری تعداد)۔ مثال کے طور پر، پارکنگ میں کاروں کی تعداد، ممالک کی تعداد وغیرہ۔
مسلسل ڈیٹا: مشاہدات کو ناپا جا سکتا ہے لیکن شمار نہیں کیا جا سکتا۔ ڈیٹا ایک رینج کے اندر کسی بھی قدر کو فرض کرتا ہے — مثال کے طور پر، وزن، اونچائی وغیرہ۔ مسلسل ڈیٹا کو وقفہ کے ڈیٹا میں مزید تقسیم کیا جا سکتا ہے (حکم شدہ اقدار ان کے درمیان یکساں فرق رکھتی ہیں لیکن ان میں کوئی حقیقی صفر نہیں ہے) اور تناسب کا ڈیٹا (ترتیب شدہ اقدار جس میں یکساں فرق ہوتا ہے۔ ان کے درمیان اور حقیقی صفر موجود ہے)۔

امکان اور Bayes' Theorem

امکان اس امکان کا پیمانہ ہے کہ کوئی واقعہ پیش آئے گا۔

P(A) + P(A') = 1
P(A∪B) = P(A) + P(B) − P(A∩B)
آزاد واقعات: دو واقعات آزاد ہیں اگر ایک کا وقوع دوسرے کے وقوع پذیر ہونے کے امکان کو متاثر نہیں کرتا ہے۔ P(A∩B) = P(A)P(B) جہاں P(A) != 0 اور P(B) != 0۔
باہمی خصوصی واقعات: دو واقعات باہمی طور پر خصوصی یا منقطع ہیں اگر وہ دونوں ایک ہی وقت میں رونما نہیں ہوسکتے ہیں۔ P(A∩B) = 0 اور P(A∪B) = P(A)+P(B)۔
مشروط امکان۔: ایک واقعہ A کا امکان، یہ دیکھتے ہوئے کہ ایک اور واقعہ B پہلے ہی واقع ہو چکا ہے۔ اس کی نمائندگی P(A|B) کرتی ہے۔ P(A|B) = P(A∩B)/P(B)، جب P(B)>0۔
بائیس کا نظریہ۔

مرکزی رجحان کے اقدامات

شماریات کا ماڈیول درآمد کریں۔

مطلب: ڈیٹا سیٹ کی اوسط قدر۔

numpy.mean( ) بھی استعمال کیا جا سکتا ہے۔

اوسط: ڈیٹا سیٹ کی درمیانی قدر۔

numpy.median( ) بھی استعمال کیا جا سکتا ہے۔

موڈ: ڈیٹاسیٹ میں سب سے زیادہ متواتر قدر۔

مطلب، میڈین اور موڈ کب استعمال کریں؟

وسط، میڈین اور موڈ کے درمیان تعلق: موڈ = 3 میڈین - 2 اوسط

کھوکھلی

توازن کا ایک پیمانہ، یا زیادہ واضح طور پر، توازن کی کمی (اسمیٹری)۔

نارمل/سمیٹرک ڈسٹری بیوشن: موڈ = میڈین = اوسط
مثبت طور پر (دائیں) ترچھی تقسیم: موڈ < میڈین < مطلب
منفی طور پر (بائیں) ترچھی تقسیم: اوسط < میڈین < موڈ

Kurtosis

اس بات کا ایک پیمانہ کہ آیا ڈیٹا ایک عام تقسیم کے مقابلے میں بھاری دم والا ہے یا ہلکی دم والا ہے، یعنی یہ تقسیم کی "پچھلی پن" یا "چوٹی" کی پیمائش کرتا ہے۔

لیپٹوکورٹک - مثبت کرٹوسس
میسوکورٹک - عام تقسیم
Platykurtic - منفی kurtosis

Python کا استعمال کرتے ہوئے Skewness اور kurtosis۔

بازی کے اقدامات

مرکزی قدر کے ارد گرد ڈیٹا کے پھیلاؤ/بکھیرنے کی وضاحت کرتا ہے۔

رینج: ڈیٹا سیٹ میں سب سے بڑی اور چھوٹی قدر کے درمیان فرق۔

کوارٹائل انحراف: ڈیٹا سیٹ کے کوارٹائل ڈیٹا کو چار مساوی حصوں میں تقسیم کرتے ہیں — پہلا چوتھائی (Q1) سب سے چھوٹی تعداد اور ڈیٹا کے میڈین کے درمیان درمیانی نمبر ہے۔ دوسرا چوتھائی (Q2) ڈیٹا سیٹ کا میڈین ہے۔ تیسرا چوتھائی (Q3) میڈین اور سب سے بڑی تعداد کے درمیان درمیانی نمبر ہے۔ چوتھائی انحراف ہے۔ Q = ½ × (Q3 - Q1)

انٹرکوارٹائل رینج: IQR = Q3 - Q1

تغیر: ہر ڈیٹا پوائنٹ اور وسط کے درمیان اوسط مربع فرق۔ پیمائش کرتا ہے کہ ڈیٹاسیٹ وسط کے نسبت کس طرح پھیلا ہوا ہے۔

معیاری انحراف: تغیر کی مربع جڑ۔

Python کا استعمال کرتے ہوئے تغیر اور معیاری انحراف۔

ہم آہنگی

یہ بے ترتیب متغیرات کے جوڑے کے درمیان تعلق ہے جہاں ایک متغیر میں تبدیلی دوسرے متغیر میں تبدیلی کا سبب بنتی ہے۔

منفی، صفر، اور مثبت ہم آہنگی۔

Covariance میٹرکس اور Python کا استعمال کرتے ہوئے اس کے ہیٹ میپ کی نمائندگی۔

باہمی تعلق۔

یہ ظاہر کرتا ہے کہ متغیرات کا ایک جوڑا ایک دوسرے سے متعلق ہے یا نہیں۔

ہم آہنگی کے لیے استعمال ہونے والے اسی ڈیٹا کا استعمال کرتے ہوئے کوریلیشن میٹرکس۔

ہم آہنگی بمقابلہ ارتباط۔

امکانات کی تقسیم

امکانی تقسیم کی دو وسیع اقسام ہیں - مجرد اور مسلسل امکانی تقسیم۔

مجرد امکانی تقسیم:

برنولی کی تقسیم

ایک بے ترتیب متغیر صرف دو ممکنہ نتائج کے ساتھ ایک واحد آزمائش لیتا ہے: 1 (کامیابی) امکان p کے ساتھ اور 0 (ناکامی) امکان 1-p کے ساتھ۔

دو عددی تقسیم

ہر آزمائش آزاد ہے۔ آزمائش میں صرف دو ہی ممکنہ نتائج ہوتے ہیں- یا تو کامیابی یا ناکامی۔ n ایک جیسے ٹرائلز کی کل تعداد کی جاتی ہے۔ کامیابی اور ناکامی کا امکان تمام آزمائشوں کے لیے یکساں ہے۔ (مقدمات ایک جیسے ہیں۔)

زہر کی تقسیم

ایک مقررہ مدت میں ہونے والے واقعات کی دی گئی تعداد کے امکان کی پیمائش کرتا ہے۔

مسلسل امکانی تقسیم:

یکساں تقسیم

اسے مستطیل تقسیم بھی کہا جاتا ہے۔ تمام نتائج کا امکان یکساں ہے۔

نارمل/گاؤسی تقسیم

وسط، میڈین، اور تقسیم کا موڈ ایک ساتھ ہے۔ تقسیم کا وکر گھنٹی کی شکل کا اور لائن کے بارے میں ہم آہنگ ہے۔ x = μ. منحنی خطوط کے نیچے کل رقبہ 1 ہے۔ بالکل آدھی قدریں مرکز کے بائیں طرف اور باقی آدھی دائیں طرف ہیں۔

ایک عام تقسیم بائنومیئل ڈسٹری بیوشن سے بہت مختلف ہوتی ہے۔ تاہم، اگر آزمائشوں کی تعداد لامحدود تک پہنچ جاتی ہے، تو شکلیں کافی ملتی جلتی ہوں گی۔

کفایتی تقسیم

Poisson point کے عمل میں واقعات کے درمیان وقت کی امکانی تقسیم، یعنی ایک ایسا عمل جس میں واقعات مسلسل اور آزادانہ طور پر ایک مستقل اوسط شرح سے رونما ہوتے ہیں۔

مفروضے کا امتحان

سب سے پہلے، null hypothesis اور متبادل hypothesis کے درمیان فرق پر ایک نظر ڈالتے ہیں۔

کالعدم مفروضہ: آبادی کے پیرامیٹر کے بارے میں بیان جو یا تو سچ مانا جاتا ہے یا دلیل پیش کرنے کے لیے استعمال کیا جاتا ہے جب تک کہ اسے مفروضے کی جانچ کے ذریعے غلط نہ دکھایا جائے۔

متبادل مفروضہ: آبادی کے بارے میں دعویٰ جو کہ null hypothesis سے متصادم ہے اور اگر ہم null hypothesis کو مسترد کرتے ہیں تو ہم کیا نتیجہ اخذ کرتے ہیں۔

ٹائپ I کی غلطی: ایک حقیقی کالعدم مفروضے کا رد

قسم II کی خرابی: جھوٹے کالعدم مفروضے کو مسترد نہ کرنا

اہمیت کی سطح (α): باطل مفروضے کو مسترد کرنے کا امکان جب یہ درست ہو۔

p-value: ٹیسٹ کے اعدادوشمار کا امکان کم از کم اتنا ہی شدید ہے جتنا کہ مشاہدہ کیا گیا ہے کہ کالعدم مفروضہ درست ہے۔

جب p-value > α، ہم کالعدم مفروضے کو مسترد کرنے میں ناکام رہتے ہیں۔
جبکہ p-value ≤ α، ہم کالعدم مفروضے کو مسترد کرتے ہیں، اور ہم یہ نتیجہ اخذ کر سکتے ہیں کہ ہمارے پاس ایک اہم نتیجہ ہے۔

شماریاتی مفروضے کی جانچ میں، کسی نتیجے کی شماریاتی اہمیت ہوتی ہے جب اس کے پیش آنے کا امکان بہت کم ہوتا ہے جو کہ null hypothesis کے پیش نظر ہوتا ہے۔

اہم قدر: ٹیسٹ کے اعدادوشمار کے پیمانے پر ایک نقطہ جس سے آگے ہم کالعدم مفروضے کو مسترد کرتے ہیں۔ یہ ٹیسٹ کے اعدادوشمار پر منحصر ہے، جو ٹیسٹ کی قسم کے لیے مخصوص ہے، اور اہمیت کی سطح، α، جو ٹیسٹ کی حساسیت کی وضاحت کرتی ہے۔

لکیری رجوع

لکیری رجعت عام طور پر پہلا ML الگورتھم ہے جو ہم دیکھتے ہیں۔ یہ آسان ہے، اور اس کو سمجھنا دوسرے جدید ML الگورتھم کی بنیاد رکھتا ہے۔

سادہ لکیری رجعت

ایک منحصر متغیر اور ایک آزاد متغیر کے درمیان تعلق کی ماڈلنگ کے لیے لکیری نقطہ نظر۔

ہمیں پیرامیٹرز تلاش کرنے ہوں گے تاکہ ماڈل ڈیٹا میں بہترین فٹ بیٹھ سکے۔ رجعت کی لکیر (یعنی بہترین فٹ لائن) وہ لائن ہے جس کے لیے خرابی ہے۔ پیش گوئی شدہ اقدار اور مشاہدہ شدہ اقدار کے درمیان کم از کم ہے۔