إحصائيات مهمة يحتاج علماء البيانات إلى معرفتها

عقدة المصدر: 1876637

إحصائيات مهمة يحتاج علماء البيانات إلى معرفتها

يجب تقدير العديد من المفاهيم الإحصائية الأساسية جيدًا من قبل كل عالم بيانات - من المتحمس إلى المحترف. هنا ، نقدم مقتطفات التعليمات البرمجية بلغة Python لزيادة الفهم لنقدم لك الأدوات الرئيسية التي تقدم رؤية مبكرة لبياناتك.


By ليكشمي س. سونيل، IIT Indore '23 | باحث GHC '21.

يسمح لنا التحليل الإحصائي باستخلاص رؤى قيمة من البيانات المتوفرة. يعد الفهم السليم للمفاهيم والتقنيات الإحصائية المهمة أمرًا ضروريًا للغاية لتحليل البيانات باستخدام أدوات مختلفة.

قبل أن ندخل في التفاصيل ، دعنا نلقي نظرة على الموضوعات التي تم تناولها في هذه المقالة:

  • وصفية مقابل الإحصاء الاستنتاجي
  • أنواع البيانات
  • الاحتمالية ونظرية بايز
  • مقاييس النزعة المركزية
  • انحراف
  • التفرطح
  • مقياس الكآبة
  • التغاير
  • ارتباط
  • التوزيعات الاحتمالية
  • اختبار الفرضيات
  • تراجع

وصفية مقابل الإحصاء الاستنتاجي

يتعامل الإحصاء ككل مع جمع البيانات وتنظيمها وتحليلها وتفسيرها وعرضها. ضمن الإحصاء ، هناك فرعين رئيسيين:

  1. الإحصاء الوصفي: يتضمن ذلك وصف ميزات البيانات وتنظيمها وتقديمها إما بشكل مرئي من خلال الرسوم البيانية / الرسوم البيانية أو من خلال الحسابات الرقمية باستخدام مقاييس الاتجاه المركزي والتغير والتوزيع. إحدى النقاط الجديرة بالملاحظة هي أن الاستنتاجات يتم استخلاصها بناءً على بيانات معروفة بالفعل.
  2. إحصاءات استنتاجية: يتضمن ذلك استخلاص الاستدلالات وإجراء التعميمات حول أعداد أكبر من السكان باستخدام عينات مأخوذة منها. وبالتالي ، هناك حاجة إلى حسابات أكثر تعقيدًا. يتم إنتاج النتائج النهائية باستخدام تقنيات مثل اختبار الفرضيات والارتباط وتحليل الانحدار. النتائج والاستنتاجات المستقبلية المتوقعة تتجاوز مستوى البيانات المتاحة.

أنواع البيانات

لإجراء تحليل البيانات الاستكشافية المناسب (EDA) بتطبيق الأساليب الإحصائية الأكثر ملاءمة ، نحتاج إلى فهم نوع البيانات التي نعمل عليها.

  1. بيانات تسلسلية

تمثل البيانات الفئوية متغيرات نوعية مثل جنس الفرد وفصيلة دمه ولغته الأم وما إلى ذلك. تكون البيانات الفئوية أيضًا في شكل قيم عددية بدون أي معنى رياضي. على سبيل المثال ، إذا كان الجنس هو المتغير ، فيمكن تمثيل الأنثى بـ 1 والذكر بـ 0.

  • بيانات اسمية: تسمي القيم المتغيرات ، ولا يوجد تسلسل هرمي محدد بين الفئات ، أي أنه لا يوجد ترتيب أو اتجاه - على سبيل المثال ، الدين والجنس وما إلى ذلك. تسمى المقاييس الاسمية بفئتين فقط "ثنائية التفرع".
  • البيانات ترتيبي: يوجد ترتيب أو تسلسل هرمي بين الفئات - على سبيل المثال ، تقييمات الجودة ، ومستوى التعليم ، ودرجات خطاب الطالب ، إلخ.
  1. البيانات العددية

تمثل البيانات العددية المتغيرات الكمية معبرًا عنها فقط من حيث الأرقام. على سبيل المثال ، طول الفرد ووزنه وما إلى ذلك.

  • بيانات منعزلة: القيم قابلة للعد وهي أعداد صحيحة (غالبًا أعداد صحيحة). على سبيل المثال ، عدد السيارات في ساحة انتظار السيارات وعدد البلدان وما إلى ذلك.
  • بيانات مستمرة: يمكن قياس الملاحظات ولكن لا يمكن عدها. تفترض البيانات أي قيمة ضمن النطاق - على سبيل المثال ، الوزن ، الارتفاع وما إلى ذلك. يمكن تقسيم البيانات المستمرة إلى بيانات فاصلة (القيم المرتبة لها نفس الاختلافات بينها ولكن ليس لها صفر حقيقي) وبيانات النسبة (القيم المرتبة لها نفس الاختلافات بينهم وبين الصفر الحقيقي موجود).

الاحتمالية ونظرية بايز

الاحتمال هو مقياس احتمالية وقوع حدث ما.

  • ف (أ) + ف (أ ') = 1
  • الفوسفور (A∪B) = الفوسفور (أ) + الفوسفور (ب) - الفوسفور (أ∩ب)
  • أحداث مستقلة: حدثان مستقلان إذا كان حدوث أحدهما لا يؤثر على احتمال حدوث الآخر. P (A∩B) = P (A) P (B) حيث P (A)! = 0 و P (B)! = 0.
  • أحداث حصرية متبادلة: حدثان متنافيان أو منفصلان إذا تعذر حدوث كلاهما في نفس الوقت. الفوسفور (A∩B) = 0 و الفوسفور (A∪B) = الفوسفور (A) + الفوسفور (ب).
  • احتمال مشروط: احتمال وقوع حدث "أ" ، بالنظر إلى وقوع حدث "ب" آخر بالفعل. يُشار إليه بـ P (A | B). الفوسفور (A | B) = P (A∩B) / P (B) ، عندما P (B)> 0.
  • مبرهنة بايز

مقاييس النزعة المركزية

استيراد وحدة الإحصاء.

  • تعني: متوسط ​​قيمة مجموعة البيانات.

يمكن أيضًا استخدام numpy.mean ().

  • متوسط: القيمة الوسطى لمجموعة البيانات.

يمكن أيضًا استخدام numpy.median ().

  • موضة : القيمة الأكثر شيوعًا في مجموعة البيانات.

متى تستخدم الوسيط والوسيط والوضع؟

العلاقة بين المتوسط ​​والمتوسط ​​والوضع: الوضع = 3 متوسط ​​- 2 متوسط

انحراف

مقياس التناظر ، أو بشكل أدق ، نقص التناظر (عدم التناسق).

  • التوزيع الطبيعي / المتماثل: الوضع = الوسيط = المتوسط
  • توزيع منحرف إيجابيًا (يمينًا): الوضع <متوسط ​​<متوسط
  • توزيع منحرف سلبيًا (يسارًا): متوسط ​​<متوسط ​​<وضع

التفرطح

مقياس ما إذا كانت البيانات ذات الذيل الثقيل أو خفيف الذيل بالنسبة للتوزيع الطبيعي ، أي أنها تقيس "الذيل" أو "الذروة" للتوزيع.

  • Leptokurtic - التفرطح الإيجابي
  • Mesokurtic - التوزيع الطبيعي
  • بلاتيكورتيك - التفرطح السلبي

الانحراف والتفرطح باستخدام بايثون.

مقياس الكآبة

يصف انتشار / تشتت البيانات حول قيمة مركزية.

المدى: الفرق بين القيمة الأكبر والأصغر في مجموعة البيانات.

الانحراف الربعي: الأرباع الرباعية لمجموعة البيانات تقسم البيانات إلى أربعة أجزاء متساوية - الربع الأول (Q1) هو الرقم الأوسط بين أصغر عدد ومتوسط ​​البيانات. الربع الثاني (Q2) هو متوسط ​​مجموعة البيانات. الربع الثالث (Q3) هو الرقم الأوسط بين الرقم الوسيط والأكبر. الانحراف الربعي هو س = ½ × (س 3 - س 1)

المدى الربيعي: IQR = Q3 - Q1

فرق: متوسط ​​تربيع الفرق بين كل نقطة بيانات والمتوسط. يقيس مدى ارتباط انتشار مجموعة البيانات بالمتوسط.

الانحراف المعياري: الجذر التربيعي للتباين.

التباين والانحراف المعياري باستخدام بايثون.

التغاير

إنها العلاقة بين زوج من المتغيرات العشوائية حيث يؤدي التغيير في متغير واحد إلى التغيير في متغير آخر.

التغاير السالب والصفر والموجب.

مصفوفة التغاير وتمثيلها بخريطة الحرارة باستخدام بايثون.

ارتباط

يوضح ما إذا كان زوج من المتغيرات مرتبطًا ببعضهما البعض ومدى قوة الارتباط بينهما.


مصفوفة الارتباط باستخدام نفس البيانات المستخدمة في التغاير.

التباين مقابل الارتباط.

التوزيعات الاحتمالية

هناك نوعان عريضان من التوزيعات الاحتمالية - التوزيعات الاحتمالية المنفصلة والمستمرة.

التوزيع الاحتمالي المنفصل:

  • توزيع برنولي

يأخذ المتغير العشوائي تجربة واحدة مع نتيجتين محتملتين فقط: 1 (نجاح) مع احتمال p و 0 (فشل) مع احتمال 1-p.

  • توزيع ثنائي

كل تجربة مستقلة. لا يوجد سوى نتيجتين محتملتين في التجربة - إما نجاح أو فشل. تم إجراء عدد إجمالي من التجارب n متطابقة. احتمالية النجاح والفشل هي نفسها لجميع التجارب. (المحاكمات متطابقة).

  • توزيع السم

يقيس احتمال حدوث عدد معين من الأحداث في فترة زمنية محددة.

التوزيع الاحتمالي المستمر:

  • توزيع موحد

يسمى أيضا التوزيع المستطيل. جميع النتائج متساوية في الاحتمال.


  • التوزيع الطبيعي / الغوسي

يتطابق الوسط والوسيط وطريقة التوزيع. يكون منحنى التوزيع على شكل جرس ومتماثل حول الخط س = ميكرومتر. إجمالي المساحة تحت المنحنى 1. نصف القيم بالضبط على يسار المركز والنصف الآخر على اليمين.

التوزيع الطبيعي يختلف اختلافًا كبيرًا عن التوزيع ذي الحدين. ومع ذلك ، إذا اقترب عدد التجارب من اللانهاية ، فستكون الأشكال متشابهة تمامًا.

  • التوزيع الأسي

التوزيع الاحتمالي للوقت بين الأحداث في عملية نقطة بواسون ، أي عملية تحدث فيها الأحداث بشكل مستمر ومستقل بمعدل متوسط ​​ثابت.

اختبار الفرضيات

أولاً ، دعنا نلقي نظرة على الفرق بين الفرضية الصفرية والفرضية البديلة.

فرضية العدم: بيان حول معلمة السكان التي يُعتقد أنها صحيحة أو تُستخدم لطرح حجة ما لم يكن من الممكن إثبات أنها غير صحيحة عن طريق اختبار الفرضيات.

فرضية بديلة: ادعاء حول المجتمع يتعارض مع الفرضية الصفرية وما نستنتجه إذا رفضنا الفرضية الصفرية.

النوع الأول خطأ: رفض فرضية فارغة صحيحة

خطأ من النوع الثاني: عدم رفض فرضية فارغة كاذبة

مستوى الأهمية (α): احتمال رفض الفرضية الصفرية عندما تكون صحيحة.

ف القيمة: احتمالية أن تكون إحصائية الاختبار متطرفة على الأقل مثل تلك التي لوحظت بالنظر إلى أن الفرضية الصفرية صحيحة.

  • عندما تكون قيمة p> α ، نفشل في رفض فرضية العدم.
  • بينما قيمة p ≤ α ، فإننا نرفض الفرضية الصفرية ، ويمكننا أن نستنتج أن لدينا نتيجة مهمة.

في اختبار الفرضيات الإحصائية ، تكون للنتيجة دلالة إحصائية عندما يكون من غير المحتمل حدوثها في ضوء الفرضية الصفرية.

قيمة حرجة: نقطة على مقياس إحصاء الاختبار نرفض بعدها الفرضية الصفرية. يعتمد على إحصائية اختبار ، خاصة بنوع الاختبار ، ومستوى الأهمية ، α ، الذي يحدد حساسية الاختبار.

الانحدار الخطي

عادة ما يكون الانحدار الخطي هو أول خوارزمية تعلم الآلة التي نصادفها. إنه بسيط ، وفهمه يضع الأساس لخوارزميات ML المتقدمة الأخرى.

الانحدار الخطي البسيط

نهج خطي لنمذجة العلاقة بين متغير تابع ومتغير مستقل واحد.

علينا إيجاد المعلمات بحيث يناسب النموذج البيانات بشكل أفضل. خط الانحدار (على سبيل المثال ، أفضل خط ملائم) هو السطر الذي يحتوي على الخطأ بين القيم المتوقعة والقيم المرصودة هو الحد الأدنى.

خط الانحدار.

الآن ، دعنا نحاول تنفيذ هذا.

الانحدار الخطي المتعدد

نهج خطي لنمذجة العلاقة بين متغير تابع ومتغيرين مستقلين أو أكثر.

أصلي. تم إعادة النشر بإذن.

هذا الموضوع ذو علاقة بـ:

المصدر: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

الطابع الزمني:

اكثر من KD nuggets