مغالطة المعدل الأساسي وتأثيرها على علم البيانات

مغالطة المعدل الأساسي وتأثيرها على علم البيانات

عقدة المصدر: 2597848
مغالطة المعدل الأساسي وتأثيرها على علم البيانات
صورة المؤلف
 

عند العمل مع البيانات والمتغيرات المختلفة ، يكون تعيين متغير أو قيمة أكبر من الآخر أمرًا سهلاً. قد نفترض أن متغيرًا معينًا أو نقطة بيانات كان لها تأثير أكبر على المخرجات ، ولكن ما مدى تأكدنا من أن المتغيرات الأخرى لها تأثير متساوٍ؟

في الإحصاء، يمكن اعتبار المعدل الأساسي بمثابة احتمالات للفئات غير المشروطة بـ "الأدلة المميزة". يمكنك رؤية المعدل الأساسي كافتراض احتمالي مسبق. 

المعدلات الأساسية هي أدوات مهمة في البحث. على سبيل المثال ، إذا كنا شركة أدوية ونقوم بعملية تطوير وإرسال لقاح جديد ، فنحن نريد أن ننظر في نجاح العلاج. إذا كان لدينا 4000 شخص على استعداد لتلقي هذا التطعيم ، ومعدلنا الأساسي هو 1/25. 

هذا يعني أنه سيتم علاج 160 شخصًا فقط بنجاح من خلال العلاج من بين 4000 شخص. في عالم المستحضرات الصيدلانية ، يعد هذا معدل نجاح منخفضًا للغاية. هذه هي الطريقة التي يمكن بها استخدام المعدلات الأساسية لتحسين البحث والدقة وضمان أداء المنتج بشكل جيد. 

إذا قمنا بتقسيم الكلمات ، فسوف يمنحنا ذلك فهمًا أفضل. المغالطة تعني الاعتقاد الخاطئ أو التفكير الخاطئ. إذا قمنا الآن بدمج ذلك مع تعريفنا للمعدل الأساسي أعلاه. 

مغالطة المعدل الأساسي ، والمعروفة أيضًا باسم تحيز المعدل الأساسي وإهمال المعدل الأساسي ، هي احتمال الحكم على موقف معين ، مع عدم مراعاة جميع البيانات ذات الصلة. 

تحتوي مغالطة السعر الأساسي على معلومات حول المعدل الأساسي بالإضافة إلى معلومات أخرى ذات صلة. يمكن أن يكون هذا بسبب أسباب مختلفة مثل عدم الفحص الدقيق وتحليل البيانات بشكل صحيح ، أو الجهل لتفضيل جزء معين من البيانات. 

تصف مغالطة السعر الأساسي ميل شخص ما لتجاهل معلومات السعر الأساسي الحالية ، لدفع المعلومات الجديدة والتأييد لها. هذا يتعارض مع القواعد الأساسية للاستدلال القائم على الأدلة.

سوف تسمع عادةً عن حدوث ذلك في الصناعة المالية. على سبيل المثال، سيبني المستثمرون تكتيكاتهم في الشراء أو المشاركة على معلومات غير عقلانية، مما يؤدي إلى تقلبات في السوق - على الرغم من حصولهم على المعدل الأساسي حسب معرفتهم. 

لذا أصبح لدينا الآن فهم أفضل للمعدل الأساسي ومغالطة المعدل الأساسي. ما هي أهميتها وتأثيرها في علم البيانات؟

لقد تحدثنا عن "احتمالات الفئات" و"مع الأخذ في الاعتبار جميع البيانات ذات الصلة". إذا كنت عالم بيانات، أو مهندسًا للتعلم الآلي، أو بدأت العمل - فسوف تعرف مدى أهمية الاحتمالات والبيانات ذات الصلة لإنتاج مخرجات دقيقة، وعملية التعلم لنموذج التعلم الآلي الخاص بك، وإنتاج نماذج عالية الأداء. 

لتحليل البيانات والتنبؤ بها أو لنموذج التعلم الآلي الخاص بك لإنتاج مخرجات دقيقة - عليك أن تأخذ في الاعتبار كل جزء من البيانات. أثناء قيامك بمسح بياناتك في المرة الأولى التي تراها فيها، قد تعتبر بعض الأجزاء ذات صلة وأجزاء أخرى غير ذات صلة. ومع ذلك، هذا هو حكمك وليس واقعيًا حتى يتم إجراء التحليل المناسب. 

كما ذكرنا أعلاه ، يساعدك المعدل الأساسي الأولي على ضمان الدقة وإنتاج نماذج عالية الأداء. إذن كيف يمكننا القيام بذلك في علوم البيانات؟

الارتباك مصفوفة

مصفوفة الارتباك هي مقياس للأداء يوفر ملخصًا لنتائج التنبؤ حول مشكلة التصنيف. تستند جميع مصفوفات الارتباك إلى النتيجة: صواب وخطأ وإيجابي وسالب.

تمثل مصفوفة الارتباك تنبؤات نموذجنا أثناء مرحلة الاختبار. تعد السلبيات الكاذبة والإيجابية الكاذبة في مصفوفة الارتباك أمثلة على مغالطة المعدل الأساسي.

  • True Positive (TP) - تنبأ نموذجك بإيجابية وهو إيجابي 
  • صحيح سلبي (TN) - تنبأ نموذجك بالسالب وهو سلبي
  • إيجابية كاذبة (FP) - تنبأ نموذجك بإيجابية وهو سلبي
  • سلبي كاذب (FN) - توقع نموذجك سلبيًا وهو إيجابي 

يمكن لمصفوفة الارتباك أن تحسب 5 مقاييس مختلفة لمساعدتنا في قياس صلاحية نموذجنا:

  1. سوء التصنيف = FP + FN / TP + TN + FP + FN
  2. الدقة = TP / TP + FP
  3. الدقة = TP + TN / TP + TN + FP + FN
  4. خصوصية = TN / TN + FP
  5. الحساسية الملقب أذكر = TP / TP + FN

لفهم مصفوفة الارتباك بشكل أفضل، من الأفضل إلقاء نظرة على التصور: 
 

مغالطة المعدل الأساسي وتأثيرها على علم البيانات
صورة المؤلف

أثناء استعراضك لهذه المقالة ، ربما يمكنك التفكير في مجموعة متنوعة من أسباب مغالطة المعدل الأساسي ، مثل عدم أخذ جميع البيانات ذات الصلة في الاعتبار ، أو الخطأ البشري ، أو الافتقار إلى الدقة. 

على الرغم من أن هذه كلها صحيحة وتضيف إلى سبب مغالطة المعدل الأساسي. كلها تتعلق بالمشكلة الأكبر المتمثلة في تجاهل معلومات السعر الأساسي في المقام الأول. غالبًا ما يتم تجاهل معلومات السعر الأساسي لأنها تعتبر غير ذات صلة ، ومع ذلك ، يمكن أن توفر معلومات السعر الأساسي على الأشخاص الكثير من الوقت والمال. يتيح لك استخدام معلومات السعر الأساسي المتاحة أن تكون أكثر دقة في عمل الاحتمالات حول ما إذا كان حدث معين سيحدث أم لا. 

سيساعدك استخدام معلومات السعر الأساسي على تجنب مغالطة السعر الأساسي. 

إن إدراك المغالطات مثل الآراء والعمليات التلقائية وما إلى ذلك - سيسمح لك بمكافحة مشكلة مغالطة المعدل الأساسي وتقليل الأخطاء المحتملة. عندما تقوم بقياس احتمالية وقوع حدث معين، يمكن أن تساعد الأساليب الافتراضية في ذلك لتقليل مغالطة المعدل الأساسي.  

يعد المعدل الأساسي مهمًا في علم البيانات لأنه يزودك بفهم أساسي لكيفية تقييم دراستك أو مشروعك، وضبط النموذج الخاص بك - مما يوفر زيادة إجمالية في الدقة والأداء.

إذا كنت ترغب في مشاهدة مقطع فيديو حول مغالطة المعدل الأساسي في المجال الطبي ، فراجع هذا الفيديو: مفارقة الاختبارات الطبية
 
 
نيشا آريا هو عالم بيانات وكاتب تقني مستقل ومدير المجتمع في KDnuggets. وهي مهتمة بشكل خاص بتقديم المشورة المهنية في علوم البيانات أو البرامج التعليمية والمعرفة القائمة على النظرية حول علوم البيانات. إنها ترغب أيضًا في استكشاف الطرق المختلفة التي يمكن للذكاء الاصطناعي من خلالها الاستفادة من طول عمر حياة الإنسان. متعلمة حريصة ، تسعى إلى توسيع معرفتها التقنية ومهارات الكتابة لديها ، بينما تساعد في توجيه الآخرين.
 

الطابع الزمني:

اكثر من KD nuggets