إجراء اختبار T في بايثون

إجراء اختبار T في بايثون

عقدة المصدر: 1902069

إجراء اختبار T في بايثون
الصورة بواسطة المحرر

الوجبات السريعة الرئيسية

  • اختبار t هو اختبار إحصائي يمكن استخدامه لتحديد ما إذا كان هناك فرق كبير بين وسائل عينتين مستقلتين من البيانات.
  • نوضح كيف يمكن تطبيق اختبار t باستخدام مجموعة بيانات القزحية ومكتبة بايثون Scipy.

اختبار t هو اختبار إحصائي يمكن استخدامه لتحديد ما إذا كان هناك فرق كبير بين وسائل عينتين مستقلتين من البيانات. في هذا البرنامج التعليمي ، نوضح الإصدار الأساسي من اختبار t ، والذي سنفترض فيه أن للعينتين تباينات متساوية. تتضمن الإصدارات المتقدمة الأخرى من اختبار t اختبار ويلش t ، وهو تعديل لاختبار t ، ويكون أكثر موثوقية عندما يكون للعينتين تباينات غير متكافئة وربما أحجام عينات غير متكافئة.

يتم حساب إحصاء t أو قيمة t على النحو التالي:

 

إجراء اختبار T في بايثون
 

أين معادلة

معادلة هو متوسط ​​العينة 1 ، معادلة هو متوسط ​​العينة 2 ، معادلة هو تباين العينة 1 ، معادلة هو تباين العينة 2 ، معادلة هو حجم العينة 1 و معادلة هو حجم العينة 2.

لتوضيح استخدام اختبار t ، سنعرض مثالًا بسيطًا باستخدام مجموعة بيانات القزحية. لنفترض أننا لاحظنا عينتين مستقلتين ، على سبيل المثال أطوال فصل الزهور ، ونفكر في ما إذا كانت العينتان قد تم أخذهما من نفس السكان (على سبيل المثال ، نفس نوع الزهرة أو نوعين لهما خصائص sepal متشابهة) أو مجموعتين مختلفتين.

يحدد اختبار t الفرق بين الوسائل الحسابية للعينتين. تحدد القيمة p احتمالية الحصول على النتائج المرصودة ، بافتراض صحة الفرضية الصفرية (أن العينات مأخوذة من مجموعات سكانية لها نفس الوسائل السكانية). تشير القيمة الاحتمالية الأكبر من العتبة المختارة (على سبيل المثال 5٪ أو 0.05) إلى أن ملاحظتنا ليس من المرجح أن تحدث بالصدفة. لذلك ، نحن نقبل الفرضية الصفرية لوسائل تعداد متساوية. إذا كانت القيمة p أصغر من عتبة لدينا ، فعندئذٍ لدينا دليل ضد الفرضية الصفرية لوسائل التعداد السكاني المتساوية.

إدخال اختبار T

المدخلات أو المعلمات اللازمة لإجراء اختبار t هي:

  • صفيفتان a و b تحتوي على بيانات للعينة 1 والعينة 2

مخرجات اختبار T

يُرجع اختبار t ما يلي:

  • إحصائيات t المحسوبة
  • القيمة الاحتمالية

استيراد المكتبات اللازمة

import numpy as np
from scipy import stats import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

 

قم بتحميل مجموعة بيانات Iris

from sklearn import datasets
iris = datasets.load_iris()
sep_length = iris.data[:,0]
a_1, a_2 = train_test_split(sep_length, test_size=0.4, random_state=0)
b_1, b_2 = train_test_split(sep_length, test_size=0.4, random_state=1)

 

حساب متوسط ​​العينة وتباينات العينة

mu1 = np.mean(a_1) mu2 = np.mean(b_1) np.std(a_1) np.std(b_1)

 

تنفيذ اختبار t

stats.ttest_ind(a_1, b_1, equal_var = False)

 

الناتج 

Ttest_indResult(statistic=0.830066093774641, pvalue=0.4076270841218671)

 

stats.ttest_ind(b_1, a_1, equal_var=False)

 

الناتج 

Ttest_indResult(statistic=-0.830066093774641, pvalue=0.4076270841218671)

 

stats.ttest_ind(a_1, b_1, equal_var=True)

 

الناتج

Ttest_indResult(statistic=0.830066093774641, pvalue=0.4076132965045395)

الملاحظات

نلاحظ أن استخدام "صواب" أو "خطأ" لمعامل "يساوي var" لا يغير نتائج اختبار t كثيرًا. نلاحظ أيضًا أن تبديل ترتيب مصفوفات العينة a_1 و b_1 ينتج عنه قيمة اختبار t سلبية ، لكنه لا يغير حجم قيمة اختبار t ، كما هو متوقع. نظرًا لأن القيمة p المحسوبة أكبر بكثير من قيمة العتبة 0.05 ، يمكننا رفض الفرضية الصفرية القائلة بأن الاختلاف بين وسائل العينة 1 والعينة 2 كبير. يوضح هذا أن أطوال sepal للعينة 1 والعينة 2 تم استخلاصها من نفس بيانات السكان.

a_1, a_2 = train_test_split(sep_length, test_size=0.4, random_state=0)
b_1, b_2 = train_test_split(sep_length, test_size=0.5, random_state=1)

 

حساب متوسط ​​العينة وتباينات العينة

mu1 = np.mean(a_1) mu2 = np.mean(b_1) np.std(a_1) np.std(b_1)

 

تنفيذ اختبار t

stats.ttest_ind(a_1, b_1, equal_var = False)

 

الناتج

stats.ttest_ind(a_1, b_1, equal_var = False)

الملاحظات

نلاحظ أن استخدام العينات ذات الحجم غير المتكافئ لا يغير إحصائيات t وقيمة p بشكل كبير. 
 

إجراء اختبار T في بايثون

 

باختصار ، لقد أظهرنا كيف يمكن تنفيذ اختبار t بسيط باستخدام مكتبة scipy في بايثون.
 
 
بنيامين أو.تايو هو فيزيائي ومعلم علوم البيانات وكاتب ، وكذلك مالك DataScienceHub. سابقًا ، كان بنجامين يدرس الهندسة والفيزياء في جامعة أوكلاهوما الوسطى ، وغراند كانيون يو ، وبيتسبرج ستيت يو.
 

الطابع الزمني:

اكثر من KD nuggets