পাইথনে একটি টি-টেস্ট করা

পাইথনে একটি টি-টেস্ট করা

উত্স নোড: 1902069

পাইথনে একটি টি-টেস্ট করা
সম্পাদক দ্বারা চিত্র

কী Takeaways

  • টি-টেস্ট হল একটি পরিসংখ্যানগত পরীক্ষা যা ডেটার দুটি স্বাধীন নমুনার মাধ্যমের মধ্যে উল্লেখযোগ্য পার্থক্য আছে কিনা তা নির্ধারণ করতে ব্যবহার করা যেতে পারে।
  • আইরিস ডেটাসেট এবং পাইথনের সিপি লাইব্রেরি ব্যবহার করে কীভাবে একটি টি-টেস্ট প্রয়োগ করা যেতে পারে তা আমরা চিত্রিত করি।

টি-টেস্ট হল একটি পরিসংখ্যানগত পরীক্ষা যা ডেটার দুটি স্বাধীন নমুনার মাধ্যমের মধ্যে উল্লেখযোগ্য পার্থক্য আছে কিনা তা নির্ধারণ করতে ব্যবহার করা যেতে পারে। এই টিউটোরিয়ালে, আমরা টি-টেস্টের সবচেয়ে মৌলিক সংস্করণটি চিত্রিত করেছি, যার জন্য আমরা ধরে নেব যে দুটি নমুনার মধ্যে সমান পার্থক্য রয়েছে। টি-পরীক্ষার অন্যান্য উন্নত সংস্করণগুলির মধ্যে রয়েছে ওয়েলচের টি-পরীক্ষা, যা টি-পরীক্ষার একটি অভিযোজন, এবং যখন দুটি নমুনার অসম বৈচিত্র্য এবং সম্ভবত অসম নমুনার আকার থাকে তখন এটি আরও নির্ভরযোগ্য।

t পরিসংখ্যান বা টি-মান নিম্নরূপ গণনা করা হয়:

 

পাইথনে একটি টি-টেস্ট করা
 

কোথায় সমীকরণ

সমীকরণ নমুনা 1 এর গড়, সমীকরণ নমুনা 2 এর গড়, সমীকরণ নমুনা 1 এর পার্থক্য হল, সমীকরণ নমুনা 2 এর পার্থক্য হল, সমীকরণ নমুনা 1 এর নমুনা আকার, এবং সমীকরণ নমুনা 2 এর নমুনা আকার।

টি-টেস্টের ব্যবহার ব্যাখ্যা করার জন্য, আমরা আইরিস ডেটাসেট ব্যবহার করে একটি সাধারণ উদাহরণ দেখাব। ধরুন আমরা দুটি স্বাধীন নমুনা পর্যবেক্ষণ করি, যেমন ফুলের সেপালের দৈর্ঘ্য, এবং আমরা বিবেচনা করছি যে দুটি নমুনা একই জনসংখ্যা থেকে (যেমন একই প্রজাতির ফুল বা একই ধরনের সেপাল বৈশিষ্ট্যযুক্ত দুটি প্রজাতি) বা দুটি ভিন্ন জনসংখ্যা থেকে নেওয়া হয়েছে কিনা।

টি-পরীক্ষা দুটি নমুনার পাটিগণিত উপায়ের মধ্যে পার্থক্য পরিমাপ করে। শূন্য অনুমান (যে নমুনাগুলি একই জনসংখ্যার মানে সহ জনসংখ্যা থেকে আঁকা হয়েছে) সত্য বলে অনুমান করে, পি-মান পর্যবেক্ষণ করা ফলাফলগুলি পাওয়ার সম্ভাবনার পরিমাণ নির্ধারণ করে৷ একটি নির্বাচিত থ্রেশহোল্ডের চেয়ে বড় একটি পি-মান (যেমন 5% বা 0.05) ইঙ্গিত দেয় যে আমাদের পর্যবেক্ষণটি ঘটনাক্রমে ঘটে যাওয়ার সম্ভাবনা কম নয়। অতএব, আমরা সমান জনসংখ্যার অর্থের শূন্য অনুমান গ্রহণ করি। যদি পি-মান আমাদের থ্রেশহোল্ডের চেয়ে ছোট হয়, তাহলে আমাদের কাছে সমান জনসংখ্যার অর্থের শূন্য অনুমানের বিরুদ্ধে প্রমাণ আছে।

টি-টেস্ট ইনপুট

একটি টি-পরীক্ষা সম্পাদনের জন্য প্রয়োজনীয় ইনপুট বা পরামিতিগুলি হল:

  • দুটি অ্যারে a এবং b নমুনা 1 এবং নমুনা 2 এর ডেটা রয়েছে

টি-টেস্ট আউটপুট

টি-পরীক্ষা নিম্নলিখিতগুলি প্রদান করে:

  • গণনা করা টি-পরিসংখ্যান
  • পি-মান

প্রয়োজনীয় লাইব্রেরি আমদানি করুন

import numpy as np
from scipy import stats import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

 

আইরিস ডেটাসেট লোড করুন

from sklearn import datasets
iris = datasets.load_iris()
sep_length = iris.data[:,0]
a_1, a_2 = train_test_split(sep_length, test_size=0.4, random_state=0)
b_1, b_2 = train_test_split(sep_length, test_size=0.4, random_state=1)

 

নমুনা উপায় এবং নমুনা বৈচিত্র গণনা

mu1 = np.mean(a_1) mu2 = np.mean(b_1) np.std(a_1) np.std(b_1)

 

টি-পরীক্ষা বাস্তবায়ন করুন

stats.ttest_ind(a_1, b_1, equal_var = False)

 

আউটপুট 

Ttest_indResult(statistic=0.830066093774641, pvalue=0.4076270841218671)

 

stats.ttest_ind(b_1, a_1, equal_var=False)

 

আউটপুট 

Ttest_indResult(statistic=-0.830066093774641, pvalue=0.4076270841218671)

 

stats.ttest_ind(a_1, b_1, equal_var=True)

 

আউটপুট

Ttest_indResult(statistic=0.830066093774641, pvalue=0.4076132965045395)

পর্যবেক্ষণ

আমরা লক্ষ্য করি যে "সমান-ভার" প্যারামিটারের জন্য "সত্য" বা "মিথ্যা" ব্যবহার করা টি-পরীক্ষার ফলাফলকে ততটা পরিবর্তন করে না। আমরা আরও লক্ষ্য করি যে a_1 এবং b_1 নমুনা অ্যারেগুলির ক্রম পরিবর্তন করলে একটি নেতিবাচক t-পরীক্ষার মান পাওয়া যায়, কিন্তু প্রত্যাশিত হিসাবে t-পরীক্ষার মানের মাত্রা পরিবর্তন হয় না। যেহেতু গণনা করা p-মান 0.05-এর থ্রেশহোল্ড মানের থেকে অনেক বড়, তাই আমরা নমুনা 1 এবং নমুনা 2-এর মধ্যকার পার্থক্য যে তাৎপর্যপূর্ণ তা বাতিল অনুমানকে প্রত্যাখ্যান করতে পারি। এটি দেখায় যে নমুনা 1 এবং নমুনা 2 এর জন্য সেপালের দৈর্ঘ্য একই জনসংখ্যার ডেটা থেকে আঁকা হয়েছিল।

a_1, a_2 = train_test_split(sep_length, test_size=0.4, random_state=0)
b_1, b_2 = train_test_split(sep_length, test_size=0.5, random_state=1)

 

নমুনা উপায় এবং নমুনা বৈচিত্র গণনা

mu1 = np.mean(a_1) mu2 = np.mean(b_1) np.std(a_1) np.std(b_1)

 

টি-পরীক্ষা বাস্তবায়ন করুন

stats.ttest_ind(a_1, b_1, equal_var = False)

 

আউটপুট

stats.ttest_ind(a_1, b_1, equal_var = False)

পর্যবেক্ষণ

আমরা লক্ষ্য করি যে অসম আকারের নমুনাগুলি ব্যবহার করে টি-পরিসংখ্যান এবং পি-মান উল্লেখযোগ্যভাবে পরিবর্তন হয় না। 
 

পাইথনে একটি টি-টেস্ট করা

 

সংক্ষেপে, আমরা দেখিয়েছি কিভাবে একটি সাধারণ টি-টেস্ট পাইথনে স্কাইপি লাইব্রেরি ব্যবহার করে প্রয়োগ করা যেতে পারে।
 
 
বেঞ্জামিন ও. তাইয়ো একজন পদার্থবিদ, ডেটা সায়েন্স এডুকেটর এবং লেখক, সেইসাথে ডেটাসায়েন্সহাবের মালিক৷ পূর্বে, বেঞ্জামিন সেন্ট্রাল ওকলাহোমা, গ্র্যান্ড ক্যানিয়ন ইউ. এবং পিটসবার্গ স্টেট ইউ-তে ইঞ্জিনিয়ারিং এবং পদার্থবিদ্যা পড়াচ্ছিলেন।
 

সময় স্ট্যাম্প:

থেকে আরো কেডনুগেটস

KDnuggets™ নিউজ 22:n01, জানুয়ারী 5: 3 আপনার পাইথন কোডের এক্সিকিউশন ট্র্যাক এবং ভিজ্যুয়ালাইজ করার টুল; 6 ভবিষ্যদ্বাণীমূলক মডেল প্রতিটি শিক্ষানবিস ডেটা বিজ্ঞানীকে আয়ত্ত করা উচিত

উত্স নোড: 1586872
সময় স্ট্যাম্প: জানুয়ারী 5, 2022