Getting Started With Scikit-learn For Classification In Machine Learning

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

মেশিন লার্নিং-এ ক্লাসিফিকেশনের জন্য Scikit-learn দিয়ে শুরু করা

সম্পাদক দ্বারা চিত্র

স্কিট-লার্ন হল পাইথনে নির্মিত সবচেয়ে বেশি ব্যবহৃত মেশিন-লার্নিং লাইব্রেরিগুলির মধ্যে একটি। এর জনপ্রিয়তা এর সহজ এবং সামঞ্জস্যপূর্ণ কোড কাঠামোর জন্য দায়ী করা যেতে পারে যা নতুন বিকাশকারীদের জন্য বন্ধুত্বপূর্ণ। এছাড়াও, তৃতীয় পক্ষের কার্যকারিতাগুলিকে একীভূত করার নমনীয়তার সাথে একটি উচ্চ স্তরের সমর্থন উপলব্ধ রয়েছে যা গ্রন্থাগারটিকে শক্তিশালী এবং উত্পাদনের জন্য উপযুক্ত করে তোলে। লাইব্রেরিতে শ্রেণিবিন্যাস, রিগ্রেশন এবং ক্লাস্টারিংয়ের জন্য একাধিক মেশিন লার্নিং মডেল রয়েছে। এই টিউটোরিয়ালে, আমরা বিভিন্ন অ্যালগরিদমের মাধ্যমে মাল্টিক্লাস শ্রেণীবিভাগের সমস্যা অন্বেষণ করব। আসুন সরাসরি এটিতে ডুব দেই এবং আমাদের স্কিট-লার্ন মডেলগুলি তৈরি করি।

pip install scikit-learn

আমরা স্কিট-লার্নের ডেটাসেট মডিউলে উপলব্ধ "ওয়াইন" ডেটাসেট ব্যবহার করব। এই ডেটাসেটে মোট 178টি নমুনা এবং 3টি ক্লাস রয়েছে। ডেটাসেটটি ইতিমধ্যেই প্রি-প্রসেস করা হয়েছে এবং ফিচার ভেক্টরে রূপান্তরিত হয়েছে, তাই আমরা আমাদের মডেলগুলিকে প্রশিক্ষিত করতে সরাসরি এটি ব্যবহার করতে পারি।

from sklearn.datasets import load_wine X, y = load_wine(return_X_y=True)

আমরা প্রশিক্ষণের জন্য 67% ডেটা এবং বাকি 33% পরীক্ষার জন্য রাখব।

from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.33, random_state=42
)

এখন, আমরা বিভিন্ন জটিলতার 5টি ভিন্ন মডেল নিয়ে পরীক্ষা করব এবং আমাদের ডেটাসেটে তাদের ফলাফল মূল্যায়ন করব।

model_lr = LogisticRegression()
model_lr.fit(X_train, y_train)
y_pred_lr = model_lr.predict(X_test) print("Accuracy Score: ", accuracy_score(y_pred_lr, y_test))
print(classification_report(y_pred_lr, y_test))

আউটপুট

Accuracy Score: 0.9830508474576272 precision recall f1-score support 0 1.00 0.95 0.98 21 1 0.96 1.00 0.98 23 2 1.00 1.00 1.00 15 accuracy 0.98 59 macro avg 0.99 0.98 0.98 59
weighted avg 0.98 0.98 0.98 59

model_knn = KNeighborsClassifier(n_neighbors=1)
model_knn.fit(X_train, y_train)
y_pred_knn = model_knn.predict(X_test) print("Accuracy Score:", accuracy_score(y_pred_knn, y_test))
print(classification_report(y_pred_knn, y_test))

আউটপুট

Accuracy Score: 0.7796610169491526 precision recall f1-score support 0 0.90 0.78 0.84 23 1 0.75 0.82 0.78 22 2 0.67 0.71 0.69 14 accuracy 0.78 59 macro avg 0.77 0.77 0.77 59
weighted avg 0.79 0.78 0.78 59

'n_neighbours=2' প্যারামিটার পরিবর্তন করার পর আমরা নির্ভুলতার মান হ্রাস লক্ষ্য করি। সুতরাং, এটি দেখায় যে ডেটা যথেষ্ট সহজ এবং বিবেচনা করার জন্য একক প্রতিবেশীর সাথে আরও ভাল শিক্ষা অর্জন করে।

আউটপুট

Accuracy Score: 0.6949152542372882 precision recall f1-score support 0 0.90 0.72 0.80 25 1 0.75 0.69 0.72 26 2 0.33 0.62 0.43 8 accuracy 0.69 59 macro avg 0.66 0.68 0.65 59
weighted avg 0.76 0.69 0.72 59

from sklearn.naive_bayes import GaussianNB model_nb = GaussianNB()
model_nb.fit(X_train, y_train)
y_pred_nb = model_nb.predict(X_test) print("Accuracy Score:", accuracy_score(y_pred_nb, y_test))
print(classification_report(y_pred_nb, y_test))

আউটপুট

Accuracy Score: 1.0 precision recall f1-score support 0 1.00 1.00 1.00 20 1 1.00 1.00 1.00 24 2 1.00 1.00 1.00 15 accuracy 1.00 59 macro avg 1.00 1.00 1.00 59
weighted avg 1.00 1.00 1.00 59

from sklearn.tree import DecisionTreeClassifier model_dtclassifier = DecisionTreeClassifier()
model_dtclassifier.fit(X_train, y_train)
y_pred_dtclassifier = model_dtclassifier.predict(X_test) print("Accuracy Score:", accuracy_score(y_pred_dtclassifier, y_test))
print(classification_report(y_pred_dtclassifier, y_test))

আউটপুট

Accuracy Score: 0.9661016949152542 precision recall f1-score support 0 0.95 0.95 0.95 20 1 1.00 0.96 0.98 25 2 0.93 1.00 0.97 14 accuracy 0.97 59 macro avg 0.96 0.97 0.97 59
weighted avg 0.97 0.97 0.97 59

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV def get_best_parameters(): params = { "n_estimators": [10, 50, 100], "max_features": ["auto", "sqrt", "log2"], "max_depth": [5, 10, 20, 50], "min_samples_split": [2, 4, 6], "min_samples_leaf": [2, 4, 6], "bootstrap": [True, False], } model_rfclassifier = RandomForestClassifier(random_state=42) rf_randomsearch = RandomizedSearchCV( estimator=model_rfclassifier, param_distributions=params, n_iter=5, cv=3, verbose=2, random_state=42, ) rf_randomsearch.fit(X_train, y_train) best_parameters = rf_randomsearch.best_params_ print("Best Parameters:", best_parameters) return best_parameters parameters_rfclassifier = get_best_parameters() model_rfclassifier = RandomForestClassifier( **parameters_rfclassifier, random_state=42
) model_rfclassifier.fit(X_train, y_train) y_pred_rfclassifier = model_rfclassifier.predict(X_test) print("Accuracy Score:", accuracy_score(y_pred_rfclassifier, y_test))
print(classification_report(y_pred_rfclassifier, y_test))

আউটপুট


Best Parameters: {'n_estimators': 100, 'min_samples_split': 6, 'min_samples_leaf': 4, 'max_features': 'log2', 'max_depth': 5, 'bootstrap': True}
Accuracy Score: 0.9830508474576272 precision recall f1-score support 0 1.00 0.95 0.98 21 1 0.96 1.00 0.98 23 2 1.00 1.00 1.00 15 accuracy 0.98 59 macro avg 0.99 0.98 0.98 59
weighted avg 0.98 0.98 0.98 59

এই অ্যালগরিদমে, আমরা সেরা নির্ভুলতা অর্জনের জন্য কিছু হাইপারপ্যারামিটার টিউনিং করেছি। আমরা প্রতিটি প্যারামিটারের জন্য বেছে নেওয়ার জন্য একাধিক মান সমন্বিত একটি প্যারামিটার গ্রিড সংজ্ঞায়িত করেছি। আরও, আমরা মডেলের জন্য সেরা প্যারামিটার স্থান অনুসন্ধান করতে র্যান্ডমাইজড সার্চ সিভি অ্যালগরিদম ব্যবহার করেছি। অবশেষে আমরা প্রাপ্ত পরামিতিগুলিকে শ্রেণীবদ্ধ করি এবং মডেলটিকে প্রশিক্ষণ দিই।

মডেল	সঠিকতা	পর্যবেক্ষণ
পণ্য সরবরাহ সংশ্লেষণ	98.30%	মহান নির্ভুলতা অর্জন. মডেল পরীক্ষার ডেটাসেটে ভালভাবে সাধারণীকরণ করতে সক্ষম।
কে-নিকটতম প্রতিবেশী	77.96%	অ্যালগরিদম ডেটা উপস্থাপনা ভালভাবে শিখতে সক্ষম নয়।
নাইভ বয়েস	100%	মডেলটি কম জটিল তাই এটি নিখুঁত নির্ভুলতা পাওয়ার জন্য ডেটাকে ওভারফিট করে।
ডিসিশন ট্রি ক্লাসিফায়ার	96.61%	শালীন নির্ভুলতা অর্জন করে।
র্যান্ডম ফরেস্ট ক্লাসিফায়ার	98.30%	একটি ensemble-ভিত্তিক পদ্ধতির হওয়ায় এটি ডিসিশন ট্রির চেয়ে ভালো পারফর্ম করে। হাইপারপ্যারামিটার টিউনিং করা এটি লজিস্টিক রিগ্রেশনের অনুরূপ নির্ভুলতা অর্জন করে।

In this tutorial, we learned how to get started to build and train machine learning models in scikit-learn. We implemented and evaluated a few algorithms to get a basic idea about their performance. One can always adopt advanced strategies for feature engineering, hyperparameter tuning or training to improve performance. To read more about the functionalities that scikit-learn offers, head over to the official documentation - স্কিট-লার্নের সাথে মেশিন লার্নিং এর পরিচিতি, স্কিট-লার্ন সহ পাইথনে মেশিন লার্নিং.

ইয়েশা শাস্ত্রী একজন উত্সাহী AI বিকাশকারী এবং লেখক যিনি ইউনিভার্সিটি ডি মন্ট্রিল থেকে মেশিন লার্নিং-এ মাস্টার্স করছেন৷ ইয়েশা সমাজকে উপকৃত করে এমন চ্যালেঞ্জগুলি সমাধান করার জন্য দায়ী এআই কৌশলগুলি অন্বেষণ করতে আগ্রহী এবং সম্প্রদায়ের সাথে তার শিক্ষাগুলি ভাগ করে নেয়৷