ডেটা সায়েন্স এবং মেশিন লার্নিংয়ের জন্য প্রয়োজনীয় লিনিয়ার বীজগণিত

উত্স নোড: 1852280

ছবি বেনজামিন ও টেও।

লিনিয়ার বীজগণিত গণিতের একটি শাখা যা ডেটা সায়েন্স এবং মেশিন লার্নিংয়ে অত্যন্ত কার্যকর। লিনিয়ার বীজগণিত হ'ল মেশিন লার্নিংয়ের সবচেয়ে গুরুত্বপূর্ণ গণিত দক্ষতা। বেশিরভাগ মেশিন লার্নিং মডেলগুলি ম্যাট্রিক্স আকারে প্রকাশ করা যেতে পারে। একটি ডেটাসেট নিজেই প্রায়ই ম্যাট্রিক্স হিসাবে উপস্থাপিত হয়। লিনিয়ার বীজগণিত ডেটা প্রিপ্রোসেসিং, ডেটা ট্রান্সফর্মেশন এবং মডেল মূল্যায়নে ব্যবহৃত হয়। আপনার যে বিষয়গুলির সাথে পরিচিত হতে হবে তা এখানে রয়েছে:

  • ভেক্টর
  • ম্যাট্রিক্স
  • একটি ম্যাট্রিক্স স্থানান্তর
  • একটি ম্যাট্রিক্সের বিপরীত
  • একটি ম্যাট্রিক্স নির্ধারণকারী
  • একটি ম্যাট্রিক্সের ট্রেস
  • বিন্দু পণ্য
  • ইগেনভ্যালু
  • আইজেনভেেক্টর

এই নিবন্ধে, আমরা প্রযুক্তি বিজ্ঞান এবং মেশিন শিক্ষায় লিনিয়ার বীজগণিতের প্রয়োগ প্রযুক্তি স্টক ডেটাসেট ব্যবহার করে চিত্রিত করি যা পাওয়া যায় এখানে.

1. ডেটা প্রিপ্রোসেসিংয়ের জন্য লিনিয়ার বীজগণিত

 আমরা ডেটা প্রিপ্রোসেসিংয়ে লিনিয়ার বীজগণিতটি কীভাবে ব্যবহৃত হয় তা উদাহরণ দিয়ে শুরু করি।

1.1 লিনিয়ার বীজগণিতগুলির জন্য প্রয়োজনীয় গ্রন্থাগারগুলি আমদানি করুন

পিডি আমদানি হিসাবে পাইপ আমদানি প্লেব আমদানি matplotlib.pyplot হিসাবে প্ল্যান্ট আমদানি সমুদ্র সৈকত হিসাবে এসএনএস হিসাবে নম্পতি আমদানি করুন 

 

১.২ ডেটাসেট এবং প্রদর্শন বৈশিষ্ট্যগুলি পড়ুন

ডেটা = পিডি.ড্রেড_সিএসভি ("টেক-স্টকস -04-2021.csv") ডেটা হেড () 

 টেবিল 1। 16 এপ্রিল মাসে প্রথম 2021 দিনের জন্য নির্বাচিত স্টকের দামের শেয়ারের দাম।

মুদ্রণ (ডেটা.শ্যাপ) আউটপুট = (১১,৫) 

 সার্জারির ডেটা.শ্যাপ ফাংশন আমাদের আমাদের ডেটাসেটের আকার জানতে সক্ষম করে। এই ক্ষেত্রে, ডেটাসেটের 5 টি বৈশিষ্ট্য রয়েছে (তারিখ, এএপিএল, টিএসএলএ, গুগল এবং এএমজেডএন) এবং প্রতিটি বৈশিষ্ট্যে 11 টি পর্যবেক্ষণ রয়েছে। তারিখ 2021 এপ্রিল (16 এপ্রিল পর্যন্ত) এর ব্যবসায়িক দিনগুলি বোঝায়। এএপিএল, টিএসএলএ, গুগল, এবং এএমজেডএন যথাক্রমে অ্যাপল, টেসলা, গুগল এবং অ্যামাজনের জন্য বন্ধ হওয়া শেয়ারের দাম।

1.3 ডেটা ভিজ্যুয়ালাইজেশন

ডেটা ভিজুয়ালাইজেশন সম্পাদন করার জন্য, আমাদের সংজ্ঞায়িত করতে হবে কলাম ম্যাট্রিক্স বৈশিষ্ট্যগুলি ভিজুয়ালাইজ করার জন্য:

x = ডেটা ['তারিখ'] y = তথ্য ['টিএসএলএ'] plt.plot (x, y) plt.xticks (এনপি.আরে ([0,4,9]), ['এপ্রিল 1', 'এপ্রিল 8 ',' এপ্রিল 15 ']) plt.title (' 2021 এপ্রিলের জন্য টেসলা স্টক প্রাইস (ডলারে) ', আকার = 14) plt.show () 

ব্যক্তিত্ব 1। 16 এপ্রিল মাসে প্রথম 2021 দিনের জন্য টেসলা স্টকের দাম।

2. কোভারিয়েন্স ম্যাট্রিক্স

সার্জারির সহভেদাংক ম্যাট্রিক্স ডেটা সায়েন্স এবং মেশিন লার্নিংয়ের অন্যতম গুরুত্বপূর্ণ ম্যাট্রিক। এটি বৈশিষ্ট্যগুলির মধ্যে সহ-আন্দোলন (পারস্পরিক সম্পর্ক) সম্পর্কিত তথ্য সরবরাহ করে। মনে করুন আমাদের সাথে ম্যাট্রিক্সের একটি বৈশিষ্ট্য রয়েছে 4 বৈশিষ্ট্য এবং হিসাবে দেখানো হয়েছে পর্যবেক্ষণ ছক 2:

ছক 2। 4 ভেরিয়েবল এবং এন পর্যবেক্ষণ সহ ম্যাট্রিক্স বৈশিষ্ট্যযুক্ত।

বৈশিষ্ট্যগুলির মধ্যে পারস্পরিক সম্পর্কের চিত্রটি দেখতে, আমরা একটি বিচ্ছুরক জোড়া তৈরি করতে পারি:

কলস = ডেটা কলামগুলি [1: 5] মুদ্রণ (কলস) আউটপুট = সূচক (['এএপিএল', 'টিএসএলএ', 'জিগুএল', 'এএমজেডএন], dtype =' অবজেক্ট ') sns.pairplot (ডেটা [কলস]] , উচ্চতা = 3.0) 

চিত্র 2। নির্বাচিত টেক স্টকগুলির জন্য স্ক্যাটার পেয়ারপ্ল্লট।

বৈশিষ্ট্যগুলির (পার্টিক্যাললাইনারিটি) মধ্যে পারস্পরিক সম্পর্কের মাত্রার পরিমাণ জানাতে, আমরা এই সমীকরণটি ব্যবহার করে কোভারিয়েন্স ম্যাট্রিক্স গণনা করতে পারি:

যথাক্রমে কোথায় এবং বৈশিষ্ট্যের গড় এবং মানক বিচ্যুতি। এই সমীকরণটি নির্দেশ করে যে যখন বৈশিষ্ট্যগুলি মানক করা হয়, তখন কোভেরিয়েন্স ম্যাট্রিক্সটি কেবল the বিন্দু পণ্য বৈশিষ্ট্যগুলির মধ্যে।

ম্যাট্রিক্স আকারে, কোভেরিয়েন্স ম্যাট্রিক্স 4 x 4 রিয়েল এবং প্রতিসম ম্যাট্রিক্স হিসাবে প্রকাশ করা যেতে পারে:

এই ম্যাট্রিক্সটি সম্পাদনা করে তির্যক করা যেতে পারে একক রূপান্তর, নিম্নলিখিতগুলি পাওয়ার জন্য অধ্যক্ষ উপাদান উপাদান বিশ্লেষণ (পিসিএ) রূপান্তর হিসাবেও উল্লেখ করা হয়েছে:

যেহেতু একটি ম্যাট্রিক্স এর ট্রেস একক রূপান্তরকরণের অধীনে অবিচ্ছিন্ন হয়ে পড়েছে, আমরা লক্ষ্য করেছি যে তির্যক ম্যাট্রিক্সের ইজেনভ্যালুগুলির যোগফল বৈশিষ্ট্য এক্স-এ থাকা মোট বৈকল্পিকের সমান is1, এক্স2, এক্স3, এবং এক্স4.

২.১ প্রযুক্তি স্টকের জন্য কোভারিয়েন্স ম্যাট্রিক্সের গণনা করা হচ্ছে

sklearn.pre প্রসেসিং আমদানি থেকে স্ট্যান্ডার্ডস্কেলার stdsc = স্ট্যান্ডার্ডস্কেলার () X_std = stdsc.fit_transfor (ডেটা [কলস] .iloc [:, পরিসর (0,4)]। মান) cov_mat = np.cov (X_std.T, পক্ষপাতিত্ব = সত্য) 

নোট করুন যে এটি ব্যবহার করে স্থানান্তর মানকৃত ম্যাট্রিক্সের।

২.২ কোভেরিয়েন্স ম্যাট্রিক্সের ভিজ্যুয়ালাইজেশন

plt.figure (figsize = (8,8)) sns.set (font_scale = 1.2) hm = sns.heatmap (cov_mat, cbar = true, annot = true, वर्ग = সত্য, fmt = '। 2f', annot_kws = { 'আকার': 12}, ইয়টিক্লেবেলস = কোলস, xticklabels = কলস) plt.title ('কোভরিয়েন্স ম্যাট্রিক্স পারস্পরিক সম্পর্কের সহগ দেখায়') plt.tight_layout () plt.show () 

চিত্র 3। নির্বাচিত টেক স্টকের জন্য কোভারিয়েন্স ম্যাট্রিক্স প্লট।

চিত্র 3 থেকে আমরা পর্যবেক্ষণ করেছি যে এএপিএল Gਗজল এবং এএমজেডএন এবং টিএসএলএর সাথে দুর্বলভাবে দৃlates়ভাবে সম্পর্কিত। টিএসএলএ সাধারণত এএপিএল, গুগল এবং এএমজেডএন এর সাথে দুর্বলভাবে সম্পর্কযুক্ত, যখন এএপিএল, গুগল এবং এএমজেডএন একে অপরের মধ্যে দৃ strongly়রূপে সম্পর্কযুক্ত।

২.৩ কোভেরিয়েন্স ম্যাট্রিক্সের গণনা ইগেনভ্যালুগুলি

np.linalg.eigvals (cov_mat) আউটপুট = অ্যারে ([3.41582227, 0.4527295, 0.02045092, 0.11099732]) এনপি.সুম (এনপি.লিনাল.ইগওয়ালস (কোভ_ম্যাট)) আউটপুট = 4.000000000000006_4.000000000000001_XNUMX 

আমরা লক্ষ্য করেছি যে সমবায় ম্যাট্রিক্সের সন্ধানটি প্রত্যাশার মতো ইগেনভ্যালুজের যোগফলের সমান।

২.৪ সংখ্যার বৈকল্পিক গণনা করুন

যেহেতু ম্যাট্রিক্সের সন্ধানটি একক রূপান্তরকরণের অধীনে অবিচ্ছিন্ন থাকে, তাই আমরা লক্ষ্য করেছি যে তির্যক ম্যাট্রিক্সের ইগেনুয়ালুজের যোগফলগুলি বৈশিষ্ট্য এক্স-এর মধ্যে থাকা মোট বৈকল্পিকের সমান is1, এক্স2, এক্স3, এবং এক্স4। সুতরাং, আমরা নিম্নলিখিত পরিমাণগুলি সংজ্ঞায়িত করতে পারি:

 

লক্ষ্য করুন যে কখন p = 4, সংক্ষিপ্ত রূপটি প্রত্যাশার সাথে 1 এর সমান হয়।

eigen = np.linalg.eigvals (cov_mat) cum_var = eigen / np.sum (eigen) মুদ্রণ (কাম_ভার) আউটপুট = [0.85395557 0.11318237 0.00511273 0.02774933] মুদ্রণ (এনপি.সুম (কাম_ভার)) আউটপুট = 1.0 

 আমরা ক্রমবর্ধমান বৈকল্পিকতা থেকে পর্যবেক্ষণ করি (কাম_ভর) যে 85% বৈকল্পিকতা প্রথম ইগন্যালুতে এবং দ্বিতীয়টিতে 11% রয়েছে। এর অর্থ যখন পিসিএ বাস্তবায়িত হয়, কেবলমাত্র প্রথম দুটি মূল উপাদান ব্যবহার করা যেতে পারে, কারণ মোট ভেরিয়েন্সের 97% এই 2 উপাদান দ্বারা অবদান রয়েছে। এটি পিসিএ বাস্তবায়িত হওয়ার সাথে সাথে বৈশিষ্ট্যের স্থানের মাত্রিকভাবে 4 থেকে 2 থেকে হ্রাস করতে পারে।

৩. লিনিয়ার রিগ্রেশন ম্যাট্রিক্স

মনে করুন আমাদের কাছে একটি ডেটাসেট রয়েছে যার মধ্যে 4 প্রেডিক্টর বৈশিষ্ট্য রয়েছে এবং n নিচের মত পর্যবেক্ষণ।

ছক 3। 4 ভেরিয়েবল এবং এন পর্যবেক্ষণ সহ ম্যাট্রিক্স বৈশিষ্ট্যযুক্ত। 5 কলামটি লক্ষ্য পরিবর্তনশীল (y)।

আমরা ভবিষ্যদ্বাণী করার জন্য একটি মাল্টি-রিগ্রেশন মডেল তৈরি করতে চাই y মান (কলাম 5) আমাদের মডেল এভাবে ফর্মে প্রকাশ করা যেতে পারে

ম্যাট্রিক্স আকারে, এই সমীকরণটি হিসাবে লেখা যেতে পারে

কোথায় X (এনএক্স 4) বৈশিষ্ট্য ম্যাট্রিক্স, w (4 x 1) ম্যাট্রিক্স নির্ধারণ করার জন্য রিগ্রেশন সহগকে উপস্থাপন করে এবং y টার্গেট ভেরিয়েবল y এর n পর্যবেক্ষণ সমন্বিত (এনএক্স 1) ম্যাট্রিক্স।

মনে রাখবেন যে X একটি আয়তক্ষেত্রাকার ম্যাট্রিক্স, সুতরাং আমরা বিপরীতটি গ্রহণ করে উপরের সমীকরণটি সমাধান করতে পারি না X.

পরিবর্তন করতে X একটি বর্গক্ষেত্রের ম্যাট্রিক্সে, আমরা আমাদের সমীকরণের বাম-হাত এবং ডানদিকে একাধিক করে স্থানান্তর of X, এটাই

এই সমীকরণ হিসাবে হিসাবে প্রকাশ করা যেতে পারে

কোথায়

(4 × 4) রিগ্রেশন ম্যাট্রিক্স। স্পষ্টতই, আমরা এটি পর্যবেক্ষণ করি R একটি বাস্তব এবং প্রতিসম ম্যাট্রিক্স। লক্ষ করুন যে লিনিয়ার বীজগণিতের ক্ষেত্রে দুটি ম্যাট্রিকের পণ্য স্থানান্তর নিম্নলিখিত সম্পর্কের মান্য করে

এখন যেহেতু আমরা আমাদের আবেগের সমস্যা হ্রাস করেছি এবং এটিকে বাস্তব (4 × 4) বাস্তব, প্রতিসাম্য এবং বিপরীতমুখী রিগ্রেশন ম্যাট্রিক্সের ক্ষেত্রে প্রকাশ করেছি Rএটি রিগ্রেশন সমীকরণের সঠিক সমাধানটি দেখাতে সহজবোধ্য

ধারাবাহিক এবং পৃথক পৃথক ভেরিয়েবলের পূর্বাভাস দেওয়ার জন্য রিগ্রেশন বিশ্লেষণের উদাহরণগুলি নীচে দেওয়া হয়েছে:

নিখুঁত প্রাথমিকদের জন্য লিনিয়ার রিগ্রেশন বুনিয়াদি

স্বল্প স্কোয়ার পদ্ধতি ব্যবহার করে পার্সেপেট্রন শ্রেণিবদ্ধকারী তৈরি করা

৪. লিনিয়ার বৈষম্যমূলক বিশ্লেষণ ম্যাট্রিক্স

তথ্য বিজ্ঞানের একটি বাস্তব এবং প্রতিসম ম্যাট্রিক্সের আরও একটি উদাহরণ লিনিয়ার ডিসক্রিমিনেন্ট অ্যানালাইসিস (এলডিএ) ম্যাট্রিক্স। এই ম্যাট্রিক্সটি ফর্মটিতে প্রকাশ করা যেতে পারে:

কোথায় SW বৈশিষ্ট্য স্ক্যাটার ম্যাট্রিক্স এবং Sবৈশিষ্ট্য স্ক্যাটার ম্যাট্রিক্স মধ্যে। যেহেতু উভয় ম্যাট্রিক SW এবং SB বাস্তব এবং প্রতিসম হয়, এটি অনুসরণ করে L বাস্তব এবং প্রতিসম হয়। এর তির্যক L শ্রেণীর পৃথকীকরণকে অনুকূলিত করে এবং মাত্রিকতা হ্রাস করে এমন একটি বৈশিষ্ট্য উপ-স্থান তৈরি করে। অতএব এলডিএ হ'ল তত্ত্বাবধানে থাকা অ্যালগরিদম, যখন পিসিএ হয় না।

এলডিএ বাস্তবায়ন সম্পর্কে আরও তথ্যের জন্য, দয়া করে নীচের উল্লেখগুলি দেখুন:

মেশিন লার্নিং: লিনিয়ার বৈষম্য বিশ্লেষণের মাধ্যমে মাত্রা হ্রাস

আইরিস ডেটাसेट ব্যবহার করে এলডিএ বাস্তবায়নের জন্য গিটহাব সংগ্রহস্থল

পাইথন মেশিন লার্নিং সেবাস্তিয়ান রাশকা, তৃতীয় সংস্করণ (অধ্যায় 3)

সারাংশ

সংক্ষেপে, আমরা ডেটা সায়েন্স এবং মেশিন লার্নিংয়ের ক্ষেত্রে লিনিয়ার বীজগণিতের কয়েকটি অ্যাপ্লিকেশন আলোচনা করেছি। টেক স্টক ডেটাসেট ব্যবহার করে আমরা ম্যাট্রিক্সের আকার, কলাম ম্যাট্রিক্স, স্কোয়ার ম্যাট্রিক্স, কোভারিয়েন্স ম্যাট্রিক্স, ম্যাট্রিক্সের ট্রান্সপোজ, ইজেনভ্যালু, ডট পণ্য ইত্যাদির মতো গুরুত্বপূর্ণ ধারণাগুলি চিত্রিত করেছি। লিনিয়ার বীজগণিত তথ্য বিজ্ঞান এবং মেশিনে একটি প্রয়োজনীয় সরঞ্জাম শেখা। সুতরাং, ডেটা বিজ্ঞানের প্রতি আগ্রহী নতুনদের অবশ্যই লিনিয়ার বীজগণিতের প্রয়োজনীয় ধারণাগুলির সাথে নিজেকে পরিচিত করতে হবে।

সম্পর্কিত:

সূত্র: https://www.kdnuggets.com/2021/05/essential-linear-algebra-data-science-machine-learning.html

সময় স্ট্যাম্প:

থেকে আরো কেডনুগেটস

অ্যামাজন ওয়েব সার্ভিসেস ওয়েবিনার: স্বাস্থ্যসেবা তথ্যের সাথে ক্লিনিকাল ট্রায়াল এবং বায়োমেডিক্যাল ডেভেলপমেন্ট প্রসেসকে ত্বরান্বিত করা

উত্স নোড: 1864939
সময় স্ট্যাম্প: আগস্ট 18, 2021