डेटा साइंस और मशीन लर्निंग के लिए आवश्यक रैखिक बीजगणित

स्रोत नोड: 1852280

बेंजामिन ओ। टायो द्वारा छवि।

रैखिक बीजगणित गणित की एक शाखा है जो डेटा विज्ञान और मशीन लर्निंग में बेहद उपयोगी है। मशीन लर्निंग में रैखिक बीजगणित सबसे महत्वपूर्ण गणित कौशल है। अधिकांश मशीन लर्निंग मॉडल को मैट्रिक्स रूप में व्यक्त किया जा सकता है। एक डेटासेट को अक्सर एक मैट्रिक्स के रूप में दर्शाया जाता है। रैखिक बीजगणित का उपयोग डेटा प्रीप्रोसेसिंग, डेटा परिवर्तन और मॉडल मूल्यांकन में किया जाता है। यहां वे विषय हैं जिनसे आपको परिचित होना आवश्यक है:

  • वैक्टर
  • Matrices
  • मैट्रिक्स का स्थानांतरण
  • मैट्रिक्स का उलटा
  • मैट्रिक्स का निर्धारक
  • एक मैट्रिक्स का निशान
  • डॉट उत्पाद
  • eigenvalues
  • आइगेनवेक्टर

इस लेख में, हम तकनीकी स्टॉक डेटासेट का उपयोग करके डेटा विज्ञान और मशीन लर्निंग में रैखिक बीजगणित के अनुप्रयोग का वर्णन करते हैं, जिसे पाया जा सकता है यहाँ उत्पन्न करें.

1. डेटा प्रीप्रोसेसिंग के लिए रैखिक बीजगणित

 हम यह समझाकर शुरू करते हैं कि डेटा प्रीप्रोसेसिंग में रैखिक बीजगणित का उपयोग कैसे किया जाता है।

1.1 रैखिक बीजगणित के लिए आवश्यक पुस्तकालय आयात करें

एनपी के रूप में सुन्न आयात करें, पीडी के रूप में पांडा आयात करें, पाइलैब आयात करें, पीएलटी के रूप में matplotlib.pyplot आयात करें, एसएनएस के रूप में सीबॉर्न आयात करें 

 

1.2 डेटासेट और प्रदर्शन सुविधाएँ पढ़ें

डेटा = pd.read_csv("tech-stocks-04-2021.csv") डेटा.हेड() 

 तालिका 1. अप्रैल 16 में पहले 2021 दिनों के लिए चयनित स्टॉक कीमतों के लिए स्टॉक कीमतें।

प्रिंट(डेटा.आकार) आउटपुट = (11,5) 

 RSI डेटा.आकार फ़ंक्शन हमें अपने डेटासेट का आकार जानने में सक्षम बनाता है। इस मामले में, डेटासेट में 5 विशेषताएं (दिनांक, AAPL, TSLA, GOOGL, और AMZN) हैं, और प्रत्येक सुविधा में 11 अवलोकन हैं। तारीख अप्रैल 2021 (16 अप्रैल तक) के व्यापारिक दिनों को संदर्भित करता है। AAPL, TSLA, GOOGL, और AMZN क्रमशः Apple, Tesla, Google और Amazon के लिए अंतिम स्टॉक मूल्य हैं।

1.3 डेटा विज़ुअलाइज़ेशन

डेटा विज़ुअलाइज़ेशन करने के लिए, हमें परिभाषित करने की आवश्यकता होगी स्तंभ मैट्रिक्स विज़ुअलाइज़ की जाने वाली सुविधाओं के लिए:

x = डेटा['दिनांक'] y = डेटा['TSLA'] plt.plot(x,y) plt.xticks(np.array([0,4,9]), ['अप्रैल 1','अप्रैल 8 ','अप्रैल 15']) plt.title('अप्रैल 2021 के लिए टेस्ला स्टॉक मूल्य (डॉलर में),आकार=14) plt.show() 

आकृति 1. अप्रैल 16 में पहले 2021 दिनों के लिए टेस्ला स्टॉक की कीमत।

2. सहप्रसरण मैट्रिक्स

RSI सहप्रसरण आव्यूह डेटा साइंस और मशीन लर्निंग में सबसे महत्वपूर्ण मैट्रिक्स में से एक है। यह सुविधाओं के बीच सह-संचलन (सहसंबंध) के बारे में जानकारी प्रदान करता है। मान लीजिए हमारे पास एक फीचर मैट्रिक्स है 4 विशेषताएं और अवलोकन जैसा कि इसमें दिखाया गया है टेबल 2:

टेबल 2. 4 चर और n अवलोकनों के साथ फीचर मैट्रिक्स।

सुविधाओं के बीच सहसंबंधों की कल्पना करने के लिए, हम एक स्कैटर पेयरप्लॉट उत्पन्न कर सकते हैं:

cols=data.columns[1:5] print(cols) आउटपुट = Index(['AAPL', 'TSLA', 'GOOGL', 'AMZN'], dtype='object') sns.pairplot(data[cols] , ऊँचाई=3.0) 

चित्रा 2. चयनित तकनीकी शेयरों के लिए स्कैटर पेयरप्लॉट।

विशेषताओं (बहुसंरेखता) के बीच सहसंबंध की डिग्री निर्धारित करने के लिए, हम इस समीकरण का उपयोग करके सहप्रसरण मैट्रिक्स की गणना कर सकते हैं:

सुविधा का माध्य और मानक विचलन क्रमशः कहाँ और हैं। यह समीकरण इंगित करता है कि जब सुविधाओं को मानकीकृत किया जाता है, तो सहप्रसरण मैट्रिक्स बस होता है डॉट उत्पाद सुविधाओं के बीच.

मैट्रिक्स रूप में, सहप्रसरण मैट्रिक्स को 4 x 4 वास्तविक और सममित मैट्रिक्स के रूप में व्यक्त किया जा सकता है:

इस मैट्रिक्स को प्रदर्शन करके विकर्ण किया जा सकता है एकात्मक परिवर्तन, जिसे निम्नलिखित प्राप्त करने के लिए प्रधान घटक विश्लेषण (पीसीए) परिवर्तन के रूप में भी जाना जाता है:

के बाद से एक मैट्रिक्स का निशान एकात्मक परिवर्तन के तहत अपरिवर्तनीय रहता है, हम देखते हैं कि विकर्ण मैट्रिक्स के eigenvalues ​​​​का योग सुविधाओं X में निहित कुल विचरण के बराबर है1, एक्स2, एक्स3, और एक्स4.

2.1 तकनीकी शेयरों के लिए सहप्रसरण मैट्रिक्स की गणना

sklearn.preprocessing आयात से मानक स्केलर stdsc = मानक स्केलर() 

ध्यान दें कि यह इसका उपयोग करता है खिसकाना मानकीकृत मैट्रिक्स का.

2.2 सहप्रसरण मैट्रिक्स का विज़ुअलाइज़ेशन

plt.figure(figsize=(8,8)) sns.set(font_scale=1.2) hm = sns.heatmap(cov_mat, cbar=True, annot=True, स्क्वायर=True, fmt='.2f', annot_kws={ 'आकार': 12}, yticklabels=cols, xticklabels=cols) plt.title('सहप्रसरण मैट्रिक्स सहसंबंध गुणांक दिखा रहा है') plt.tight_layout() plt.show() 

चित्रा 3. चयनित तकनीकी शेयरों के लिए सहप्रसरण मैट्रिक्स प्लॉट।

हम चित्र 3 से देखते हैं कि AAPL GOOGL और AMZN के साथ मजबूती से और TSLA के साथ कमजोर रूप से संबंध रखता है। TSLA आम तौर पर AAPL, GOOGL और AMZN के साथ कमजोर रूप से संबंध रखता है, जबकि AAPL, GOOGL और AMZN एक दूसरे के साथ मजबूती से संबंध रखते हैं।

2.3 सहप्रसरण मैट्रिक्स के eigenvalues ​​की गणना करें

np.linalg.eigvals(cov_mat) आउटपुट = ऐरे([3.41582227, 0.4527295, 0.02045092, 0.11099732]) np.sum(np.linalg.eigvals(cov_mat)) आउटपुट = 4.000000000000006 np.trace(cov_ मैट) आउटपुट = 4.000000000000001 

हम देखते हैं कि सहप्रसरण मैट्रिक्स का निशान अपेक्षित के रूप में eigenvalues ​​​​के योग के बराबर है।

2.4 संचयी विचरण की गणना करें

चूँकि एक मैट्रिक्स का ट्रेस एकात्मक परिवर्तन के तहत अपरिवर्तनीय रहता है, हम देखते हैं कि विकर्ण मैट्रिक्स के eigenvalues ​​​​का योग फीचर X में निहित कुल विचरण के बराबर है।1, एक्स2, एक्स3, और एक्स4. इसलिए, हम निम्नलिखित मात्राएँ परिभाषित कर सकते हैं:

 

ध्यान दें कि कब p = 4, संचयी विचरण अपेक्षा के अनुरूप 1 के बराबर हो जाता है।

eigen = np.linalg.eigvals(cov_mat)cum_var = eigen/np.sum(eigen) print(cum_var) आउटपुट = [0.85395557 0.11318237 0.00511273 0.02774933] प्रिंट(np.sum(cum_var)) आउटपुट = 1.0 

 हम संचयी विचरण से देखते हैं (सह_वर) कि 85% विचरण पहले आइगेनवैल्यू में और 11% दूसरे में निहित है। इसका मतलब यह है कि जब पीसीए लागू किया जाता है, तो केवल पहले दो प्रमुख घटकों का उपयोग किया जा सकता है, क्योंकि कुल भिन्नता का 97% इन 2 घटकों द्वारा योगदान दिया जाता है। पीसीए लागू होने पर यह अनिवार्य रूप से फीचर स्पेस के आयाम को 4 से घटाकर 2 कर सकता है।

3. रैखिक प्रतिगमन मैट्रिक्स

मान लीजिए कि हमारे पास एक डेटासेट है जिसमें 4 भविष्यवक्ता विशेषताएं हैं और n अवलोकन, जैसा कि नीचे दिखाया गया है।

टेबल 3. 4 चर और n अवलोकनों के साथ फीचर मैट्रिक्स। कॉलम 5 लक्ष्य चर (y) है।

हम भविष्यवाणी करने के लिए एक बहु-प्रतिगमन मॉडल बनाना चाहेंगे y मान (स्तंभ 5). हमारे मॉडल को इस प्रकार व्यक्त किया जा सकता है

मैट्रिक्स रूप में, इस समीकरण को इस प्रकार लिखा जा सकता है

जहां X (nx 4) फीचर मैट्रिक्स है, w (4 x 1) मैट्रिक्स निर्धारित किए जाने वाले प्रतिगमन गुणांक का प्रतिनिधित्व करता है, और y (nx 1) मैट्रिक्स है जिसमें लक्ष्य चर y के n अवलोकन शामिल हैं।

ध्यान दें कि X एक आयताकार मैट्रिक्स है, इसलिए हम इसका व्युत्क्रम लेकर उपरोक्त समीकरण को हल नहीं कर सकते X.

कन्वर्ट करने के लिए X एक वर्ग मैट्रिक्स में, हम अपने समीकरण के बाएँ पक्ष और दाएँ पक्ष को इससे गुणा करते हैं खिसकाना of X, अर्थात्

इस समीकरण को इस प्रकार भी व्यक्त किया जा सकता है

जहां

(4×4) प्रतिगमन मैट्रिक्स है। स्पष्ट रूप से, हम इसका अवलोकन करते हैं R एक वास्तविक और सममित मैट्रिक्स है. ध्यान दें कि रैखिक बीजगणित में, दो आव्यूहों के गुणनफल का स्थानान्तरण निम्नलिखित संबंध का पालन करता है

अब जब हमने अपनी प्रतिगमन समस्या को कम कर दिया है और इसे (4×4) वास्तविक, सममित और व्युत्क्रमणीय प्रतिगमन मैट्रिक्स के रूप में व्यक्त किया है R, यह दिखाना सीधा है कि प्रतिगमन समीकरण का सटीक समाधान क्या है

निरंतर और असतत चर की भविष्यवाणी के लिए प्रतिगमन विश्लेषण के उदाहरण निम्नलिखित में दिए गए हैं:

निरपेक्ष शुरुआती लोगों के लिए रैखिक प्रतिगमन मूल बातें

न्यूनतम वर्ग विधि का उपयोग करके एक परसेप्ट्रॉन क्लासिफायरियर का निर्माण

4. रैखिक विभेदक विश्लेषण मैट्रिक्स

डेटा विज्ञान में वास्तविक और सममित मैट्रिक्स का एक और उदाहरण रैखिक विभेदक विश्लेषण (एलडीए) मैट्रिक्स है। इस मैट्रिक्स को इस रूप में व्यक्त किया जा सकता है:

जहां SW भीतर-सुविधा स्कैटर मैट्रिक्स है, और Sबीच-फ़ीचर स्कैटर मैट्रिक्स है। चूंकि दोनों आव्यूह SW और SB वास्तविक और सममित हैं, यह इस प्रकार है L वास्तविक एवं सममित भी है। का विकर्णीकरण L एक फीचर सबस्पेस तैयार करता है जो वर्ग पृथक्करण को अनुकूलित करता है और आयामीता को कम करता है। इसलिए एलडीए एक पर्यवेक्षित एल्गोरिदम है, जबकि पीसीए नहीं है।

एलडीए के कार्यान्वयन के बारे में अधिक जानकारी के लिए कृपया निम्नलिखित संदर्भ देखें:

मशीन लर्निंग: रैखिक विभेदक विश्लेषण के माध्यम से आयाम में कमी

आइरिस डेटासेट का उपयोग करके एलडीए कार्यान्वयन के लिए GitHub रिपॉजिटरी

सेबस्टियन रश्का द्वारा पायथन मशीन लर्निंग, तीसरा संस्करण (अध्याय 3)

सारांश

संक्षेप में, हमने डेटा विज्ञान और मशीन लर्निंग में रैखिक बीजगणित के कई अनुप्रयोगों पर चर्चा की है। तकनीकी स्टॉक डेटासेट का उपयोग करते हुए, हमने महत्वपूर्ण अवधारणाओं जैसे मैट्रिक्स का आकार, कॉलम मैट्रिक्स, वर्ग मैट्रिक्स, सहप्रसरण मैट्रिक्स, मैट्रिक्स का स्थानान्तरण, आइगेनवैल्यू, डॉट उत्पाद इत्यादि को चित्रित किया। रैखिक बीजगणित डेटा विज्ञान और मशीन में एक आवश्यक उपकरण है सीखना। इस प्रकार, डेटा विज्ञान में रुचि रखने वाले शुरुआती लोगों को रैखिक बीजगणित में आवश्यक अवधारणाओं से परिचित होना चाहिए।

संबंधित:

स्रोत: https://www.kdnuggets.com/2021/05/essential-linear-algebra-data-science-machine-learning.html

समय टिकट:

से अधिक केडनगेट्स