الجبر الخطي الأساسي لعلوم البيانات والتعلم الآلي

أعاد نشره أفلاطون

المتابعون: 0

صورة بنيامين O. Tayo.

الجبر الخطي هو فرع من فروع الرياضيات وهو مفيد للغاية في علوم البيانات والتعلم الآلي. الجبر الخطي هو أهم مهارة رياضية في التعلم الآلي. يمكن التعبير عن معظم نماذج التعلم الآلي في شكل مصفوفة. غالبًا ما يتم تمثيل مجموعة البيانات نفسها كمصفوفة. يستخدم الجبر الخطي في المعالجة المسبقة للبيانات، وتحويل البيانات، وتقييم النماذج. فيما يلي المواضيع التي تحتاج إلى معرفتها:

ناقلات
المصفوفات
قلب مصفوفة
معكوس المصفوفة
محدد مصفوفة
أثر مصفوفة
المنتج نقطة
القيم الذاتية
المتجهات الذاتية

في هذه المقالة، نوضح تطبيق الجبر الخطي في علم البيانات والتعلم الآلي باستخدام مجموعة بيانات أسهم التكنولوجيا، والتي يمكن العثور عليها هنا.

1. الجبر الخطي للمعالجة المسبقة للبيانات

نبدأ بتوضيح كيفية استخدام الجبر الخطي في المعالجة المسبقة للبيانات.

1.1 استيراد المكتبات اللازمة للجبر الخطي

استيراد numpy كـ np استيراد الباندا كـ pd استيراد pylab استيراد matplotlib.pyplot كـ plt استيراد seaborn كـ sns

1.2 قراءة مجموعة البيانات وعرض الميزات

البيانات = pd.read_csv("tech-stocks-04-2021.csv") data.head()

طاولات ومكاتب 1. أسعار الأسهم لأسعار الأسهم المختارة لأول 16 يومًا في أبريل 2021.

طباعة (data.shape) الإخراج = (11,5)

• البيانات تتيح لنا الوظيفة معرفة حجم مجموعة البيانات لدينا. في هذه الحالة، تحتوي مجموعة البيانات على 5 ميزات (التاريخ، وAAPL، وTSLA، وGOOGL، وAMZN)، ولكل ميزة 11 ملاحظة. التاريخ يشير إلى أيام التداول في أبريل 2021 (حتى 16 أبريل). AAPL وTSLA وGOOGL وAMZN هي أسعار إغلاق أسهم Apple وTesla وGoogle وAmazon على التوالي.

1.3 تصور البيانات

لأداء تصور البيانات، سوف نحتاج إلى تحديد مصفوفات الأعمدة للميزات التي سيتم تصورها:

x = data['date'] y = data['TSLA'] plt.plot(x,y) plt.xticks(np.array([0,4,9]), ['1 أبريل','8 أبريل ','15 أبريل']) plt.title('سعر سهم تسلا (بالدولار) لشهر أبريل 2021',size=14) plt.show()

الشكل 1. سعر سهم Tesla لأول 16 يومًا في أبريل 2021.

2. مصفوفة التغاير

• مصفوفة التغاير هي واحدة من أهم المصفوفات في علم البيانات والتعلم الآلي. يوفر معلومات حول الحركة المشتركة (الارتباط) بين الميزات. لنفترض أن لدينا مصفوفة ميزات مع 4 الميزات و n الملاحظات كما هو مبين في الجدول 2:

الجدول 2. مصفوفة الميزات مع 4 متغيرات وملاحظات n.

لتصور الارتباطات بين الميزات، يمكننا إنشاء مخطط ثنائي مبعثر:

cols=data.columns[1:5] print(cols) Output = Index(['AAPL', 'TSLA', 'GOOGL', 'AMZN'], dtype='object') sns.pairplot(data[cols] الارتفاع=3.0)

الشكل 2. مخطط زوجي مبعثر لأسهم التكنولوجيا المحددة.

لتحديد درجة الارتباط بين الميزات (الخطية المتعددة)، يمكننا حساب مصفوفة التغاير باستخدام هذه المعادلة:

حيث و هي المتوسط والانحراف المعياري للميزة، على التوالي. تشير هذه المعادلة إلى أنه عندما يتم توحيد الميزات، فإن مصفوفة التغاير هي ببساطة المنتج نقطة بين الميزات.

في شكل مصفوفة، يمكن التعبير عن مصفوفة التغاير كمصفوفة حقيقية ومتماثلة 4 × 4:

يمكن قطري هذه المصفوفة عن طريق إجراء التحول الوحدوي، ويشار إليه أيضًا باسم تحويل تحليل المكونات الرئيسية (PCA)، للحصول على ما يلي:

منذ أثر المصفوفة يظل ثابتًا في ظل التحول الوحدوي، نلاحظ أن مجموع القيم الذاتية للمصفوفة القطرية يساوي إجمالي التباين الموجود في الميزات X₁، العاشر₂، العاشر₃، وX₄.

2.1 حساب مصفوفة التغاير لأسهم التكنولوجيا

من sklearn.preprocessing import StandardScaler stdsc = StandardScaler() X_std = stdsc.fit_transform(data[cols].iloc[:,range(0,4)].values) cov_mat = np.cov(X_std.T, Bija= True)

لاحظ أن هذا يستخدم تبديل موضع من المصفوفة الموحدة.

2.2 تصور مصفوفة التغاير

plt.figure(figsize=(8,8)) sns.set(font_scale=1.2) hm = sns.heatmap(cov_mat, cbar=True, annot=True, Square=True, fmt='.2f', annot_kws={ 'الحجم': 12}, yticklabels=cols, xticklabels=cols) plt.title('مصفوفة التباين تظهر معاملات الارتباط') plt.tight_layout() plt.show()

الشكل 3. مؤامرة مصفوفة التغاير لأسهم التكنولوجيا المختارة.

نلاحظ من الشكل 3 أن AAPL يرتبط بقوة مع GOOGL وAMZN، ويرتبط بشكل ضعيف مع TSLA. يرتبط TSLA بشكل عام بشكل ضعيف مع AAPL وGOOGL وAMZN، بينما يرتبط AAPL وGOOGL وAMZN بقوة فيما بينها.

2.3 حساب القيم الذاتية لمصفوفة التغاير

np.linalg.eigvals(cov_mat) الإخراج = صفيف([3.41582227, 0.4527295, 0.02045092, 0.11099732]) np.sum(np.linalg.eigvals(cov_mat)) الإخراج = 4.000000000000006 np.trace(cov_) حصيرة) الناتج = 4.000000000000001

نلاحظ أن أثر مصفوفة التغاير يساوي مجموع القيم الذاتية كما هو متوقع.

2.4 حساب التباين التراكمي

نظرًا لأن أثر المصفوفة يظل ثابتًا في ظل التحول الوحدوي، فإننا نلاحظ أن مجموع القيم الذاتية للمصفوفة القطرية يساوي إجمالي التباين الموجود في الميزات X₁، العاشر₂، العاشر₃، وX₄. ومن ثم يمكننا تحديد الكميات التالية:

لاحظ ذلك متى p = 4، يصبح التباين التراكمي يساوي 1 كما هو متوقع.

eigen = np.linalg.eigvals(cov_mat) cum_var = eigen/np.sum(eigen) print(cum_var) الإخراج = [0.85395557 0.11318237 0.00511273 0.02774933] print(np.sum(cum_var)) الإخراج = 1.0

نلاحظ من التباين التراكمي (cum_var) أن 85% من التباين موجود في القيمة الذاتية الأولى و11% في الثانية. وهذا يعني أنه عند تنفيذ PCA، يمكن استخدام المكونين الرئيسيين الأولين فقط، حيث يساهم هذين المكونين بنسبة 97% من إجمالي التباين. يمكن أن يؤدي هذا بشكل أساسي إلى تقليل أبعاد مساحة الميزة من 2 إلى 4 عند تنفيذ PCA.

3. مصفوفة الانحدار الخطي

لنفترض أن لدينا مجموعة بيانات تحتوي على 4 ميزات تنبؤية و n الملاحظات، كما هو مبين أدناه.

الجدول 3. مصفوفة الميزات مع 4 متغيرات وملاحظات n. العمود 5 هو المتغير المستهدف (y).

نود أن نبني نموذج الانحدار المتعدد للتنبؤ y القيم (العمود 5). وبالتالي يمكن التعبير عن نموذجنا في النموذج

في شكل مصفوفة، يمكن كتابة هذه المعادلة على النحو التالي

أين X هي مصفوفة الميزات (nx 4)، w هي المصفوفة (4 × 1) التي تمثل معاملات الانحدار التي سيتم تحديدها، و y هي المصفوفة (nx 1) التي تحتوي على الملاحظات n للمتغير المستهدف y.

نلاحظ أن X هي مصفوفة مستطيلة، لذا لا يمكننا حل المعادلة أعلاه بأخذ معكوسها X.

لتحويل X في مصفوفة مربعة، نضرب الطرف الأيسر والأيمن من المعادلة في تبديل موضع of X، هذا هو

يمكن أيضًا التعبير عن هذه المعادلة كـ

أين

هي مصفوفة الانحدار (4 × 4). ومن الواضح أننا نلاحظ ذلك R هي مصفوفة حقيقية ومتماثلة. لاحظ أنه في الجبر الخطي، تبديل ناتج مصفوفتين يخضع للعلاقة التالية

الآن بعد أن قمنا بتقليل مشكلة الانحدار لدينا والتعبير عنها من خلال مصفوفة الانحدار الحقيقية والمتماثلة والعكسية (4×4) Rفمن السهل إظهار أن الحل الدقيق لمعادلة الانحدار هو إذن

فيما يلي أمثلة على تحليل الانحدار للتنبؤ بالمتغيرات المستمرة والمنفصلة:

أساسيات الانحدار الخطي للمبتدئين المطلقين

بناء مصنف بيرسبترون باستخدام طريقة المربعات الصغرى

4. مصفوفة تحليل التمييز الخطي

مثال آخر على المصفوفة الحقيقية والمتماثلة في علم البيانات هو مصفوفة التحليل التمييزي الخطي (LDA). يمكن التعبير عن هذه المصفوفة بالشكل:

أين S_W هي مصفوفة التشتت داخل الميزة، و S_Bهي مصفوفة التشتت بين الميزات. منذ كلا المصفوفات S_W و S_B حقيقية ومتماثلة، ويترتب على ذلك L هو أيضًا حقيقي ومتماثل. قطري L ينتج مساحة فرعية مميزة تعمل على تحسين إمكانية فصل الفئة وتقليل الأبعاد. وبالتالي فإن LDA هي خوارزمية خاضعة للإشراف، في حين أن PCA ليست كذلك.

لمزيد من التفاصيل حول تنفيذ LDA، يرجى الاطلاع على المراجع التالية:

التعلم الآلي: تقليل الأبعاد عبر التحليل التمييزي الخطي

مستودع GitHub لتنفيذ LDA باستخدام مجموعة بيانات Iris

تعلم آلة بايثون بقلم سيباستيان راشكا، الطبعة الثالثة (الفصل الخامس)

نبذة عامة

باختصار، لقد ناقشنا العديد من تطبيقات الجبر الخطي في علوم البيانات والتعلم الآلي. باستخدام مجموعة بيانات أسهم التكنولوجيا، قمنا بتوضيح مفاهيم مهمة مثل حجم المصفوفة، ومصفوفات الأعمدة، والمصفوفات المربعة، ومصفوفة التغاير، وتبديل المصفوفة، والقيم الذاتية، ومنتجات النقاط، وما إلى ذلك. يعد الجبر الخطي أداة أساسية في علم البيانات والآلات تعلُّم. وبالتالي، يجب على المبتدئين المهتمين بعلم البيانات التعرف على المفاهيم الأساسية في الجبر الخطي.

هذا الموضوع ذو علاقة بـ:

المصدر: https://www.kdnuggets.com/2021/05/essential-linear-algebra-data-science-machine-learning.html

الطابع الزمني: 10 مايو 2021