أشجار القرار المتفرقة المثلى والمعممة والقابلة للتطوير (GOSDT)

أعاد نشره أفلاطون

المتابعون: 0

أشجار القرار المتفرقة المعممة والقابلة للتطوير الأمثل (GOSDT)
الصورة عن طريق فابريكاسيمف على Freepik

غالبًا ما أتحدث عن أساليب الذكاء الاصطناعي القابلة للتفسير وكيف يمكن تكييفها لمعالجة بعض نقاط الضعف التي تمنع الشركات من بناء ونشر حلول الذكاء الاصطناعي. يمكنك التحقق من مدونة إذا كنت بحاجة إلى تجديد معلومات سريع حول طرق XAI.

إحدى طرق XAI هي أشجار القرار. لقد اكتسبوا زخمًا كبيرًا تاريخيًا بسبب قابليتهم للتفسير وبساطتهم. ومع ذلك ، يعتقد الكثيرون أن أشجار القرار لا يمكن أن تكون دقيقة لأنها تبدو بسيطة ، ولا تعمل الخوارزميات الجشعة مثل C4.5 و CART على تحسينها جيدًا.

المطالبة صالحة جزئيًا لأن بعض أشكال أشجار القرار ، مثل C4.5 و CART ، لها العيوب التالية:

عرضة للإفراط في التجهيز ، خاصةً عندما تصبح الشجرة عميقة جدًا مع وجود عدد كبير جدًا من الفروع. يمكن أن يؤدي هذا إلى ضعف أداء البيانات الجديدة غير المرئية.
يمكن أن يكون التقييم والتنبؤ بمجموعات البيانات الكبيرة أبطأ لأنها تتطلب اتخاذ قرارات متعددة بناءً على قيم ميزات الإدخال.
قد يكون من الصعب عليهم التعامل مع المتغيرات المستمرة لأنها تتطلب من الشجرة تقسيم المتغير إلى فواصل زمنية متعددة وأصغر ، مما قد يزيد من تعقيد الشجرة ويجعل من الصعب تحديد الأنماط ذات المعنى في البيانات.
غالبًا ما تُعرف باسم الخوارزمية "الجشعة" ، فهي تتخذ القرار الأمثل محليًا في كل خطوة دون النظر في عواقب تلك القرارات على الخطوات المستقبلية. تعتبر الأشجار دون المثالية ناتج CART ، ولكن لا يوجد مقياس "حقيقي" لقياسه.

تتوفر خوارزميات أكثر تعقيدًا ، مثل أساليب التعلم الجماعي ، لمعالجة هذه المشكلات. ولكن غالبًا ما يمكن اعتباره "صندوقًا أسود" بسبب عمل الخوارزميات التي تحتها خط.

ومع ذلك ، فقد أظهر العمل الأخير أنه إذا قمت بتحسين أشجار القرار (بدلاً من استخدام الأساليب الجشعة مثل C4.5 و CART) ، فيمكن أن تكون دقيقة بشكل مدهش ، في كثير من الحالات ، مثل دقة الصندوق الأسود. إحدى هذه الخوارزميات التي يمكن أن تساعد في تحسين ومعالجة بعض العيوب المذكورة أعلاه هي GOSDT. GOSDT عبارة عن خوارزمية لإنتاج أشجار قرار مثلى متفرقة.

تهدف المدونة إلى إعطاء مقدمة لطيفة لـ GOSDT وتقديم مثال على كيفية تنفيذها على مجموعة بيانات.

تستند هذه المدونة إلى ورقة بحثية نشرها عدد قليل من الأشخاص الرائعين. يمكنك قراءة الجريدة هنا. هذه المدونة ليست بديلاً عن هذه الورقة ، ولن تتطرق إلى التفاصيل الرياضية للغاية. هذا دليل لممارسي علوم البيانات للتعرف على هذه الخوارزمية والاستفادة منها في حالات الاستخدام اليومي.

باختصار ، تعالج GOSDT بعض القضايا الرئيسية:

تعامل مع مجموعات البيانات غير المتوازنة جيدًا وحسِّن الوظائف الموضوعية المختلفة (وليس الدقة فقط).
يحسن الأشجار تمامًا ولا يبنيها بجشع.
إنها تقريبًا بنفس سرعة الخوارزميات الجشعة لأنها تحل مشكلات تحسين NP-hard لأشجار القرار.

تستخدم أشجار GOSDT مساحة بحث ديناميكية من خلال أشجار التجزئة لتحسين كفاءة النموذج. من خلال تحديد مساحة البحث واستخدام الحدود لتحديد المتغيرات المماثلة ، يمكن لأشجار GOSDT تقليل عدد العمليات الحسابية اللازمة للعثور على الانقسام الأمثل. يمكن أن يؤدي ذلك إلى تحسين وقت الحساب بشكل كبير ، خاصة عند العمل مع المتغيرات المستمرة.
في أشجار GOSDT ، يتم تطبيق حدود التقسيم على الأشجار الجزئية ، ويتم استخدامها لإزالة العديد من الأشجار من مساحة البحث. يسمح هذا للنموذج بالتركيز على إحدى الأشجار المتبقية (والتي يمكن أن تكون شجرة جزئية) وتقييمها بشكل أكثر كفاءة. من خلال تقليل مساحة البحث ، يمكن لأشجار GOSDT العثور بسرعة على الانقسام الأمثل وإنشاء نموذج أكثر دقة وقابلية للتفسير.
تم تصميم أشجار GOSDT للتعامل مع البيانات غير المتوازنة ، وهو تحد شائع في العديد من تطبيقات العالم الحقيقي. تعالج أشجار GOSDT البيانات غير المتوازنة باستخدام مقياس الدقة الموزون الذي يأخذ في الاعتبار الأهمية النسبية للفئات المختلفة في مجموعة البيانات. يمكن أن يكون هذا مفيدًا بشكل خاص عندما يكون هناك عتبة محددة مسبقًا لمستوى الدقة المطلوب ، لأنه يسمح للنموذج بالتركيز على التصنيف الصحيح للعينات الأكثر أهمية للتطبيق.

تعمل هذه الأشجار بشكل مباشر على تحسين المفاضلة بين دقة التدريب وعدد الأوراق.
ينتج تدريبًا ممتازًا ودقة اختبار مع عدد معقول من الأوراق
مثالي لمشاكل غير محدبة للغاية
الأكثر فعالية لعدد صغير أو متوسط من الميزات. ولكن يمكنه التعامل مع ما يصل إلى عشرات الآلاف من الملاحظات مع الحفاظ على سرعته ودقته.

حان الوقت لرؤيتها في العمل !! في مدونتي السابقة ، قمت بحل مشكلة الموافقة على طلب القرض باستخدام تصنيف Keras. سوف نستخدم نفس مجموعة البيانات لبناء شجرة تصنيف باستخدام GOSDT.

كود المؤلف

سوبريت كور هو AVP في Morgan Stanley. إنها متحمسة للياقة البدنية والتكنولوجيا. هي مؤسس مجتمع يسمى DataBuzz.