قابلية شرح البيانات: النظير إلى نموذج التفسير - توافر البيانات

قابلية شرح البيانات: النظير إلى نموذج التفسير - توافر البيانات

عقدة المصدر: 2658143

اليوم ، الذكاء الاصطناعي والتعلم الآلي موجودان في كل مكان. 

سواء كان الجميع يلعبون بها شات جي بي تي (الأسرع اعتمد التطبيق في التاريخ) أو اقتراح حديث للإضافة اللون الرابع لإشارات المرور لجعل الانتقال إلى السيارات ذاتية القيادة أكثر أمانًا ، أشبع الذكاء الاصطناعي حياتنا تمامًا. في حين أن الذكاء الاصطناعي قد يبدو أكثر سهولة من أي وقت مضى ، فقد زاد تعقيد نماذج الذكاء الاصطناعي بشكل كبير. 

تندرج نماذج الذكاء الاصطناعي ضمن الفئات الرئيسية لنماذج الصندوق الأسود والصندوق الأبيض. تصل نماذج الصندوق الأسود إلى قرار بدون تفسير ، بينما تقدم نماذج الصندوق الأبيض نتيجة بناءً على القواعد التي أدت إلى تلك النتيجة. 

مع استمرارنا في التحرك نحو عالم من أساليب التعلم العميق الكاملة ، ينجذب معظمهم إلى حد كبير نحو نماذج الصندوق الأسود. 

القضية مع هذا النهج؟ لا يمكن استهلاك نماذج الصندوق الأسود (مثل تلك المضمنة في رؤية الكمبيوتر) بشكل مباشر. غالبًا ما يشار إلى هذا بمشكلة الصندوق الأسود. في حين أن إعادة تدريب نماذج الصندوق الأسود يمكن أن تمنح المستخدمين دفعة قوية ، فإن تفسير النموذج وفهم نتائج نموذج الصندوق الأسود يصبح أكثر صعوبة مع زيادة تعقيد النماذج.

أحد الأساليب لمعالجة معضلة الصندوق الأسود هو صياغة نموذج مخصص للغاية وقابل للتفسير. 

لكن هذا ليس الاتجاه الذي يتحرك فيه العالم. 

عند انتهاء إمكانية شرح النموذج ، تبدأ إمكانية شرح البيانات

تعد قابلية التفسير أمرًا بالغ الأهمية لأنها تعمل على تحسين شفافية النموذج ودقته ونزاهته ويمكنها أيضًا تحسين الثقة في الذكاء الاصطناعي. في حين أن قابلية شرح النموذج هي نهج تقليدي ، إلا أن هناك حاجة الآن لنوع جديد: إمكانية شرح البيانات.

قابلية شرح النموذج تعني فهم الخوارزمية ، من أجل فهم النتيجة النهائية. على سبيل المثال ، إذا كان النموذج المستخدم في وحدة الأورام مصممًا لاختبار ما إذا كان النمو سرطانيًا ، فيجب على مقدم الرعاية الصحية فهم المتغيرات التي تؤدي إلى النتائج النهائية. في حين أن هذا يبدو رائعًا من الناحية النظرية ، فإن قابلية شرح النموذج لا تعالج مشكلة الصندوق الأسود تمامًا. 

نظرًا لأن النماذج أصبحت أكثر تعقيدًا من أي وقت مضى ، فلن يتمكن معظم الممارسين من تحديد التحولات وتفسير الحسابات في الطبقات الداخلية للنموذج. يعتمدون إلى حد كبير على ما يمكنهم التحكم فيه ، أي مجموعات بيانات التدريب وما يلاحظونه ، والنتائج ، ومقاييس التنبؤ.  

دعنا نستخدم مثال عالم البيانات الذي قام ببناء نموذج لاكتشاف صور أكواب القهوة من آلاف الصور - لكن النموذج يبدأ أيضًا في اكتشاف صور أكواب الشرب وأكواب البيرة ، على سبيل المثال. في حين قد يكون للأكواب الزجاجية والبيرة بعض التشابه مع أكواب القهوة ، إلا أن هناك اختلافات واضحة ، مثل المواد النموذجية ، واللون ، والتعتيم ، والنسب الهيكلية.

لكي يكتشف النموذج أكواب القهوة بموثوقية أعلى ، يجب أن يكون لدى عالم البيانات إجابات لأسئلة مثل:

  • ما هي الصور التي التقطها النموذج بدلاً من أكواب القهوة؟ 
  • هل فشل النموذج لأنني لم أقم بتزويده بما يكفي أو الأمثلة الصحيحة من أكواب القهوة؟
  • هل هذا النموذج جيد بما يكفي لما كنت أحاول تحقيقه؟
  • هل أحتاج إلى تحدي وجهة نظري للنموذج؟
  • ما الذي يمكنني تحديده بشكل قاطع وهو يتسبب في فشل النموذج؟ 
  • هل يجب علي إنشاء افتراضات جديدة للنموذج؟
  • هل اخترت النموذج الخاطئ للوظيفة لتبدأ به؟

كما ترى ، فإن تقديم هذا النوع من البصيرة والفهم وإمكانية شرح النموذج في كل مرة تحدث فيها مشكلة أمر مستبعد للغاية.

تفسير البيانات هو فهم البيانات تستخدم للتدريب والمدخلات في نموذج ، من أجل فهم كيفية الوصول إلى النتيجة النهائية للنموذج. نظرًا لأن خوارزميات ML أصبحت أكثر تعقيدًا من أي وقت مضى ولكنها مستخدمة على نطاق واسع عبر المهن والصناعات ، فإن إمكانية شرح البيانات ستكون بمثابة مفتاح لإلغاء قفل المشكلات الشائعة وحلها بسرعة ، مثل مثال فنجان القهوة.

زيادة الإنصاف والشفافية في تعلم الآلة مع إمكانية شرح البيانات

يعد الإنصاف داخل نماذج ML موضوعًا ساخنًا ، ويمكن جعله أكثر سخونة من خلال تطبيق إمكانية شرح البيانات.

لماذا الطنانة؟ يمكن أن يؤدي التحيز في الذكاء الاصطناعي إلى نتائج متحيزة لمجموعة واحدة. واحدة من أكثر الحالات الموثقة جيدًا هي التحيز في حالات الاستخدام العنصري. لنلقي نظرة على مثال. 

لنفترض أن منصة استهلاكية كبيرة ومعروفة توظف لمنصب مدير تسويق جديد. للتعامل مع حجم السير الذاتية التي يتم تلقيها يوميًا ، ينشر قسم الموارد البشرية نموذج AI / ML لتبسيط عملية التقديم والتوظيف عن طريق اختيار الخصائص الرئيسية أو المتقدمين المؤهلين. 

لأداء هذه المهمة ، وتمييز كل سيرة ذاتية وتجميعها ، سيفعل النموذج ذلك من خلال فهم الخصائص الرئيسية المهيمنة. لسوء الحظ ، هذا أيضا يعني أن النموذج يمكن أن يلتقط ضمنيًا التحيزات العرقية العامة في المرشحين أيضًا. كيف سيحدث هذا بالضبط؟ إذا تضمنت مجموعة المتقدمين نسبة مئوية أصغر من سباق واحد ، فسيعتقد الجهاز أن المنظمة تفضل أعضاء من جنس مختلف ، أو من مجموعة البيانات المهيمنة.

إذا فشل أحد النماذج ، حتى لو كان غير مقصود ، فيجب على الشركة معالجة الفشل. بشكل أساسي ، يجب أن يكون كل من نشر النموذج قادرًا على الدفاع عن استخدام النموذج.

في قضية التوظيف والتحيز العنصري ، يجب أن يكون المدافع قادرًا على أن يشرح للجمهور الغاضب و / أو مجموعة التطبيقات استخدام مجموعات البيانات لتدريب النموذج ، والنتائج الأولية الناجحة للنموذج بناءً على هذا التدريب ، وفشل النموذج لالتقاط حالة ركنية ، وكيف أدى ذلك إلى خلل غير مقصود في البيانات أدى في النهاية إلى عملية تصفية متحيزة عنصريًا.

بالنسبة لمعظم الناس ، فإن هذا النوع من التفاصيل الدقيقة في الذكاء الاصطناعي ، ومجموعات البيانات غير المتوازنة ، والتدريب النموذجي ، والفشل النهائي من خلال مراقبة البيانات لن يتم تلقيه جيدًا أو حتى فهمه. ولكن ما الذي سيتم فهمه والبقاء عليه من هذه القصة؟ تمارس شركة XYZ التحيز العنصري في التوظيف. 

إن المغزى من هذا المثال الشائع هو أن الأخطاء غير المقصودة من نموذج ذكي للغاية تحدث ويمكن أن تؤثر سلبًا على البشر وتكون لها عواقب وخيمة. 

حيث يأخذنا شرح البيانات

بدلاً من ترجمة النتائج عبر فهم نموذج التعلم الآلي المعقد ، تستخدم إمكانية تفسير البيانات البيانات لشرح التنبؤات والفشل.

إذن ، تكون قابلية تفسير البيانات مزيجًا من رؤية بيانات الاختبار و  فهم ما سوف يلتقطه النموذج من تلك البيانات. يتضمن ذلك فهم عينات البيانات الممثلة تمثيلا ناقصًا ، والعينات الممثلة بشكل زائد (كما في مثال التوظيف) ، وشفافية اكتشاف النموذج من أجل فهم التنبؤات وأخطاء التنبؤ بدقة.

لن يؤدي فهم إمكانية تفسير البيانات إلى تحسين دقة النماذج وعدالتها فحسب، بل سيكون أيضًا ما يساعد النماذج على تسريع وتيرة عملها.

مع استمرارنا في الاعتماد على برامج الذكاء الاصطناعي والتعلم الآلي المعقدة ودمجها في حياتنا اليومية ، يصبح حل مشكلة الصندوق الأسود أمرًا بالغ الأهمية ، لا سيما في حالات الفشل وسوء التوقع. 

في حين أن شرح النموذج سيكون له مكانه دائمًا ، فإنه يتطلب طبقة أخرى. نحن بحاجة إلى إمكانية شرح البيانات ، لأن فهم ما يراه النموذج والقراءة لن يتم تغطيته من خلال إمكانية شرح النموذج الكلاسيكي.

الطابع الزمني:

اكثر من البيانات