طريقة أفضل لتقييم ماجستير إدارة الأعمال - KDnuggets

أعاد نشره أفلاطون

المتابعون: 0

أدت التطورات الحديثة في تطوير LLMs إلى تعميم استخدامها في مهام البرمجة اللغوية العصبية المتنوعة التي تم معالجتها سابقًا باستخدام أساليب التعلم الآلي القديمة. نماذج اللغة الكبيرة قادرة على حل مجموعة متنوعة من المشكلات اللغوية مثل التصنيف والتلخيص واسترجاع المعلومات وإنشاء المحتوى والإجابة على الأسئلة والحفاظ على المحادثة - كل ذلك باستخدام نموذج واحد فقط. ولكن كيف نعرف أنهم يقومون بعمل جيد في كل هذه المهام المختلفة؟

لقد أدى ظهور برامج الماجستير في القانون إلى تسليط الضوء على مشكلة لم يتم حلها بعد: ألا وهي أننا لا نملك معيارًا موثوقًا لتقييمها. وما يجعل التقييم أكثر صعوبة هو أنها تُستخدم لمهام شديدة التنوع، كما أننا نفتقر إلى تعريف واضح للإجابة الجيدة لكل حالة استخدام.

تتناول هذه المقالة الأساليب الحالية لتقييم LLM وتقدم لوحة صدارة جديدة لـ LLM تستفيد من التقييم البشري الذي يعمل على تحسين تقنيات التقييم الحالية.

الشكل الأولي والمعتاد للتقييم هو تشغيل النموذج على عدة مجموعات بيانات منسقة وفحص أدائه. قام HuggingFace بإنشاء ملف افتح لوحة المتصدرين LLM حيث يتم تقييم النماذج الكبيرة ذات الوصول المفتوح باستخدام أربع مجموعات بيانات معروفة (تحدي التفكير AI2 , هيلا سواج , MMLU , صادق). يتوافق هذا مع التقييم التلقائي ويتحقق من قدرة النموذج على الحصول على الحقائق لبعض الأسئلة المحددة.

هذا مثال على سؤال من MMLU مجموعة البيانات.

الموضوع: كلية_الطب

سؤال: من الآثار الجانبية المتوقعة لمكملات الكرياتين.

أ) ضعف العضلات
ب) زيادة في كتلة الجسم
ج) تشنجات العضلات
د) فقدان الشوارد

الجواب: (ب)

يعد تسجيل النموذج عند الإجابة على هذا النوع من الأسئلة مقياسًا مهمًا ويخدم بشكل جيد للتحقق من الحقائق ولكنه لا يختبر القدرة التوليدية للنموذج. ربما يكون هذا هو أكبر عيب في طريقة التقييم هذه لأن إنشاء نص حر يعد أحد أهم ميزات LLMs.

يبدو أن هناك إجماعًا داخل المجتمع على أنه لتقييم النموذج بشكل صحيح نحتاج إلى تقييم بشري. ويتم ذلك عادة عن طريق مقارنة الاستجابات من نماذج مختلفة.

طريقة أفضل لتقييم LLMs
مقارنة اثنين من الإكمال الفوري في مشروع LMSYS – لقطة شاشة للمؤلف

يقرر المعلقون أي استجابة هي الأفضل، كما هو موضح في المثال أعلاه، وأحيانًا يحددون الفرق في جودة الإكمالات الفورية. قامت منظمة LMSYS بإنشاء ملف المتصدرين الذي يستخدم هذا النوع من التقييم البشري ويقارن 17 نموذجًا مختلفًا، ويقدم تقريرًا عن تقييم Elo لكل نموذج.

نظرًا لصعوبة قياس التقييم البشري، فقد بُذلت جهود لتوسيع نطاق عملية التقييم وتسريعها، مما أدى إلى ظهور مشروع مثير للاهتمام يسمى AlpacaEval. هنا تتم مقارنة كل نموذج بخط الأساس (text-davinci-003 المقدم من GPT-4) ويتم استبدال التقييم البشري بحكم GPT-4. هذا بالفعل سريع وقابل للتطوير، لكن هل يمكننا الوثوق بالنموذج هنا لإجراء عملية التسجيل؟ نحن بحاجة إلى أن نكون على بينة من التحيزات النموذجية. لقد أظهر المشروع بالفعل أن GPT-4 قد يفضل الإجابات الأطول.

تستمر أساليب تقييم LLM في التطور حيث يبحث مجتمع الذكاء الاصطناعي عن أساليب سهلة وعادلة وقابلة للتطوير. أحدث التطورات تأتي من فريق Toloka مع الجديد المتصدرين لمواصلة تطوير معايير التقييم الحالية.

الجديد المتصدرين يقارن الاستجابات النموذجية بمطالبات المستخدم في العالم الحقيقي والتي يتم تصنيفها حسب مهام البرمجة اللغوية العصبية المفيدة كما هو موضح في هذه ورقة InstructGPT. كما يعرض أيضًا معدل الفوز الإجمالي لكل نموذج عبر جميع الفئات.

طريقة أفضل لتقييم LLMs
لوحة المتصدرين Toloka – لقطة شاشة للمؤلف

التقييم المستخدم لهذا المشروع مشابه للتقييم الذي تم إجراؤه في AlpacaEval. تمثل النتائج الموجودة على لوحة المتصدرين معدل الفوز للنموذج المعني مقارنةً بالنموذج جواناكو 13 ب النموذج، الذي يعمل هنا بمثابة مقارنة أساسية. يعد اختيار Guanaco 13B بمثابة تحسين لطريقة AlpacaEval، التي تستخدم نموذج text-davinci-003 الذي سيصبح قديمًا كخط أساس.

يتم إجراء التقييم الفعلي بواسطة شروحيين خبراء بشريين بناءً على مجموعة من المطالبات الواقعية. بالنسبة لكل مطالبة، يتم إعطاء المعلقين إكمالين ويتم سؤالهم عن أيهما يفضلون. يمكنك العثور على تفاصيل حول المنهجية هنا.

يعد هذا النوع من التقييم البشري أكثر فائدة من أي طريقة تقييم تلقائية أخرى ويجب أن يحسن التقييم البشري المستخدم للتقييم لوحة المتصدرين LMSYS. الجانب السلبي لطريقة LMSYS هو أن أي شخص لديه الصفحة يمكن أن يشاركوا في التقييم، مما يثير أسئلة جدية حول جودة البيانات المجمعة بهذه الطريقة. يتمتع حشد مغلق من المعلقين الخبراء بإمكانية أفضل للحصول على نتائج موثوقة، وتطبق Toloka تقنيات إضافية لمراقبة الجودة لضمان جودة البيانات.

في هذه المقالة، قدمنا حلاً جديدًا واعدًا لتقييم ماجستير إدارة الأعمال - لوحة المتصدرين في Toloka. هذا النهج مبتكر، ويجمع بين نقاط القوة في الأساليب الحالية، ويضيف تفاصيل خاصة بالمهمة، ويستخدم تقنيات التعليقات التوضيحية البشرية الموثوقة لمقارنة النماذج.

استكشف اللوحة وشارك آرائك واقتراحاتك للتحسينات معنا.

ماجدالينا كونكيفيتش هو مبشر البيانات في Toloka، وهي شركة عالمية تدعم تطوير الذكاء الاصطناعي السريع والقابل للتطوير. حصلت على درجة الماجستير في الذكاء الاصطناعي من جامعة إدنبرة وعملت كمهندسة البرمجة اللغوية العصبية ومطورة وعالمة بيانات للشركات في أوروبا وأمريكا. وقد شاركت أيضًا في تدريس وتوجيه علماء البيانات وتساهم بانتظام في منشورات علوم البيانات والتعلم الآلي.