A Better Way To Evaluate LLMs - KDnuggets

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

एलएलएम के विकास में हाल की प्रगति ने विविध एनएलपी कार्यों के लिए उनके उपयोग को लोकप्रिय बना दिया है जिन्हें पहले पुरानी मशीन सीखने के तरीकों का उपयोग करके निपटाया जाता था। बड़े भाषा मॉडल वर्गीकरण, संक्षेपण, सूचना पुनर्प्राप्ति, सामग्री निर्माण, प्रश्न उत्तर और बातचीत को बनाए रखने जैसी विभिन्न भाषा समस्याओं को हल करने में सक्षम हैं - सभी केवल एक ही मॉडल का उपयोग करके। लेकिन हमें कैसे पता चलेगा कि वे इन सभी विभिन्न कार्यों में अच्छा काम कर रहे हैं?

एलएलएम के उदय ने एक अनसुलझी समस्या को प्रकाश में ला दिया है: हमारे पास उनके मूल्यांकन के लिए कोई विश्वसनीय मानक नहीं है। मूल्यांकन को कठिन बनाने वाली बात यह है कि उनका उपयोग अत्यधिक विविध कार्यों के लिए किया जाता है और हमारे पास प्रत्येक उपयोग के मामले के लिए एक अच्छा उत्तर क्या है, इसकी स्पष्ट परिभाषा नहीं है।

यह आलेख एलएलएम के मूल्यांकन के वर्तमान दृष्टिकोणों पर चर्चा करता है और मानव मूल्यांकन का लाभ उठाने वाले एक नए एलएलएम लीडरबोर्ड का परिचय देता है जो मौजूदा मूल्यांकन तकनीकों में सुधार करता है।

मूल्यांकन का पहला और सामान्य प्रारंभिक रूप मॉडल को कई क्यूरेटेड डेटासेट पर चलाना और उसके प्रदर्शन की जांच करना है। हगिंगफेस ने एक बनाया एलएलएम लीडरबोर्ड खोलें जहां चार प्रसिद्ध डेटासेट का उपयोग करके ओपन-एक्सेस बड़े मॉडल का मूल्यांकन किया जाता है (AI2 रीज़निंग चैलेंज , हेलास्वैग , एमएमएलयू , सत्यवादीQA). यह स्वचालित मूल्यांकन से मेल खाता है और कुछ विशिष्ट प्रश्नों के लिए तथ्य प्राप्त करने की मॉडल की क्षमता की जाँच करता है।

यह एक प्रश्न का उदाहरण है एमएमएलयू डाटासेट।

विषय: कॉलेज_मेडिसिन

प्रश्न: क्रिएटिन अनुपूरण का एक अपेक्षित दुष्प्रभाव है।

ए) मांसपेशियों में कमजोरी
बी) शरीर के द्रव्यमान में वृद्धि
सी) मांसपेशियों में ऐंठन
डी) इलेक्ट्रोलाइट्स का नुकसान

उत्तर: (बी)

इस प्रकार के प्रश्न का उत्तर देने पर मॉडल को स्कोर करना एक महत्वपूर्ण मीट्रिक है और तथ्य-जाँच के लिए अच्छा काम करता है लेकिन यह मॉडल की उत्पादक क्षमता का परीक्षण नहीं करता है। यह शायद इस मूल्यांकन पद्धति का सबसे बड़ा नुकसान है क्योंकि मुफ्त पाठ उत्पन्न करना एलएलएम की सबसे महत्वपूर्ण विशेषताओं में से एक है।

ऐसा प्रतीत होता है कि समुदाय के भीतर इस बात पर आम सहमति है कि मॉडल का सही मूल्यांकन करने के लिए हमें मानव मूल्यांकन की आवश्यकता है। यह आमतौर पर विभिन्न मॉडलों की प्रतिक्रियाओं की तुलना करके किया जाता है।

एलएलएम का मूल्यांकन करने का एक बेहतर तरीका
एलएमएसवाईएस परियोजना में दो त्वरित पूर्णताओं की तुलना - लेखक द्वारा स्क्रीनशॉट

एनोटेटर तय करते हैं कि कौन सी प्रतिक्रिया बेहतर है, जैसा कि ऊपर दिए गए उदाहरण में देखा गया है, और कभी-कभी त्वरित पूर्णता की गुणवत्ता में अंतर की मात्रा निर्धारित करते हैं। एलएमएसवाईएस ऑर्ग ने एक बनाया है लीडरबोर्ड जो इस प्रकार के मानव मूल्यांकन का उपयोग करता है और 17 विभिन्न मॉडलों की तुलना करता है, रिपोर्ट करता है एलो रेटिंग प्रत्येक मॉडल के लिए.

चूँकि मानव मूल्यांकन को मापना कठिन हो सकता है, इसलिए मूल्यांकन प्रक्रिया को बढ़ाने और तेज़ करने के प्रयास किए गए हैं और इसके परिणामस्वरूप एक दिलचस्प परियोजना सामने आई है जिसे कहा जाता है अल्पाकाएवल. यहां प्रत्येक मॉडल की तुलना बेसलाइन (GPT-003 द्वारा प्रदान किया गया text-davinci-4) से की जाती है और मानव मूल्यांकन को GPT-4 निर्णय से बदल दिया जाता है। यह वास्तव में तेज़ और स्केलेबल है लेकिन क्या हम स्कोरिंग करने के लिए यहां मॉडल पर भरोसा कर सकते हैं? हमें मॉडल पूर्वाग्रहों के प्रति जागरूक रहने की जरूरत है। प्रोजेक्ट ने वास्तव में दिखाया है कि GPT-4 लंबे उत्तरों का पक्ष ले सकता है।

एलएलएम मूल्यांकन पद्धतियों का विकास जारी है क्योंकि एआई समुदाय आसान, निष्पक्ष और स्केलेबल दृष्टिकोणों की खोज कर रहा है। नवीनतम विकास तोलोका की टीम से एक नई बात के साथ आया है लीडरबोर्ड वर्तमान मूल्यांकन मानकों को और आगे बढ़ाने के लिए।

नई लीडरबोर्ड मॉडल प्रतिक्रियाओं की तुलना वास्तविक दुनिया के उपयोगकर्ता संकेतों से करता है जिन्हें उपयोगी एनएलपी कार्यों द्वारा वर्गीकृत किया गया है जैसा कि इसमें बताया गया है यह इंस्ट्रक्शनजीपीटी पेपर. यह सभी श्रेणियों में प्रत्येक मॉडल की समग्र जीत दर को भी दर्शाता है।

एलएलएम का मूल्यांकन करने का एक बेहतर तरीका
टोलोका लीडरबोर्ड - लेखक द्वारा स्क्रीनशॉट

इस परियोजना के लिए उपयोग किया गया मूल्यांकन अल्पाकाएवल में किए गए मूल्यांकन के समान है। लीडरबोर्ड पर स्कोर संबंधित मॉडल की तुलना में जीत दर का प्रतिनिधित्व करते हैं गुआनाको 13बी मॉडल, जो यहां आधारभूत तुलना के रूप में कार्य करता है। गुआनाको 13बी का चुनाव अल्पाकाएवल पद्धति में सुधार है, जो आधार रेखा के रूप में जल्द ही पुराने होने वाले टेक्स्ट-डेविन्सी-003 मॉडल का उपयोग करता है।

वास्तविक मूल्यांकन वास्तविक दुनिया के संकेतों के एक सेट पर मानव विशेषज्ञ व्याख्याकारों द्वारा किया जाता है। प्रत्येक संकेत के लिए, एनोटेटर्स को दो पूर्णताएँ दी जाती हैं और पूछा जाता है कि वे किसे पसंद करते हैं। आप कार्यप्रणाली के बारे में विवरण पा सकते हैं यहाँ उत्पन्न करें.

इस प्रकार का मानव मूल्यांकन किसी भी अन्य स्वचालित मूल्यांकन पद्धति से अधिक उपयोगी है और इसके लिए उपयोग किए जाने वाले मानव मूल्यांकन में सुधार होना चाहिए एलएमएसवाईएस लीडरबोर्ड। एलएमएसवाईएस पद्धति का नकारात्मक पक्ष यह है कि कोई भी व्यक्ति संपर्क मूल्यांकन में भाग ले सकते हैं, जिससे इस प्रकार एकत्र किए गए डेटा की गुणवत्ता पर गंभीर प्रश्न उठ सकते हैं। विशेषज्ञ व्याख्याकारों की एक बंद भीड़ में विश्वसनीय परिणामों की बेहतर क्षमता होती है, और टोलोका डेटा गुणवत्ता सुनिश्चित करने के लिए अतिरिक्त गुणवत्ता नियंत्रण तकनीकों को लागू करता है।

इस लेख में, हमने एलएलएम के मूल्यांकन के लिए एक आशाजनक नया समाधान पेश किया है - टोलोका लीडरबोर्ड। दृष्टिकोण अभिनव है, मौजूदा तरीकों की ताकत को जोड़ता है, कार्य-विशिष्ट ग्रैन्युलैरिटी जोड़ता है, और मॉडलों की तुलना करने के लिए विश्वसनीय मानव एनोटेशन तकनीकों का उपयोग करता है।

बोर्ड का अन्वेषण करें, और सुधार के लिए अपनी राय और सुझाव हमारे साथ साझा करें।

मागदालेना कोन्कीविक्ज़ तेज और स्केलेबल एआई विकास का समर्थन करने वाली वैश्विक कंपनी टोलोका में डेटा प्रचारक हैं। उनके पास एडिनबर्ग यूनिवर्सिटी से आर्टिफिशियल इंटेलिजेंस में मास्टर डिग्री है और उन्होंने यूरोप और अमेरिका में व्यवसायों के लिए एनएलपी इंजीनियर, डेवलपर और डेटा वैज्ञानिक के रूप में काम किया है। वह डेटा वैज्ञानिकों को पढ़ाने और सलाह देने में भी शामिल रही हैं और नियमित रूप से डेटा साइंस और मशीन लर्निंग प्रकाशनों में योगदान देती हैं।