एलएलएम के विकास में हाल की प्रगति ने विविध एनएलपी कार्यों के लिए उनके उपयोग को लोकप्रिय बना दिया है जिन्हें पहले पुरानी मशीन सीखने के तरीकों का उपयोग करके निपटाया जाता था। बड़े भाषा मॉडल वर्गीकरण, संक्षेपण, सूचना पुनर्प्राप्ति, सामग्री निर्माण, प्रश्न उत्तर और बातचीत को बनाए रखने जैसी विभिन्न भाषा समस्याओं को हल करने में सक्षम हैं - सभी केवल एक ही मॉडल का उपयोग करके। लेकिन हमें कैसे पता चलेगा कि वे इन सभी विभिन्न कार्यों में अच्छा काम कर रहे हैं?
एलएलएम के उदय ने एक अनसुलझी समस्या को प्रकाश में ला दिया है: हमारे पास उनके मूल्यांकन के लिए कोई विश्वसनीय मानक नहीं है। मूल्यांकन को कठिन बनाने वाली बात यह है कि उनका उपयोग अत्यधिक विविध कार्यों के लिए किया जाता है और हमारे पास प्रत्येक उपयोग के मामले के लिए एक अच्छा उत्तर क्या है, इसकी स्पष्ट परिभाषा नहीं है।
यह आलेख एलएलएम के मूल्यांकन के वर्तमान दृष्टिकोणों पर चर्चा करता है और मानव मूल्यांकन का लाभ उठाने वाले एक नए एलएलएम लीडरबोर्ड का परिचय देता है जो मौजूदा मूल्यांकन तकनीकों में सुधार करता है।
मूल्यांकन का पहला और सामान्य प्रारंभिक रूप मॉडल को कई क्यूरेटेड डेटासेट पर चलाना और उसके प्रदर्शन की जांच करना है। हगिंगफेस ने एक बनाया एलएलएम लीडरबोर्ड खोलें जहां चार प्रसिद्ध डेटासेट का उपयोग करके ओपन-एक्सेस बड़े मॉडल का मूल्यांकन किया जाता है (AI2 रीज़निंग चैलेंज , हेलास्वैग , एमएमएलयू , सत्यवादीQA). यह स्वचालित मूल्यांकन से मेल खाता है और कुछ विशिष्ट प्रश्नों के लिए तथ्य प्राप्त करने की मॉडल की क्षमता की जाँच करता है।
यह एक प्रश्न का उदाहरण है एमएमएलयू डाटासेट।
विषय: कॉलेज_मेडिसिन
प्रश्न: क्रिएटिन अनुपूरण का एक अपेक्षित दुष्प्रभाव है।
- ए) मांसपेशियों में कमजोरी
- बी) शरीर के द्रव्यमान में वृद्धि
- सी) मांसपेशियों में ऐंठन
- डी) इलेक्ट्रोलाइट्स का नुकसान
उत्तर: (बी)
इस प्रकार के प्रश्न का उत्तर देने पर मॉडल को स्कोर करना एक महत्वपूर्ण मीट्रिक है और तथ्य-जाँच के लिए अच्छा काम करता है लेकिन यह मॉडल की उत्पादक क्षमता का परीक्षण नहीं करता है। यह शायद इस मूल्यांकन पद्धति का सबसे बड़ा नुकसान है क्योंकि मुफ्त पाठ उत्पन्न करना एलएलएम की सबसे महत्वपूर्ण विशेषताओं में से एक है।
ऐसा प्रतीत होता है कि समुदाय के भीतर इस बात पर आम सहमति है कि मॉडल का सही मूल्यांकन करने के लिए हमें मानव मूल्यांकन की आवश्यकता है। यह आमतौर पर विभिन्न मॉडलों की प्रतिक्रियाओं की तुलना करके किया जाता है।
एलएमएसवाईएस परियोजना में दो त्वरित पूर्णताओं की तुलना - लेखक द्वारा स्क्रीनशॉट
एनोटेटर तय करते हैं कि कौन सी प्रतिक्रिया बेहतर है, जैसा कि ऊपर दिए गए उदाहरण में देखा गया है, और कभी-कभी त्वरित पूर्णता की गुणवत्ता में अंतर की मात्रा निर्धारित करते हैं। एलएमएसवाईएस ऑर्ग ने एक बनाया है लीडरबोर्ड जो इस प्रकार के मानव मूल्यांकन का उपयोग करता है और 17 विभिन्न मॉडलों की तुलना करता है, रिपोर्ट करता है एलो रेटिंग प्रत्येक मॉडल के लिए.
चूँकि मानव मूल्यांकन को मापना कठिन हो सकता है, इसलिए मूल्यांकन प्रक्रिया को बढ़ाने और तेज़ करने के प्रयास किए गए हैं और इसके परिणामस्वरूप एक दिलचस्प परियोजना सामने आई है जिसे कहा जाता है अल्पाकाएवल. यहां प्रत्येक मॉडल की तुलना बेसलाइन (GPT-003 द्वारा प्रदान किया गया text-davinci-4) से की जाती है और मानव मूल्यांकन को GPT-4 निर्णय से बदल दिया जाता है। यह वास्तव में तेज़ और स्केलेबल है लेकिन क्या हम स्कोरिंग करने के लिए यहां मॉडल पर भरोसा कर सकते हैं? हमें मॉडल पूर्वाग्रहों के प्रति जागरूक रहने की जरूरत है। प्रोजेक्ट ने वास्तव में दिखाया है कि GPT-4 लंबे उत्तरों का पक्ष ले सकता है।
एलएलएम मूल्यांकन पद्धतियों का विकास जारी है क्योंकि एआई समुदाय आसान, निष्पक्ष और स्केलेबल दृष्टिकोणों की खोज कर रहा है। नवीनतम विकास तोलोका की टीम से एक नई बात के साथ आया है लीडरबोर्ड वर्तमान मूल्यांकन मानकों को और आगे बढ़ाने के लिए।
नई लीडरबोर्ड मॉडल प्रतिक्रियाओं की तुलना वास्तविक दुनिया के उपयोगकर्ता संकेतों से करता है जिन्हें उपयोगी एनएलपी कार्यों द्वारा वर्गीकृत किया गया है जैसा कि इसमें बताया गया है यह इंस्ट्रक्शनजीपीटी पेपर. यह सभी श्रेणियों में प्रत्येक मॉडल की समग्र जीत दर को भी दर्शाता है।
टोलोका लीडरबोर्ड - लेखक द्वारा स्क्रीनशॉट
इस परियोजना के लिए उपयोग किया गया मूल्यांकन अल्पाकाएवल में किए गए मूल्यांकन के समान है। लीडरबोर्ड पर स्कोर संबंधित मॉडल की तुलना में जीत दर का प्रतिनिधित्व करते हैं गुआनाको 13बी मॉडल, जो यहां आधारभूत तुलना के रूप में कार्य करता है। गुआनाको 13बी का चुनाव अल्पाकाएवल पद्धति में सुधार है, जो आधार रेखा के रूप में जल्द ही पुराने होने वाले टेक्स्ट-डेविन्सी-003 मॉडल का उपयोग करता है।
वास्तविक मूल्यांकन वास्तविक दुनिया के संकेतों के एक सेट पर मानव विशेषज्ञ व्याख्याकारों द्वारा किया जाता है। प्रत्येक संकेत के लिए, एनोटेटर्स को दो पूर्णताएँ दी जाती हैं और पूछा जाता है कि वे किसे पसंद करते हैं। आप कार्यप्रणाली के बारे में विवरण पा सकते हैं यहाँ उत्पन्न करें.
इस प्रकार का मानव मूल्यांकन किसी भी अन्य स्वचालित मूल्यांकन पद्धति से अधिक उपयोगी है और इसके लिए उपयोग किए जाने वाले मानव मूल्यांकन में सुधार होना चाहिए एलएमएसवाईएस लीडरबोर्ड। एलएमएसवाईएस पद्धति का नकारात्मक पक्ष यह है कि कोई भी व्यक्ति संपर्क मूल्यांकन में भाग ले सकते हैं, जिससे इस प्रकार एकत्र किए गए डेटा की गुणवत्ता पर गंभीर प्रश्न उठ सकते हैं। विशेषज्ञ व्याख्याकारों की एक बंद भीड़ में विश्वसनीय परिणामों की बेहतर क्षमता होती है, और टोलोका डेटा गुणवत्ता सुनिश्चित करने के लिए अतिरिक्त गुणवत्ता नियंत्रण तकनीकों को लागू करता है।
इस लेख में, हमने एलएलएम के मूल्यांकन के लिए एक आशाजनक नया समाधान पेश किया है - टोलोका लीडरबोर्ड। दृष्टिकोण अभिनव है, मौजूदा तरीकों की ताकत को जोड़ता है, कार्य-विशिष्ट ग्रैन्युलैरिटी जोड़ता है, और मॉडलों की तुलना करने के लिए विश्वसनीय मानव एनोटेशन तकनीकों का उपयोग करता है।
बोर्ड का अन्वेषण करें, और सुधार के लिए अपनी राय और सुझाव हमारे साथ साझा करें।
मागदालेना कोन्कीविक्ज़ तेज और स्केलेबल एआई विकास का समर्थन करने वाली वैश्विक कंपनी टोलोका में डेटा प्रचारक हैं। उनके पास एडिनबर्ग यूनिवर्सिटी से आर्टिफिशियल इंटेलिजेंस में मास्टर डिग्री है और उन्होंने यूरोप और अमेरिका में व्यवसायों के लिए एनएलपी इंजीनियर, डेवलपर और डेटा वैज्ञानिक के रूप में काम किया है। वह डेटा वैज्ञानिकों को पढ़ाने और सलाह देने में भी शामिल रही हैं और नियमित रूप से डेटा साइंस और मशीन लर्निंग प्रकाशनों में योगदान देती हैं।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://www.kdnuggets.com/a-better-way-to-evaluate-llms?utm_source=rss&utm_medium=rss&utm_campaign=a-better-way-to-evaluate-llms
- :हैस
- :है
- :नहीं
- :कहाँ
- $यूपी
- 17
- a
- क्षमता
- About
- ऊपर
- के पार
- वास्तविक
- वास्तव में
- अतिरिक्त
- जोड़ता है
- उन्नत
- अग्रिमों
- AI
- सब
- भी
- अमेरिका
- an
- और
- जवाब
- जवाब
- कोई
- लागू होता है
- दृष्टिकोण
- दृष्टिकोण
- हैं
- अखाड़ा
- लेख
- कृत्रिम
- कृत्रिम बुद्धिमत्ता
- AS
- At
- स्वचालित
- जागरूक
- b
- आधारभूत
- BE
- क्योंकि
- किया गया
- बेहतर
- पूर्वाग्रहों
- सबसे बड़ा
- मंडल
- परिवर्तन
- लाया
- व्यवसायों
- लेकिन
- by
- कर सकते हैं
- सक्षम
- मामला
- श्रेणियाँ
- चुनौती
- जाँचता
- चुनाव
- वर्गीकरण
- स्पष्ट
- बंद
- जोड़ती
- आता है
- समुदाय
- कंपनी
- तुलना
- तुलना
- की तुलना
- तुलना
- आम राय
- सामग्री
- सामग्री निर्माण
- जारी रखने के लिए
- योगदान
- नियंत्रण
- कन्वर्सेशन (Conversation)
- मेल खाती है
- बनाया
- निर्माण
- भीड़
- क्यूरेट
- वर्तमान
- तिथि
- आँकड़े की गुणवत्ता
- डेटा विज्ञान
- आँकड़े वाला वैज्ञानिक
- डेटासेट
- तय
- परिभाषा
- डिग्री
- विवरण
- डेवलपर
- विकास
- अंतर
- विभिन्न
- हानि
- कई
- do
- कर देता है
- कर
- किया
- dont
- नकारात्मक पक्ष यह है
- से प्रत्येक
- आसान
- एडिनबर्घ
- प्रभाव
- प्रयासों
- इलेक्ट्रोलाइट्स
- इंजीनियर
- सुनिश्चित
- यूरोप
- मूल्यांकन करें
- मूल्यांकित
- का मूल्यांकन
- मूल्यांकन
- इंजीलवादी
- विकसित करना
- की जांच
- उदाहरण
- मौजूदा
- अपेक्षित
- विशेषज्ञ
- तथ्यों
- निष्पक्ष
- फास्ट
- एहसान
- विशेषताएं
- खोज
- प्रथम
- के लिए
- प्रपत्र
- चार
- मुक्त
- से
- आगे
- लाभ
- इकट्ठा
- सृजन
- उत्पादक
- मिल
- GitHub
- दी
- वैश्विक
- अच्छा
- अच्छा काम
- कठिन
- और जोर से
- है
- यहाँ उत्पन्न करें
- अत्यधिक
- रखती है
- कैसे
- HTTPS
- हगिंग फ़ेस
- मानव
- महत्वपूर्ण
- में सुधार
- सुधार
- सुधार
- सुधार
- in
- करें-
- प्रारंभिक
- अभिनव
- बुद्धि
- दिलचस्प
- शुरू की
- द्वारा प्रस्तुत
- शामिल
- IT
- आईटी इस
- काम
- केवल
- सिर्फ एक
- केडनगेट्स
- जानना
- रंग
- भाषा
- बड़ा
- ताज़ा
- सीख रहा हूँ
- लाभ
- प्रकाश
- लंबे समय तक
- बंद
- मशीन
- यंत्र अधिगम
- को बनाए रखने
- बनाता है
- ढंग
- सामूहिक
- मास्टर
- मई..
- सलाह
- तरीका
- क्रियाविधि
- तरीकों
- मीट्रिक
- आदर्श
- मॉडल
- अधिक
- अधिकांश
- मांसपेशी
- आवश्यकता
- नया
- नया समाधान
- NLP
- of
- बड़े
- on
- ONE
- खुला
- राय
- अन्य
- उल्लिखित
- कुल
- भाग
- निष्पादन
- प्रदर्शन
- प्रदर्शन
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- संभावित
- पसंद करते हैं
- पहले से
- शायद
- मुसीबत
- समस्याओं
- प्रक्रिया
- परियोजना
- होनहार
- संकेतों
- अच्छी तरह
- बशर्ते
- प्रकाशनों
- गुणवत्ता
- प्रश्न
- प्रशन
- को ऊपर उठाने
- मूल्यांकन करें
- असली दुनिया
- नियमित तौर पर
- विश्वसनीय
- प्रतिस्थापित
- रिपोर्टिंग
- प्रतिनिधित्व
- कि
- प्रतिक्रिया
- प्रतिक्रियाएं
- परिणामस्वरूप
- परिणाम
- वृद्धि
- रन
- s
- स्केलेबल
- स्केल
- विज्ञान
- वैज्ञानिक
- वैज्ञानिकों
- स्कोर
- स्कोरिंग
- खोजें
- लगता है
- देखा
- गंभीर
- कार्य करता है
- सेट
- कई
- Share
- वह
- चाहिए
- दिखाया
- दिखाता है
- पक्ष
- समान
- एक
- समाधान
- सुलझाने
- कुछ
- कभी कभी
- विशिष्ट
- गति
- मानक
- मानकों
- ताकत
- ऐसा
- सहायक
- लेना
- कार्य
- शिक्षण
- टीम
- तकनीक
- परीक्षण
- टेक्स्ट
- से
- कि
- RSI
- लेकिन हाल ही
- उन
- वहाँ।
- इन
- वे
- इसका
- सेवा मेरे
- ट्रस्ट
- दो
- टाइप
- आम तौर पर
- विश्वविद्यालय
- के ऊपर
- us
- प्रयोग
- उपयोग
- उदाहरण
- प्रयुक्त
- उपयोगकर्ता
- का उपयोग करता है
- का उपयोग
- सामान्य
- विविधता
- मार्ग..
- we
- दुर्बलता
- कुंआ
- प्रसिद्ध
- थे
- क्या
- एचएमबी क्या है?
- कौन कौन से
- जीतना
- साथ में
- अंदर
- काम किया
- इसलिए आप
- आपका
- जेफिरनेट