ज़ेफायर 7बी की खोज: नवीनतम बड़े भाषा मॉडल के लिए एक व्यापक मार्गदर्शिका - केडीनगेट्स

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

ज़ेफिर 7बी की खोज: नवीनतम बड़े भाषा मॉडल के लिए एक व्यापक मार्गदर्शिका
द्वारा फोटो Google डीपमाइंड

2023 बड़े भाषा मॉडल और ओपन सोर्स का वर्ष था। कई स्टार्टअप और कंपनियों ने चैटजीपीटी और क्लाउड जैसे मालिकाना एलएलएम का मुकाबला करने के लिए अपने मॉडल और वेट को ओपन-सोर्स किया। 2023 के लिए कुछ महत्वपूर्ण कंपनियाँ और मॉडल (खुला स्रोत) थे:

मेटा (एलएलएएमए, एलएलएएमएवी2)
टीआईआई (फाल्कन 7बी, 40बी, 180बी)
मिस्ट्रल (मिस्ट्रल 7बी, मिक्सट्राल8x7बी)

हालाँकि, 7B मॉडल, जिसे तैनात करना अपेक्षाकृत आसान और सस्ता है, 70B जैसे बड़े मॉडल के बराबर नहीं है। सबसे मजबूत ओपन-सोर्स दावेदार मिस्ट्रल 7बी था जो कई बड़े मॉडलों से बेहतर प्रदर्शन करेगा।

ज़ेफिर 7बी की खोज: नवीनतम बड़े भाषा मॉडल के लिए एक व्यापक मार्गदर्शिका
मिस्ट्रल-7बी की तुलना मिस्ट्रल.एआई

हालाँकि, ये छोटे मॉडल अभी भी प्राकृतिक संकेतों पर अच्छी प्रतिक्रिया नहीं देते हैं और इन्हें अच्छी त्वरित इंजीनियरिंग की आवश्यकता होती है।

Zephyr 7B, HuggingFace H4 (मददगार, ईमानदार, हानिरहित, Huggy) टीम द्वारा बनाया गया एक मॉडल है जिसका मुख्य लक्ष्य एक छोटा भाषा मॉडल बनाना था जो उपयोगकर्ता के इरादे से जुड़ा हो और बड़े मॉडलों से भी बेहतर प्रदर्शन करता हो।

ज़ेफिर मिस्ट्रल-7बी का एक संरेखित संस्करण है जो मुख्य रूप से आसवन की शक्ति से बनाया गया है, और अकादमिक और संवादी बेंचमार्क में 70बी मॉडल के बराबर है।

ज़ेफिर 7बी की खोज: नवीनतम बड़े भाषा मॉडल के लिए एक व्यापक मार्गदर्शिका Zephyr-7B की प्रदर्शन तुलना | स्रोत: ज़ेफायर पेपर

मुख्य विशेषताएं

ज़ेफिर के उत्कृष्ट प्रदर्शन के पीछे का कारण ये 4 प्रमुख तकनीकें हैं जिनका उपयोग H4 टीम ने किया है।

स्व-निर्देश डेटा निर्माण और डीएसएफटी (डिस्टिल्ड सुपरवाइज्ड फाइन-ट्यूनिंग)
प्रतिक्रिया संग्रह
डीएसएफटी मॉडल का डीडीपीओ (डिस्टिल्ड डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन)।

स्व-निर्देश डेटा निर्माण और डीएसएफटी

परंपरागत रूप से पर्यवेक्षित फाइन-ट्यूनिंग (एसएफटी) उच्च गुणवत्ता वाले अनुदेश पूर्णता युग्म के माध्यम से एक बड़े भाषा मॉडल पर किया जाता है। इस डेटा का निर्माण महंगा है और इसके लिए मानव पर्यवेक्षण की आवश्यकता होती है (चुंग एट अल., 2022; सान एट अल., 2021)।

यहां दिलचस्प तरीकों में से एक निर्देश और प्रतिक्रियाएं उत्पन्न करने के लिए शिक्षक मॉडल (पहले से प्रशिक्षित एलएलएम) का उपयोग करना है। इस आसवन तकनीक का उपयोग पहली बार अल्पाका (ताओरी एट अल., 2023) में किया गया था, जिससे साबित हुआ कि एक छोटा मॉडल बड़े मॉडल से बेहतर प्रदर्शन कर सकता है। आसुत पर्यवेक्षित फ़ाइन-ट्यूनिंग.

ज़ेफिर 7बी की खोज: नवीनतम बड़े भाषा मॉडल के लिए एक व्यापक मार्गदर्शिका
स्व-निर्देश पाइपलाइन | स्रोत: स्व-निर्देश पत्र

H4 टीम ने उच्च गुणवत्ता वाले पर्यवेक्षित (निर्देश, पूर्णता) डेटासेट के निर्माण के लिए ज़ेफायर का उपयोग किया, जिनका उपयोग डीएसएफटी करने के लिए किया गया था। (उत्पन्न निर्देशों/पूर्णताओं पर एक मॉडल को प्रशिक्षित करना आसवन का एक रूप है जिसे डीएसएफटी: डिस्टिल्ड सुपरवाइज्ड फाइन-ट्यूनिंग के रूप में जाना जाता है)।

प्रतिक्रिया संग्रह

बड़े भाषा मॉडल आमतौर पर किसकी सहायता से संरेखित किए जाते हैं? मानव प्रतिक्रिया से सुदृढीकरण सीखना (आरएलएचएफ). ज़ेफायर इसके बजाय अल्ट्रा फीडबैक के दृष्टिकोण का पालन करते हुए मॉडल के हितों को संरेखित करने के लिए एक बेहतर शिक्षक मॉडल (जैसे जीपीटी -4) से फीडबैक का उपयोग करता है।

ज़ेफिर 7बी की खोज: नवीनतम बड़े भाषा मॉडल के लिए एक व्यापक मार्गदर्शिका
अल्ट्राफीडबैक निर्माण प्रक्रिया | स्रोत: अल्ट्राफीडबैक पेपर

जिस तरह से यह काम करता है वह यह है कि एसएफटी से प्रत्येक प्रॉम्प्ट पर्यवेक्षित प्रॉम्प्ट को 4 मॉडल (क्लाउड, एलएलएएमए, फाल्कन इत्यादि) में पास किया जाता है और एकल प्रॉम्प्ट के खिलाफ 4 प्रतिक्रियाओं में से प्रत्येक को जीपीटी -4 की मदद से स्कोर किया जाता है। अब हमारे पास एक इनपुट (x), उच्चतम स्कोरिंग पूर्णता (yw) का एक डेटासेट है, और कम स्कोरिंग पूर्णता (yl) के रूप में दर्शाया गया एक यादृच्छिक संकेत है, यानी हमारे पास (x, yw, yl) का एक त्रिक है।

वरीयता अनुकूलन

इस अंतिम चरण का लक्ष्य yw (उच्चतम स्कोरिंग पूर्णता) से yl (कम स्कोरिंग पूर्णता) से मॉडल की प्राथमिकता को अधिकतम करना है। इसका प्रयोग करके किया जाता है DPO (प्रत्यक्ष वरीयता अनुकूलन). डीपीओ का उपयोग करना सादे आरएलएचएफ का उपयोग करने से आसान है और सहज रूप से यह आरएलएचएफ से बेहतर प्रदर्शन करता है। इस मामले में दृष्टिकोण के रूप में जाना जाता है डीडीपीओ क्योंकि यह एक शिक्षक मॉडल की सहायता से उत्पन्न डिस्टिल्ड डेटासेट का उपयोग करता है।

ज़ेफिर 7बी की खोज: नवीनतम बड़े भाषा मॉडल के लिए एक व्यापक मार्गदर्शिका डीपीओ बनाम आरएलएचएफ | स्रोत: ज़ेफायर पेपर

समग्र एल्गोरिथ्म कुछ इस तरह दिखता है:

ज़ेफिर 7बी की खोज: नवीनतम बड़े भाषा मॉडल के लिए एक व्यापक मार्गदर्शिका

और इसे निम्नलिखित चरणों में अनुवादित किया जा सकता है:

डीएसएफटी मॉडल (केवल फॉरवर्ड) से (x, yw) और (x, yl) के लिए संभावना की गणना करें।
dDPO मॉडल से (x, yw) और (x, yl) की संभाव्यता की गणना करें।
Eq 1 की गणना करें और अद्यतन करने के लिए बैकप्रोपेगेट करें। दोहराना

ज़ेफायर द्वारा उपयोग किया जाने वाला बेस मॉडल मिस्ट्रल-7बी है जो रिलीज़ के समय अत्याधुनिक खुला स्रोत था। उन्होंने इसका प्रयोग किया TRL फाइन-ट्यूनिंग और संरेखण के लिए लाइब्रेरी। डीप-स्पीड जीरो 3 और फ्लैश-अटेंशन 2 का उपयोग प्रशिक्षण को अनुकूलित और तेज करने और जीपीयू का पूरी तरह से उपयोग करने के लिए किया गया था। मॉडलों को एडमडब्ल्यू ऑप्टिमाइज़र का उपयोग करके प्रशिक्षित किया गया था और कोई वजन घटाने का उपयोग नहीं किया गया था। सभी प्रयोग bfloat16 परिशुद्धता का उपयोग करके 100 A16 पर चलाए गए और आमतौर पर पूरा होने में 2-4 घंटे लगे। आप इसका उल्लेख कर सकते हैं मूल पेपर ज़ेफिर की प्रशिक्षण प्रक्रिया पर गहन जानकारी के लिए।

ज़ेफायर टीम बड़े भाषा मॉडल को प्रशिक्षित करने के लिए सर्वोत्तम तकनीकों को जोड़ती है और इसने केवल 40बी मापदंडों के साथ 7बी मॉडल के प्रदर्शन का मिलान किया और चैट मॉडल के लिए 70बी का मिलान किया।

ज़ेफिर 7बी की खोज: नवीनतम बड़े भाषा मॉडल के लिए एक व्यापक मार्गदर्शिका जेफिर बनाम अन्य एलएलएम की तुलना | स्रोत: ज़ेफायर पेपर
ज़ेफिर 7बी की खोज: नवीनतम बड़े भाषा मॉडल के लिए एक व्यापक मार्गदर्शिका जेफिर बनाम अन्य एलएलएम की तुलना | स्रोत: ज़ेफायर पेपर

ज़ेफायर मॉडल हगिंग फेस पर सार्वजनिक रूप से उपलब्ध हैं और इन्हें किसी अन्य भाषा मॉडल के समान ही उपयोग किया जा सकता है।

import torch
from transformers import pipeline

pipe = pipeline("text-generation",
                model="HuggingFaceH4/zephyr-7b-alpha",  # can also use the beta model
                torch_dtype=torch.bfloat16,
                device_map="auto")

# We use the tokenizer's chat template to format each message - see https://huggingface.co/docs/transformers/main/en/chat_templating
messages = [
   {
       "role": "system",
       "content": "You are a friendly chatbot who always responds in the style of a pirate",
   },
   {"role": "user", "content": "How many helicopters can a human eat in one sitting?"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])

आउटपुट:

|system|>
You are a friendly chatbot who always responds in the style of a pirate.
|user|>
How many helicopters can a human eat in one sitting?
|assistant|>
Ah, me hearty matey! But yer question be a puzzler! A human cannot eat a helicopter in one sitting, as helicopters are not edible. They be made of metal, plastic, and other materials, not food!

ज़ेफायर-7बी एक छोटा मॉडल है जिसने एलएलएम से छोटे मॉडल में आसवन की शक्ति दिखाई है। परिणामी मॉडल ZEPHYR-7B, MISTRAL-7B पर आधारित, 7B पैरामीटर चैट मॉडल के लिए एक नया अत्याधुनिक सेट करता है और MT-बेंच पर LLAMA2-CHAT-70B से भी बेहतर प्रदर्शन करता है।

संदर्भ

ज़ेफिर: एलएम संरेखण का प्रत्यक्ष आसवन (https://arxiv.org/abs/2310.16944)
हगिंगफेस जेफायर ब्लॉग (https://huggingface.co/blog/Isamu136/understanding-zephyr)
स्वयं निर्देश: https://arxiv.org/abs/2212.10560
अल्ट्राफीडबैक: https://arxiv.org/abs/2310.01377

अहमद अनीस एक उत्साही मशीन लर्निंग इंजीनियर और शोधकर्ता हैं जो वर्तमान में काम कर रहे हैं redbuffer.ai. अपनी दैनिक नौकरी से परे, अहमद मशीन लर्निंग समुदाय के साथ सक्रिय रूप से जुड़ा हुआ है। वह खुले विज्ञान के लिए समर्पित एक गैर-लाभकारी संस्था कोहेयर फॉर एआई के क्षेत्रीय नेतृत्व के रूप में कार्य करता है, और एक एडब्ल्यूएस समुदाय निर्माता है। अहमद स्टैकओवरफ्लो में सक्रिय योगदानकर्ता है, जहां उसके 2300+ अंक हैं। उन्होंने ओपनएआई द्वारा शेप-ई सहित कई प्रसिद्ध ओपन-सोर्स परियोजनाओं में योगदान दिया है।

इस विषय पर अधिक

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
स्रोत: https://www.kdnuggets.com/exploring-the-zephyr-7b-a-comprehensive-guide-to-the-latest-large-language-model?utm_source=rss&utm_medium=rss&utm_campaign=exploring-the-zephyr-7b-a-comprehensive-guide-to-the-latest-large-language-model

समय टिकट: जनवरी ७,२०२१

समय टिकट: अक्टूबर 13, 2023

केडनगेट्स™ समाचार 21:n35, सितंबर 15: एक डेटा विज्ञान पोर्टफोलियो जो आपको नौकरी देगा; शीर्ष 18 लो-कोड और नो-कोड मशीन लर्निंग प्लेटफॉर्म

स्रोत क्लस्टर:

केडनगेट्स

स्रोत नोड: 1075664

समय टिकट: सितम्बर 15, 2021

एआई प्रॉम्प्ट इंजीनियर $300k/वर्ष कमा रहे हैं - KDnuggets

एआई प्रॉम्प्ट इंजीनियर $300k/वर्ष कमा रहे हैं - केडीनगेट्स

स्रोत क्लस्टर:

केडनगेट्स

स्रोत नोड: 3079878

समय टिकट: जनवरी 23, 2024

पायथन कोड प्रदर्शन का अनुकूलन: पायथन प्रोफाइलर्स में एक गहरा गोता

स्रोत क्लस्टर:

केडनगेट्स

स्रोत नोड: 1945969

समय टिकट: फ़रवरी 8, 2023

2021 डेटा इंजीनियर वेतन रिपोर्ट तेजी से विकसित हो रहे बाजार पर अंतर्दृष्टि साझा करती है

स्रोत क्लस्टर:

केडनगेट्स

स्रोत नोड: 1878353

समय टिकट: अक्टूबर 19, 2021

ज़ेफायर 7बी की खोज: नवीनतम बड़े भाषा मॉडल के लिए एक व्यापक मार्गदर्शिका - केडीनगेट्स

प्लेटो द्वारा पुनर्प्रकाशित

मुख्य विशेषताएं

संदर्भ

इस विषय पर अधिक

से अधिक केडनगेट्स

एआई-स्वचालित साइबर सुरक्षा: क्या स्वचालित करें? - केडीनगेट्स

डाटा साइंस में परिकल्पना परीक्षण

5 में पढ़ने के लिए प्राकृतिक भाषा प्रसंस्करण पर 2023 निःशुल्क पुस्तकें - केडनगेट्स

भविष्यवाणी करना: पायथन में रैखिक प्रतिगमन के लिए एक शुरुआती मार्गदर्शिका - केडीनगेट्स

विविधता के माध्यम से मशीन लर्निंग वैयक्तिकरण को बढ़ाना

ओपनएलएलएम का परिचय: एलएलएम के लिए ओपन सोर्स लाइब्रेरी - केडीनगेट्स

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा