लेखक से छवि | बिंग छवि निर्माता
डॉली 2.0 एक खुला स्रोत, अनुदेश-अनुसरणित, बड़ा भाषा मॉडल (एलएलएम) है जिसे मानव-जनित डेटासेट पर ठीक से ट्यून किया गया था। इसका उपयोग अनुसंधान और व्यावसायिक दोनों उद्देश्यों के लिए किया जा सकता है।
से छवि रामअनंत1 द्वारा हगिंग फेस स्पेस
इससे पहले, डेटाब्रिक्स टीम ने जारी किया था डॉली 1.0, एलएलएम, जो चैटजीपीटी जैसी अनुदेशन क्षमता प्रदर्शित करता है और प्रशिक्षण की लागत $30 से कम है। यह स्टैनफोर्ड अल्पाका टीम डेटासेट का उपयोग कर रहा था, जो एक प्रतिबंधित लाइसेंस (केवल अनुसंधान) के तहत था।
डॉली 2.0 ने 12बी पैरामीटर भाषा मॉडल को ठीक करके इस समस्या का समाधान किया है (पाइथिया) निम्नलिखित डेटासेट में उच्च गुणवत्ता वाले मानव-जनित निर्देश पर, जिसे डेटब्रिक्स कर्मचारी द्वारा लेबल किया गया था। मॉडल और डेटासेट दोनों व्यावसायिक उपयोग के लिए उपलब्ध हैं।
डॉली 1.0 को स्टैनफोर्ड अल्पाका डेटासेट पर प्रशिक्षित किया गया था, जिसे ओपनएआई एपीआई का उपयोग करके बनाया गया था। डेटासेट में ChatGPT का आउटपुट शामिल है और यह किसी को भी OpenAI के साथ प्रतिस्पर्धा करने के लिए इसका उपयोग करने से रोकता है। संक्षेप में, आप इस डेटासेट के आधार पर एक व्यावसायिक चैटबॉट या भाषा एप्लिकेशन नहीं बना सकते।
पिछले कुछ हफ़्तों में जारी किए गए अधिकांश नवीनतम मॉडल समान मुद्दों से पीड़ित थे, जैसे मॉडल उसकी ऊन का कपड़ा, कोअला, GPT4सभी, तथा विकग्ना. इससे निपटने के लिए, हमें नए उच्च-गुणवत्ता वाले डेटासेट बनाने की आवश्यकता है जिनका उपयोग व्यावसायिक उपयोग के लिए किया जा सकता है, और डेटाब्रिक्स टीम ने डेटाब्रिक्स-डॉली-15k डेटासेट के साथ यही किया है।
नए डेटासेट में 15,000 उच्च-गुणवत्ता वाले मानव-लेबल संकेत/प्रतिक्रिया जोड़े शामिल हैं जिनका उपयोग बड़े भाषा मॉडल को ट्यून करने वाले निर्देश को डिजाइन करने के लिए किया जा सकता है। डेटाब्रिक्स-डॉली-15k डेटासेट के साथ आता है क्रिएटिव कॉमन्स एट्रिब्यूशन-शेयरअलाइक 3.0 अनपोर्टेड लाइसेंस, जो किसी को भी इसका उपयोग करने, इसे संशोधित करने और इस पर एक व्यावसायिक एप्लिकेशन बनाने की अनुमति देता है।
उन्होंने डेटाब्रिक्स-डॉली-15k डेटासेट कैसे बनाया?
ओपनएआई अनुसंधान काग़ज़ बताता है कि मूल इंस्ट्रक्टजीपीटी मॉडल को 13,000 संकेतों और प्रतिक्रियाओं पर प्रशिक्षित किया गया था। इस जानकारी का उपयोग करके, डेटाब्रिक्स टीम ने इस पर काम करना शुरू किया और यह पता चला कि 13k प्रश्न और उत्तर उत्पन्न करना एक कठिन काम था। वे सिंथेटिक डेटा या एआई जेनरेटिव डेटा का उपयोग नहीं कर सकते हैं, और उन्हें हर प्रश्न का मूल उत्तर तैयार करना होगा। यहीं पर उन्होंने मानव-जनित डेटा बनाने के लिए डेटाब्रिक्स के 5,000 कर्मचारियों का उपयोग करने का निर्णय लिया है।
डेटाब्रिक्स ने एक प्रतियोगिता रखी है, जिसमें शीर्ष 20 लेबलर्स को बड़ा पुरस्कार मिलेगा। इस प्रतियोगिता में 5,000 डेटाब्रिक्स कर्मचारियों ने भाग लिया जो एलएलएम में बहुत रुचि रखते थे
डॉली-वी2-12बी कोई अत्याधुनिक मॉडल नहीं है। यह कुछ मूल्यांकन बेंचमार्क में dolly-v1-6b से कम प्रदर्शन करता है। यह अंतर्निहित फ़ाइन-ट्यूनिंग डेटासेट की संरचना और आकार के कारण हो सकता है। डॉली मॉडल परिवार सक्रिय विकास के अधीन है, इसलिए आप भविष्य में बेहतर प्रदर्शन के साथ एक अद्यतन संस्करण देख सकते हैं।
संक्षेप में, डॉली-v2-12b मॉडल ने EleutherAI/gpt-neox-20b और EleutherAI/pythia-6.9b से बेहतर प्रदर्शन किया है।
से छवि मुफ़्त डॉली
डॉली 2.0 100% ओपन-सोर्स है। यह प्रशिक्षण कोड, डेटासेट, मॉडल भार और अनुमान पाइपलाइन के साथ आता है। सभी घटक व्यावसायिक उपयोग के लिए उपयुक्त हैं। आप हगिंग फेस स्पेस पर मॉडल आज़मा सकते हैं रामअनंत2 द्वारा डॉली वी1.
से छवि गले लगना
संसाधन:
डॉली 2.0 डेमो: रामअनंत2 द्वारा डॉली वी1
आबिद अली अवनी (@1अबिदलियावान) एक प्रमाणित डेटा वैज्ञानिक पेशेवर है जो मशीन लर्निंग मॉडल बनाना पसंद करता है। वर्तमान में, वह सामग्री निर्माण और मशीन लर्निंग और डेटा विज्ञान प्रौद्योगिकियों पर तकनीकी ब्लॉग लिखने पर ध्यान केंद्रित कर रहा है। आबिद के पास प्रौद्योगिकी प्रबंधन में मास्टर डिग्री और दूरसंचार इंजीनियरिंग में स्नातक की डिग्री है। उनका दृष्टिकोण मानसिक बीमारी से जूझ रहे छात्रों के लिए ग्राफ न्यूरल नेटवर्क का उपयोग करके एआई उत्पाद बनाना है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- मिंटिंग द फ्यूचर डब्ल्यू एड्रिएन एशले। यहां पहुंचें।
- स्रोत: https://www.kdnuggets.com/2023/04/dolly-20-chatgpt-open-source-alternative-commercial.html?utm_source=rss&utm_medium=rss&utm_campaign=dolly-2-0-chatgpt-open-source-alternative-for-commercial-use
- :हैस
- :है
- :नहीं
- $यूपी
- 000
- 1
- 20
- a
- क्षमता
- सक्रिय
- AI
- सब
- की अनुमति देता है
- वैकल्पिक
- an
- और
- जवाब
- किसी
- एपीआई
- आवेदन
- हैं
- चारों ओर
- लेखक
- उपलब्ध
- पुरस्कार
- आधारित
- BE
- मानक
- बर्कले
- बेहतर
- बड़ा
- बिंग
- ब्लॉग
- के छात्रों
- निर्माण
- इमारत
- by
- कर सकते हैं
- नही सकता
- प्रमाणित
- chatbot
- ChatGPT
- कोड
- वाणिज्यिक
- जन
- प्रतिस्पर्धा
- घटकों
- शामिल हैं
- सामग्री
- सामग्री निर्माण
- प्रतियोगिता
- लागत
- बनाना
- बनाया
- निर्माण
- वर्तमान में
- तिथि
- डेटा विज्ञान
- आँकड़े वाला वैज्ञानिक
- डाटब्रिक्स
- डेटासेट
- का फैसला किया
- डिग्री
- डेमो
- डिज़ाइन
- विकास
- डीआईडी
- मुश्किल
- नादान
- कर्मचारी
- कर्मचारियों
- अभियांत्रिकी
- मूल्यांकन
- प्रत्येक
- प्रदर्श
- चेहरा
- परिवार
- कुछ
- ध्यान केंद्रित
- निम्नलिखित
- के लिए
- से
- भविष्य
- उत्पन्न
- सृजन
- उत्पादक
- मिल
- ग्राफ
- ग्राफ तंत्रिका नेटवर्क
- है
- he
- उच्च गुणवत्ता
- रखती है
- एचटीएमएल
- HTTPS
- बीमारी
- की छवि
- in
- करें-
- रुचि
- मुद्दा
- मुद्दों
- IT
- जेपीजी
- केडनगेट्स
- भाषा
- बड़ा
- पिछली बार
- ताज़ा
- सीख रहा हूँ
- लाइसेंस
- पसंद
- मशीन
- यंत्र अधिगम
- प्रबंध
- मास्टर
- मानसिक
- मानसिक बीमारी
- हो सकता है
- आदर्श
- मॉडल
- संशोधित
- आवश्यकता
- नेटवर्क
- तंत्रिका
- तंत्रिका नेटवर्क
- नया
- of
- on
- केवल
- खुला
- खुला स्रोत
- OpenAI
- or
- मूल
- उत्पादन
- जोड़े
- प्राचल
- भाग लिया
- पीडीएफ
- प्रदर्शन
- पाइपलाइन
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- एस्ट्रो मॉल
- पेशेवर
- प्रयोजनों
- प्रश्न
- प्रशन
- रिहा
- अनुसंधान
- संकल्प
- प्रतिबंधित
- s
- वही
- विज्ञान
- वैज्ञानिक
- सेट
- कम
- आकार
- So
- कुछ
- स्रोत
- अंतरिक्ष
- रिक्त स्थान
- स्टैनफोर्ड
- शुरू
- राज्य के-the-कला
- राज्य
- संघर्ष
- छात्र
- उपयुक्त
- कृत्रिम
- सिंथेटिक डेटा
- कार्य
- टीम
- तकनीकी
- टेक्नोलॉजीज
- टेक्नोलॉजी
- दूरसंचार
- से
- कि
- RSI
- भविष्य
- वे
- इसका
- सेवा मेरे
- ऊपर का
- रेलगाड़ी
- प्रशिक्षित
- प्रशिक्षण
- के अंतर्गत
- आधारभूत
- अद्यतन
- उपयोग
- प्रयुक्त
- का उपयोग
- संस्करण
- दृष्टि
- था
- we
- सप्ताह
- थे
- क्या
- कौन कौन से
- कौन
- साथ में
- काम
- होगा
- लिख रहे हैं
- इसलिए आप
- जेफिरनेट