Dolly 2.0: بديل مفتوح المصدر لـ ChatGPT للاستخدام التجاري

أعاد نشره أفلاطون

المتابعون: 0

Dolly 2.0: بديل مفتوح المصدر ChatGPT للاستخدام التجاري
صورة من المؤلف | منشئ صور بنج

دوللي 2.0 هو نموذج لغة كبير مفتوح المصدر ، يتبع التعليمات ، تم ضبطه بدقة على مجموعة بيانات تم إنشاؤها بواسطة الإنسان. يمكن استخدامه للأغراض البحثية والتجارية.

Dolly 2.0: بديل مفتوح المصدر ChatGPT للاستخدام التجاري
صورة من مساحة تعانق الوجه بواسطة RamAnanth1

في السابق ، أطلق فريق Databricks دوللي 1.0، LLM ، التي تعرض تعليمات تشبه ChatGPT بعد القدرة وتكلفة التدريب أقل من 30 دولارًا. كانت تستخدم مجموعة بيانات فريق Stanford Alpaca ، والتي كانت بموجب ترخيص مقيد (للأبحاث فقط).

حل Dolly 2.0 هذه المشكلة عن طريق ضبط نموذج لغة معلمة 12B (بيثيا) على تعليمات عالية الجودة من صنع الإنسان في مجموعة البيانات التالية ، والتي تم تصنيفها بواسطة موظف Datbricks. يتوفر كل من الطراز ومجموعة البيانات للاستخدام التجاري.

تم تدريب Dolly 1.0 على مجموعة بيانات Stanford Alpaca ، والتي تم إنشاؤها باستخدام OpenAI API. تحتوي مجموعة البيانات على ناتج ChatGPT وتمنع أي شخص من استخدامه للتنافس مع OpenAI. باختصار ، لا يمكنك إنشاء روبوت محادثة تجاري أو تطبيق لغة بناءً على مجموعة البيانات هذه.

عانت معظم أحدث الموديلات التي تم إصدارها في الأسابيع القليلة الماضية من نفس المشكلات ، مثل عارضات الأزياء صوف الألبكة, الكوال دب أسترالي, GPT4 الكلو فيكونيا. للتجول ، نحتاج إلى إنشاء مجموعات بيانات جديدة عالية الجودة يمكن استخدامها للاستخدام التجاري ، وهذا ما فعله فريق Databricks مع مجموعة البيانات databricks-dolly-15k.

تحتوي مجموعة البيانات الجديدة على 15,000 زوج من الأزواج السريعة / الاستجابة عالية الجودة التي يمكن استخدامها لتصميم تعليمات لضبط نماذج اللغة الكبيرة. ال databricks-دوللي-15 كيلو تأتي مجموعة البيانات مع Creative Commons Attribution-ShareAlike 3.0 ترخيص Unportedوالذي يسمح لأي شخص باستخدامه وتعديله وإنشاء تطبيق تجاري عليه.

كيف أنشأوا مجموعة البيانات databricks-dolly-15k؟

بحث OpenAI ورقة تنص على أن نموذج InstructGPT الأصلي قد تم تدريبه على 13,000 مطالبة واستجابة. باستخدام هذه المعلومات ، بدأ فريق Databricks العمل عليها ، واتضح أن إنشاء 13 ألف سؤال وإجابات كان مهمة صعبة. لا يمكنهم استخدام البيانات التركيبية أو البيانات المولدة للذكاء الاصطناعي ، وعليهم إنشاء إجابات أصلية لكل سؤال. هذا هو المكان الذي قرروا فيه استخدام 5,000 موظف في Databricks لإنشاء بيانات من صنع الإنسان.

أقامت Databricks مسابقة ، حيث سيحصل أفضل 20 صانعًا على جائزة كبيرة. في هذه المسابقة ، شارك 5,000 موظف Databricks وكانوا مهتمين جدًا بـ LLMs

لا يعد الطراز dolly-v2-12b نموذجًا متطورًا. إنه أقل من أداء dolly-v1-6b في بعض معايير التقييم. قد يرجع ذلك إلى تكوين مجموعات البيانات الأساسية التي يتم ضبطها وحجمها. عائلة طراز Dolly قيد التطوير النشط ، لذلك قد ترى إصدارًا محدثًا بأداء أفضل في المستقبل.

باختصار ، كان أداء نموذج dolly-v2-12b أفضل من EleutherAI / gpt-neox-20b و EleutherAI / pythia-6.9b.

Dolly 2.0: بديل مفتوح المصدر ChatGPT للاستخدام التجاري
صورة من دوللي الحرة

Dolly 2.0 مفتوح المصدر بنسبة 100٪. يأتي مع رمز التدريب ومجموعة البيانات وأوزان النموذج وخط أنابيب الاستدلال. جميع المكونات مناسبة للاستخدام التجاري. يمكنك تجربة النموذج على Hugging Face Spaces Dolly V2 بواسطة RamAnanth1.

Dolly 2.0: بديل مفتوح المصدر ChatGPT للاستخدام التجاري
صورة من وجه يعانق

الموارد:

عرض Dolly 2.0: Dolly V2 بواسطة RamAnanth1

عابد علي عوان (@ 1abidaliawan) هو عالم بيانات متخصص محترف يحب بناء نماذج التعلم الآلي. يركز حاليًا على إنشاء المحتوى وكتابة مدونات تقنية حول تقنيات التعلم الآلي وعلوم البيانات. عابد حاصل على درجة الماجستير في إدارة التكنولوجيا ودرجة البكالوريوس في هندسة الاتصالات. تتمثل رؤيته في بناء منتج للذكاء الاصطناعي باستخدام شبكة عصبية بيانية للطلاب الذين يعانون من مرض عقلي.