Dolly 2.0: ChatGPT جایگزین منبع باز برای استفاده تجاری

بازنشر افلاطون

دنبال: 0

Dolly 2.0: ChatGPT منبع باز جایگزین برای استفاده تجاری
تصویر از نویسنده | ایجاد کننده تصویر بینگ

دالی 2.0 یک مدل زبان بزرگ منبع باز، پیروی از دستورالعمل ها (LLM) است که به خوبی بر روی مجموعه داده های تولید شده توسط انسان تنظیم شده است. می توان از آن برای اهداف تحقیقاتی و تجاری استفاده کرد.

Dolly 2.0: ChatGPT منبع باز جایگزین برای استفاده تجاری
تصویر از Hugging Face Space اثر RamAnanth1

پیش از این، تیم Databricks منتشر شده بود دالی 1.0, LLM، که دستورالعمل‌های ChatGPT-مانند را به دنبال توانایی ارائه می‌دهد و هزینه آموزش آن کمتر از 30 دلار است. از مجموعه داده های تیم Stanford Alpaca استفاده می کرد که تحت یک مجوز محدود بود (فقط تحقیق).

Dolly 2.0 این مشکل را با تنظیم دقیق مدل زبان پارامتر 12B حل کرده است (پیتیا) بر روی یک دستورالعمل با کیفیت بالا تولید شده توسط انسان در مجموعه داده زیر، که توسط یک کارمند Datbricks برچسب گذاری شده است. هر دو مدل و مجموعه داده برای استفاده تجاری در دسترس هستند.

Dolly 1.0 بر روی مجموعه داده Stanford Alpaca آموزش داده شد که با استفاده از OpenAI API ایجاد شد. مجموعه داده حاوی خروجی ChatGPT است و از استفاده هر کسی برای رقابت با OpenAI جلوگیری می کند. به طور خلاصه، شما نمی توانید یک چت بات تجاری یا برنامه زبانی بر اساس این مجموعه داده بسازید.

اکثر آخرین مدل های عرضه شده در چند هفته اخیر از مشکلات مشابهی رنج می برند، مدل هایی مانند آلپاکا, کوآلا, GPT4Allو ویکونا. برای دور زدن، ما باید مجموعه داده‌های باکیفیت جدیدی ایجاد کنیم که بتوان از آنها برای استفاده تجاری استفاده کرد، و این کاری است که تیم Databricks با مجموعه داده databricks-dolly-15k انجام داده است.

مجموعه داده جدید شامل 15,000 جفت اعلان/پاسخ با برچسب انسانی با کیفیت بالا است که می‌توانند برای طراحی مدل‌های زبان بزرگ تنظیم دستورالعمل استفاده شوند. را databricks-dolly-15k مجموعه داده همراه است مجوز Creative Commons Attribution-ShareAlike 3.0 Unported، که به هر کسی اجازه می دهد از آن استفاده کند، آن را تغییر دهد و یک برنامه تجاری روی آن ایجاد کند.

چگونه مجموعه داده databricks-dolly-15k را ایجاد کردند؟

تحقیق OpenAI مقاله بیان می کند که مدل اصلی InstructGPT بر روی 13,000 درخواست و پاسخ آموزش داده شده است. با استفاده از این اطلاعات، تیم Databricks شروع به کار بر روی آن کرد و معلوم شد که ایجاد 13 هزار پرسش و پاسخ کار دشواری بوده است. آن‌ها نمی‌توانند از داده‌های مصنوعی یا داده‌های تولیدی هوش مصنوعی استفاده کنند و باید برای هر سؤال پاسخ‌های اصلی ایجاد کنند. اینجاست که آنها تصمیم گرفته اند از 5,000 کارمند Databricks برای ایجاد داده های تولید شده توسط انسان استفاده کنند.

Databricks مسابقه ای را راه اندازی کرده است که در آن 20 برچسب دهنده برتر جایزه بزرگی دریافت می کنند. در این مسابقه 5,000 کارمند Databricks که علاقه زیادی به LLM داشتند شرکت کردند

dolly-v2-12b یک مدل پیشرفته نیست. در برخی معیارهای ارزیابی عملکرد dolly-v1-6b را ندارد. ممکن است به دلیل ترکیب و اندازه مجموعه داده‌های تنظیم دقیق اساسی باشد. خانواده مدل Dolly در حال توسعه فعال است، بنابراین ممکن است در آینده یک نسخه به روز شده با عملکرد بهتر را مشاهده کنید.

به طور خلاصه، مدل dolly-v2-12b بهتر از EleutherAI/gpt-neox-20b و EleutherAI/pythia-6.9b عمل کرده است.

Dolly 2.0: ChatGPT منبع باز جایگزین برای استفاده تجاری
تصویر از دالی رایگان

Dolly 2.0 100% منبع باز است. همراه با کد آموزشی، مجموعه داده، وزن مدل و خط لوله استنتاج است. تمامی قطعات برای استفاده تجاری مناسب هستند. می توانید مدل را در Hugging Face Spaces امتحان کنید Dolly V2 توسط RamAnanth1.

Dolly 2.0: ChatGPT منبع باز جایگزین برای استفاده تجاری
تصویر از در آغوش کشیدن صورت

منبع:

نسخه ی نمایشی Dolly 2.0: Dolly V2 توسط RamAnanth1

عابد علی اعوان (@1abidaliawan) یک متخصص دانشمند داده معتبر است که عاشق ساخت مدل های یادگیری ماشینی است. در حال حاضر، او بر تولید محتوا و نوشتن وبلاگ های فنی در زمینه یادگیری ماشین و فناوری های علم داده تمرکز دارد. عابد دارای مدرک کارشناسی ارشد در رشته مدیریت فناوری و مدرک کارشناسی در رشته مهندسی مخابرات است. چشم انداز او ساخت یک محصول هوش مصنوعی با استفاده از یک شبکه عصبی نمودار برای دانش آموزانی است که با بیماری های روانی دست و پنجه نرم می کنند.