مصنف کی طرف سے تصویر | بنگ امیج تخلیق کار
ڈولی 2.0 ایک کھلا ذریعہ، ہدایات پر عمل کرنے والا، بڑی زبان کا ماڈل (LLM) ہے جسے انسانی تخلیق کردہ ڈیٹاسیٹ پر ٹھیک بنایا گیا تھا۔ اسے تحقیق اور تجارتی دونوں مقاصد کے لیے استعمال کیا جا سکتا ہے۔
سے تصویر چہرے کی جگہ کو گلے لگانا بذریعہ RamAnanth1
اس سے قبل، ڈیٹابرکس ٹیم نے جاری کیا تھا۔ ڈولی 1.0, LLM، جو قابلیت کے بعد ChatGPT جیسی ہدایات کی نمائش کرتا ہے اور تربیت کے لیے $30 سے کم لاگت آتی ہے۔ یہ اسٹینفورڈ الپاکا ٹیم ڈیٹاسیٹ استعمال کر رہا تھا، جو ایک محدود لائسنس کے تحت تھا (صرف تحقیق)۔
Dolly 2.0 نے 12B پیرامیٹر لینگویج ماڈل (پائیہیا) درج ذیل ڈیٹاسیٹ میں انسانی تخلیق کردہ اعلیٰ معیار کی ہدایات پر، جس پر Datbricks کے ملازم نے لیبل لگایا تھا۔ ماڈل اور ڈیٹاسیٹ دونوں تجارتی استعمال کے لیے دستیاب ہیں۔
Dolly 1.0 کو اسٹینفورڈ الپاکا ڈیٹاسیٹ پر تربیت دی گئی تھی، جسے OpenAI API کا استعمال کرتے ہوئے بنایا گیا تھا۔ ڈیٹاسیٹ ChatGPT سے آؤٹ پٹ پر مشتمل ہے اور کسی کو بھی اسے OpenAI کے ساتھ مقابلہ کرنے کے لیے استعمال کرنے سے روکتا ہے۔ مختصراً، آپ اس ڈیٹاسیٹ کی بنیاد پر تجارتی چیٹ بوٹ یا زبان کی ایپلی کیشن نہیں بنا سکتے۔
پچھلے چند ہفتوں میں جاری کیے گئے زیادہ تر جدید ترین ماڈلز انہی مسائل کا شکار ہیں، جیسے کہ ماڈل الپاکا, کوآلا, GPT4All، اور وکونا. گھومنے پھرنے کے لیے، ہمیں نئے اعلیٰ معیار کے ڈیٹا سیٹس بنانے کی ضرورت ہے جو تجارتی استعمال کے لیے استعمال کیے جا سکیں، اور یہی Databricks ٹیم نے databricks-dolly-15k ڈیٹاسیٹ کے ساتھ کیا ہے۔
نئے ڈیٹاسیٹ میں 15,000 اعلیٰ معیار کے انسانی لیبل والے پرامپٹ/رسپانس جوڑے ہیں جن کا استعمال بڑی زبان کے ماڈلز کو ترتیب دینے کے لیے ہدایات کو ڈیزائن کرنے کے لیے کیا جا سکتا ہے۔ دی databricks-dolly-15k ڈیٹا سیٹ کے ساتھ آتا ہے۔ Creative Commons Attribution-ShareAlike 3.0 Unported License، جو کسی کو بھی اسے استعمال کرنے، اس میں ترمیم کرنے اور اس پر ایک تجارتی ایپلیکیشن بنانے کی اجازت دیتا ہے۔
انہوں نے ڈیٹابرکس-ڈولی-15k ڈیٹاسیٹ کیسے بنایا؟
اوپن اے آئی تحقیق کاغذ بتاتا ہے کہ اصل InstructGPT ماڈل کو 13,000 اشارے اور جوابات پر تربیت دی گئی تھی۔ اس معلومات کو استعمال کرتے ہوئے، Databricks ٹیم نے اس پر کام کرنا شروع کیا، اور پتہ چلا کہ 13k سوالات اور جوابات پیدا کرنا ایک مشکل کام تھا۔ وہ مصنوعی ڈیٹا یا AI پیدا کرنے والا ڈیٹا استعمال نہیں کر سکتے، اور انہیں ہر سوال کے اصل جوابات تیار کرنے ہوتے ہیں۔ یہ وہ جگہ ہے جہاں انہوں نے ڈیٹابرکس کے 5,000 ملازمین کو انسانی تخلیق کردہ ڈیٹا بنانے کے لیے استعمال کرنے کا فیصلہ کیا ہے۔
ڈیٹابرکس نے ایک مقابلہ ترتیب دیا ہے، جس میں ٹاپ 20 لیبلرز کو بڑا ایوارڈ ملے گا۔ اس مقابلے میں ڈیٹابرکس کے 5,000 ملازمین نے حصہ لیا جو LLMs میں بہت دلچسپی رکھتے تھے۔
dolly-v2-12b کوئی جدید ترین ماڈل نہیں ہے۔ یہ کچھ تشخیصی معیارات میں dolly-v1-6b کو کم کارکردگی کا مظاہرہ کرتا ہے۔ یہ بنیادی فائن ٹیوننگ ڈیٹاسیٹس کی ساخت اور سائز کی وجہ سے ہو سکتا ہے۔ Dolly ماڈل فیملی فعال ترقی کے تحت ہے، لہذا آپ مستقبل میں بہتر کارکردگی کے ساتھ ایک اپ ڈیٹ شدہ ورژن دیکھ سکتے ہیں۔
مختصراً، dolly-v2-12b ماڈل نے EleutherAI/gpt-neox-20b اور EleutherAI/pythia-6.9b سے بہتر کارکردگی کا مظاہرہ کیا ہے۔
سے تصویر مفت ڈولی
Dolly 2.0 100% اوپن سورس ہے۔ یہ ٹریننگ کوڈ، ڈیٹاسیٹ، ماڈل ویٹ، اور انفرنس پائپ لائن کے ساتھ آتا ہے۔ تمام اجزاء تجارتی استعمال کے لیے موزوں ہیں۔ آپ Hugging Face Spaces پر ماڈل کو آزما سکتے ہیں۔ ڈولی V2 بذریعہ RamAnanth1.
سے تصویر گلے لگانے والا چہرہ
: وسائل
ڈولی 2.0 ڈیمو: ڈولی V2 بذریعہ RamAnanth1
عابد علی اعوان (@1abidaliawan) ایک سرٹیفائیڈ ڈیٹا سائنٹسٹ پروفیشنل ہے جو مشین لرننگ ماڈل بنانا پسند کرتا ہے۔ فی الحال، وہ مشین لرننگ اور ڈیٹا سائنس ٹیکنالوجیز پر مواد کی تخلیق اور تکنیکی بلاگ لکھنے پر توجہ دے رہا ہے۔ عابد کے پاس ٹیکنالوجی مینجمنٹ میں ماسٹر ڈگری اور ٹیلی کمیونیکیشن انجینئرنگ میں بیچلر ڈگری ہے۔ اس کا وژن دماغی بیماری کے ساتھ جدوجہد کرنے والے طلباء کے لیے گراف نیورل نیٹ ورک کا استعمال کرتے ہوئے ایک AI پروڈکٹ بنانا ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو بلاک چین۔ Web3 Metaverse Intelligence. علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- ایڈریین ایشلے کے ساتھ مستقبل کا نقشہ بنانا۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://www.kdnuggets.com/2023/04/dolly-20-chatgpt-open-source-alternative-commercial.html?utm_source=rss&utm_medium=rss&utm_campaign=dolly-2-0-chatgpt-open-source-alternative-for-commercial-use
- : ہے
- : ہے
- : نہیں
- $UP
- 000
- 1
- 20
- a
- کی صلاحیت
- فعال
- AI
- تمام
- کی اجازت دیتا ہے
- متبادل
- an
- اور
- جواب
- کسی
- اے پی آئی
- درخواست
- کیا
- ارد گرد
- مصنف
- دستیاب
- ایوارڈ
- کی بنیاد پر
- BE
- معیارات
- برکلے
- بہتر
- بگ
- بنگ
- بلاگز
- دونوں
- تعمیر
- عمارت
- by
- کر سکتے ہیں
- نہیں کر سکتے ہیں
- مصدقہ
- چیٹ بٹ
- چیٹ جی پی ٹی
- کوڈ
- تجارتی
- عمومی
- مقابلہ
- اجزاء
- پر مشتمل ہے
- مواد
- مواد کی تخلیق
- مقابلہ
- اخراجات
- تخلیق
- بنائی
- مخلوق
- اس وقت
- اعداد و شمار
- ڈیٹا سائنس
- ڈیٹا سائنسدان
- ڈیٹا بکس
- ڈیٹاسیٹس
- فیصلہ کیا
- ڈگری
- ڈیمو
- ڈیزائن
- ترقی
- DID
- مشکل
- ڈالی
- ملازم
- ملازمین
- انجنیئرنگ
- تشخیص
- ہر کوئی
- نمائش
- چہرہ
- خاندان
- چند
- توجہ مرکوز
- کے بعد
- کے لئے
- سے
- مستقبل
- پیدا
- پیدا کرنے والے
- پیداواری
- حاصل
- گراف
- گراف نیورل نیٹ ورک
- ہے
- he
- اعلی معیار کی
- کی ڈگری حاصل کی
- HTML
- HTTPS
- بیماری
- تصویر
- in
- معلومات
- دلچسپی
- مسئلہ
- مسائل
- IT
- فوٹو
- KDnuggets
- زبان
- بڑے
- آخری
- تازہ ترین
- سیکھنے
- لائسنس
- کی طرح
- مشین
- مشین لرننگ
- انتظام
- ماسٹر
- ذہنی
- ذہنی بیماری
- شاید
- ماڈل
- ماڈل
- نظر ثانی کرنے
- ضرورت ہے
- نیٹ ورک
- عصبی
- عصبی نیٹ ورک
- نئی
- of
- on
- صرف
- کھول
- اوپن سورس
- اوپنائی
- or
- اصل
- پیداوار
- جوڑے
- پیرامیٹر
- حصہ لیا
- کارکردگی
- پائپ لائن
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- مصنوعات
- پیشہ ورانہ
- مقاصد
- سوال
- سوالات
- جاری
- تحقیق
- حل کیا
- محدود
- s
- اسی
- سائنس
- سائنسدان
- مقرر
- مختصر
- سائز
- So
- کچھ
- ماخذ
- خلا
- خالی جگہیں
- اسٹینفورڈ
- شروع
- ریاستی آرٹ
- امریکہ
- جدوجہد
- طلباء
- موزوں
- مصنوعی
- مصنوعی ڈیٹا
- ٹاسک
- ٹیم
- ٹیکنیکل
- ٹیکنالوجی
- ٹیکنالوجی
- ٹیلی مواصلات
- سے
- کہ
- ۔
- مستقبل
- وہ
- اس
- کرنے کے لئے
- سب سے اوپر
- ٹرین
- تربیت یافتہ
- ٹریننگ
- کے تحت
- بنیادی
- اپ ڈیٹ
- استعمال کی شرائط
- استعمال کیا جاتا ہے
- کا استعمال کرتے ہوئے
- ورژن
- نقطہ نظر
- تھا
- we
- مہینے
- تھے
- کیا
- جس
- ڈبلیو
- ساتھ
- کام
- گا
- تحریری طور پر
- آپ
- زیفیرنیٹ