תמונה מאת מחבר | Bing Image Creator
דולי 2.0 הוא מודל שפה גדול (LLM) בקוד פתוח, בעקבות הוראות, אשר כוונן היטב על מערך נתונים שנוצר על ידי אדם. זה יכול לשמש הן למטרות מחקר והן למטרות מסחריות.
תמונה מתוך חיבוק פנים חלל מאת RamAnanth1
בעבר, צוות Databricks פרסם דולי 1.0, LLM, שמציג הדרכה דמוית ChatGPT בעקבות יכולת ועולה פחות מ-$30 לאימון. הוא השתמש במערך הנתונים של צוות Stanford Alpaca, שהיה תחת רישיון מוגבל (מחקר בלבד).
דולי 2.0 פתרה בעיה זו על ידי כוונון עדין של מודל שפת הפרמטרים 12B (פיתיה) על הוראה איכותית שנוצרה על ידי אדם במערך הנתונים הבא, שסומנה על ידי עובד Datbricks. גם הדגם וגם מערך הנתונים זמינים לשימוש מסחרי.
Dolly 1.0 הוכשרה על מערך נתונים של Stanford Alpaca, שנוצר באמצעות OpenAI API. מערך הנתונים מכיל את הפלט מ-ChatGPT ומונע מאף אחד להשתמש בו כדי להתחרות ב-OpenAI. בקיצור, אתה לא יכול לבנות צ'טבוט מסחרי או יישום שפה המבוסס על מערך הנתונים הזה.
רוב הדגמים האחרונים שיצאו בשבועות האחרונים סבלו מאותן בעיות, כמו דגמים אלפקה, קוֹאָלָה, GPT4All, ו ויסונה. כדי להתמצא, אנחנו צריכים ליצור מערכי נתונים חדשים באיכות גבוהה שיכולים לשמש לשימוש מסחרי, וזה מה שצוות Databricks עשה עם מערך הנתונים dataabricks-dolly-15k.
מערך הנתונים החדש מכיל 15,000 צמדי הנחיה/תגובות באיכות גבוהה עם תווית אנושית, שניתן להשתמש בהם כדי לעצב הוראות לכוונון מודלים של שפות גדולות. ה databricks-dolly-15k מערך הנתונים מגיע עם רישיון Creative Commons ייחוס-שיתוף זהה 3.0 Unported, המאפשר לכל אחד להשתמש בו, לשנות אותו וליצור עליו אפליקציה מסחרית.
איך הם יצרו את מערך הנתונים dataabricks-dolly-15k?
המחקר של OpenAI מאמר מציין כי מודל ה-InstructGPT המקורי הוכשר על 13,000 הנחיות ותגובות. על ידי שימוש במידע זה, צוות Databricks התחיל לעבוד עליו, ומתברר שיצירת 13 שאלות ותשובות הייתה משימה קשה. הם לא יכולים להשתמש בנתונים סינתטיים או בנתונים מחוללים בינה מלאכותית, והם צריכים ליצור תשובות מקוריות לכל שאלה. זה המקום שבו הם החליטו להשתמש ב-5,000 עובדים של Databricks כדי ליצור נתונים שנוצרו על ידי אדם.
ה-Databricks הקימו תחרות, שבה 20 הלייבלים המובילים יקבלו פרס גדול. בתחרות זו השתתפו 5,000 עובדי Databricks שהתעניינו מאוד בלימודי LLM
ה-dolly-v2-12b אינו דגם חדיש. הוא מתפקד פחות מ-dolly-v1-6b בכמה מדדי הערכה. ייתכן שזה נובע מההרכב והגודל של מערכי הנתונים לכוונון העדין הבסיסיים. משפחת הדגמים של דולי נמצאת בפיתוח פעיל, אז אולי תראה גרסה מעודכנת עם ביצועים טובים יותר בעתיד.
בקיצור, מודל dolly-v2-12b הציג ביצועים טובים יותר מאשר EleutherAI/gpt-neox-20b ו-EleutherAI/pythia-6.9b.
תמונה מתוך לשחרר את דולי
דולי 2.0 הוא 100% קוד פתוח. זה מגיע עם קוד אימון, מערך נתונים, משקלי מודל וצינור מסקנות. כל הרכיבים מתאימים לשימוש מסחרי. אתה יכול לנסות את הדגם ב-Huging Face Spaces דולי V2 מאת RamAnanth1.
תמונה מתוך פנים מחבקות
משאבים:
הדגמה של דולי 2.0: דולי V2 מאת RamAnanth1
עביד עלי אוואן (@1abidaliawan) הוא איש מקצוע מוסמך של מדען נתונים שאוהב לבנות מודלים של למידת מכונה. נכון לעכשיו, הוא מתמקד ביצירת תוכן וכתיבת בלוגים טכניים על למידת מכונה וטכנולוגיות מדעי נתונים. עביד הוא בעל תואר שני בניהול טכנולוגיה ותואר ראשון בהנדסת טלקומוניקציה. החזון שלו הוא לבנות מוצר בינה מלאכותית באמצעות רשת עצבית גרפית עבור תלמידים הנאבקים במחלות נפש.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה כאן.
- הטבעת העתיד עם אדריאן אשלי. גישה כאן.
- מקור: https://www.kdnuggets.com/2023/04/dolly-20-chatgpt-open-source-alternative-commercial.html?utm_source=rss&utm_medium=rss&utm_campaign=dolly-2-0-chatgpt-open-source-alternative-for-commercial-use
- :יש ל
- :הוא
- :לֹא
- $ למעלה
- 000
- 1
- 20
- a
- יכולת
- פעיל
- AI
- תעשיות
- מאפשר
- חלופה
- an
- ו
- תשובות
- כל אחד
- API
- בקשה
- ARE
- סביב
- מחבר
- זמין
- פרס
- מבוסס
- BE
- מבחני ביצועים
- ברקלי
- מוטב
- גָדוֹל
- בינג
- בלוגים
- שניהם
- לִבנוֹת
- בִּניָן
- by
- CAN
- לא יכול
- מוסמך
- chatbot
- ChatGPT
- קוד
- מסחרי
- המון עם
- להתחרות
- רכיבים
- מכיל
- תוכן
- יצירת תוכן
- תחרות
- עלויות
- לִיצוֹר
- נוצר
- יצירה
- כיום
- נתונים
- מדע נתונים
- מדען נתונים
- דאטבריקס
- מערכי נתונים
- החליט
- תואר
- הַדגָמָה
- עיצוב
- צעצועי התפתחות
- DID
- קשה
- מַבחֵשׁ
- עובד
- עובדים
- הנדסה
- הערכה
- כל
- מוצגים
- פָּנִים
- משפחה
- מעטים
- התמקדות
- הבא
- בעד
- החל מ-
- עתיד
- ליצור
- יצירת
- גנרטטיבית
- לקבל
- גרף
- גרף רשת עצבית
- יש
- he
- באיכות גבוהה
- מחזיק
- HTML
- HTTPS
- מחלה
- תמונה
- in
- מידע
- מעוניין
- סוגיה
- בעיות
- IT
- jpg
- KDnuggets
- שפה
- גָדוֹל
- אחרון
- האחרון
- למידה
- רישיון
- כמו
- מכונה
- למידת מכונה
- ניהול
- אב
- נפשי
- מחלת נפש
- יכול
- מודל
- מודלים
- לשנות
- צורך
- רשת
- עצביים
- רשת עצבית
- חדש
- of
- on
- רק
- לפתוח
- קוד פתוח
- OpenAI
- or
- מְקוֹרִי
- תפוקה
- זוגות
- פרמטר
- השתתף
- ביצועים
- צינור
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- המוצר
- מקצועי
- למטרות
- שאלה
- שאלות
- שוחרר
- מחקר
- נפתרה
- מוגבל
- s
- אותו
- מדע
- מַדְעָן
- סט
- קצר
- מידה
- So
- כמה
- מָקוֹר
- מֶרחָב
- רווחים
- סטנפורד
- החל
- מדינה-of-the-art
- הברית
- נאבק
- סטודנטים
- מַתְאִים
- סינטטי
- נתונים סינתטיים
- המשימות
- נבחרת
- טכני
- טכנולוגיות
- טכנולוגיה
- טֵלֵקוֹמוּנִיקַציָה
- מֵאֲשֶׁר
- זֶה
- השמיים
- העתיד
- הֵם
- זֶה
- ל
- חלק עליון
- רכבת
- מְאוּמָן
- הדרכה
- תחת
- בְּסִיסִי
- מְעוּדכָּן
- להשתמש
- מְשׁוּמָשׁ
- באמצעות
- גרסה
- חזון
- היה
- we
- שבועות
- היו
- מה
- אשר
- מי
- עם
- תיק עבודות
- היה
- כתיבה
- אתה
- זפירנט