Dolly 2.0: ChatGPT אלטרנטיבה בקוד פתוח לשימוש מסחרי

הועלה מחדש על ידי אפלטון

עוקב: 0

Dolly 2.0: ChatGPT אלטרנטיבה בקוד פתוח לשימוש מסחרי
תמונה מאת מחבר | Bing Image Creator

דולי 2.0 הוא מודל שפה גדול (LLM) בקוד פתוח, בעקבות הוראות, אשר כוונן היטב על מערך נתונים שנוצר על ידי אדם. זה יכול לשמש הן למטרות מחקר והן למטרות מסחריות.

Dolly 2.0: ChatGPT אלטרנטיבה בקוד פתוח לשימוש מסחרי
תמונה מתוך חיבוק פנים חלל מאת RamAnanth1

בעבר, צוות Databricks פרסם דולי 1.0, LLM, שמציג הדרכה דמוית ChatGPT בעקבות יכולת ועולה פחות מ-$30 לאימון. הוא השתמש במערך הנתונים של צוות Stanford Alpaca, שהיה תחת רישיון מוגבל (מחקר בלבד).

דולי 2.0 פתרה בעיה זו על ידי כוונון עדין של מודל שפת הפרמטרים 12B (פיתיה) על הוראה איכותית שנוצרה על ידי אדם במערך הנתונים הבא, שסומנה על ידי עובד Datbricks. גם הדגם וגם מערך הנתונים זמינים לשימוש מסחרי.

Dolly 1.0 הוכשרה על מערך נתונים של Stanford Alpaca, שנוצר באמצעות OpenAI API. מערך הנתונים מכיל את הפלט מ-ChatGPT ומונע מאף אחד להשתמש בו כדי להתחרות ב-OpenAI. בקיצור, אתה לא יכול לבנות צ'טבוט מסחרי או יישום שפה המבוסס על מערך הנתונים הזה.

רוב הדגמים האחרונים שיצאו בשבועות האחרונים סבלו מאותן בעיות, כמו דגמים אלפקה, קוֹאָלָה, GPT4All, ו ויסונה. כדי להתמצא, אנחנו צריכים ליצור מערכי נתונים חדשים באיכות גבוהה שיכולים לשמש לשימוש מסחרי, וזה מה שצוות Databricks עשה עם מערך הנתונים dataabricks-dolly-15k.

מערך הנתונים החדש מכיל 15,000 צמדי הנחיה/תגובות באיכות גבוהה עם תווית אנושית, שניתן להשתמש בהם כדי לעצב הוראות לכוונון מודלים של שפות גדולות. ה databricks-dolly-15k מערך הנתונים מגיע עם רישיון Creative Commons ייחוס-שיתוף זהה 3.0 Unported, המאפשר לכל אחד להשתמש בו, לשנות אותו וליצור עליו אפליקציה מסחרית.

איך הם יצרו את מערך הנתונים dataabricks-dolly-15k?

המחקר של OpenAI מאמר מציין כי מודל ה-InstructGPT המקורי הוכשר על 13,000 הנחיות ותגובות. על ידי שימוש במידע זה, צוות Databricks התחיל לעבוד עליו, ומתברר שיצירת 13 שאלות ותשובות הייתה משימה קשה. הם לא יכולים להשתמש בנתונים סינתטיים או בנתונים מחוללים בינה מלאכותית, והם צריכים ליצור תשובות מקוריות לכל שאלה. זה המקום שבו הם החליטו להשתמש ב-5,000 עובדים של Databricks כדי ליצור נתונים שנוצרו על ידי אדם.

ה-Databricks הקימו תחרות, שבה 20 הלייבלים המובילים יקבלו פרס גדול. בתחרות זו השתתפו 5,000 עובדי Databricks שהתעניינו מאוד בלימודי LLM

ה-dolly-v2-12b אינו דגם חדיש. הוא מתפקד פחות מ-dolly-v1-6b בכמה מדדי הערכה. ייתכן שזה נובע מההרכב והגודל של מערכי הנתונים לכוונון העדין הבסיסיים. משפחת הדגמים של דולי נמצאת בפיתוח פעיל, אז אולי תראה גרסה מעודכנת עם ביצועים טובים יותר בעתיד.

בקיצור, מודל dolly-v2-12b הציג ביצועים טובים יותר מאשר EleutherAI/gpt-neox-20b ו-EleutherAI/pythia-6.9b.

Dolly 2.0: ChatGPT אלטרנטיבה בקוד פתוח לשימוש מסחרי
תמונה מתוך לשחרר את דולי

דולי 2.0 הוא 100% קוד פתוח. זה מגיע עם קוד אימון, מערך נתונים, משקלי מודל וצינור מסקנות. כל הרכיבים מתאימים לשימוש מסחרי. אתה יכול לנסות את הדגם ב-Huging Face Spaces דולי V2 מאת RamAnanth1.

Dolly 2.0: ChatGPT אלטרנטיבה בקוד פתוח לשימוש מסחרי
תמונה מתוך פנים מחבקות

משאבים:

הדגמה של דולי 2.0: דולי V2 מאת RamAnanth1

עביד עלי אוואן (@1abidaliawan) הוא איש מקצוע מוסמך של מדען נתונים שאוהב לבנות מודלים של למידת מכונה. נכון לעכשיו, הוא מתמקד ביצירת תוכן וכתיבת בלוגים טכניים על למידת מכונה וטכנולוגיות מדעי נתונים. עביד הוא בעל תואר שני בניהול טכנולוגיה ותואר ראשון בהנדסת טלקומוניקציה. החזון שלו הוא לבנות מוצר בינה מלאכותית באמצעות רשת עצבית גרפית עבור תלמידים הנאבקים במחלות נפש.