Dolly 2.0: ทางเลือกโอเพ่นซอร์ส ChatGPT สำหรับใช้ในเชิงพาณิชย์

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

Dolly 2.0: ทางเลือกโอเพ่นซอร์ส ChatGPT สำหรับใช้ในเชิงพาณิชย์
ภาพจากผู้เขียน | ผู้สร้างรูปภาพ Bing

ดอลลี่ 2.0 เป็นโมเดลภาษาขนาดใหญ่ (LLM) แบบโอเพ่นซอร์สที่ทำตามคำสั่งซึ่งได้รับการปรับแต่งอย่างละเอียดบนชุดข้อมูลที่มนุษย์สร้างขึ้น สามารถใช้เพื่อวัตถุประสงค์ในการวิจัยและการค้า

Dolly 2.0: ทางเลือกโอเพ่นซอร์ส ChatGPT สำหรับใช้ในเชิงพาณิชย์
ภาพจาก Hugging Face Space โดย รามอนันธ์1

ก่อนหน้านี้ทีมงาน Databricks ได้ปล่อย ดอลลี่ 1.0, LLM ซึ่งแสดงคำสั่งเหมือน ChatGPT ตามความสามารถและมีค่าใช้จ่ายน้อยกว่า $30 ในการฝึกอบรม มันใช้ชุดข้อมูลของทีม Stanford Alpaca ซึ่งอยู่ภายใต้ใบอนุญาตแบบจำกัด (การวิจัยเท่านั้น)

Dolly 2.0 ได้แก้ไขปัญหานี้โดยการปรับโมเดลภาษาพารามิเตอร์ 12B แบบละเอียด (พีเธีย) ในคำแนะนำคุณภาพสูงที่มนุษย์สร้างขึ้นในชุดข้อมูลต่อไปนี้ ซึ่งระบุโดยพนักงานของ Datbricks ทั้งโมเดลและชุดข้อมูลพร้อมใช้งานในเชิงพาณิชย์

Dolly 1.0 ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูล Stanford Alpaca ซึ่งสร้างขึ้นโดยใช้ OpenAI API ชุดข้อมูลมีผลลัพธ์จาก ChatGPT และป้องกันไม่ให้ใครก็ตามใช้มันเพื่อแข่งขันกับ OpenAI กล่าวโดยย่อ คุณไม่สามารถสร้างแชทบอทเชิงพาณิชย์หรือแอปพลิเคชันภาษาตามชุดข้อมูลนี้ได้

รุ่นล่าสุดส่วนใหญ่ที่เปิดตัวในช่วงสองสามสัปดาห์ที่ผ่านมาประสบปัญหาเดียวกัน เช่น รุ่นต่างๆ สัตว์ขนยาวในอเมริกาคล้ายแกะ, หมีโคอาล่า, GPT4 ทั้งหมดและ วิคูนา. ในการหลีกเลี่ยง เราจำเป็นต้องสร้างชุดข้อมูลใหม่ที่มีคุณภาพสูงซึ่งสามารถนำไปใช้ในเชิงพาณิชย์ได้ และนั่นคือสิ่งที่ทีม Databricks ทำกับชุดข้อมูล databricks-dolly-15k

ชุดข้อมูลใหม่ประกอบด้วยคู่พรอมต์/การตอบสนองที่มีป้ายกำกับโดยมนุษย์คุณภาพสูง 15,000 คู่ ซึ่งสามารถใช้ในการออกแบบคำสั่งปรับแต่งโมเดลภาษาขนาดใหญ่ เดอะ databricks-ดอลลี่-15k ชุดข้อมูลมาพร้อมกับ Creative Commons Attribution-ShareAlike 3.0 ใบอนุญาตที่ไม่ได้รับอนุญาตซึ่งอนุญาตให้ทุกคนใช้ แก้ไข และสร้างแอปพลิเคชันเชิงพาณิชย์ได้

พวกเขาสร้างชุดข้อมูล databricks-dolly-15k ได้อย่างไร

การวิจัย OpenAI กระดาษ ระบุว่าโมเดล InstructGPT ดั้งเดิมได้รับการฝึกอบรมเกี่ยวกับข้อความแจ้งและการตอบสนอง 13,000 รายการ ด้วยการใช้ข้อมูลนี้ ทีม Databricks เริ่มทำงานกับข้อมูลนี้ และกลายเป็นว่าการสร้างคำถามและคำตอบ 13 ข้อเป็นงานที่ยาก พวกเขาไม่สามารถใช้ข้อมูลสังเคราะห์หรือข้อมูลกำเนิด AI และพวกเขาต้องสร้างคำตอบดั้งเดิมสำหรับทุกคำถาม นี่คือจุดที่พวกเขาตัดสินใจใช้พนักงาน 5,000 คนของ Databricks เพื่อสร้างข้อมูลที่มนุษย์สร้างขึ้น

Databricks ได้จัดการแข่งขันซึ่งผู้ติดฉลาก 20 อันดับแรกจะได้รับรางวัลใหญ่ ในการแข่งขันครั้งนี้ มีพนักงาน Databricks 5,000 คนที่มีความสนใจใน LLM เป็นอย่างมาก

Dolly-v2-12b ไม่ใช่รุ่นที่ล้ำสมัย มันมีประสิทธิภาพต่ำกว่า dolly-v1-6b ในเกณฑ์มาตรฐานการประเมินบางรายการ อาจเป็นเพราะองค์ประกอบและขนาดของชุดข้อมูลที่ปรับแต่งอย่างละเอียด ตระกูลรุ่น Dolly อยู่ระหว่างการพัฒนา ดังนั้นคุณอาจเห็นรุ่นอัปเดตที่มีประสิทธิภาพดีกว่าในอนาคต

กล่าวโดยย่อ โมเดล dolly-v2-12b ทำงานได้ดีกว่า EleutherAI/gpt-neox-20b และ EleutherAI/pythia-6.9b

Dolly 2.0: ทางเลือกโอเพ่นซอร์ส ChatGPT สำหรับใช้ในเชิงพาณิชย์
ภาพจาก ฟรีดอลลี่

Dolly 2.0 เป็นโอเพ่นซอร์ส 100% มันมาพร้อมกับรหัสการฝึกอบรม ชุดข้อมูล น้ำหนักแบบจำลอง และไปป์ไลน์การอนุมาน ส่วนประกอบทั้งหมดเหมาะสำหรับใช้ในเชิงพาณิชย์ คุณสามารถลองใช้โมเดลได้ที่ Hugging Face Spaces ดอลลี่ V2 โดย รามอนันท์1.

Dolly 2.0: ทางเลือกโอเพ่นซอร์ส ChatGPT สำหรับใช้ในเชิงพาณิชย์
ภาพจาก กอดหน้า

ทรัพยากร:

ดอลลี่ 2.0 การสาธิต: ดอลลี่ V2 โดย รามอนันท์1

อาบิด อาลี อาวัน (@1อบีดาลิวัน) เป็นนักวิทยาศาสตร์ข้อมูลที่ได้รับการรับรองมืออาชีพที่รักการสร้างแบบจำลองการเรียนรู้ของเครื่อง ปัจจุบันเขามุ่งเน้นไปที่การสร้างเนื้อหาและการเขียนบล็อกทางเทคนิคเกี่ยวกับการเรียนรู้ของเครื่องและเทคโนโลยีวิทยาศาสตร์ข้อมูล อาบิดสำเร็จการศึกษาระดับปริญญาโทด้านการจัดการเทคโนโลยีและปริญญาตรีสาขาวิศวกรรมโทรคมนาคม วิสัยทัศน์ของเขาคือการสร้างผลิตภัณฑ์ AI โดยใช้โครงข่ายประสาทเทียมแบบกราฟสำหรับนักเรียนที่ป่วยเป็นโรคทางจิต