Dolly 2.0: Alternatif Sumber Terbuka ChatGPT Untuk Penggunaan Komersial

Diterbitkan Ulang Oleh Plato

Followers: 0

Dolly 2.0: Alternatif Sumber Terbuka ChatGPT untuk Penggunaan Komersial
Gambar dari Penulis | Pembuat Gambar Bing

boneka 2.0 adalah model bahasa besar (LLM) sumber terbuka, diikuti instruksi, yang disesuaikan dengan baik pada kumpulan data yang dihasilkan manusia. Ini dapat digunakan untuk tujuan penelitian dan komersial.

Dolly 2.0: Alternatif Sumber Terbuka ChatGPT untuk Penggunaan Komersial
Gambar dari Memeluk Ruang Wajah oleh RamAnanth1

Sebelumnya, tim Databricks merilis boneka 1.0, LLM, yang menunjukkan kemampuan mengikuti instruksi seperti ChatGPT dan biaya pelatihan kurang dari $30. Itu menggunakan kumpulan data tim Stanford Alpaca, yang berada di bawah lisensi terbatas (Hanya penelitian).

Dolly 2.0 telah mengatasi masalah ini dengan menyempurnakan model bahasa parameter 12B (pythia) pada instruksi buatan manusia berkualitas tinggi dalam kumpulan data berikut, yang diberi label oleh karyawan Datbricks. Model dan kumpulan data tersedia untuk penggunaan komersial.

Dolly 1.0 dilatih menggunakan dataset Stanford Alpaca, yang dibuat menggunakan OpenAI API. Kumpulan data berisi keluaran dari ChatGPT dan mencegah siapa pun menggunakannya untuk bersaing dengan OpenAI. Singkatnya, Anda tidak dapat membuat chatbot komersial atau aplikasi bahasa berdasarkan kumpulan data ini.

Sebagian besar model terbaru yang dirilis dalam beberapa minggu terakhir mengalami masalah yang sama, seperti model kambing peru, Koala, GPT4Semua, dan Vicuna. Untuk menyiasatinya, kami perlu membuat kumpulan data baru berkualitas tinggi yang dapat digunakan untuk penggunaan komersial, dan itulah yang telah dilakukan oleh tim Databricks dengan kumpulan data databricks-dolly-15k.

Dataset baru ini berisi 15,000 pasangan prompt/respons berlabel manusia berkualitas tinggi yang dapat digunakan untuk mendesain model penyetelan instruksi bahasa besar. Itu databricks-dolly-15k kumpulan data disertakan Lisensi Creative Commons Attribution-ShareAlike 3.0 Unported, yang memungkinkan siapa saja untuk menggunakannya, memodifikasinya, dan membuat aplikasi komersial di dalamnya.

Bagaimana mereka membuat kumpulan data databricks-dolly-15k?

Penelitian OpenAI kertas menyatakan bahwa model InstructGPT asli dilatih pada 13,000 prompt dan respons. Dengan menggunakan informasi ini, tim Databricks mulai mengerjakannya, dan ternyata menghasilkan 13k pertanyaan dan jawaban adalah tugas yang sulit. Mereka tidak dapat menggunakan data sintetik atau data generatif AI, dan mereka harus menghasilkan jawaban orisinal untuk setiap pertanyaan. Di sinilah mereka memutuskan untuk menggunakan 5,000 karyawan Databricks untuk membuat data buatan manusia.

Databricks telah membuat sebuah kontes, di mana 20 pemberi label teratas akan mendapatkan penghargaan besar. Dalam kontes ini, 5,000 karyawan Databricks berpartisipasi yang sangat tertarik dengan LLM

Dolly-v2-12b bukanlah model yang canggih. Ini berkinerja buruk dolly-v1-6b di beberapa tolok ukur evaluasi. Mungkin karena komposisi dan ukuran set data fine-tuning yang mendasarinya. Keluarga model Dolly sedang dalam pengembangan aktif, jadi Anda mungkin melihat versi terbaru dengan kinerja yang lebih baik di masa mendatang.

Singkatnya, model dolly-v2-12b memiliki kinerja yang lebih baik daripada EleutherAI/gpt-neox-20b dan EleutherAI/pythia-6.9b.

Dolly 2.0: Alternatif Sumber Terbuka ChatGPT untuk Penggunaan Komersial
Gambar dari Dolly gratis

Dolly 2.0 adalah 100% sumber terbuka. Muncul dengan kode pelatihan, kumpulan data, bobot model, dan pipa inferensi. Semua komponen cocok untuk penggunaan komersial. Anda bisa mencoba modelnya di Hugging Face Spaces Dolly V2 oleh RamAnanth1.

Dolly 2.0: Alternatif Sumber Terbuka ChatGPT untuk Penggunaan Komersial
Gambar dari Wajah Memeluk

Sumber:

Demo Dolly 2.0: Dolly V2 oleh RamAnanth1

Abi Ali Awan (@1abidaliawan) adalah ilmuwan data profesional bersertifikat yang suka membuat model pembelajaran mesin. Saat ini, ia berfokus pada pembuatan konten dan penulisan blog teknis tentang pembelajaran mesin dan teknologi ilmu data. Abid memiliki gelar Magister Manajemen Teknologi dan gelar Sarjana Teknik Telekomunikasi. Visinya adalah untuk membangun produk AI menggunakan jaringan saraf grafik untuk siswa yang berjuang dengan penyakit mental.