Cara yang Lebih Baik Untuk Mengevaluasi LLM - KDnuggets

Diterbitkan Ulang Oleh Plato

Followers: 0

Kemajuan terkini dalam pengembangan LLM telah mempopulerkan penggunaannya untuk beragam tugas NLP yang sebelumnya ditangani menggunakan metode pembelajaran mesin lama. Model bahasa besar mampu memecahkan berbagai masalah bahasa seperti klasifikasi, peringkasan, pengambilan informasi, pembuatan konten, menjawab pertanyaan, dan mempertahankan percakapan — semuanya hanya menggunakan satu model. Namun bagaimana kita tahu bahwa mereka melakukan tugasnya dengan baik dalam semua tugas yang berbeda ini?

Munculnya LLM telah mengungkap masalah yang belum terselesaikan: kita tidak memiliki standar yang dapat diandalkan untuk mengevaluasinya. Apa yang membuat evaluasi lebih sulit adalah bahwa evaluasi tersebut digunakan untuk tugas-tugas yang sangat beragam dan kami tidak memiliki definisi yang jelas tentang jawaban yang baik untuk setiap kasus penggunaan.

Artikel ini membahas pendekatan terkini untuk mengevaluasi LLM dan memperkenalkan papan peringkat LLM baru yang memanfaatkan evaluasi manusia yang meningkatkan teknik evaluasi yang ada.

Bentuk evaluasi awal yang pertama dan biasa dilakukan adalah menjalankan model pada beberapa kumpulan data yang dikurasi dan memeriksa kinerjanya. HuggingFace membuat Buka Papan Peringkat LLM di mana model besar akses terbuka dievaluasi menggunakan empat kumpulan data terkenal (Tantangan Penalaran AI2 , HellaSwag , MMLU , JujurQA). Hal ini berhubungan dengan evaluasi otomatis dan memeriksa kemampuan model untuk mendapatkan fakta untuk beberapa pertanyaan spesifik.

Ini adalah contoh pertanyaan dari MMLU Himpunan data.

Subyek: perguruan tinggi_kedokteran

Pertanyaan: Efek samping yang diharapkan dari suplementasi kreatin adalah.

A) kelemahan otot
B) pertambahan massa tubuh
C) kram otot
D) hilangnya elektrolit

Jawaban: (B)

Pemberian skor pada model untuk menjawab pertanyaan jenis ini merupakan metrik yang penting dan berfungsi dengan baik untuk pengecekan fakta, namun hal ini tidak menguji kemampuan generatif model. Ini mungkin kelemahan terbesar dari metode evaluasi ini karena menghasilkan teks bebas adalah salah satu fitur terpenting LLM.

Tampaknya ada konsensus dalam komunitas bahwa untuk mengevaluasi model dengan benar kita memerlukan evaluasi manusia. Hal ini biasanya dilakukan dengan membandingkan tanggapan dari model yang berbeda.

Cara yang Lebih Baik Untuk Mengevaluasi LLM
Membandingkan dua penyelesaian cepat dalam proyek LMSYS – tangkapan layar oleh Penulis

Anotator memutuskan respons mana yang lebih baik, seperti terlihat pada contoh di atas, dan terkadang menghitung perbedaan kualitas penyelesaian cepat. Organisasi LMSYS telah membuat a leaderboard yang menggunakan jenis evaluasi manusia ini dan membandingkan 17 model berbeda, melaporkan Peringkat elo untuk setiap model.

Karena evaluasi manusia sulit untuk diukur, terdapat upaya untuk meningkatkan dan mempercepat proses evaluasi dan hal ini menghasilkan proyek menarik yang disebut AlpakaEval. Di sini setiap model dibandingkan dengan garis dasar (teks-davinci-003 disediakan oleh GPT-4) dan evaluasi manusia diganti dengan penilaian GPT-4. Ini memang cepat dan terukur, tetapi bisakah kita memercayai model di sini untuk melakukan penilaian? Kita perlu mewaspadai bias model. Proyek ini sebenarnya menunjukkan bahwa GPT-4 mungkin menginginkan jawaban yang lebih panjang.

Metode evaluasi LLM terus berkembang seiring dengan pencarian komunitas AI terhadap pendekatan yang mudah, adil, dan terukur. Perkembangan terbaru datang dari tim di Toloka dengan yang baru leaderboard untuk lebih memajukan standar evaluasi saat ini.

Baru leaderboard membandingkan respons model dengan perintah pengguna di dunia nyata yang dikategorikan berdasarkan tugas NLP berguna sebagaimana diuraikan dalam makalah InstructGPT ini. Ini juga menunjukkan tingkat kemenangan keseluruhan setiap model di semua kategori.

Cara yang Lebih Baik Untuk Mengevaluasi LLM
Papan peringkat Toloka – tangkapan layar oleh Penulis

Evaluasi yang digunakan untuk proyek ini serupa dengan yang dilakukan di AlpacaEval. Skor di papan peringkat mewakili tingkat kemenangan masing-masing model dibandingkan dengan Guanaco 13B model, yang berfungsi di sini sebagai perbandingan dasar. Pemilihan Guanaco 13B merupakan penyempurnaan dari metode AlpacaEval, yang menggunakan model text-davinci-003 yang akan segera ketinggalan zaman sebagai dasar.

Evaluasi sebenarnya dilakukan oleh anotator ahli manusia berdasarkan serangkaian petunjuk di dunia nyata. Untuk setiap prompt, anotator diberikan dua penyelesaian dan ditanya mana yang mereka sukai. Anda dapat menemukan detail tentang metodologinya di sini.

Jenis evaluasi manusia ini lebih berguna dibandingkan metode evaluasi otomatis lainnya dan harus memperbaiki evaluasi manusia yang digunakan Papan peringkat LMSYS. Kelemahan dari metode LMSYS adalah siapa pun yang memiliki link dapat mengambil bagian dalam evaluasi, sehingga menimbulkan pertanyaan serius mengenai kualitas data yang dikumpulkan dengan cara ini. Kumpulan anotator ahli yang tertutup memiliki potensi lebih baik untuk mendapatkan hasil yang andal, dan Toloka menerapkan teknik kontrol kualitas tambahan untuk memastikan kualitas data.

Dalam artikel ini, kami telah memperkenalkan solusi baru yang menjanjikan untuk mengevaluasi LLM — Papan Peringkat Toloka. Pendekatannya inovatif, menggabungkan kekuatan metode yang ada, menambahkan rincian tugas tertentu, dan menggunakan teknik anotasi manusia yang andal untuk membandingkan model.

Jelajahi papan, dan bagikan pendapat dan saran Anda untuk perbaikan bersama kami.

Magdalena Konkiewicz adalah Data Evangelist di Toloka, sebuah perusahaan global yang mendukung pengembangan AI yang cepat dan terukur. Dia meraih gelar Master di bidang Kecerdasan Buatan dari Universitas Edinburgh dan pernah bekerja sebagai Insinyur NLP, Pengembang, dan Ilmuwan Data untuk bisnis di Eropa dan Amerika. Dia juga terlibat dalam mengajar dan membimbing Ilmuwan Data dan secara teratur berkontribusi pada publikasi Ilmu Data dan Pembelajaran Mesin.