Beyond Metrics: Pendekatan Hibrid Terhadap Evaluasi Kinerja LLM

Diterbitkan Ulang Oleh Plato

Followers: 0

pendekatan hybrid untuk evaluasi kinerja LLP

Model Bahasa Besar (LLM) menghadirkan tantangan unik dalam evaluasi kinerja. Tidak seperti pembelajaran mesin tradisional yang hasilnya sering kali biner, keluaran LLM berada dalam spektrum kebenaran. Selain itu, meskipun model dasar Anda mungkin unggul dalam metrik yang luas, performa umum tidak menjamin performa optimal untuk kasus penggunaan spesifik Anda.

Oleh karena itu, pendekatan holistik untuk mengevaluasi LLM harus menggunakan berbagai pendekatan, seperti menggunakan LLM untuk mengevaluasi LLM (yaitu, evaluasi otomatis) dan menggunakan pendekatan hibrida manusia-LLM. Artikel ini membahas langkah-langkah spesifik dari berbagai metode, yang mencakup cara membuat kumpulan evaluasi khusus yang disesuaikan dengan aplikasi Anda, menentukan metrik yang relevan, dan menerapkan metode evaluasi yang ketat – baik untuk memilih model dan memantau kinerja berkelanjutan dalam produksi.

Bangun Kumpulan Evaluasi yang Ditargetkan Untuk Kasus Penggunaan Anda

Untuk menilai kinerja LLM pada kasus penggunaan tertentu, Anda perlu menguji model pada serangkaian contoh yang mewakili kasus penggunaan target Anda. Hal ini memerlukan pembuatan kumpulan evaluasi khusus.

Mulai kecil. Untuk menguji kinerja LLM pada kasus penggunaan Anda, Anda dapat memulai dengan sedikitnya 10 contoh. Masing-masing contoh ini dapat dijalankan beberapa kali untuk menilai konsistensi dan keandalan model.
Ambil contoh yang menantang. Contoh yang Anda pilih tidak boleh bersifat langsung. Model tersebut harus menantang, dirancang untuk menguji kapasitas model secara maksimal. Hal ini dapat mencakup petunjuk dengan masukan yang tidak terduga, pertanyaan yang dapat menimbulkan bias, atau pertanyaan yang memerlukan pemahaman mendalam tentang subjek. Ini bukan tentang mengelabui model, melainkan memastikan model tersebut siap menghadapi sifat aplikasi dunia nyata yang tidak dapat diprediksi.
Pertimbangkan untuk memanfaatkan LLM untuk membangun rangkaian evaluasi. Menariknya, merupakan praktik umum untuk memanfaatkan model bahasa untuk membangun rangkaian evaluasi guna menilai model bahasa itu sendiri atau model bahasa lainnya. Misalnya, LLM dapat menghasilkan sekumpulan pasangan Tanya Jawab berdasarkan teks masukan, yang dapat Anda gunakan sebagai sampel kumpulan pertama untuk aplikasi penjawab pertanyaan Anda.
Gabungkan umpan balik pengguna. Baik dari pengujian tim internal atau penerapan yang lebih luas, masukan pengguna sering kali mengungkapkan tantangan yang tidak terduga dan skenario dunia nyata. Umpan balik tersebut dapat diintegrasikan sebagai contoh baru yang menantang dalam rangkaian evaluasi Anda.

Intinya, membangun kumpulan evaluasi khusus adalah proses dinamis, beradaptasi dan berkembang seiring dengan siklus hidup proyek LLM Anda. Metodologi berulang ini memastikan model Anda tetap selaras dengan tantangan terkini dan relevan.

Gabungkan Metrik, Perbandingan, dan Evaluasi Berbasis Kriteria

Metrik saja biasanya tidak cukup untuk mengevaluasi LLM. LLM beroperasi di bidang di mana tidak selalu ada jawaban tunggal yang “benar”. Selain itu, penggunaan metrik agregat dapat menyesatkan. Sebuah model mungkin unggul dalam satu domain dan lemah dalam domain lain, namun tetap mencatatkan skor rata-rata yang mengesankan.

Kriteria evaluasi Anda akan bergantung pada atribut berbeda dari sistem LLM tertentu. Meskipun akurasi dan ketidakberpihakan merupakan tujuan umum, kriteria lain mungkin menjadi hal yang terpenting dalam skenario tertentu. Misalnya, chatbot medis mungkin memprioritaskan respons yang tidak berbahaya, bot dukungan pelanggan mungkin menekankan pemeliharaan nada bersahabat yang konsisten, atau aplikasi pengembangan web mungkin memerlukan keluaran dalam format tertentu.

Untuk menyederhanakan proses, beberapa kriteria evaluasi dapat diintegrasikan menjadi satu kriteria evaluasi fungsi umpan balik. Ini akan mengambil teks yang dihasilkan oleh LLM dan beberapa metadata sebagai masukan, dan kemudian mengeluarkan skor yang menunjukkan kualitas teks.

Dengan demikian, evaluasi holistik kinerja LLM biasanya memerlukan setidaknya 3 pendekatan berbeda:

Metrik Kuantitatif: Jika ada jawaban pasti yang benar, Anda dapat menggunakan metode evaluasi ML tradisional secara default pendekatan kuantitatif.
Perbandingan Referensi: Misalnya tanpa jawaban tunggal yang jelas namun dengan referensi tanggapan yang dapat diterima, tanggapan model dapat dibandingkan dan dikontraskan dengan contoh-contoh yang sudah ada sebelumnya.
Evaluasi Berbasis Kriteria: Jika tidak ada referensi, fokus beralih ke mengukur keluaran model berdasarkan kriteria yang telah ditentukan.

Perbandingan referensi dan evaluasi berbasis kriteria dapat dilaksanakan baik oleh evaluator manusia atau melalui proses otomatis. Selanjutnya, kita akan mempelajari kelebihan dan kekurangan dari pendekatan evaluasi yang berbeda ini.

Pendekatan Manusia, Evaluasi Otomatis, dan Hibrida

Evaluasi manusia sering kali dipandang sebagai standar emas untuk mengevaluasi aplikasi pembelajaran mesin, termasuk sistem berbasis LLM, namun tidak selalu dapat dilakukan karena kendala waktu atau teknis. Pendekatan evaluasi otomatis dan Hibrid sering digunakan di lingkungan perusahaan untuk menskalakan evaluasi kinerja LLM.

Evaluasi Manusia

Memiliki pengawasan manusia terhadap keluaran aplikasi berbasis LLM sangat penting untuk memastikan keakuratan dan keandalan sistem ini. Namun, hanya mengandalkan pendekatan ini untuk mengevaluasi LLM mungkin tidak ideal karena keterbatasan utama berikut:

Masalah Kualitas: Anehnya, model canggih seperti GPT-4 sering kali menghasilkan evaluasi kualitas yang lebih unggul dibandingkan dengan hasil rata-rata dari pekerja yang dipekerjakan melalui Mechanical Turk. Evaluator manusia, kecuali dipandu oleh desain eksperimental yang teliti, mungkin tidak fokus pada kualitas inti yang paling penting. Ada kecenderungan untuk terjebak dalam elemen-elemen yang dangkal; misalnya, mereka mungkin lebih menyukai tanggapan yang diformat dengan baik namun keliru dibandingkan tanggapan yang akurat namun disajikan dengan jelas.
Implikasi Biaya: Mendapatkan evaluasi manusia tingkat atas itu mahal. Semakin tinggi kualitas evaluasi yang Anda cari, semakin besar pula biaya yang harus dikeluarkan.
Kendala waktu: Mengumpulkan evaluasi manusia memakan waktu. Dalam dunia pengembangan sistem berbasis LLM yang serba cepat, di mana penerapan dapat terjadi hanya dalam hitungan hari atau minggu, pengembang tidak selalu bisa berhenti sejenak dan menunggu masukan.

Kendala-kendala ini menggarisbawahi pentingnya melengkapi evaluasi manusia dengan teknik penilaian yang lebih efisien.

Evaluasi Otomatis

Model bahasa besar telah terbukti mahir dalam mengevaluasi kinerja rekan-rekannya. Khususnya, LLM yang lebih maju atau lebih besar dapat digunakan untuk menilai kinerja model yang lebih kecil. LLM juga umum digunakan untuk menilai keluarannya sendiri. Mengingat mekanisme LLM, suatu model mungkin pada awalnya memberikan jawaban yang salah. Namun, dengan melengkapi model yang sama dengan perintah yang dibuat secara strategis yang meminta evaluasi terhadap respons awalnya, model tersebut secara efektif mendapat peluang untuk “merenungkan” atau “memikirkan kembali”. Prosedur ini secara substansial meningkatkan kemungkinan model mengidentifikasi kesalahan apa pun.

Menggunakan LLM untuk mengevaluasi LLM lain menawarkan alternatif yang cepat dan hemat biaya dibandingkan mempekerjakan evaluator manusia. Namun, metode ini memiliki kelemahan kritis yang harus siap diatasi oleh para pemimpin bisnis dan teknologi:

Ketika ditugaskan untuk memberi peringkat respons pada skala 1 hingga 5, LLM mungkin akan melakukannya menunjukkan bias yang konsisten menuju peringkat tertentu, terlepas dari kualitas respons sebenarnya.
Saat membandingkan keluarannya sendiri dengan model lain, LLM umumnya menunjukkan preferensi terhadap responsnya sendiri.
Urutan kandidat tanggapan kadang-kadang bisa mempengaruhi evaluasi, misalnya, menunjukkan preferensi terhadap jawaban kandidat yang pertama kali ditampilkan.
LLM cenderung menyukai respons yang lebih lama, meskipun mengandung kesalahan faktual atau lebih sulit dipahami dan digunakan oleh pengguna manusia.

Mengingat ketidaksempurnaan yang melekat dalam evaluasi LLM, penggabungan strategis pengawasan manual oleh evaluator manusia tetap merupakan langkah yang disarankan dan tidak boleh diabaikan dari proses pengembangan aplikasi LLM Anda.

Pendekatan Hibrid

Pendekatan yang berlaku adalah bagi pengembang untuk bersandar pada evaluasi otomatis yang difasilitasi oleh LLM. Hal ini melengkapi mereka dengan mekanisme umpan balik langsung, memungkinkan pemilihan model dengan cepat, penyesuaian, dan eksperimen dengan beragam perintah sistem. Tujuannya adalah untuk mencapai sistem yang berkinerja optimal berdasarkan evaluasi otomatis ini. Setelah fase evaluasi otomatis selesai, langkah berikutnya biasanya melibatkan pendalaman lebih dalam dengan manusia evaluator berkualitas tinggi untuk memvalidasi kelayakan evaluasi otomatis.

Mendapatkan evaluasi manusia yang berkualitas tinggi bisa menjadi upaya yang mahal. Meskipun tidak pragmatis untuk menggunakan tingkat pengawasan ini setelah setiap penyempurnaan sistem kecil, evaluasi manusia merupakan fase yang sangat diperlukan sebelum mentransisikan sistem LLM ke lingkungan produksi. Seperti disebutkan sebelumnya, evaluasi dari LLM dapat menimbulkan bias dan tidak dapat diandalkan.

Pasca penerapan, penting untuk mengumpulkan umpan balik yang tulus dari pengguna akhir aplikasi berbasis LLM kami. Umpan balik dapat berupa hal yang sederhana seperti meminta pengguna menilai suatu respons sebagai berguna (yang disukai) atau tidak berguna (yang tidak disukai), namun idealnya harus disertai dengan komentar terperinci yang menyoroti kekuatan dan kekurangan respons model.

Pembaruan model dasar atau perubahan kueri pengguna mungkin secara tidak sengaja menurunkan kinerja aplikasi Anda atau mengungkap kelemahan laten. Pemantauan berkelanjutan atas kinerja aplikasi LLM terhadap kriteria yang kami tetapkan tetap penting sepanjang masa operasionalnya sehingga Anda dapat dengan cepat mengidentifikasi dan mengatasi kekurangan yang muncul. .

Pengambilan Kunci

Mengevaluasi kinerja sistem berbasis LLM menghadirkan tantangan unik, yang membedakan tugas tersebut dari evaluasi pembelajaran mesin konvensional. Dalam proses mengevaluasi sistem LLM, pertimbangan penting berikut harus dipertimbangkan untuk menginformasikan metodologi Anda:

Set Evaluasi yang Disesuaikan: Untuk memperoleh wawasan yang dapat ditindaklanjuti, sangat penting untuk menyusun rangkaian evaluasi yang kuat dan berpusat pada aplikasi. Kumpulan ini tidak harus berukuran besar, namun harus mencakup serangkaian sampel yang menantang.
Tantangan Evaluasi yang Dinamis: Saat Anda menerima masukan dari pengguna, penting untuk terus memperluas dan menyempurnakan rangkaian evaluasi untuk menangkap tantangan dan nuansa yang terus berkembang.
Metrik Kuantitatif & Kriteria Kualitatif: Sifat rumit LLM sering kali menghindari metrik kuantitatif langsung. Penting untuk menetapkan serangkaian kriteria yang disesuaikan dengan kasus penggunaan spesifik Anda, sehingga memungkinkan penilaian performa model yang lebih beragam.
Fungsi Umpan Balik Terpadu: Untuk menyederhanakan proses evaluasi, pertimbangkan untuk menggabungkan beberapa kriteria menjadi satu fungsi umpan balik yang koheren.
Pendekatan Evaluasi Hibrid: Memanfaatkan LLM dan evaluator manusia berkualitas tinggi dalam proses evaluasi Anda menawarkan perspektif yang lebih komprehensif dan memberikan hasil yang paling andal dan hemat biaya.
Pemantauan Dunia Nyata yang Berkelanjutan: Dengan menggabungkan umpan balik pengguna dengan fungsi umpan balik terpadu, Anda dapat terus memantau dan menyempurnakan kinerja LLM, memastikan keselarasan yang konsisten dengan persyaratan dunia nyata.