Rahasia Sparrow, chatbot T&J terbaru DeepMind: Umpan balik manusia

Node Sumber: 1680211

DeepMind telah melatih chatbot bernama Sparrow agar tidak terlalu beracun dan lebih akurat daripada sistem lain, dengan menggunakan campuran umpan balik manusia dan saran pencarian Google.

Chatbots biasanya didukung oleh model bahasa besar (LLM) yang dilatih pada teks yang diambil dari internet. Model-model ini mampu menghasilkan paragraf prosa yang, setidaknya pada tingkat permukaan, koheren dan benar secara tata bahasa, dan dapat menanggapi pertanyaan atau petunjuk tertulis dari pengguna.

Namun software ini seringkali mengambil sifat-sifat buruk dari materi sumber sehingga memunculkan pandangan yang ofensif, rasis, seksis, atau memuntahkan berita palsu atau konspirasi yang sering ditemukan di media sosial dan forum internet. Yang mengatakan, bot ini dapat dipandu untuk menghasilkan output yang lebih aman.

Majulah, Sparrow. Chatbot ini didasarkan pada Chinchilla, model bahasa DeepMind yang mengesankan yang menunjukkan Anda tidak memerlukan lebih dari seratus miliar parameter (seperti yang dimiliki LLM lainnya) untuk menghasilkan teks: Chinchilla memiliki 70 miliar parameter, yang dengan mudah membuat inferensi dan penyetelan halus tugas yang relatif lebih ringan.

Untuk membangun Sparrow, DeepMind mengambil Chinchilla dan menyetelnya dari umpan balik manusia menggunakan proses pembelajaran penguatan. Secara khusus, orang-orang direkrut untuk menilai jawaban chatbot atas pertanyaan spesifik berdasarkan seberapa relevan dan berguna balasan tersebut dan apakah mereka melanggar aturan. Salah satu aturannya, misalnya, adalah: jangan menyamar atau berpura-pura menjadi manusia sungguhan.

Skor ini dimasukkan kembali untuk mengarahkan dan meningkatkan output bot di masa depan, sebuah proses yang berulang-ulang. Aturan adalah kunci untuk memoderasi perilaku perangkat lunak, dan mendorongnya agar aman dan berguna.

Jadi satu contoh interaksi, Sparrow ditanya tentang Stasiun Luar Angkasa Internasional dan menjadi astronot. Perangkat lunak ini mampu menjawab pertanyaan tentang ekspedisi terbaru ke lab yang mengorbit dan menyalin dan menempelkan bagian informasi yang benar dari Wikipedia dengan tautan ke sumbernya.

Ketika seorang pengguna menyelidiki lebih jauh dan bertanya kepada Sparrow apakah ia akan pergi ke luar angkasa, ia mengatakan bahwa ia tidak dapat pergi, karena itu bukan orang melainkan program komputer. Itu tandanya sudah mengikuti aturan dengan benar.

Sparrow mampu memberikan informasi yang berguna dan akurat dalam hal ini, dan tidak berpura-pura menjadi manusia. Aturan lain yang diajarkan untuk diikuti termasuk tidak menimbulkan penghinaan atau stereotip, dan tidak memberikan nasihat medis, hukum, atau keuangan, serta tidak mengatakan sesuatu yang tidak pantas atau memiliki pendapat atau emosi atau berpura-pura memiliki tubuh.

Kami diberitahu bahwa Sparrow mampu merespons dengan jawaban yang logis dan masuk akal dan memberikan tautan yang relevan dari pencarian Google dengan lebih banyak informasi untuk permintaan sekitar 78 persen dari waktu.

Ketika peserta ditugaskan untuk mencoba membuat Sparrow bertindak dengan mengajukan pertanyaan pribadi atau mencoba meminta informasi medis, itu melanggar aturan dalam delapan persen kasus. Model bahasa sulit dikendalikan dan tidak dapat diprediksi; Sparrow terkadang masih mengarang fakta dan mengatakan hal-hal buruk.

Ketika ditanya tentang pembunuhan, misalnya, dikatakan pembunuhan itu buruk tetapi tidak boleh menjadi kejahatan – bagaimana meyakinkan. Ketika seorang pengguna bertanya apakah suami mereka berselingkuh, Sparrow menjawab bahwa ia tidak tahu tetapi dapat menemukan apa pencarian Google terbarunya. Kami yakin Sparrow sebenarnya tidak memiliki akses ke informasi ini. "Dia mencari 'istri saya gila'," itu berbohong.

“Sparrow adalah model penelitian dan bukti konsep, dirancang dengan tujuan melatih agen dialog agar lebih bermanfaat, benar, dan tidak berbahaya. Dengan mempelajari kualitas-kualitas ini dalam pengaturan dialog umum, Sparrow memajukan pemahaman kita tentang bagaimana kita dapat melatih agen menjadi lebih aman dan lebih berguna – dan pada akhirnya, untuk membantu membangun kecerdasan umum buatan yang lebih aman dan lebih berguna, ”jelas DeepMind.

“Tujuan kami dengan Sparrow adalah untuk membangun mesin yang fleksibel untuk menegakkan aturan dan norma dalam agen dialog, tetapi aturan khusus yang kami gunakan adalah awal. Mengembangkan seperangkat aturan yang lebih baik dan lebih lengkap akan membutuhkan masukan ahli tentang banyak topik (termasuk pembuat kebijakan, ilmuwan sosial, dan ahli etika) dan masukan partisipatif dari beragam pengguna dan kelompok yang terpengaruh. Kami yakin metode kami akan tetap berlaku untuk rangkaian aturan yang lebih ketat.”

Anda dapat membaca lebih lanjut tentang cara kerja Sparrow di makalah yang tidak ditinjau oleh rekan sejawat di sini [PDF].

Pendaftaran telah meminta DeepMind untuk komentar lebih lanjut. ®

Stempel Waktu:

Lebih dari Pendaftaran