Teori Baru Menyarankan Chatbots Dapat Memahami Teks | Majalah Kuanta

Teori Baru Menyarankan Chatbots Dapat Memahami Teks | Majalah Kuanta

Node Sumber: 3079817

Pengantar

Kecerdasan buatan nampaknya lebih kuat dari sebelumnya, dengan chatbot seperti Bard dan ChatGPT yang mampu menghasilkan teks yang sangat mirip manusia. Namun terlepas dari semua bakatnya, bot ini masih membuat para peneliti bertanya-tanya: Apakah model seperti itu bisa dibuat? sebenarnya mengerti apa yang mereka katakan? “Jelas, beberapa orang meyakini hal tersebut,” kata pionir AI Geoff Petunjuk dalam percakapan baru-baru ini dengan Andrew Ng, “dan beberapa orang percaya bahwa mereka hanyalah burung beo stokastik.”

Ungkapan menggugah ini berasal dari tahun 2021 kertas ditulis bersama oleh Emily Bender, seorang ahli bahasa komputasi di Universitas Washington. Hal ini menunjukkan bahwa model bahasa besar (LLM) – yang menjadi dasar chatbot modern – menghasilkan teks hanya dengan menggabungkan informasi yang telah mereka lihat “tanpa referensi makna apa pun,” tulis para penulis, yang menjadikan LLM “burung beo stokastik.”

Model-model ini mendukung banyak chatbot terbesar dan terbaik saat ini, jadi Hinton berpendapat bahwa inilah saatnya untuk menentukan sejauh mana pemahaman mereka. Pertanyaannya, baginya, lebih dari sekadar pertanyaan akademis. “Selama kita mempunyai perbedaan pendapat,” katanya kepada Ng, “kita tidak akan bisa mencapai konsensus mengenai bahayanya.”

Penelitian baru mungkin memiliki petunjuk jawabannya. Sebuah teori yang dikembangkan oleh Sanjeev Arora dari Universitas Princeton dan Anirudh Goyal, seorang ilmuwan riset di Google DeepMind, berpendapat bahwa LLM terbesar saat ini bukanlah burung beo stokastik. Para penulis berpendapat bahwa ketika model ini semakin besar dan dilatih pada lebih banyak data, mereka meningkatkan kemampuan individu terkait bahasa dan juga mengembangkan kemampuan baru dengan menggabungkan keterampilan dengan cara yang mengisyaratkan pemahaman — kombinasi yang tidak mungkin ada dalam data pelatihan. .

Pendekatan teoretis ini, yang memberikan argumen yang dapat dibuktikan secara matematis tentang bagaimana dan mengapa LLM dapat mengembangkan begitu banyak kemampuan, telah meyakinkan para ahli seperti Hinton, dan lainnya. Dan ketika Arora dan timnya menguji beberapa prediksinya, mereka menemukan bahwa model tersebut berperilaku hampir persis seperti yang diharapkan. Dari semua pendapat, mereka telah membuat argumen kuat bahwa LLM terbesar tidak hanya meniru apa yang telah mereka lihat sebelumnya.

“[Mereka] tidak bisa hanya meniru apa yang terlihat di data pelatihan,” katanya Sebastien Bubeck, seorang ahli matematika dan ilmuwan komputer di Microsoft Research yang bukan bagian dari penelitian ini. “Itulah wawasan dasarnya.”

Lebih Banyak Data, Lebih Banyak Kekuatan

Munculnya kemampuan yang tak terduga dan beragam di LLM, bisa dikatakan, merupakan sebuah kejutan. Kemampuan ini bukan merupakan konsekuensi nyata dari cara sistem dibangun dan dilatih. LLM adalah jaringan saraf tiruan yang sangat besar, yang menghubungkan neuron buatan individu. Koneksi ini dikenal sebagai parameter model, dan jumlahnya menunjukkan ukuran LLM. Pelatihan melibatkan pemberian kalimat kepada LLM dengan kata terakhir yang dikaburkan, misalnya, “Bahan bakar berharga satu lengan dan ___.” LLM memprediksi distribusi probabilitas di seluruh kosakatanya, jadi jika LLM mengetahui, katakanlah, seribu kata, ia memprediksi seribu probabilitas. Ia kemudian memilih kata yang paling mungkin untuk melengkapi kalimat tersebut — mungkin, “kaki”.

Awalnya, LLM mungkin memilih kata dengan buruk. Algoritme pelatihan kemudian menghitung kerugian - jarak, dalam ruang matematika berdimensi tinggi, antara jawaban LLM dan kata sebenarnya dalam kalimat asli - dan menggunakan kerugian ini untuk mengubah parameter. Sekarang, dengan kalimat yang sama, LLM akan menghitung distribusi probabilitas yang lebih baik dan kerugiannya akan sedikit lebih rendah. Algoritme melakukan hal ini untuk setiap kalimat dalam data pelatihan (mungkin miliaran kalimat), hingga kerugian LLM secara keseluruhan turun ke tingkat yang dapat diterima. Proses serupa digunakan untuk menguji LLM pada kalimat yang bukan bagian dari data pelatihan.

LLM yang terlatih dan teruji, ketika disajikan dengan prompt teks baru, akan menghasilkan kata berikutnya yang paling mungkin, menambahkannya ke prompt, menghasilkan kata berikutnya berikutnya, dan melanjutkan dengan cara ini, menghasilkan balasan yang tampaknya koheren. Tidak ada proses pelatihan yang menyarankan bahwa LLM yang lebih besar, yang dibangun menggunakan lebih banyak parameter dan data pelatihan, juga akan meningkatkan tugas-tugas yang memerlukan alasan untuk menjawabnya.

Tapi mereka melakukannya. LLM yang cukup besar menunjukkan kemampuan - mulai dari memecahkan masalah matematika dasar hingga menjawab pertanyaan tentang apa yang ada dalam pikiran orang lain - yang tidak dimiliki oleh model yang lebih kecil, meskipun mereka semua dilatih dengan cara yang sama.

“Dari mana [kemampuan] itu muncul?” Arora bertanya-tanya. “Dan bisakah hal itu muncul hanya dari prediksi kata berikutnya?”

Menghubungkan Keterampilan ke Teks

Arora bekerja sama dengan Goyal untuk menjawab pertanyaan tersebut secara analitis. “Kami mencoba menghasilkan kerangka teoretis untuk memahami bagaimana kemunculannya bisa terjadi,” kata Arora.

Duo ini beralih ke objek matematika yang disebut grafik acak. Grafik adalah kumpulan titik (atau simpul) yang dihubungkan oleh garis (atau sisi), dan dalam grafik acak, keberadaan sisi di antara dua titik ditentukan secara acak — katakanlah, dengan pelemparan koin. Koinnya bisa saja bias, sehingga muncul dengan kemungkinan tertentu p. Jika koin muncul untuk sepasang titik tertentu, sebuah tepi terbentuk di antara kedua titik tersebut; jika tidak, mereka tetap tidak terhubung. Sebagai nilai p perubahan, grafik dapat menunjukkan transisi mendadak pada propertinya. Misalnya, kapan p melebihi ambang batas tertentu, node terisolasi — node yang tidak terhubung ke node lain — tiba-tiba menghilang.

Arora dan Goyal menyadari bahwa grafik acak, yang menimbulkan perilaku tak terduga setelah memenuhi ambang batas tertentu, bisa menjadi cara untuk memodelkan perilaku LLM. Jaringan saraf menjadi terlalu rumit untuk dianalisis, namun ahli matematika telah mempelajari grafik acak sejak lama dan telah mengembangkan berbagai alat untuk menganalisisnya. Mungkin teori grafik acak dapat memberikan peneliti cara untuk memahami dan memprediksi perilaku LLM besar yang tampaknya tidak terduga.

Para peneliti memutuskan untuk fokus pada grafik “bipartit”, yang berisi dua jenis node. Dalam model mereka, satu jenis simpul mewakili potongan teks — bukan kata individual, melainkan potongan yang dapat berupa paragraf hingga beberapa halaman. Node-node ini tersusun dalam satu garis lurus. Di bawahnya, pada baris lain, terdapat kumpulan node lainnya. Ini mewakili keterampilan yang dibutuhkan untuk memahami sepotong teks tertentu. Setiap keterampilan bisa berarti apa saja. Mungkin satu simpul mewakili kemampuan LLM untuk memahami kata “karena,” yang menggabungkan beberapa gagasan kausalitas; yang lain dapat mewakili kemampuan membagi dua angka; namun yang lain mungkin mewakili kemampuan untuk mendeteksi ironi. “Jika Anda memahami bahwa potongan teks itu ironis, banyak hal yang berubah,” kata Arora. “Itu relevan untuk memprediksi kata-kata.”

Untuk lebih jelasnya, LLM tidak dilatih atau diuji dengan mempertimbangkan keterampilan; mereka dibuat hanya untuk meningkatkan prediksi kata berikutnya. Namun Arora dan Goyal ingin memahami LLM dari perspektif keterampilan yang mungkin diperlukan untuk memahami satu teks. Koneksi antara simpul keterampilan dan simpul teks, atau antara beberapa simpul keterampilan dan simpul teks, berarti LLM memerlukan keterampilan tersebut untuk memahami teks dalam simpul tersebut. Selain itu, beberapa bagian teks mungkin diambil dari keterampilan atau serangkaian keterampilan yang sama; misalnya, sekumpulan node keterampilan yang mewakili kemampuan untuk memahami ironi akan terhubung ke banyak node teks tempat ironi terjadi.

Tantangannya sekarang adalah menghubungkan grafik bipartit ini dengan LLM yang sebenarnya dan melihat apakah grafik tersebut dapat mengungkapkan sesuatu tentang munculnya kemampuan yang hebat. Namun para peneliti tidak dapat mengandalkan informasi apa pun tentang pelatihan atau pengujian LLM yang sebenarnya – perusahaan seperti OpenAI atau DeepMind tidak mempublikasikan data pelatihan atau pengujian mereka. Selain itu, Arora dan Goyal ingin memprediksi bagaimana LLM akan berperilaku ketika mereka menjadi lebih besar, dan tidak ada informasi yang tersedia untuk chatbot yang akan datang. Namun, ada satu informasi penting yang dapat diakses oleh para peneliti.

Sejak tahun 2021, para peneliti yang mempelajari kinerja LLM dan jaringan saraf lainnya telah melihat munculnya sifat universal. Mereka memperhatikan bahwa seiring bertambahnya model, baik dalam ukuran atau jumlah data pelatihan, kerugiannya pada data pengujian (perbedaan antara jawaban yang diprediksi dan jawaban yang benar pada teks baru, setelah pelatihan) berkurang dengan cara yang sangat spesifik. Pengamatan ini telah dikodifikasikan ke dalam persamaan yang disebut hukum penskalaan saraf. Jadi Arora dan Goyal merancang teori mereka untuk tidak bergantung pada data dari LLM individu, chatbot, atau kumpulan data pelatihan dan pengujian, namun pada hukum universal yang harus dipatuhi oleh semua sistem ini: kerugian yang diprediksi oleh hukum penskalaan.

Mungkin, menurut mereka, peningkatan kinerja – yang diukur dengan hukum penskalaan saraf – terkait dengan peningkatan keterampilan. Dan peningkatan keterampilan ini dapat ditentukan dalam grafik bipartitnya melalui koneksi node keterampilan ke node teks. Membangun hubungan ini — antara undang-undang penskalaan saraf dan grafik bipartit — adalah kunci yang memungkinkan mereka untuk melanjutkan.

Meningkatkan Keterampilan

Para peneliti memulai dengan mengasumsikan bahwa terdapat grafik bipartit hipotetis yang sesuai dengan perilaku LLM pada data pengujian. Untuk menjelaskan perubahan kerugian LLM pada data pengujian, mereka membayangkan cara menggunakan grafik untuk menggambarkan bagaimana LLM memperoleh keterampilan.

Ambil contoh, keterampilan “memahami ironi”. Ide ini direpresentasikan dengan node keterampilan, sehingga peneliti melihat node teks mana yang terhubung dengan node keterampilan ini. Jika hampir semua node teks yang terhubung ini berhasil — artinya prediksi LLM pada teks yang diwakili oleh node ini sangat akurat — maka LLM kompeten dalam keterampilan khusus ini. Tetapi jika lebih dari sebagian kecil koneksi simpul keterampilan menuju ke simpul teks yang gagal, maka LLM gagal pada keterampilan ini.

Hubungan antara grafik bipartit dan LLM ini memungkinkan Arora dan Goyal menggunakan alat teori grafik acak untuk menganalisis perilaku LLM melalui proksi. Mempelajari grafik ini mengungkapkan hubungan tertentu antar node. Hubungan ini, pada gilirannya, diterjemahkan ke dalam cara yang logis dan dapat diuji untuk menjelaskan bagaimana model besar memperoleh keterampilan yang diperlukan untuk mencapai kemampuan tak terduga mereka.

Arora dan Goyal pertama kali menjelaskan satu perilaku utama: mengapa LLM yang lebih besar menjadi lebih terampil dibandingkan rekan-rekan mereka yang lebih kecil dalam hal keterampilan individu. Mereka memulai dengan kerugian pengujian yang lebih rendah yang diprediksi oleh hukum penskalaan saraf. Dalam grafik, kerugian pengujian yang lebih rendah ini ditunjukkan dengan penurunan persentase node pengujian yang gagal. Jadi secara keseluruhan terdapat lebih sedikit node pengujian yang gagal. Dan jika node pengujian yang gagal lebih sedikit, maka koneksi antara node pengujian yang gagal dan node keterampilan juga lebih sedikit. Oleh karena itu, semakin banyak node keterampilan yang terhubung ke node pengujian yang berhasil, menunjukkan peningkatan kompetensi keterampilan untuk model tersebut. “Pengurangan kerugian yang sangat kecil akan meningkatkan kompetensi mesin dalam keterampilan ini,” kata Goyal.

Selanjutnya, pasangan ini menemukan cara untuk menjelaskan kemampuan tak terduga dari model yang lebih besar. Ketika ukuran LLM bertambah dan kerugian pengujiannya berkurang, kombinasi acak dari simpul keterampilan mengembangkan koneksi ke simpul teks individual. Hal ini menunjukkan bahwa LLM juga menjadi lebih baik dalam menggunakan lebih dari satu keterampilan pada satu waktu dan mulai menghasilkan teks menggunakan beberapa keterampilan — menggabungkan, katakanlah, kemampuan untuk menggunakan ironi dengan pemahaman kata “karena” — bahkan jika kombinasi tersebut sama persis. keterampilan tidak ada dalam teks apa pun di data pelatihan.

Bayangkan, misalnya, sebuah LLM yang sudah bisa menggunakan satu keterampilan untuk menghasilkan teks. Jika Anda meningkatkan jumlah parameter atau data pelatihan LLM berdasarkan urutan besarnya, LLM akan menjadi sama kompetennya dalam menghasilkan teks yang memerlukan dua keterampilan. Naikkan urutan besarnya, dan LLM sekarang dapat melakukan tugas-tugas yang memerlukan empat keterampilan sekaligus, sekali lagi dengan tingkat kompetensi yang sama. LLM yang lebih besar memiliki lebih banyak cara untuk menggabungkan keterampilan, yang mengarah pada ledakan kemampuan yang kombinatorial.

Dan ketika LLM diperluas, kemungkinan bahwa LLM menemukan semua kombinasi keterampilan ini dalam data pelatihan menjadi semakin kecil kemungkinannya. Menurut aturan teori grafik acak, setiap kombinasi muncul dari pengambilan sampel acak dari kemungkinan keterampilan. Jadi, jika ada sekitar 1,000 simpul keterampilan individu yang mendasarinya dalam grafik, dan Anda ingin menggabungkan empat keterampilan, maka ada sekitar 1,000 pangkat empat — yaitu, 1 triliun — cara yang mungkin untuk menggabungkannya.

Arora dan Goyal melihat ini sebagai bukti bahwa LLM terbesar tidak hanya mengandalkan kombinasi keterampilan yang mereka lihat di data pelatihan mereka. Bubeck setuju. “Jika suatu LLM benar-benar mampu melakukan tugas-tugas tersebut dengan menggabungkan empat dari seribu keterampilan tersebut, maka harus melakukan generalisasi,” ujarnya. Artinya, kemungkinan besar itu bukan burung beo stokastik.

Kreativitas Sejati?

Namun Arora dan Goyal ingin melampaui teori dan menguji klaim mereka bahwa LLM menjadi lebih baik dalam menggabungkan lebih banyak keterampilan, dan dengan demikian dalam melakukan generalisasi, seiring dengan bertambahnya ukuran dan data pelatihan mereka. Bersama rekan-rekan lainnya, mereka merancang sebuah metode disebut "campuran keterampilan" untuk mengevaluasi kemampuan LLM dalam menggunakan berbagai keterampilan untuk menghasilkan teks.

Untuk menguji LLM, tim memintanya untuk menghasilkan tiga kalimat tentang topik yang dipilih secara acak yang menggambarkan beberapa keterampilan yang dipilih secara acak. Misalnya, mereka meminta GPT-4 (LLM yang mendukung versi ChatGPT paling kuat) untuk menulis tentang duel — pada dasarnya adu pedang. Selain itu, mereka memintanya untuk menampilkan keterampilan dalam empat bidang: bias melayani diri sendiri, metafora, silogisme statistik, dan fisika pengetahuan umum.. GPT-4 menjawab dengan: “Kemenangan saya dalam tarian dengan [metafora] baja ini sama pastinya dengan jatuhnya sebuah benda ke tanah [fisika]. Sebagai seorang duelist terkenal, saya pada dasarnya gesit, sama seperti kebanyakan [silogisme statistik] lainnya dalam reputasi saya. Mengalahkan? Hanya mungkin karena medan perang yang tidak seimbang, bukan karena ketidakmampuan saya [bias mementingkan diri sendiri].” Saat diminta memeriksa keluarannya, GPT-4 menguranginya menjadi tiga kalimat.

Pengantar

“Ini bukan Hemingway atau Shakespeare,” kata Arora, namun tim yakin bahwa ini membuktikan pendapat mereka: Model tersebut dapat menghasilkan teks yang tidak mungkin terlihat dalam data pelatihan, menampilkan keterampilan yang sesuai dengan argumen beberapa orang. adalah pemahaman. GPT-4 bahkan lulus tes campuran keterampilan yang memerlukan enam keterampilan sekitar 10% hingga 15%, katanya, menghasilkan potongan teks yang secara statistik tidak mungkin ada dalam data pelatihan.

Tim juga mengotomatiskan proses dengan meminta GPT-4 mengevaluasi keluarannya sendiri, bersama dengan keluaran LLM lainnya. Arora mengatakan wajar jika model mengevaluasi dirinya sendiri karena tidak memiliki memori, sehingga tidak ingat bahwa model diminta untuk menghasilkan teks yang diminta untuk dievaluasi. Yasaman Bahri, peneliti di Google DeepMind yang bekerja pada dasar-dasar AI, berpendapat bahwa pendekatan otomatis “sangat sederhana dan elegan.”

Mengenai teorinya, memang benar bahwa teori tersebut membuat beberapa asumsi, kata Bubeck, namun “asumsi ini sama sekali tidak gila.” Dia juga terkesan dengan eksperimen tersebut. “Apa yang dibuktikan [tim] secara teoritis, dan juga dikonfirmasi secara empiris, adalah adanya generalisasi komposisional, artinya [LLM] mampu menyusun blok-blok bangunan yang belum pernah disatukan,” ujarnya. “Bagi saya, inilah inti dari kreativitas.”

Arora menambahkan bahwa karya tersebut tidak menjelaskan apa pun tentang keakuratan apa yang ditulis LLM. “Bahkan, ini memperdebatkan orisinalitas,” katanya. “Hal-hal ini belum pernah ada di korpus pelatihan dunia. Tidak ada seorang pun yang pernah menulis ini. Ia harus berhalusinasi.”

Meskipun demikian, Hinton berpendapat bahwa pekerjaan ini menjawab pertanyaan apakah LLM merupakan jenis stochastic parrots. “Ini adalah metode paling teliti yang pernah saya lihat untuk menunjukkan bahwa GPT-4 lebih dari sekedar stochastic parrot,” katanya. “Mereka menunjukkan secara meyakinkan bahwa GPT-4 dapat menghasilkan teks yang menggabungkan keterampilan dan topik dengan cara yang hampir pasti tidak terdapat dalam data pelatihan.” (Kami menghubungi Bender untuk meminta pendapatnya mengenai karya baru ini, namun dia menolak berkomentar, dengan alasan kurangnya waktu.)

Dan memang benar, seperti yang diperkirakan secara matematis, performa GPT-4 jauh melebihi pendahulunya yang lebih kecil, GPT-3.5 — hingga mencapai tingkat yang membuat Arora ketakutan. “Mungkin bukan hanya saya,” katanya. “Banyak orang merasa sedikit ngeri melihat betapa GPT-4 lebih baik dibandingkan GPT-3.5, dan hal itu terjadi dalam waktu satu tahun. Apakah itu berarti di tahun berikutnya kita akan mengalami perubahan sebesar itu? Aku tidak tahu. Hanya OpenAI yang tahu.”

Stempel Waktu:

Lebih dari Majalah kuantitas