Inti Permasalahannya: Mengungkap Misteri Penyalinan dalam Pelatihan LLM - DATAVERSITY

Inti Permasalahannya: Mengungkap Misteri Penyalinan dalam Pelatihan LLM – DATAVERSITY

Node Sumber: 3093102

Berkaca pada 15 bulan terakhir, kemajuan yang dicapai dalam AI generatif dan model bahasa besar (LLM) setelah pengenalan dan ketersediaan ChatGPT ke publik telah mendominasi berita utama. 

Landasan kemajuan ini adalah arsitektur model Transformer yang diuraikan oleh tim peneliti Google dalam makalah berjudul “Perhatian Yang Anda Butuhkan.” Seperti judulnya, fitur utama dari semua model Transformer adalah mekanisme perhatian, yang didefinisikan dalam makalah sebagai berikut:

“Fungsi perhatian dapat dideskripsikan sebagai pemetaan kueri dan sekumpulan pasangan kunci-nilai ke keluaran, dengan kueri, kunci, nilai, dan keluaran semuanya adalah vektor. Outputnya dihitung sebagai jumlah nilai tertimbang, di mana bobot yang ditetapkan untuk setiap nilai dihitung oleh fungsi kompatibilitas kueri dengan kunci yang sesuai.”

Karakteristik model AI generatif adalah konsumsi input data secara besar-besaran, yang dapat terdiri dari teks, gambar, file audio, file video, atau kombinasi input apa pun (kasus ini biasanya disebut sebagai “multi-modal”). Dari sudut pandang hak cipta, pertanyaan penting (dari sekian banyak pertanyaan penting) yang perlu ditanyakan adalah apakah materi pelatihan dipertahankan dalam model bahasa besar (LLM) diproduksi oleh berbagai vendor LLM. Untuk membantu menjawab pertanyaan tersebut, kita perlu memahami bagaimana materi tekstual diproses. Berfokus pada teks, berikut ini adalah penjelasan singkat non-teknis tentang aspek pelatihan LLM tersebut. 

Manusia berkomunikasi dalam bahasa alami dengan menyusun kata-kata secara berurutan; aturan tentang urutan dan bentuk spesifik suatu kata ditentukan oleh bahasa tertentu (misalnya, bahasa Inggris). Bagian penting dari arsitektur untuk semua sistem perangkat lunak yang memproses teks (dan juga untuk semua sistem AI yang melakukannya) adalah bagaimana merepresentasikan teks tersebut sehingga fungsi sistem dapat dijalankan dengan paling efisien. Oleh karena itu, langkah kunci dalam pemrosesan masukan tekstual dalam model bahasa adalah pemisahan masukan pengguna menjadi “kata-kata” khusus yang dapat dipahami oleh sistem AI. Kata-kata khusus itu disebut “token.” Komponen yang bertanggung jawab untuk itu disebut “tokenizer.” Ada banyak jenis tokenizer. Misalnya, OpenAI dan Azure OpenAI menggunakan metode tokenisasi subkata yang disebut “Byte-Pair Encoding (BPE)” untuk model berbasis Generative Pretrained Transformer (GPT). BPE adalah metode yang menggabungkan pasangan karakter atau byte yang paling sering muncul ke dalam satu token, hingga sejumlah token atau ukuran kosakata tertentu tercapai. Semakin besar ukuran kosakatanya, semakin beragam dan ekspresif teks yang dapat dihasilkan model tersebut.

Setelah sistem AI memetakan teks masukan menjadi token, sistem tersebut mengkodekan token tersebut menjadi angka dan mengubah urutan yang diprosesnya menjadi vektor yang disebut sebagai “penyematan kata”. Vektor adalah kumpulan angka yang terurut – Anda dapat menganggapnya sebagai baris atau kolom dalam tabel. Vektor ini adalah representasi token yang mempertahankan representasi bahasa alami aslinya yang diberikan sebagai teks. Penting untuk memahami peran penyematan kata dalam kaitannya dengan hak cipta karena penyematan membentuk representasi (atau pengkodean) seluruh kalimat, atau bahkan paragraf, dan oleh karena itu, dalam kombinasi vektor, bahkan seluruh dokumen dalam ruang vektor berdimensi tinggi. Melalui penyematan inilah sistem AI menangkap dan menyimpan makna dan hubungan kata-kata dari bahasa alami. 

Penyematan digunakan di hampir setiap tugas yang dilakukan sistem AI generatif (misalnya, pembuatan teks, peringkasan teks, klasifikasi teks, terjemahan teks, pembuatan gambar, pembuatan kode, dan sebagainya). Penyematan kata biasanya disimpan dalam database vektor, tetapi penjelasan rinci tentang semua pendekatan penyimpanan berada di luar cakupan posting ini karena ada beragam vendor, proses, dan praktik yang digunakan.

Seperti disebutkan, hampir semua LLM didasarkan pada arsitektur Transformer, yang memerlukan mekanisme perhatian. Yang terakhir ini memungkinkan teknologi AI untuk melihat keseluruhan kalimat, dan bahkan paragraf, secara keseluruhan, bukan hanya sebagai rangkaian karakter. Hal ini memungkinkan perangkat lunak untuk menangkap berbagai konteks di mana sebuah kata dapat muncul, dan karena konteks ini disediakan oleh karya yang digunakan dalam pelatihan, termasuk karya berhak cipta, konteks tersebut tidak sembarangan. Dengan cara ini, penggunaan kata-kata asli, ekspresi karya asli, dipertahankan dalam sistem AI. Karya tersebut dapat direproduksi dan dianalisis, dan dapat menjadi dasar ekspresi baru (yang, bergantung pada keadaan spesifik, dapat dikategorikan sebagai “karya turunan” dalam istilah hak cipta). 

LLM mempertahankan ekspresi karya asli tempat mereka dilatih. Mereka membentuk representasi internal teks dalam ruang vektor yang dibuat khusus dan, dengan masukan yang sesuai sebagai pemicu, mereka dapat mereproduksi karya asli yang digunakan dalam pelatihan mereka. Sistem AI memperoleh manfaat abadi dari konten, termasuk konten berhak cipta, yang digunakan untuk melatih LLM yang menjadi dasarnya. LLM mengenali konteks kata berdasarkan ekspresi kata dalam karya aslinya. Dan konteks ini secara kumulatif menguntungkan sistem AI pada ribuan, atau jutaan, karya berhak cipta yang digunakan dalam pelatihan. Karya asli ini dapat dibuat ulang oleh sistem AI karena disimpan dalam vektor – representasi ruang vektor dari token yang mempertahankan representasi bahasa aslinya – dari karya berhak cipta. Dari sudut pandang hak cipta, menentukan apakah materi pelatihan dipertahankan di LLM adalah inti permasalahannya, dan jelas bahwa jawaban atas pertanyaan tersebut adalah ya.

Stempel Waktu:

Lebih dari DATAVERSITAS