Tidak Ada Cara yang Andal untuk Mendeteksi Teks yang dihasilkan AI, Boffins Sigh

Diterbitkan Ulang Oleh Plato

Followers: 0

Popularitas salad kata yang disiapkan oleh model bahasa besar (LLM) seperti ChatGPT OpenAI, Bard Google, dan LLaMa Meta telah mendorong akademisi untuk mencari cara untuk mendeteksi teks yang dihasilkan mesin.

Sayangnya, skema deteksi yang ada mungkin tidak lebih baik daripada melempar koin, meningkatkan kemungkinan bahwa kita ditakdirkan untuk menelan salinan yang disusun secara statistik sebagai konsekuensi dari konsumsi konten online.

Lima ilmuwan komputer dari University of Maryland di AS – Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang, dan Soheil Feizi – baru-baru ini mencoba mendeteksi teks yang dihasilkan oleh model bahasa besar.

Temuan mereka, dirinci dalam makalah berjudul Bisakah Teks yang Dihasilkan AI Dideteksi dengan andal?, dapat diprediksi menggunakan hukum headline Betteridge: setiap headline yang diakhiri dengan tanda tanya dapat dijawab dengan kata no.

Mengutip beberapa konon detektor dari teks yang dihasilkan LLM, para boffin mengamati, "Dalam makalah ini, kami menunjukkan secara teoretis dan empiris, bahwa detektor canggih ini tidak dapat secara andal mendeteksi keluaran LLM dalam skenario praktis."

Deteksi output LLM demikian, seperti Teka-teki CAPTCHA [PDF], tampaknya ditakdirkan untuk gagal karena model pembelajaran mesin terus meningkat dan mampu meniru keluaran manusia.

Boffins berpendapat bahwa penggunaan model ini yang tidak diatur – yang sekarang sedang diintegrasikan ke dalam aplikasi yang banyak digunakan dari perusahaan teknologi besar – berpotensi menimbulkan konsekuensi yang tidak diinginkan, seperti spam yang canggih, berita palsu yang manipulatif, ringkasan dokumen yang tidak akurat, dan plagiarisme.

Ternyata hanya memparafrasekan output teks dari LLM – sesuatu yang bisa dilakukan program substitusi kata – seringkali cukup untuk menghindari deteksi. Ini dapat menurunkan akurasi detektor dari garis dasar 97 persen menjadi 80 persen menjadi 57 persen – tidak jauh lebih baik daripada lemparan koin.

“Secara empiris, kami menunjukkan bahwa serangan parafrase, di mana parafrase ringan diterapkan di atas model teks generatif, dapat merusak seluruh jajaran detektor, termasuk yang menggunakan skema watermarking serta detektor berbasis jaringan saraf dan zero-shot. pengklasifikasi,” para peneliti menjelaskan dalam makalah mereka.

Dalam email ke Pendaftaran, Soheil Feizi, asisten profesor ilmu komputer di UMD College Park dan salah satu rekan penulis makalah, menjelaskan, “Masalah watermarking teks adalah mengabaikan sifat kompleks dari distribusi teks. Misalkan kalimat S berikut yang berisi misinformasi dihasilkan oleh model AI dan diberi 'watermark', artinya mengandung beberapa tanda tangan tersembunyi sehingga kami dapat mendeteksi ini dihasilkan oleh AI.

S: Organisasi Kesehatan Dunia membuat pernyataan yang mengejutkan, bahwa vaksin tersebut tidak efektif, karena tidak mencegah orang terinfeksi, yang artinya tidak berguna.

“Ini sebenarnya dihasilkan oleh model bahasa besar bertanda air OPT-1.3B,” kata Feizi. "Sekarang pertimbangkan versi parafrase dari kalimat di atas:"

Vaksin itu tidak berguna karena tidak mencegah orang terkena infeksi, menurut Organisasi Kesehatan Dunia.

“Ini berisi informasi yang salah tetapi ini tidak terdeteksi oleh metode watermarking,” kata Feizi.

“Contoh ini menunjukkan masalah mendasar tentang watermarking teks: jika algoritme watermark mendeteksi semua kalimat lain dengan arti yang sama dengan kalimat yang dihasilkan AI, maka itu akan memiliki kesalahan tipe-I yang besar: itu akan mendeteksi banyak kalimat yang ditulis manusia. sebagai yang dihasilkan AI; berpotensi membuat banyak tuduhan palsu tentang plagiarisme.”

“Di sisi lain,” tambah Feizi, “jika algoritme tanda air terbatas hanya pada teks yang dihasilkan AI, maka serangan parafrase sederhana, seperti yang telah kami tunjukkan di makalah kami, dapat menghapus tanda tanda air yang berarti dapat membuat huruf besar. -II kesalahan. Apa yang telah kami tunjukkan adalah bahwa tidak mungkin memiliki kesalahan tipe I dan II yang rendah pada saat yang sama dalam skenario praktis.”

Dan membalikkan penerapan parafrase ke sampel teks yang diberikan tidak terlalu membantu.

“Misalkan membalikkan parafrase adalah mungkin,” kata Vinu Sankar Sadasivan, seorang mahasiswa doktoral ilmu komputer di UMD College Park dan salah satu penulis makalah, dalam email ke Pendaftaran. “Ada masalah krusial dalam hal ini untuk deteksi. Detektor hanya boleh mencoba membalikkan parafrase jika kalimat tersebut benar-benar dihasilkan oleh AI. Jika tidak, membalikkan parafrase dapat menyebabkan teks manusia salah terdeteksi sebagai buatan AI.”

Sadasivan mengatakan ada banyak variasi dalam cara sebuah kalimat dapat diparafrasekan sehingga tidak mungkin membalikkan prosesnya, terutama jika Anda tidak mengetahui sumber teks aslinya.

Ia menjelaskan, watermarking teks lebih sulit daripada watermarking gambar. Ini membutuhkan keluaran bekerja dalam pola tertentu yang tidak terlihat oleh manusia untuk membantu deteksi.

“Pola ini dapat dengan mudah dihilangkan menggunakan serangan parafrase yang kami usulkan dalam makalah kami,” kata Sadasivan. "Jika tidak bisa, kemungkinan besar teks yang ditulis manusia salah terdeteksi sebagai tanda air oleh detektor berbasis tanda air."

Hasil kami menunjukkan ketidakmungkinan masalah deteksi teks yang dihasilkan AI dalam skenario praktis

Itu semakin buruk. Boffins menggambarkan "hasil kemustahilan teoretis yang menunjukkan bahwa untuk model bahasa yang cukup baik, bahkan detektor yang paling mungkin hanya dapat bekerja sedikit lebih baik daripada pengklasifikasi acak."

Ditanya apakah ada jalan ke metode yang lebih andal untuk mendeteksi teks yang dihasilkan LLM, Feizi mengatakan tidak ada.

“Hasil kami menunjukkan ketidakmungkinan masalah deteksi teks yang dihasilkan AI dalam skenario praktis,” jelas Feizi. “Jadi jawaban singkatnya, sayangnya, tidak.”

Para penulis juga mengamati bahwa LLM yang dilindungi oleh skema watermarking mungkin rentan terhadap serangan spoofing di mana individu jahat dapat menyimpulkan tanda tangan watermarking dan menambahkannya ke teks yang dihasilkan untuk membuat orang tersebut menerbitkan teks yang dituduh sebagai plagiarizer atau spammer.

“Saya pikir kita perlu belajar untuk hidup dengan fakta bahwa kita mungkin tidak akan pernah bisa mengatakan dengan pasti apakah sebuah teks ditulis oleh manusia atau AI,” kata Feizi. “Sebaliknya, berpotensi kami dapat memverifikasi 'sumber' teks melalui informasi lain. Misalnya, banyak platform sosial mulai memverifikasi akun secara luas. Hal ini dapat mempersulit penyebaran informasi yang salah yang dihasilkan oleh AI.” ®