Membangun Sistem Peringatan Dini Untuk Penciptaan Ancaman Biologis dengan Bantuan LLM

Diterbitkan Ulang Oleh Plato

Followers: 0

Catatan: Sebagai bagian dari kami Kerangka Kesiapsiagaan, kami berinvestasi dalam pengembangan metode evaluasi yang lebih baik untuk risiko keselamatan yang didukung AI. Kami percaya bahwa upaya ini akan mendapat manfaat dari masukan yang lebih luas, dan bahwa berbagi metode juga dapat bermanfaat bagi komunitas riset risiko AI. Untuk mencapai tujuan ini, kami menyajikan beberapa karya awal kami—hari ini, yang berfokus pada risiko biologis. Kami menantikan masukan dari komunitas, dan berbagi lebih banyak tentang penelitian kami yang sedang berlangsung.

Latar Belakang. Ketika OpenAI dan pengembang model lainnya membangun sistem AI yang lebih mumpuni, potensi penggunaan AI yang menguntungkan dan merugikan akan semakin meningkat. Salah satu kegunaan yang berpotensi membahayakan, yang disoroti oleh para peneliti dan pembuat kebijakan, adalah kemampuan sistem AI untuk membantu pelaku kejahatan dalam menciptakan ancaman biologis (misalnya, lihat Gedung Putih 2023, Lovelace 2022, Sandbrink 2023). Dalam salah satu contoh hipotetis yang dibahas, pelaku kejahatan mungkin menggunakan model berkemampuan tinggi untuk mengembangkan protokol langkah demi langkah, memecahkan masalah prosedur laboratorium basah, atau bahkan secara mandiri menjalankan langkah-langkah proses pembuatan biothreat ketika diberi akses ke alat seperti laboratorium awan (Lihat Carter et al., 2023). Namun, penilaian kelayakan contoh-contoh hipotetis tersebut dibatasi oleh evaluasi dan data yang tidak memadai.

Mengikuti kami yang baru saja dibagikan Kerangka Kesiapsiagaan, kami sedang mengembangkan metodologi untuk mengevaluasi secara empiris jenis risiko ini, untuk membantu kami memahami posisi kami saat ini dan posisi kami di masa depan. Di sini, kami merinci evaluasi baru yang dapat membantu berfungsi sebagai salah satu potensi “tripwire” yang menandakan perlunya kehati-hatian dan pengujian lebih lanjut terhadap potensi penyalahgunaan biologis. Evaluasi ini bertujuan untuk mengukur apakah model dapat meningkatkan akses pelaku kejahatan terhadap informasi berbahaya tentang penciptaan ancaman biologis secara signifikan, dibandingkan dengan sumber daya dasar yang ada (misalnya internet).

Untuk mengevaluasi hal ini, kami melakukan penelitian dengan 100 partisipan manusia, yang terdiri dari (a) 50 ahli biologi dengan gelar PhD dan pengalaman laboratorium basah profesional dan (b) 50 partisipan tingkat pelajar, dengan setidaknya satu mata kuliah biologi tingkat universitas. Setiap kelompok peserta secara acak dimasukkan ke dalam kelompok kontrol, yang hanya memiliki akses ke internet, atau kelompok perlakuan, yang memiliki akses ke GPT-4 selain internet. Setiap peserta kemudian diminta untuk menyelesaikan serangkaian tugas yang mencakup aspek proses end-to-end penciptaan ancaman biologis.^{[^1]} Sepengetahuan kami, ini merupakan evaluasi terbesar yang dilakukan manusia saat ini mengenai dampak AI terhadap informasi biorisiko.

Temuan. Studi kami menilai peningkatan kinerja peserta yang memiliki akses ke GPT-4 dalam lima metrik (akurasi, kelengkapan, inovasi, waktu yang dibutuhkan, dan tingkat kesulitan yang dinilai sendiri) dan lima tahap dalam proses penciptaan ancaman biologis (ide, akuisisi, pembesaran, formulasi). , dan rilis). Kami menemukan sedikit peningkatan dalam akurasi dan kelengkapan bagi mereka yang memiliki akses ke model bahasa. Secara khusus, pada skala 10 poin yang mengukur keakuratan tanggapan, kami mengamati peningkatan skor rata-rata sebesar 0.88 untuk ahli dan 0.25 untuk siswa dibandingkan dengan baseline yang hanya menggunakan internet, dan peningkatan serupa untuk kelengkapan (0.82 untuk ahli dan 0.41 untuk siswa). Namun, ukuran dampak yang diperoleh tidak cukup besar untuk menjadi signifikan secara statistik, dan penelitian kami menyoroti perlunya penelitian lebih lanjut mengenai ambang batas kinerja yang menunjukkan peningkatan risiko yang berarti. Selain itu, kami mencatat bahwa akses informasi saja tidak cukup untuk menciptakan ancaman biologis, dan evaluasi ini tidak menguji keberhasilan konstruksi fisik ancaman tersebut.

Di bawah ini, kami membagikan prosedur evaluasi kami dan hasil yang dihasilkannya secara lebih rinci. Kami juga membahas beberapa wawasan metodologis terkait perolehan kemampuan dan pertimbangan keamanan yang diperlukan untuk menjalankan jenis evaluasi ini dengan model frontier dalam skala besar. Kami juga membahas keterbatasan signifikansi statistik sebagai metode yang efektif untuk mengukur risiko model, dan pentingnya penelitian baru dalam menilai kebermaknaan hasil evaluasi model.