Yüksek Lisans Destekli Biyolojik Tehdit Oluşturma İçin Erken Uyarı Sistemi Oluşturma

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Not: Çalışmamızın bir parçası olarak Hazırlık ÇerçevesiYapay zekanın etkin olduğu emniyet riskleri için iyileştirilmiş değerlendirme yöntemlerinin geliştirilmesine yatırım yapıyoruz. Bu çabaların daha geniş girdilerden faydalanacağına ve yöntem paylaşımının aynı zamanda yapay zeka risk araştırma topluluğu için de değerli olabileceğine inanıyoruz. Bu amaçla, bugün biyolojik riske odaklanan önceki çalışmalarımızdan bazılarını sunuyoruz. Topluluğun geri bildirimlerini ve devam eden araştırmalarımızın daha fazlasını paylaşmayı sabırsızlıkla bekliyoruz.

Arka fon. OpenAI ve diğer model geliştiricileri daha yetenekli yapay zeka sistemleri oluşturdukça, yapay zekanın hem yararlı hem de zararlı kullanım potansiyeli artacaktır. Araştırmacılar ve politika yapıcılar tarafından vurgulanan potansiyel olarak zararlı bir kullanım, yapay zeka sistemlerinin biyolojik tehditler oluşturmada kötü niyetli aktörlere yardımcı olma yeteneğidir (örn., bkz. Beyaz Saray 2023, 2022, Kum Kenarı 2023). Tartışılan varsayımsal bir örnekte, kötü niyetli bir aktör, adım adım bir protokol geliştirmek, ıslak laboratuvar prosedürlerinde sorun gidermek ve hatta aşağıdaki gibi araçlara erişim verildiğinde biyo-tehdit oluşturma sürecinin adımlarını bağımsız olarak yürütmek için oldukça yetenekli bir model kullanabilir. bulut laboratuvarları (görmek Carter ve diğerleri, 2023). Ancak bu tür varsayımsal örneklerin uygulanabilirliğini değerlendirmek, yetersiz değerlendirmeler ve veriler nedeniyle sınırlıydı.

Son paylaştığımız gönderileri takip ediyorum Hazırlık Çerçevesiolarak, hem bugün nerede olduğumuzu hem de gelecekte nerede olabileceğimizi anlamamıza yardımcı olmak amacıyla bu tür riskleri ampirik olarak değerlendirmek için yöntemler geliştiriyoruz. Burada, dikkatli olunması gerektiğine ve biyolojik kötüye kullanım potansiyelinin daha fazla test edilmesine işaret eden potansiyel bir "tuzak teli" görevi görmeye yardımcı olabilecek yeni bir değerlendirmenin ayrıntılarını veriyoruz. Bu değerlendirme, mevcut kaynakların (yani internetin) temel çizgisiyle karşılaştırıldığında, modellerin kötü niyetli aktörlerin biyolojik tehdit oluşumuna ilişkin tehlikeli bilgilere erişimini anlamlı bir şekilde artırıp artıramayacağını ölçmeyi amaçlamaktadır.

Bunu değerlendirmek için, (a) doktora sahibi ve profesyonel ıslak laboratuvar deneyimine sahip 100 biyoloji uzmanından ve (b) üniversite düzeyinde en az bir biyoloji dersi olan 50 öğrenci düzeyinde katılımcıdan oluşan 50 insan katılımcıyla bir çalışma gerçekleştirdik. Her katılımcı grubu, yalnızca internete erişimi olan bir kontrol grubuna veya internete ek olarak GPT-4'e erişimi olan bir tedavi grubuna rastgele atandı. Daha sonra her katılımcıdan biyolojik tehdit yaratmaya yönelik uçtan uca sürecin çeşitli yönlerini kapsayan bir dizi görevi tamamlaması istendi.^{[^1]} Bildiğimiz kadarıyla bu, yapay zekanın biyorisk bilgileri üzerindeki etkisine ilişkin bugüne kadar yapılan en büyük insan değerlendirmesidir.

Bulgular. Çalışmamız, GPT-4'e erişimi olan katılımcıların performansındaki artışları beş ölçüm (doğruluk, eksiksizlik, yenilik, harcanan zaman ve kişinin kendi derecelendirdiği zorluk) ve biyolojik tehdit oluşturma sürecindeki beş aşama (fikir oluşturma, edinme, büyütme, formülasyon) üzerinden değerlendirdi. ve bırakın). Dil modeline erişimi olanlar için doğruluk ve eksiksizlikte hafif artışlar bulduk. Spesifik olarak, yanıtların doğruluğunu ölçen 10 puanlık bir ölçekte, yalnızca internet temeline kıyasla uzmanlar için 0.88 ve öğrenciler için 0.25'lik bir ortalama puan artışı ve eksiksizlik açısından da benzer artışlar (uzmanlar için 0.82 ve öğrenciler için 0.41) gözlemledik. Ancak elde edilen etki büyüklükleri istatistiksel olarak anlamlı olacak kadar büyük değildi ve çalışmamız hangi performans eşiklerinin riskte anlamlı bir artışa işaret ettiği konusunda daha fazla araştırmaya ihtiyaç duyulduğunu vurguladı. Ayrıca sadece bilgiye erişimin biyolojik tehdit oluşturmak için yeterli olmadığını ve bu değerlendirmenin tehditlerin fiziksel inşasındaki başarısını test etmediğini belirtiyoruz.

Aşağıda değerlendirme prosedürümüzü ve verdiği sonuçları daha detaylı olarak paylaşıyoruz. Ayrıca, bu tür bir değerlendirmeyi geniş ölçekte sınır modelleriyle yürütmek için gereken yetenek ortaya çıkarma ve güvenlik hususlarıyla ilgili çeşitli metodolojik bilgileri de tartışıyoruz. Ayrıca, model riskini ölçmenin etkili bir yöntemi olarak istatistiksel anlamlılığın sınırlamalarını ve model değerlendirme sonuçlarının anlamlılığını değerlendirmede yeni araştırmaların önemini tartışıyoruz.