Izgradnja sistema zgodnjega opozarjanja za ustvarjanje biološke grožnje s pomočjo LLM

Ponovno objavil Platon

Spremljevalci: 0

Opomba: V sklopu našega Okvir pripravljenosti, vlagamo v razvoj izboljšanih metod ocenjevanja varnostnih tveganj, ki jih omogoča AI. Verjamemo, da bi ta prizadevanja koristila širšemu prispevku in da bi lahko bila skupna raba metod koristna tudi za skupnost raziskovalcev tveganja umetne inteligence. V ta namen predstavljamo nekaj našega zgodnjega dela – danes, osredotočenega na biološko tveganje. Veselimo se povratnih informacij skupnosti in deljenja več o naših tekočih raziskavah.

Ozadje. Ko OpenAI in drugi razvijalci modelov gradijo zmogljivejše sisteme umetne inteligence, bo potencial za koristne in škodljive uporabe umetne inteligence narasel. Ena potencialno škodljiva uporaba, ki so jo izpostavili raziskovalci in oblikovalci politike, je zmožnost sistemov AI, da pomagajo zlonamernim akterjem pri ustvarjanju bioloških groženj (npr. glejte Bela hiša 2023, Lovelace 2022, Sandbrink 2023). V enem od obravnavanih hipotetičnih primerov lahko zlonamerni akter uporabi visoko zmogljiv model za razvoj protokola po korakih, odpravljanje težav s postopki mokrega laboratorija ali celo samostojno izvajanje korakov procesa ustvarjanja biološke grožnje, ko ima dostop do orodij, kot je laboratoriji v oblaku (Glej Carter et al., 2023). Vendar je bilo ocenjevanje sposobnosti preživetja takih hipotetičnih primerov omejeno zaradi nezadostnih ocen in podatkov.

Po našem nedavno deljenem Okvir pripravljenosti, razvijamo metodologije za empirično vrednotenje teh vrst tveganj, ki nam pomagajo razumeti, kje smo danes in kje bi lahko bili v prihodnosti. Tukaj podrobno opisujemo novo vrednotenje, ki bi lahko pomagalo služiti kot en potencialni "splet", ki nakazuje potrebo po previdnosti in nadaljnjem testiranju potenciala biološke zlorabe. Namen te ocene je izmeriti, ali bi modeli lahko smiselno povečali dostop zlonamernih akterjev do nevarnih informacij o ustvarjanju biološke grožnje v primerjavi z izhodiščem obstoječih virov (tj. interneta).

Da bi to ovrednotili, smo izvedli študijo s 100 človeškimi udeleženci, ki je vključevala (a) 50 strokovnjakov za biologijo z doktoratom znanosti in poklicnimi izkušnjami v mokrih laboratorijih ter (b) 50 udeležencev na ravni študentov z vsaj enim predmetom biologije na univerzitetni ravni. Vsaka skupina udeležencev je bila naključno dodeljena bodisi kontrolni skupini, ki je imela samo dostop do interneta, ali zdravljeni skupini, ki je imela poleg interneta dostop do GPT-4. Vsak udeleženec je bil nato pozvan, da opravi niz nalog, ki zajemajo vidike procesa od konca do konca za ustvarjanje biološke grožnje.^{[^1]} Kolikor nam je znano, je to doslej največja človeška ocena vpliva umetne inteligence na informacije o biološkem tveganju.

Ugotovitve. Naša študija je ocenila izboljšanje uspešnosti udeležencev z dostopom do GPT-4 v petih metrikah (natančnost, popolnost, inovativnost, porabljen čas in samoocenjena težavnost) in petih stopnjah v procesu ustvarjanja biološke grožnje (zamisel, pridobitev, povečava, formulacija). , in sprostite). Pri tistih z dostopom do jezikovnega modela smo ugotovili rahlo izboljšanje natančnosti in popolnosti. Natančneje, na 10-stopenjski lestvici, ki meri točnost odgovorov, smo opazili povečanje povprečne ocene za 0.88 za strokovnjake in 0.25 za študente v primerjavi z izhodiščem samo na internetu ter podobna dviga za popolnost (0.82 za strokovnjake in 0.41 za študente). Vendar dobljene velikosti učinka niso bile dovolj velike, da bi bile statistično značilne, in naša študija je poudarila potrebo po več raziskavah o tem, kateri pragovi učinkovitosti kažejo na pomembno povečanje tveganja. Poleg tega ugotavljamo, da sam dostop do informacij ne zadošča za ustvarjanje biološke grožnje in da ta ocena ne preverja uspeha pri fizični konstrukciji groženj.

Spodaj delimo naš postopek ocenjevanja in rezultate, ki jih je prinesel, podrobneje. Razpravljamo tudi o več metodoloških vpogledih v zvezi z izvabljanjem zmogljivosti in varnostnimi vidiki, potrebnimi za izvajanje te vrste vrednotenja z mejnimi modeli v velikem obsegu. Obravnavamo tudi omejitve statistične pomembnosti kot učinkovite metode merjenja tveganja modela ter pomen novih raziskav pri ocenjevanju smiselnosti rezultatov vrednotenja modela.