Bygge et tidlig varslingssystem for LLM-støttet biologisk trusselskaping

Publisert av Platon

Følgere: 0

Merk: Som en del av vår Rammeverk for beredskap, investerer vi i utvikling av forbedrede evalueringsmetoder for AI-aktiverte sikkerhetsrisikoer. Vi tror at denne innsatsen vil ha nytte av bredere innspill, og at deling av metoder også kan være av verdi for AI-risikoforskningsmiljøet. For dette formål presenterer vi noe av vårt tidlige arbeid – i dag, fokusert på biologisk risiko. Vi ser frem til tilbakemeldinger fra samfunnet og til å dele mer av vår pågående forskning.

Bakgrunn. Etter hvert som OpenAI og andre modellutviklere bygger mer kapable AI-systemer, vil potensialet for både fordelaktig og skadelig bruk av AI vokse. En potensielt skadelig bruk, fremhevet av forskere og beslutningstakere, er evnen til AI-systemer til å hjelpe ondsinnede aktører med å skape biologiske trusler (f.eks. Det hvite hus 2023, Lovelace 2022, Sandbrink 2023). I et diskutert hypotetisk eksempel kan en ondsinnet aktør bruke en svært dyktig modell for å utvikle en trinn-for-trinn-protokoll, feilsøke våtlab-prosedyrer, eller til og med autonomt utføre trinn i prosessen med å skape biotrusler når de får tilgang til verktøy som skylaboratorier (Se Carter et al., 2023). Vurdering av levedyktigheten til slike hypotetiske eksempler var imidlertid begrenset av utilstrekkelige evalueringer og data.

Følger vår nylig delte Rammeverk for beredskaputvikler vi metoder for empirisk å evaluere disse typer risikoer, for å hjelpe oss å forstå både hvor vi er i dag og hvor vi kan være i fremtiden. Her beskriver vi en ny evaluering som kan bidra til å fungere som en potensiell "tripwire" som signaliserer behovet for forsiktighet og ytterligere testing av biologisk misbrukspotensial. Denne evalueringen tar sikte på å måle om modeller på en meningsfull måte kan øke ondsinnede aktørers tilgang til farlig informasjon om biologisk trusselskaping, sammenlignet med grunnlinjen til eksisterende ressurser (dvs. internett).

For å evaluere dette gjennomførte vi en studie med 100 menneskelige deltakere, bestående av (a) 50 biologieksperter med doktorgrad og profesjonell våtlaberfaring og (b) 50 deltakere på studentnivå, med minst ett kurs i biologi på universitetsnivå. Hver gruppe med deltakere ble tilfeldig tildelt enten en kontrollgruppe, som kun hadde tilgang til internett, eller en behandlingsgruppe, som hadde tilgang til GPT-4 i tillegg til internett. Hver deltaker ble deretter bedt om å fullføre et sett med oppgaver som dekker aspekter av ende-til-ende-prosessen for biologisk trusselskaping.^{[^1]} Så vidt vi vet er dette den hittil største menneskelige evalueringen av AIs innvirkning på biorisikoinformasjon.

Funn. Studien vår vurderte økninger i ytelse for deltakere med tilgang til GPT-4 på tvers av fem beregninger (nøyaktighet, fullstendighet, innovasjon, tid tatt og egenvurdert vanskelighetsgrad) og fem stadier i prosessen med å skape biologiske trusler (ideering, anskaffelse, forstørrelse, formulering , og slipp). Vi fant milde løft i nøyaktighet og fullstendighet for de med tilgang til språkmodellen. Spesifikt, på en 10-punkts skala som måler nøyaktigheten av svarene, observerte vi en gjennomsnittlig poengsumsøkning på 0.88 for eksperter og 0.25 for studenter sammenlignet med baseline bare for internett, og lignende økninger for fullstendighet (0.82 for eksperter og 0.41 for studenter). Imidlertid var de oppnådde effektstørrelsene ikke store nok til å være statistisk signifikante, og vår studie fremhevet behovet for mer forskning rundt hvilke ytelsesterskler som indikerer en meningsfull økning i risiko. Videre bemerker vi at informasjonstilgang alene er utilstrekkelig for å skape en biologisk trussel, og at denne evalueringen ikke tester for suksess i den fysiske konstruksjonen av truslene.

Nedenfor deler vi vår evalueringsprosedyre og resultatene den ga mer detaljert. Vi diskuterer også flere metodologiske innsikter knyttet til fremkalling av evner og sikkerhetshensyn som er nødvendige for å kjøre denne typen evaluering med grensemodeller i skala. Vi diskuterer også begrensningene for statistisk signifikans som en effektiv metode for å måle modellrisiko, og betydningen av ny forskning for å vurdere meningsfullheten av modellevalueringsresultater.