Bygga ett system för tidig varning för LLM-stödd biologisk hotbild

Återutgiven av Platon

anhängare: 0

Obs: Som en del av vår Ram för beredskap, investerar vi i utvecklingen av förbättrade utvärderingsmetoder för AI-aktiverade säkerhetsrisker. Vi tror att dessa ansträngningar skulle gynnas av bredare insatser och att delning av metoder också kan vara av värde för AI-riskforskningssamhället. För detta ändamål presenterar vi en del av vårt tidiga arbete – idag fokuserat på biologisk risk. Vi ser fram emot feedback från samhället och att dela mer av vår pågående forskning.

Bakgrund. När OpenAI och andra modellutvecklare bygger mer kapabla AI-system kommer potentialen för både fördelaktig och skadlig användning av AI att växa. En potentiellt skadlig användning, som lyfts fram av forskare och beslutsfattare, är förmågan för AI-system att hjälpa skadliga aktörer att skapa biologiska hot (t.ex. Vita huset 2023, Lovelace 2022, Sandbrink 2023). I ett diskuterat hypotetiskt exempel kan en illvillig aktör använda en mycket kapabel modell för att utveckla ett steg-för-steg-protokoll, felsöka våtlabbprocedurer eller till och med självständigt utföra steg i processen för att skapa biohot när de ges tillgång till verktyg som molnlabb (Se Carter et al., 2023). Att bedöma livskraften för sådana hypotetiska exempel begränsades dock av otillräckliga utvärderingar och data.

Följer vår nyligen delade Ram för beredskap, utvecklar vi metoder för att empiriskt utvärdera dessa typer av risker, för att hjälpa oss förstå både var vi är idag och var vi kan vara i framtiden. Här beskriver vi en ny utvärdering som kan hjälpa till att fungera som en potentiell "tripwire" som signalerar behovet av försiktighet och ytterligare testning av potential för biologisk missbruk. Denna utvärdering syftar till att mäta huruvida modeller på ett meningsfullt sätt kan öka skadliga aktörers tillgång till farlig information om skapande av biologiska hot, jämfört med baslinjen för befintliga resurser (dvs. internet).

För att utvärdera detta genomförde vi en studie med 100 mänskliga deltagare, omfattande (a) 50 biologiexperter med doktorer och professionell erfarenhet av våtlabb och (b) 50 deltagare på studentnivå, med minst en kurs i biologi på universitetsnivå. Varje grupp av deltagare tilldelades slumpmässigt till antingen en kontrollgrupp, som bara hade tillgång till internet, eller en behandlingsgrupp, som hade tillgång till GPT-4 utöver internet. Varje deltagare ombads sedan att slutföra en uppsättning uppgifter som täcker aspekter av hela processen för att skapa biologiska hot.^{[^1]} Såvitt vi vet är detta den hittills största mänskliga utvärderingen av AI:s inverkan på bioriskinformation.

Fynd. Vår studie utvärderade prestationshöjningar för deltagare med tillgång till GPT-4 över fem mätvärden (noggrannhet, fullständighet, innovation, tidsåtgång och självskattad svårighet) och fem steg i processen för att skapa biologiska hot (idéer, förvärv, förstoring, formulering , och släpp). Vi fann milda höjningar i noggrannhet och fullständighet för dem med tillgång till språkmodellen. Specifikt, på en 10-gradig skala som mäter svarens noggrannhet, observerade vi en medelpoängökning på 0.88 för experter och 0.25 för studenter jämfört med baslinjen för endast internet, och liknande höjningar för fullständighet (0.82 för experter och 0.41 för studenter). De erhållna effektstorlekarna var dock inte tillräckligt stora för att vara statistiskt signifikanta, och vår studie visade på behovet av mer forskning kring vilka prestationströsklar som indikerar en meningsfull riskökning. Dessutom noterar vi att informationstillgången ensam är otillräcklig för att skapa ett biologiskt hot, och att denna utvärdering inte testar framgång i den fysiska konstruktionen av hoten.

Nedan delar vi mer detaljerat om vårt utvärderingsförfarande och resultaten det gav. Vi diskuterar också flera metodologiska insikter relaterade till förmåga att framkalla och säkerhetsöverväganden som behövs för att köra denna typ av utvärdering med gränsmodeller i stor skala. Vi diskuterar också begränsningarna av statistisk signifikans som en effektiv metod för att mäta modellrisk, och betydelsen av ny forskning för att bedöma meningsfullheten i modellutvärderingsresultat.