Opbygning af et tidligt varslingssystem til LLM-støttet biologisk trusselskabelse

Genudgivet af Platon

Abonnenter: 0

Bemærk: Som en del af vores Beredskabsramme, investerer vi i udviklingen af forbedrede evalueringsmetoder for AI-aktiverede sikkerhedsrisici. Vi mener, at disse bestræbelser vil drage fordel af bredere input, og at deling af metoder også kan være af værdi for AI-risikoforskningssamfundet. Til dette formål præsenterer vi noget af vores tidlige arbejde - i dag med fokus på biologisk risiko. Vi ser frem til feedback fra fællesskabet og til at dele mere af vores igangværende forskning.

Baggrund. Efterhånden som OpenAI og andre modeludviklere bygger mere dygtige AI-systemer, vil potentialet for både gavnlig og skadelig brug af AI vokse. En potentielt skadelig anvendelse, fremhævet af forskere og politiske beslutningstagere, er AI-systemers evne til at hjælpe ondsindede aktører med at skabe biologiske trusler (f.eks. Det Hvide Hus 2023, Lovelace 2022, Sandbrink 2023). I et diskuteret hypotetisk eksempel kan en ondsindet aktør bruge en meget dygtig model til at udvikle en trin-for-trin protokol, fejlfinde våde laboratorieprocedurer eller endda selvstændigt udføre trin i processen til at skabe biotrusler, når de får adgang til værktøjer som f.eks. cloud-laboratorier (Se Carter et al., 2023). Imidlertid var vurderingen af levedygtigheden af sådanne hypotetiske eksempler begrænset af utilstrækkelige evalueringer og data.

Følger vores nyligt delte Beredskabsramme, udvikler vi metoder til empirisk at evaluere disse typer risici, for at hjælpe os med at forstå både, hvor vi er i dag, og hvor vi kan være i fremtiden. Her beskriver vi en ny evaluering, som kan hjælpe med at tjene som en potentiel "tripwire", der signalerer behovet for forsigtighed og yderligere test af biologisk misbrugspotentiale. Denne evaluering har til formål at måle, om modeller på en meningsfuld måde kan øge ondsindede aktørers adgang til farlig information om skabelse af biologiske trusler sammenlignet med basislinjen for eksisterende ressourcer (dvs. internettet).

For at evaluere dette gennemførte vi en undersøgelse med 100 menneskelige deltagere, omfattende (a) 50 biologieksperter med ph.d.'er og professionel våd laboratorieerfaring og (b) 50 deltagere på studerende niveau, med mindst ét kursus på universitetsniveau i biologi. Hver gruppe af deltagere blev tilfældigt tildelt enten en kontrolgruppe, som kun havde adgang til internettet, eller en behandlingsgruppe, som havde adgang til GPT-4 ud over internettet. Hver deltager blev derefter bedt om at udføre et sæt opgaver, der dækkede aspekter af ende-til-ende-processen for skabelse af biologisk trussel.^{[^1]} Så vidt vi ved, er dette den hidtil største menneskelige evaluering af AI's indvirkning på biorisikoinformation.

Fund. Vores undersøgelse vurderede stigninger i præstationer for deltagere med adgang til GPT-4 på tværs af fem metrics (nøjagtighed, fuldstændighed, innovation, tid taget og selvvurderet sværhedsgrad) og fem stadier i den biologiske trusselsskabelsesproces (ideering, erhvervelse, forstørrelse, formulering , og slip). Vi fandt milde stigninger i nøjagtighed og fuldstændighed for dem med adgang til sprogmodellen. Specifikt, på en 10-punkts skala, der måler nøjagtigheden af svar, observerede vi en gennemsnitlig scorestigning på 0.88 for eksperter og 0.25 for studerende sammenlignet med baseline, der kun var på internettet, og lignende stigninger for fuldstændighed (0.82 for eksperter og 0.41 for studerende). De opnåede effektstørrelser var dog ikke store nok til at være statistisk signifikante, og vores undersøgelse fremhævede behovet for mere forskning omkring hvilke præstationstærskler, der indikerer en meningsfuld stigning i risiko. Desuden bemærker vi, at informationsadgang alene er utilstrækkelig til at skabe en biologisk trussel, og at denne evaluering ikke tester for succes i den fysiske konstruktion af truslerne.

Nedenfor deler vi vores evalueringsprocedure og de resultater, den har givet, mere detaljeret. Vi diskuterer også adskillige metodiske indsigter relateret til kapacitetsfremkaldelse og sikkerhedsovervejelser, der er nødvendige for at køre denne type evaluering med grænsemodeller i skala. Vi diskuterer også begrænsningerne af statistisk signifikans som en effektiv metode til at måle modelrisiko, og vigtigheden af ny forskning i vurderingen af meningsfuldheden af modelevalueringsresultater.