Een systeem voor vroegtijdige waarschuwing bouwen voor het door LLM ondersteunde creëren van biologische dreigingen

Heruitgegeven door Plato

volgers: 0

Opmerking: als onderdeel van onze Kader voor paraatheidinvesteren we in de ontwikkeling van verbeterde evaluatiemethoden voor door AI mogelijk gemaakte veiligheidsrisico’s. Wij zijn van mening dat deze inspanningen baat zouden hebben bij een bredere inbreng, en dat het delen van methoden ook van waarde zou kunnen zijn voor de AI-risicoonderzoeksgemeenschap. Met dit doel voor ogen presenteren we een deel van ons vroege werk – vandaag gericht op biologische risico’s. We kijken uit naar feedback van de gemeenschap en naar het delen van meer van ons lopende onderzoek.

Achtergrond. Naarmate OpenAI en andere modelontwikkelaars capabelere AI-systemen bouwen, zal het potentieel voor zowel nuttige als schadelijke toepassingen van AI toenemen. Eén potentieel schadelijk gebruik, benadrukt door onderzoekers en beleidsmakers, is het vermogen van AI-systemen om kwaadwillende actoren te helpen bij het creëren van biologische bedreigingen (zie bijvoorbeeld Witte Huis 2023, Lovelace 2022, Zandbrink 2023). In een besproken hypothetisch voorbeeld zou een kwaadwillende actor een zeer capabel model kunnen gebruiken om een stapsgewijs protocol te ontwikkelen, problemen met wet-lab-procedures op te lossen of zelfs autonoom stappen uit te voeren van het proces voor het creëren van biodreigingen wanneer hij toegang krijgt tot tools zoals cloud labs (Zie Carter et al., 2023). Het beoordelen van de levensvatbaarheid van dergelijke hypothetische voorbeelden werd echter beperkt door onvoldoende evaluaties en gegevens.

Naar aanleiding van onze onlangs gedeelde Kader voor paraatheidontwikkelen we methodologieën om dit soort risico's empirisch te evalueren, om ons te helpen begrijpen waar we nu staan en waar we in de toekomst zouden kunnen staan. Hier beschrijven we een nieuwe evaluatie die zou kunnen helpen als een mogelijke ‘struikeldraad’ die de noodzaak van voorzichtigheid en verder testen van het potentieel voor biologisch misbruik signaleert. Deze evaluatie heeft tot doel te meten of modellen op zinvolle wijze de toegang van kwaadwillende actoren tot gevaarlijke informatie over het ontstaan van biologische dreigingen kunnen vergroten, vergeleken met de basis van bestaande bronnen (dat wil zeggen internet).

Om dit te evalueren hebben we een onderzoek uitgevoerd met 100 menselijke deelnemers, bestaande uit (a) 50 biologie-experts met PhD's en professionele natte laboratoriumervaring en (b) 50 deelnemers op studentenniveau, met ten minste één cursus biologie op universitair niveau. Elke groep deelnemers werd willekeurig toegewezen aan een controlegroep, die alleen toegang had tot internet, of aan een behandelgroep, die naast internet ook toegang had tot GPT-4. Elke deelnemer werd vervolgens gevraagd een reeks taken uit te voeren die aspecten van het end-to-end proces voor het creëren van biologische dreigingen bestreken.^{[^1]} Voor zover wij weten is dit de grootste menselijke evaluatie tot nu toe van de impact van AI op biorisico-informatie.

bevindingen. In ons onderzoek zijn prestatieverbeteringen beoordeeld voor deelnemers met toegang tot GPT-4 op basis van vijf maatstaven (nauwkeurigheid, volledigheid, innovatie, benodigde tijd en zelfbeoordeelde moeilijkheidsgraad) en vijf fasen in het proces van het creëren van biologische dreigingen (ideevorming, verwerving, vergroting, formulering en loslaten). We constateerden een lichte verbetering in nauwkeurigheid en volledigheid voor degenen die toegang hadden tot het taalmodel. Concreet hebben we op een 10-puntsschaal die de nauwkeurigheid van de antwoorden meet, een gemiddelde stijging van de score waargenomen van 0.88 voor experts en 0.25 voor studenten vergeleken met de basislijn voor alleen internet, en soortgelijke stijgingen voor de volledigheid (0.82 voor experts en 0.41 voor studenten). De verkregen effectgroottes waren echter niet groot genoeg om statistisch significant te zijn, en ons onderzoek benadrukte de behoefte aan meer onderzoek naar welke prestatiedrempels een betekenisvolle toename van het risico aangeven. Bovendien merken we op dat de toegang tot informatie alleen onvoldoende is om een biologische dreiging te creëren, en dat deze evaluatie niet test op succes bij de fysieke constructie van de dreigingen.

Hieronder delen wij onze evaluatieprocedure en de resultaten die deze opleverden meer in detail. We bespreken ook verschillende methodologische inzichten met betrekking tot het uitlokken van capaciteiten en veiligheidsoverwegingen die nodig zijn om dit type evaluatie op schaal uit te voeren met grensmodellen. We bespreken ook de beperkingen van statistische significantie als een effectieve methode voor het meten van modelrisico's, en het belang van nieuw onderzoek bij het beoordelen van de betekenis van modelevaluatieresultaten.