Building An Early Warning System For LLM-aided Biological Threat Creation

Taasavaldanud Platon

järgijaid: 0

Märkus: osana meie Valmisoleku raamistik, investeerime tehisintellekti toega ohutusriskide täiustatud hindamismeetodite väljatöötamisse. Usume, et nendele jõupingutustele tuleks kasuks laiem panus ja et meetodite jagamine võib olla kasulik ka tehisintellekti riskide uurimisringkondadele. Sel eesmärgil esitleme mõnda oma varasemast tööst – täna, mis keskendub bioloogilisele riskile. Ootame kogukonna tagasisidet ja oma käimasolevate uuringute jagamist.

Taust. Kuna OpenAI ja teised mudeliarendajad ehitavad võimekamaid tehisintellektisüsteeme, kasvab tehisintellekti kasuliku ja kahjuliku kasutamise potentsiaal. Üks potentsiaalselt kahjulik kasutus, mida teadlased ja poliitikakujundajad rõhutasid, on tehisintellektisüsteemide võime aidata pahatahtlikel osalejatel luua bioloogilisi ohte (nt vt. Valge Maja 2023, Lovelace 2022, Sandbrink 2023). Ühes käsitletud hüpoteetilises näites võib pahatahtlik tegutseja kasutada suure võimekusega mudelit samm-sammulise protokolli väljatöötamiseks, märglabori protseduuride tõrkeotsinguks või isegi bioohu loomise protsessi iseseisvaks teostamiseks, kui talle antakse juurdepääs sellistele tööriistadele nagu pilvelaborid (Vt Carter et al., 2023). Selliste hüpoteetiliste näidete elujõulisuse hindamist piirasid aga ebapiisavad hinnangud ja andmed.

Jälgides meie hiljuti jagatud Valmisoleku raamistik, töötame välja metoodikaid seda tüüpi riskide empiiriliseks hindamiseks, et aidata meil mõista nii seda, kus me praegu oleme ja kus võiksime olla tulevikus. Siin kirjeldame üksikasjalikult uut hinnangut, mis võib aidata olla üks potentsiaalne "trippjuhtme", mis annab märku vajadusest olla ettevaatlik ja uurida bioloogilise väärkasutuse potentsiaali. Selle hindamise eesmärk on mõõta, kas mudelid võivad olemasolevate ressurssidega (st Internetiga) võrreldes oluliselt suurendada pahatahtlike osalejate juurdepääsu ohtlikule teabele bioloogilise ohu loomise kohta.

Selle hindamiseks viisime läbi uuringu, milles osales 100 inimest, mis hõlmas (a) 50 doktorikraadi ja professionaalse märglabori kogemusega bioloogiaeksperti ja (b) 50 üliõpilase tasemel osalejat, kellel oli vähemalt üks ülikooli tasemel bioloogiakursus. Iga osalejate rühm määrati juhuslikult kas kontrollrühma, millel oli juurdepääs ainult Internetile, või ravirühma, millel oli lisaks Internetile juurdepääs ka GPT-4-le. Seejärel paluti igal osalejal täita rida ülesandeid, mis hõlmasid bioloogilise ohu loomise protsessi lõppu.^{[^1]} Meile teadaolevalt on see seni suurim inimeste hinnang AI mõju kohta bioriskiteabele.

Leiud. Meie uuringus hinnati GPT-4-le juurdepääsu omavate osalejate jõudluse tõusu viie mõõdiku (täpsus, täielikkus, uuenduslikkus, kuluv aeg ja enesehinnangu raskusaste) ja bioloogilise ohu loomise protsessi viie etapi (idee, omandamine, suurendamine, formuleerimine) lõikes. ja vabastage). Nende jaoks, kellel on juurdepääs keelemudelile, leidsime täpsuse ja täielikkuse kergeid tõusu. Täpsemalt, 10-punktilisel skaalal, mis mõõtis vastuste täpsust, täheldasime ekspertide keskmise skoori tõusu 0.88 ja õpilaste puhul 0.25 võrreldes ainult Interneti-põhise algtasemega ning sarnaseid tõususid täielikkuse osas (0.82 ekspertide ja 0.41 õpilaste puhul). Siiski ei olnud saadud efekti suurused piisavalt suured, et olla statistiliselt olulised, ja meie uuring tõi esile vajaduse rohkem uurida, millised toimivusläved näitavad riski märkimisväärset suurenemist. Lisaks märgime, et ainult teabele juurdepääsust ei piisa bioloogilise ohu tekitamiseks ja see hindamine ei testi ohtude füüsilise konstrueerimise edukust.

Allpool jagame üksikasjalikumalt oma hindamismenetlust ja selle tulemusel saadud tulemusi. Arutame ka mitmeid metodoloogilisi teadmisi, mis on seotud võimete leidmise ja turvakaalutlustega, mida on vaja seda tüüpi hindamise läbiviimiseks piiriüleste mudelite mastaabis. Samuti käsitleme statistilise olulisuse piiranguid kui tõhusat mudeliriski mõõtmise meetodit ning uute uuringute tähtsust mudelite hindamise tulemuste mõttekuse hindamisel.