Building An Early Warning System For LLM-aided Biological Threat Creation

Újra kiadta Platón

Követő: 0

Megjegyzés: A mi részeként Felkészültségi keretrendszer, az AI által támogatott biztonsági kockázatok továbbfejlesztett értékelési módszereinek fejlesztésébe fektetünk be. Úgy gondoljuk, hogy ezeknek az erőfeszítéseknek hasznára válna a szélesebb körű hozzájárulás, és a módszerek megosztása is értékes lehet az AI kockázati kutatói közösség számára. Ebből a célból bemutatunk néhány korai munkánkat – ma, amelyek a biológiai kockázatokra összpontosítanak. Várjuk a közösség visszajelzéseit és további kutatásaink megosztását.

Háttér. Ahogy az OpenAI és más modellfejlesztők egyre hatékonyabb mesterségesintelligencia-rendszereket építenek, a mesterségesintelligencia jótékony és káros felhasználási lehetőségei is növekedni fognak. Az egyik potenciálisan káros felhasználás, amelyet a kutatók és a döntéshozók emeltek ki, az AI-rendszerek azon képessége, hogy segítsenek a rosszindulatú szereplőknek biológiai fenyegetések létrehozásában (pl. Fehér Ház 2023, Lovelace 2022, Sandbrink 2023). Az egyik tárgyalt hipotetikus példában egy rosszindulatú szereplő egy nagy képességű modellt használva lépésről lépésre haladó protokollt dolgozhat ki, nedves laboratóriumi eljárások hibaelhárítását végezheti el, vagy akár autonóm módon hajthatja végre a biofenyegetés létrehozási folyamatának lépéseit, ha hozzáférést kapnak olyan eszközökhöz, mint pl. felhő laborok (Lásd: Carter és munkatársai, 2023). Az ilyen hipotetikus példák életképességének felmérését azonban korlátozta az elégtelen értékelés és adat.

Nemrég megosztottunk nyomán Felkészültségi keretrendszermódszertanokat fejlesztünk az ilyen típusú kockázatok empirikus értékelésére, hogy segítsen megérteni, hol tartunk ma, és hol lehetünk a jövőben. Itt egy új értékelést mutatunk be, amely egy lehetséges „kioldó vezetékként” szolgálhat, jelezve az óvatosság szükségességét és a biológiai visszaélések lehetőségének további tesztelését. Ennek az értékelésnek az a célja, hogy felmérje, hogy a modellek a meglévő erőforrásokhoz (azaz az internethez) képest érdemben növelhetik-e a rosszindulatú szereplők hozzáférését a biológiai fenyegetés létrehozásával kapcsolatos veszélyes információkhoz.

Ennek értékelésére 100 humán résztvevővel végeztünk egy tanulmányt, amely (a) 50 PhD-vel és professzionális nedves labortapasztalattal rendelkező biológia szakértőből és (b) 50 hallgatói szintű résztvevőből állt, legalább egy egyetemi szintű biológia kurzussal. A résztvevők minden csoportját véletlenszerűen beosztották egy kontrollcsoportba, amelynek csak internet-hozzáférése volt, vagy egy kezelési csoportba, amely az interneten kívül a GPT-4-hez is hozzáfért. Ezután minden résztvevőt felkértek, hogy végezzenek el egy feladatsort, amelyek lefedik a biológiai fenyegetés létrehozásának végponttól végpontig terjedő folyamatát.^{[^1]} Tudomásunk szerint ez az eddigi legnagyobb emberi értékelés az AI biológiai kockázati információkra gyakorolt hatásáról.

Megállapítások. Tanulmányunk a GPT-4-hez hozzáféréssel rendelkező résztvevők teljesítményének növekedését mérte fel öt mérőszám (pontosság, teljesség, innováció, időigény és önértékelési nehézség) és a biológiai fenyegetés létrehozásának folyamatának öt szakaszában (ötlet, megszerzés, nagyítás, megfogalmazás). és engedje el). Enyhe emelkedést tapasztaltunk a nyelvi modellhez hozzáféréssel rendelkezők pontosságában és teljességében. Pontosabban, a válaszok pontosságát mérő 10 pontos skálán a szakértőknél 0.88-as, a diákoknál 0.25-ös átlagos pontszám-növekedést figyeltünk meg a csak internetes alapértékhez képest, és hasonló emelkedést a teljesség tekintetében (0.82 a szakértők és 0.41 a diákok esetében). A kapott hatásméretek azonban nem voltak elég nagyok ahhoz, hogy statisztikailag szignifikánsak legyenek, és tanulmányunk rávilágított arra, hogy további kutatásra van szükség azzal kapcsolatban, hogy milyen teljesítményküszöbök jelzik a kockázat jelentős növekedését. Ezenkívül megjegyezzük, hogy az információhoz való hozzáférés önmagában nem elegendő a biológiai fenyegetés létrehozásához, és ez az értékelés nem teszteli a fenyegetések fizikai felépítésének sikerességét.

Az alábbiakban részletesebben ismertetjük értékelési eljárásunkat és az általa hozott eredményeket. Több módszertani betekintést is tárgyalunk, amelyek a képesség-kiváltással és a biztonsági szempontokkal kapcsolatosak, amelyek szükségesek az ilyen típusú értékelések határmodellekkel történő skálán történő futtatásához. Kitérünk továbbá a statisztikai szignifikancia korlátaira, mint a modellkockázat mérésének hatékony módszerére, valamint az új kutatások fontosságára a modellértékelési eredmények értelmességének megítélésében.