Varhaisvaroitusjärjestelmän rakentaminen LLM-avusteisen biologisen uhan luomiseksi

Julkaissut Platon

seuraajia: 0

Huomautus: osana meidän Valmiuskehys, investoimme tekoälyn tukemien turvallisuusriskien parempien arviointimenetelmien kehittämiseen. Uskomme, että nämä ponnistelut hyötyisivät laajemmasta panoksesta ja että menetelmien jakaminen voisi olla arvokasta myös tekoälyriskien tutkijayhteisölle. Tätä tarkoitusta varten esittelemme joitain varhaisista töistämme – tänään, keskittyen biologisiin riskeihin. Odotamme innolla yhteisön palautetta ja jaamme lisää käynnissä olevasta tutkimuksestamme.

Tausta. Kun OpenAI ja muut mallien kehittäjät rakentavat tehokkaampia tekoälyjärjestelmiä, mahdollisuudet sekä hyödylliseen että haitalliseen tekoälyn käyttöön kasvavat. Eräs mahdollisesti haitallinen käyttö, jota tutkijat ja päättäjät korostavat, on tekoälyjärjestelmien kyky auttaa pahantahtoisia toimijoita luomaan biologisia uhkia (esim. Valkoinen talo 2023, Lovelace 2022, Sandbrink 2023). Yhdessä käsitellyssä hypoteettisessa esimerkissä pahantahtoinen toimija saattaa käyttää erittäin pätevää mallia vaiheittaisen protokollan kehittämiseen, märkälaboratoriomenettelyjen vianetsintää tai jopa suorittaa itsenäisesti biouhan luontiprosessin vaiheita, kun hänellä on pääsy työkaluihin, kuten pilvilaboratoriot (Ks. Carter et ai., 2023). Tällaisten hypoteettisten esimerkkien toteuttamiskelpoisuuden arviointia rajoitti kuitenkin riittämättömät arvioinnit ja tiedot.

Seuraamme äskettäin jaettuamme ValmiuskehysKehitämme menetelmiä tämäntyyppisten riskien empiiriseen arvioimiseen, jotta voimme ymmärtää, missä olemme nyt ja missä voimme olla tulevaisuudessa. Tässä kerromme yksityiskohtaisesti uudesta arvioinnista, joka voisi auttaa toimimaan yhtenä mahdollisena "laukaisimena", joka ilmaisee varovaisuuden ja biologisen väärinkäytön mahdollisen lisätestauksen tarpeen. Tämän arvioinnin tarkoituksena on mitata, voisivatko mallit merkittävästi lisätä haitallisten toimijoiden mahdollisuuksia saada vaarallista tietoa biologisten uhkien luomisesta verrattuna olemassa olevien resurssien (esim. Internetiin) lähtötasoon.

Tämän arvioimiseksi suoritimme tutkimuksen, johon osallistui 100 ihmistä, joihin kuului (a) 50 biologian asiantuntijaa, joilla oli tohtorintutkinto ja ammatillinen märkälaboratoriokokemus, ja (b) 50 opiskelijatason osallistujaa, joilla oli vähintään yksi yliopistotason biologian kurssi. Jokainen osallistujaryhmä jaettiin satunnaisesti joko kontrolliryhmään, jolla oli pääsy vain Internetiin, tai hoitoryhmään, jolla oli pääsy GPT-4:ään Internetin lisäksi. Tämän jälkeen jokaista osallistujaa pyydettiin suorittamaan joukko tehtäviä, jotka kattavat biologisten uhkien luomisen kokonaisvaltaisen prosessin näkökohdat.^{[^1]} Tietojemme mukaan tämä on tähän mennessä suurin ihmisen tekemä arvio tekoälyn vaikutuksesta bioriskitietoihin.

Havainnot. Tutkimuksessamme arvioimme GPT-4:ään pääsyn saaneiden osallistujien suorituskyvyn nousua viidellä mittarilla (tarkkuus, täydellisyys, innovaatio, käytetty aika ja itsearvioitu vaikeusaste) ja biologisen uhan luomisprosessin viidessä vaiheessa (ideointi, hankinta, suurennus, muotoilu) , ja vapauta). Löysimme lieviä parannuksia tarkkuudessa ja täydellisyydessä niille, joilla on pääsy kielimalliin. Tarkemmin sanottuna vastausten tarkkuutta mittaavalla 10 pisteen asteikolla havaitsimme keskimääräisen pistemäärän nousun asiantuntijoilla 0.88 ja opiskelijoilla 0.25 verrattuna pelkän internetin lähtötasoon ja vastaavanlaista täydellisyyden nousua (0.82 asiantuntijoiden ja 0.41 opiskelijoiden osalta). Saadut vaikutuskoot eivät kuitenkaan olleet tarpeeksi suuria ollakseen tilastollisesti merkittäviä, ja tutkimuksemme korosti, että tarvitaan lisää tutkimusta siitä, mitkä suorituskynnykset osoittavat merkittävää riskin kasvua. Lisäksi toteamme, että pelkkä tiedon saanti ei riitä luomaan biologista uhkaa, ja että tämä arviointi ei testaa onnistumista uhkien fyysisessä rakentamisessa.

Alla kerromme yksityiskohtaisemmin arviointimenettelystämme ja sen tuottamista tuloksista. Keskustelemme myös useista metodologisista näkemyksistä, jotka liittyvät valmiuksien hyödyntämiseen ja turvallisuusnäkökohtiin, joita tarvitaan tämän tyyppisen arvioinnin suorittamiseen rajamalleilla mittakaavassa. Käsittelemme myös tilastollisen merkitsevyyden rajoituksia tehokkaana malliriskin mittausmenetelmänä sekä uuden tutkimuksen merkitystä mallien arvioinnin tulosten mielekkyyden arvioinnissa.