Costruire un sistema di allarme precoce per la creazione di minacce biologiche assistita da LLM

Ripubblicato da Platone

Seguaci: 0

Nota: Nell'ambito del nostro Quadro di preparazione, stiamo investendo nello sviluppo di metodi di valutazione migliorati per i rischi per la sicurezza legati all’intelligenza artificiale. Riteniamo che questi sforzi trarrebbero beneficio da un input più ampio e che la condivisione dei metodi potrebbe anche essere utile per la comunità di ricerca sui rischi dell’IA. A tal fine, presentiamo alcuni dei nostri primi lavori, incentrati oggi sul rischio biologico. Attendiamo con ansia il feedback della community e la condivisione di ulteriori informazioni sulla nostra ricerca in corso.

Sfondo. Man mano che OpenAI e altri sviluppatori di modelli costruiscono sistemi di intelligenza artificiale più capaci, il potenziale per usi sia benefici che dannosi dell’intelligenza artificiale aumenterà. Un uso potenzialmente dannoso, evidenziato da ricercatori e politici, è la capacità dei sistemi di intelligenza artificiale di assistere gli attori malintenzionati nella creazione di minacce biologiche (ad esempio, vedere Casa Bianca 2023, Lovelace 2022, Sandbrink 2023). In un esempio ipotetico discusso, un attore malintenzionato potrebbe utilizzare un modello altamente capace per sviluppare un protocollo passo dopo passo, risolvere i problemi delle procedure di laboratorio umido o persino eseguire autonomamente le fasi del processo di creazione della minaccia biologica quando gli viene dato accesso a strumenti come laboratori sul cloud (Vedi Carter et al., 2023). Tuttavia, la valutazione della fattibilità di tali esempi ipotetici è stata limitata da valutazioni e dati insufficienti.

Dopo il nostro recente condiviso Quadro di preparazione, stiamo sviluppando metodologie per valutare empiricamente questi tipi di rischi, per aiutarci a capire sia dove siamo oggi sia dove potremmo essere in futuro. Qui, descriviamo in dettaglio una nuova valutazione che potrebbe aiutare a fungere da potenziale “trappola” che segnala la necessità di cautela e di ulteriori test sul potenziale di abuso biologico. Questa valutazione mira a misurare se i modelli potrebbero aumentare in modo significativo l'accesso degli autori malintenzionati a informazioni pericolose sulla creazione di minacce biologiche, rispetto alla base delle risorse esistenti (ad esempio Internet).

Per valutare questo, abbiamo condotto uno studio con 100 partecipanti umani, comprendenti (a) 50 esperti di biologia con dottorato di ricerca ed esperienza professionale nel laboratorio umido e (b) 50 partecipanti a livello di studente, con almeno un corso di livello universitario in biologia. Ogni gruppo di partecipanti è stato assegnato in modo casuale a un gruppo di controllo, che aveva accesso solo a Internet, o a un gruppo di trattamento, che aveva accesso a GPT-4 oltre a Internet. A ciascun partecipante è stato quindi chiesto di completare una serie di attività riguardanti aspetti del processo end-to-end per la creazione di una minaccia biologica.^{[^1]} A nostra conoscenza, questa è la più grande valutazione umana fino ad oggi dell’impatto dell’IA sulle informazioni sul rischio biologico.

Risultati. Il nostro studio ha valutato l'aumento delle prestazioni dei partecipanti con accesso a GPT-4 attraverso cinque parametri (accuratezza, completezza, innovazione, tempo impiegato e difficoltà autovalutata) e cinque fasi nel processo di creazione della minaccia biologica (ideazione, acquisizione, ingrandimento, formulazione e rilasciare). Abbiamo riscontrato lievi miglioramenti in termini di accuratezza e completezza per coloro che hanno accesso al modello linguistico. Nello specifico, su una scala a 10 punti che misura l'accuratezza delle risposte, abbiamo osservato un aumento del punteggio medio di 0.88 per gli esperti e 0.25 per gli studenti rispetto al riferimento basato solo su Internet, e aumenti simili per la completezza (0.82 per gli esperti e 0.41 per gli studenti). Tuttavia, le dimensioni dell’effetto ottenute non erano sufficientemente grandi da essere statisticamente significative e il nostro studio ha evidenziato la necessità di ulteriori ricerche su quali soglie di prestazione indichino un aumento significativo del rischio. Inoltre, notiamo che il solo accesso alle informazioni non è sufficiente per creare una minaccia biologica e che questa valutazione non verifica il successo nella costruzione fisica delle minacce.

Di seguito condividiamo la nostra procedura di valutazione e i risultati che ha prodotto in modo più dettagliato. Discutiamo anche diversi approfondimenti metodologici relativi all'elicitazione di capacità e considerazioni sulla sicurezza necessarie per eseguire questo tipo di valutazione con modelli di frontiera su larga scala. Discutiamo anche dei limiti della significatività statistica come metodo efficace per misurare il rischio del modello e dell'importanza di nuove ricerche nel valutare la significatività dei risultati della valutazione del modello.