Construire un système d'alerte précoce pour la création de menaces biologiques assistée par LLM

Construire un système d'alerte précoce pour la création de menaces biologiques assistée par LLM

Nœud source: 3091558

Remarque : Dans le cadre de notre Cadre de préparation, nous investissons dans le développement de méthodes d’évaluation améliorées des risques de sécurité basés sur l’IA. Nous pensons que ces efforts bénéficieraient d’une contribution plus large et que le partage de méthodes pourrait également être utile à la communauté de recherche sur les risques liés à l’IA. À cette fin, nous présentons aujourd’hui certains de nos premiers travaux, axés sur le risque biologique. Nous attendons avec impatience les commentaires de la communauté et le partage de nos recherches en cours. 

Contexte. À mesure qu’OpenAI et d’autres développeurs de modèles construisent des systèmes d’IA plus performants, le potentiel d’utilisations bénéfiques et nuisibles de l’IA augmentera. Une utilisation potentiellement dangereuse, soulignée par les chercheurs et les décideurs politiques, est la capacité des systèmes d'IA à aider des acteurs malveillants à créer des menaces biologiques (voir par exemple Maison Blanche 2023, Lovelace 2022, Brique de sable 2023). Dans un exemple hypothétique discuté, un acteur malveillant pourrait utiliser un modèle hautement performant pour développer un protocole étape par étape, dépanner les procédures de laboratoire humide ou même exécuter de manière autonome les étapes du processus de création de menace biologique lorsqu'il a accès à des outils tels que laboratoires cloud (voir Carter et al., 2023). Toutefois, l’évaluation de la viabilité de ces exemples hypothétiques a été limitée par le manque d’évaluations et de données.

Suite à notre récemment partagé Cadre de préparation, nous développons des méthodologies pour évaluer empiriquement ces types de risques, afin de nous aider à comprendre à la fois où nous en sommes aujourd’hui et où nous pourrions en être à l’avenir. Nous détaillons ici une nouvelle évaluation qui pourrait servir de « fil déclencheur » potentiel signalant la nécessité de faire preuve de prudence et de tester davantage le potentiel d’utilisation abusive des produits biologiques. Cette évaluation vise à mesurer si les modèles pourraient accroître de manière significative l'accès des acteurs malveillants aux informations dangereuses sur la création de menaces biologiques, par rapport à la référence des ressources existantes (c'est-à-dire Internet).

Pour évaluer cela, nous avons mené une étude auprès de 100 participants humains, comprenant (a) 50 experts en biologie titulaires d'un doctorat et d'une expérience professionnelle en laboratoire humide et (b) 50 participants de niveau étudiant, avec au moins un cours de biologie de niveau universitaire. Chaque groupe de participants a été assigné au hasard soit à un groupe témoin, qui avait uniquement accès à Internet, soit à un groupe de traitement, qui avait accès à GPT-4 en plus d'Internet. Chaque participant a ensuite été invité à effectuer un ensemble de tâches couvrant certains aspects du processus de bout en bout de création de menaces biologiques.[^1] À notre connaissance, il s’agit de la plus grande évaluation humaine à ce jour de l’impact de l’IA sur les informations sur les risques biologiques.

Résultats. Notre étude a évalué l'amélioration des performances des participants ayant accès au GPT-4 sur cinq paramètres (précision, exhaustivité, innovation, temps pris et difficulté auto-évaluée) et cinq étapes du processus de création de menace biologique (idéation, acquisition, grossissement, formulation). , et libération). Nous avons constaté de légères améliorations en termes de précision et d’exhaustivité pour ceux qui ont accès au modèle linguistique. Plus précisément, sur une échelle de 10 points mesurant l'exactitude des réponses, nous avons observé une augmentation moyenne du score de 0.88 pour les experts et de 0.25 pour les étudiants par rapport à la référence sur Internet uniquement, et une augmentation similaire pour l'exhaustivité (0.82 pour les experts et 0.41 pour les étudiants). Cependant, les tailles d'effet obtenues n'étaient pas suffisamment importantes pour être statistiquement significatives, et notre étude a souligné la nécessité de recherches supplémentaires sur les seuils de performance indiquant une augmentation significative du risque. De plus, nous notons que l’accès à l’information à lui seul ne suffit pas à créer une menace biologique, et que cette évaluation ne teste pas le succès de la construction physique des menaces.

Ci-dessous, nous partageons plus en détail notre procédure d’évaluation et les résultats qu’elle a donnés. Nous discutons également de plusieurs idées méthodologiques liées à l’élicitation des capacités et aux considérations de sécurité nécessaires pour exécuter ce type d’évaluation avec des modèles frontières à grande échelle. Nous discutons également des limites de la signification statistique en tant que méthode efficace de mesure du risque du modèle, ainsi que de l'importance de nouvelles recherches pour évaluer la signification des résultats de l'évaluation du modèle.

Horodatage:

Plus de OpenAI

juke-box

Nœud source: 747766
Horodatage: 30 avril 2020