Building An Early Warning System For LLM-aided Biological Threat Creation

Reeditado por Platón

seguidores: 0

Nota: Como parte de nuestra Marco de preparación, estamos invirtiendo en el desarrollo de métodos de evaluación mejorados para los riesgos de seguridad basados en la IA. Creemos que estos esfuerzos se beneficiarían de una aportación más amplia y que compartir métodos también podría ser valioso para la comunidad de investigación de riesgos de IA. Con este fin, presentamos algunos de nuestros primeros trabajos, hoy centrados en el riesgo biológico. Esperamos recibir comentarios de la comunidad y compartir más de nuestra investigación en curso.

Fondo. A medida que OpenAI y otros desarrolladores de modelos construyan sistemas de IA más capaces, crecerá el potencial para usos tanto beneficiosos como dañinos de la IA. Un uso potencialmente dañino, destacado por investigadores y formuladores de políticas, es la capacidad de los sistemas de inteligencia artificial para ayudar a actores maliciosos a crear amenazas biológicas (por ejemplo, ver casa blanca 2023, encaje de amor 2022, Sandbrink 2023). En un ejemplo hipotético discutido, un actor malicioso podría usar un modelo altamente capaz para desarrollar un protocolo paso a paso, solucionar problemas de procedimientos de laboratorio húmedo o incluso ejecutar de forma autónoma los pasos del proceso de creación de amenazas biológicas cuando se le da acceso a herramientas como laboratorios en la nube (consulta: Carter et al., 2023). Sin embargo, la evaluación de la viabilidad de tales ejemplos hipotéticos se vio limitada por evaluaciones y datos insuficientes.

Siguiendo nuestro recientemente compartido Marco de preparación, estamos desarrollando metodologías para evaluar empíricamente este tipo de riesgos, para ayudarnos a comprender dónde estamos hoy y dónde podríamos estar en el futuro. Aquí, detallamos una nueva evaluación que podría ayudar a servir como un posible "cable trampa" que señala la necesidad de precaución y pruebas adicionales del potencial de uso indebido biológico. Esta evaluación tiene como objetivo medir si los modelos podrían aumentar significativamente el acceso de los actores maliciosos a información peligrosa sobre la creación de amenazas biológicas, en comparación con la base de referencia de los recursos existentes (es decir, Internet).

Para evaluar esto, realizamos un estudio con 100 participantes humanos, que comprenden (a) 50 expertos en biología con doctorados y experiencia profesional en laboratorios húmedos y (b) 50 participantes a nivel de estudiantes, con al menos un curso universitario en biología. Cada grupo de participantes fue asignado aleatoriamente a un grupo de control, que solo tenía acceso a Internet, o a un grupo de tratamiento, que tenía acceso a GPT-4 además de Internet. Luego se pidió a cada participante que completara una serie de tareas que cubrían aspectos del proceso de extremo a extremo para la creación de amenazas biológicas.^{[^ 1]} Hasta donde sabemos, esta es la evaluación humana más grande hasta la fecha del impacto de la IA en la información sobre riesgos biológicos.

Recomendaciones. Nuestro estudio evaluó mejoras en el desempeño de los participantes con acceso a GPT-4 en cinco métricas (precisión, integridad, innovación, tiempo necesario y dificultad autoevaluada) y cinco etapas en el proceso de creación de amenazas biológicas (ideación, adquisición, ampliación, formulación). , y liberar). Encontramos leves mejoras en la precisión y la integridad para aquellos que tuvieron acceso al modelo de lenguaje. Específicamente, en una escala de 10 puntos que mide la precisión de las respuestas, observamos un aumento en la puntuación media de 0.88 para los expertos y 0.25 para los estudiantes en comparación con la línea de base de solo Internet, y mejoras similares en cuanto a la integridad (0.82 para los expertos y 0.41 para los estudiantes). Sin embargo, los tamaños del efecto obtenidos no fueron lo suficientemente grandes como para ser estadísticamente significativos, y nuestro estudio destacó la necesidad de realizar más investigaciones sobre qué umbrales de desempeño indican un aumento significativo en el riesgo. Además, observamos que el acceso a la información por sí solo es insuficiente para crear una amenaza biológica, y que esta evaluación no prueba el éxito en la construcción física de las amenazas.

A continuación, compartimos nuestro procedimiento de evaluación y los resultados que arrojó con más detalle. También analizamos varias ideas metodológicas relacionadas con la obtención de capacidades y las consideraciones de seguridad necesarias para ejecutar este tipo de evaluación con modelos de frontera a escala. También discutimos las limitaciones de la significancia estadística como método eficaz para medir el riesgo del modelo y la importancia de nuevas investigaciones para evaluar la significancia de los resultados de la evaluación del modelo.