Construindo um sistema de alerta precoce para a criação de ameaças biológicas auxiliadas por LLM

Construindo um sistema de alerta precoce para a criação de ameaças biológicas auxiliadas por LLM

Nó Fonte: 3091558

Nota: Como parte do nosso Quadro de Preparação, estamos investindo no desenvolvimento de métodos de avaliação aprimorados para riscos de segurança baseados em IA. Acreditamos que estes esforços beneficiariam de contributos mais amplos e que a partilha de métodos também poderia ser valiosa para a comunidade de investigação do risco de IA. Para tanto, apresentamos alguns dos nossos primeiros trabalhos – hoje focados no risco biológico. Esperamos receber o feedback da comunidade e compartilhar mais de nossas pesquisas em andamento. 

Fundo. À medida que a OpenAI e outros desenvolvedores de modelos constroem sistemas de IA mais capazes, o potencial para usos benéficos e prejudiciais da IA ​​aumentará. Um uso potencialmente prejudicial, destacado por pesquisadores e formuladores de políticas, é a capacidade dos sistemas de IA de ajudar atores mal-intencionados na criação de ameaças biológicas (por exemplo, ver Casa Branca 2023, Amor 2022, Sandbrink 2023). Em um exemplo hipotético discutido, um ator mal-intencionado pode usar um modelo altamente capaz para desenvolver um protocolo passo a passo, solucionar problemas de procedimentos de laboratório úmido ou até mesmo executar de forma autônoma etapas do processo de criação de ameaças biológicas quando tiver acesso a ferramentas como laboratórios de nuvem (Vejo Carter e outros, 2023). No entanto, a avaliação da viabilidade de tais exemplos hipotéticos foi limitada por avaliações e dados insuficientes.

Seguindo nosso recentemente compartilhado Quadro de Preparação, estamos a desenvolver metodologias para avaliar empiricamente estes tipos de riscos, para nos ajudar a compreender onde estamos hoje e onde poderemos estar no futuro. Aqui, detalhamos uma nova avaliação que poderia ajudar a servir como um potencial “armadilha”, sinalizando a necessidade de cautela e mais testes do potencial uso indevido biológico. Esta avaliação visa medir se os modelos poderiam aumentar significativamente o acesso de agentes mal-intencionados a informações perigosas sobre a criação de ameaças biológicas, em comparação com a linha de base dos recursos existentes (ou seja, a Internet).

Para avaliar isso, conduzimos um estudo com 100 participantes humanos, compreendendo (a) 50 especialistas em biologia com doutorado e experiência profissional em laboratório úmido e (b) 50 participantes de nível estudantil, com pelo menos um curso de biologia de nível universitário. Cada grupo de participantes foi atribuído aleatoriamente a um grupo de controle, que só tinha acesso à internet, ou a um grupo de tratamento, que tinha acesso ao GPT-4 além da internet. Cada participante foi então solicitado a completar um conjunto de tarefas que cobriam aspectos do processo ponta a ponta para a criação de ameaças biológicas.[^ 1] Até onde sabemos, esta é a maior avaliação humana até agora do impacto da IA ​​nas informações de risco biológico.

Descobertas. Nosso estudo avaliou melhorias no desempenho dos participantes com acesso ao GPT-4 em cinco métricas (precisão, integridade, inovação, tempo necessário e dificuldade autoavaliada) e cinco estágios no processo de criação de ameaças biológicas (ideação, aquisição, ampliação, formulação e lançamento). Encontramos ligeiros aumentos na precisão e integridade para aqueles com acesso ao modelo de linguagem. Especificamente, numa escala de 10 pontos que mede a precisão das respostas, observámos um aumento de pontuação média de 0.88 para especialistas e 0.25 para estudantes em comparação com a linha de base apenas da Internet, e aumentos semelhantes para completude (0.82 para especialistas e 0.41 para estudantes). No entanto, os tamanhos dos efeitos obtidos não foram grandes o suficiente para serem estatisticamente significativos, e o nosso estudo destacou a necessidade de mais pesquisas sobre quais limites de desempenho indicam um aumento significativo no risco. Além disso, notamos que o acesso à informação por si só é insuficiente para criar uma ameaça biológica e que esta avaliação não testa o sucesso na construção física das ameaças.

Abaixo, compartilhamos nosso procedimento de avaliação e os resultados que ele produziu com mais detalhes. Também discutimos vários insights metodológicos relacionados à elicitação de capacidades e considerações de segurança necessárias para executar esse tipo de avaliação com modelos de fronteira em escala. Também discutimos as limitações da significância estatística como um método eficaz de medir o risco do modelo e a importância de novas pesquisas na avaliação da significância dos resultados da avaliação do modelo.

Carimbo de hora:

Mais de OpenAI