LLM 지원 생물학적 위협 생성을 위한 조기 경보 시스템 구축

LLM 지원 생물학적 위협 생성을 위한 조기 경보 시스템 구축

소스 노드 : 3091558

참고: 우리의 일환으로 대비 프레임워크, 우리는 AI 기반 안전 위험에 대한 향상된 평가 방법 개발에 투자하고 있습니다. 우리는 이러한 노력이 더 폭넓은 의견을 통해 이익을 얻을 것이며 방법 공유가 AI 위험 연구 커뮤니티에도 가치가 있을 수 있다고 믿습니다. 이를 위해 오늘은 생물학적 위험에 초점을 맞춘 초기 작업 중 일부를 소개합니다. 우리는 커뮤니티 피드백을 기대하고 진행 중인 연구를 더 많이 공유하기를 기대합니다. 

배경. OpenAI 및 기타 모델 개발자가 더 많은 능력을 갖춘 AI 시스템을 구축함에 따라 AI의 유익하거나 유해한 사용 가능성이 커질 것입니다. 연구원과 정책 입안자들이 강조한 잠재적으로 해로운 용도 중 하나는 AI 시스템이 생물학적 위협을 생성하는 악의적인 행위자를 지원하는 능력입니다(예: 백악관 2023, 러브레이스 2022, 샌드브링크 2023). 논의된 가상의 예 중 하나에서 악의적인 행위자는 고성능 모델을 사용하여 단계별 프로토콜을 개발하고, 실험실 절차의 문제를 해결하거나, 다음과 같은 도구에 액세스할 수 있는 경우 생물 위협 생성 프로세스의 단계를 자율적으로 실행할 수도 있습니다. 클라우드 연구소 (참조 카터 등, 2023). 그러나 그러한 가상 사례의 실행 가능성을 평가하는 것은 평가 및 데이터가 부족하여 제한되었습니다.

최근 공유된 내용에 이어 대비 프레임워크, 우리는 이러한 유형의 위험을 실증적으로 평가하여 현재의 위치와 미래의 위치를 ​​이해하는 데 도움이 되는 방법론을 개발하고 있습니다. 여기에서 우리는 생물학적 오용 가능성에 대한 주의와 추가 테스트의 필요성을 알리는 잠재적인 "트립와이어" 역할을 하는 데 도움이 될 수 있는 새로운 평가를 자세히 설명합니다. 이 평가의 목표는 모델이 기존 리소스(즉, 인터넷)의 기준과 비교하여 생물학적 위협 생성에 대한 위험한 정보에 대한 악의적인 행위자의 접근을 의미 있게 증가시킬 수 있는지 여부를 측정하는 것입니다.

이를 평가하기 위해 우리는 (a) 박사 학위 및 전문 실험실 경험을 갖춘 생물학 전문가 100명과 (b) 대학 수준의 생물학 과정을 하나 이상 이수한 학생 수준 참가자 50명으로 구성된 50명의 인간 참가자를 대상으로 연구를 수행했습니다. 각 참가자 그룹은 인터넷에만 액세스할 수 있는 통제 그룹과 인터넷 외에 GPT-4에도 ​​액세스할 수 있는 치료 그룹에 무작위로 할당되었습니다. 그런 다음 각 참가자는 생물학적 위협 생성을 위한 엔드투엔드 프로세스 측면을 다루는 일련의 작업을 완료하도록 요청 받았습니다.[^1] 우리가 아는 한, 이는 AI가 바이오리스크 정보에 미치는 영향에 대한 인간의 평가 중 최대 규모입니다.

결과. 우리 연구에서는 4가지 지표(정확성, 완전성, 혁신, 소요 시간, 자체 평가 난이도)와 생물학적 위협 생성 프로세스의 10단계(아이디어화, 획득, 확대, 공식화)에 걸쳐 GPT-0.88에 액세스한 참가자의 성과 향상을 평가했습니다. 및 릴리스). 언어 모델에 접근할 수 있는 사람들의 정확성과 완전성이 약간 향상되는 것을 발견했습니다. 구체적으로, 응답의 정확성을 측정하는 0.25점 척도에서 인터넷 전용 기준선에 비해 전문가의 경우 평균 0.82점, 학생의 경우 0.41점의 평균 점수 증가가 있었고, 완성도에 대한 유사한 향상(전문가의 경우 XNUMX, 학생의 경우 XNUMX)이 관찰되었습니다. 그러나 얻은 효과 크기는 통계적으로 유의할 만큼 크지 않았으며, 우리 연구에서는 어떤 성능 임계값이 의미 있는 위험 증가를 나타내는지에 대한 더 많은 연구가 필요하다는 점을 강조했습니다. 더욱이 우리는 정보 접근만으로는 생물학적 위협을 일으키기에는 불충분하며 이 평가는 위협의 물리적 구성에 대한 성공 여부를 테스트하지 않는다는 점에 주목합니다.

아래에서는 평가 절차와 그 결과를 더 자세히 공유합니다. 또한 대규모 프론티어 모델을 사용하여 이러한 유형의 평가를 실행하는 데 필요한 기능 도출 및 보안 고려 사항과 관련된 몇 가지 방법론적 통찰력에 대해 논의합니다. 또한 모델 위험을 측정하는 효과적인 방법으로서 통계적 유의성의 한계와 모델 평가 결과의 의미를 평가하는 데 있어 새로운 연구의 중요성에 대해 논의합니다.

타임 스탬프 :

더보기 OpenAI

이미지 GPT

소스 노드 : 747759
타임 스탬프 : 17년 2020월 XNUMX일