Xây dựng hệ thống cảnh báo sớm để tạo ra mối đe dọa sinh học được hỗ trợ bởi LLM

Được xuất bản lại bởi Plato

Người theo dõi: 0

Lưu ý: Là một phần của chúng tôi Khung chuẩn bị, chúng tôi đang đầu tư vào việc phát triển các phương pháp đánh giá cải tiến đối với các rủi ro về an toàn do AI hỗ trợ. Chúng tôi tin rằng những nỗ lực này sẽ được hưởng lợi từ thông tin đầu vào rộng hơn và việc chia sẻ phương pháp cũng có thể có giá trị đối với cộng đồng nghiên cứu rủi ro AI. Vì mục đích này, hôm nay chúng tôi trình bày một số công việc ban đầu của mình, tập trung vào rủi ro sinh học. Chúng tôi mong nhận được phản hồi của cộng đồng và chia sẻ nhiều hơn về nghiên cứu đang diễn ra của chúng tôi.

Lý lịch. Khi OpenAI và các nhà phát triển mô hình khác xây dựng các hệ thống AI có khả năng cao hơn, tiềm năng sử dụng AI cả có lợi và có hại sẽ tăng lên. Một cách sử dụng có khả năng gây hại, được các nhà nghiên cứu và nhà hoạch định chính sách nhấn mạnh, là khả năng hệ thống AI hỗ trợ các tác nhân độc hại tạo ra các mối đe dọa sinh học (ví dụ: xem Nhà Trắng 2023, Dây tình yêu 2022, Bãi Cát 2023). Trong một ví dụ giả thuyết được thảo luận, kẻ tấn công có thể sử dụng mô hình có khả năng cao để phát triển giao thức từng bước, khắc phục sự cố các quy trình trong phòng thí nghiệm ướt hoặc thậm chí tự động thực hiện các bước của quy trình tạo mối đe dọa sinh học khi được cấp quyền truy cập vào các công cụ như phòng thí nghiệm đám mây (xem Carter và cộng sự, 2023). Tuy nhiên, việc đánh giá khả năng tồn tại của các ví dụ giả thuyết như vậy bị hạn chế do đánh giá và dữ liệu không đầy đủ.

Theo dõi chia sẻ gần đây của chúng tôi Khung chuẩn bị, chúng tôi đang phát triển các phương pháp để đánh giá thực nghiệm các loại rủi ro này, nhằm giúp chúng tôi hiểu rõ vị trí hiện tại cũng như vị trí có thể có trong tương lai. Ở đây, chúng tôi nêu chi tiết một đánh giá mới có thể đóng vai trò như một “dây bẫy” tiềm năng báo hiệu sự cần thiết phải thận trọng và thử nghiệm thêm về khả năng lạm dụng sinh học. Đánh giá này nhằm mục đích đo lường xem liệu các mô hình có thể tăng cường khả năng truy cập của các tác nhân độc hại vào thông tin nguy hiểm về việc tạo ra mối đe dọa sinh học hay không, so với đường cơ sở của các tài nguyên hiện có (tức là internet).

Để đánh giá điều này, chúng tôi đã tiến hành một nghiên cứu với 100 người tham gia, bao gồm (a) 50 chuyên gia sinh học có bằng tiến sĩ và kinh nghiệm trong phòng thí nghiệm ẩm ướt chuyên nghiệp và (b) 50 người tham gia ở cấp độ sinh viên, với ít nhất một khóa học cấp đại học về sinh học. Mỗi nhóm người tham gia được chỉ định ngẫu nhiên vào nhóm đối chứng chỉ có quyền truy cập Internet hoặc nhóm điều trị có quyền truy cập GPT-4 ngoài Internet. Sau đó, mỗi người tham gia được yêu cầu hoàn thành một nhóm nhiệm vụ bao gồm các khía cạnh của quy trình từ đầu đến cuối để tạo ra mối đe dọa sinh học.^{[^ 1]} Theo hiểu biết của chúng tôi, đây là đánh giá lớn nhất của con người cho đến nay về tác động của AI đối với thông tin rủi ro sinh học.

Những phát hiện. Nghiên cứu của chúng tôi đã đánh giá mức độ nâng cao hiệu suất của những người tham gia có quyền truy cập vào GPT-4 qua năm chỉ số (độ chính xác, tính đầy đủ, sự đổi mới, thời gian thực hiện và độ khó tự đánh giá) và năm giai đoạn trong quy trình tạo ra mối đe dọa sinh học (ý tưởng, thu thập, phóng đại, xây dựng , và thả ra). Chúng tôi nhận thấy mức tăng nhẹ về độ chính xác và tính đầy đủ đối với những người có quyền truy cập vào mô hình ngôn ngữ. Cụ thể, trên thang điểm 10 đo lường độ chính xác của các câu trả lời, chúng tôi nhận thấy mức tăng điểm trung bình là 0.88 đối với chuyên gia và 0.25 đối với sinh viên so với mức cơ bản chỉ có trên Internet và mức tăng tương tự về mức độ hoàn chỉnh (0.82 đối với chuyên gia và 0.41 đối với sinh viên). Tuy nhiên, mức độ ảnh hưởng thu được không đủ lớn để có ý nghĩa thống kê và nghiên cứu của chúng tôi nhấn mạnh sự cần thiết phải nghiên cứu thêm về ngưỡng hiệu suất nào cho thấy mức độ rủi ro gia tăng có ý nghĩa. Hơn nữa, chúng tôi lưu ý rằng việc truy cập thông tin thôi là không đủ để tạo ra mối đe dọa sinh học và việc đánh giá này không kiểm tra sự thành công trong việc xây dựng các mối đe dọa vật lý.

Dưới đây, chúng tôi chia sẻ quy trình đánh giá của chúng tôi và kết quả mà nó mang lại một cách chi tiết hơn. Chúng tôi cũng thảo luận về một số hiểu biết sâu sắc về phương pháp luận liên quan đến việc khơi gợi năng lực và cân nhắc về bảo mật cần thiết để thực hiện loại đánh giá này với các mô hình biên giới trên quy mô lớn. Chúng tôi cũng thảo luận về những hạn chế của ý nghĩa thống kê như một phương pháp đo lường rủi ro mô hình hiệu quả và tầm quan trọng của nghiên cứu mới trong việc đánh giá ý nghĩa của kết quả đánh giá mô hình.