Lưu ý: Là một phần của chúng tôi Khung chuẩn bị, chúng tôi đang đầu tư vào việc phát triển các phương pháp đánh giá cải tiến đối với các rủi ro về an toàn do AI hỗ trợ. Chúng tôi tin rằng những nỗ lực này sẽ được hưởng lợi từ thông tin đầu vào rộng hơn và việc chia sẻ phương pháp cũng có thể có giá trị đối với cộng đồng nghiên cứu rủi ro AI. Vì mục đích này, hôm nay chúng tôi trình bày một số công việc ban đầu của mình, tập trung vào rủi ro sinh học. Chúng tôi mong nhận được phản hồi của cộng đồng và chia sẻ nhiều hơn về nghiên cứu đang diễn ra của chúng tôi.
Lý lịch. Khi OpenAI và các nhà phát triển mô hình khác xây dựng các hệ thống AI có khả năng cao hơn, tiềm năng sử dụng AI cả có lợi và có hại sẽ tăng lên. Một cách sử dụng có khả năng gây hại, được các nhà nghiên cứu và nhà hoạch định chính sách nhấn mạnh, là khả năng hệ thống AI hỗ trợ các tác nhân độc hại tạo ra các mối đe dọa sinh học (ví dụ: xem Nhà Trắng 2023, Dây tình yêu 2022, Bãi Cát 2023). Trong một ví dụ giả thuyết được thảo luận, kẻ tấn công có thể sử dụng mô hình có khả năng cao để phát triển giao thức từng bước, khắc phục sự cố các quy trình trong phòng thí nghiệm ướt hoặc thậm chí tự động thực hiện các bước của quy trình tạo mối đe dọa sinh học khi được cấp quyền truy cập vào các công cụ như phòng thí nghiệm đám mây (xem Carter và cộng sự, 2023). Tuy nhiên, việc đánh giá khả năng tồn tại của các ví dụ giả thuyết như vậy bị hạn chế do đánh giá và dữ liệu không đầy đủ.
Theo dõi chia sẻ gần đây của chúng tôi Khung chuẩn bị, chúng tôi đang phát triển các phương pháp để đánh giá thực nghiệm các loại rủi ro này, nhằm giúp chúng tôi hiểu rõ vị trí hiện tại cũng như vị trí có thể có trong tương lai. Ở đây, chúng tôi nêu chi tiết một đánh giá mới có thể đóng vai trò như một “dây bẫy” tiềm năng báo hiệu sự cần thiết phải thận trọng và thử nghiệm thêm về khả năng lạm dụng sinh học. Đánh giá này nhằm mục đích đo lường xem liệu các mô hình có thể tăng cường khả năng truy cập của các tác nhân độc hại vào thông tin nguy hiểm về việc tạo ra mối đe dọa sinh học hay không, so với đường cơ sở của các tài nguyên hiện có (tức là internet).
Để đánh giá điều này, chúng tôi đã tiến hành một nghiên cứu với 100 người tham gia, bao gồm (a) 50 chuyên gia sinh học có bằng tiến sĩ và kinh nghiệm trong phòng thí nghiệm ẩm ướt chuyên nghiệp và (b) 50 người tham gia ở cấp độ sinh viên, với ít nhất một khóa học cấp đại học về sinh học. Mỗi nhóm người tham gia được chỉ định ngẫu nhiên vào nhóm đối chứng chỉ có quyền truy cập Internet hoặc nhóm điều trị có quyền truy cập GPT-4 ngoài Internet. Sau đó, mỗi người tham gia được yêu cầu hoàn thành một nhóm nhiệm vụ bao gồm các khía cạnh của quy trình từ đầu đến cuối để tạo ra mối đe dọa sinh học.[^ 1] Theo hiểu biết của chúng tôi, đây là đánh giá lớn nhất của con người cho đến nay về tác động của AI đối với thông tin rủi ro sinh học.
Những phát hiện. Nghiên cứu của chúng tôi đã đánh giá mức độ nâng cao hiệu suất của những người tham gia có quyền truy cập vào GPT-4 qua năm chỉ số (độ chính xác, tính đầy đủ, sự đổi mới, thời gian thực hiện và độ khó tự đánh giá) và năm giai đoạn trong quy trình tạo ra mối đe dọa sinh học (ý tưởng, thu thập, phóng đại, xây dựng , và thả ra). Chúng tôi nhận thấy mức tăng nhẹ về độ chính xác và tính đầy đủ đối với những người có quyền truy cập vào mô hình ngôn ngữ. Cụ thể, trên thang điểm 10 đo lường độ chính xác của các câu trả lời, chúng tôi nhận thấy mức tăng điểm trung bình là 0.88 đối với chuyên gia và 0.25 đối với sinh viên so với mức cơ bản chỉ có trên Internet và mức tăng tương tự về mức độ hoàn chỉnh (0.82 đối với chuyên gia và 0.41 đối với sinh viên). Tuy nhiên, mức độ ảnh hưởng thu được không đủ lớn để có ý nghĩa thống kê và nghiên cứu của chúng tôi nhấn mạnh sự cần thiết phải nghiên cứu thêm về ngưỡng hiệu suất nào cho thấy mức độ rủi ro gia tăng có ý nghĩa. Hơn nữa, chúng tôi lưu ý rằng việc truy cập thông tin thôi là không đủ để tạo ra mối đe dọa sinh học và việc đánh giá này không kiểm tra sự thành công trong việc xây dựng các mối đe dọa vật lý.
Dưới đây, chúng tôi chia sẻ quy trình đánh giá của chúng tôi và kết quả mà nó mang lại một cách chi tiết hơn. Chúng tôi cũng thảo luận về một số hiểu biết sâu sắc về phương pháp luận liên quan đến việc khơi gợi năng lực và cân nhắc về bảo mật cần thiết để thực hiện loại đánh giá này với các mô hình biên giới trên quy mô lớn. Chúng tôi cũng thảo luận về những hạn chế của ý nghĩa thống kê như một phương pháp đo lường rủi ro mô hình hiệu quả và tầm quan trọng của nghiên cứu mới trong việc đánh giá ý nghĩa của kết quả đánh giá mô hình.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://openai.com/research/building-an-early-warning-system-for-llm-aided-biological-threat-creation
- :là
- :không phải
- :Ở đâu
- 1
- 100
- 25
- 41
- 50
- a
- có khả năng
- Giới thiệu
- truy cập
- chính xác
- mua lại
- ngang qua
- diễn viên
- Ngoài ra
- AI
- Hệ thống AI
- Mục tiêu
- AL
- cô đơn
- Ngoài ra
- an
- và
- LÀ
- xung quanh
- AS
- các khía cạnh
- đánh giá
- Đánh giá
- giao
- hỗ trợ
- At
- tự chủ
- b
- Baseline
- BE
- Tin
- mang lại lợi ích
- hưởng lợi
- sinh học
- cả hai
- rộng hơn
- xây dựng
- Xây dựng
- by
- khả năng
- có khả năng
- thận trọng
- cộng đồng
- so
- hoàn thành
- bao gồm
- thực hiện
- sự cân nhắc
- xây dựng
- điều khiển
- có thể
- khóa học mơ ước
- bao gồm
- tạo
- Tạo
- tạo
- Nguy hiểm
- dữ liệu
- chi tiết
- phát triển
- phát triển
- phát triển
- Phát triển
- Khó khăn
- thảo luận
- thảo luận
- làm
- e
- E&T
- mỗi
- Đầu
- hiệu lực
- Hiệu quả
- những nỗ lực
- hay
- cuối
- Cuối cùng đến cuối
- đủ
- lôi
- đánh giá
- đánh giá
- đánh giá
- Ngay cả
- ví dụ
- ví dụ
- thi hành
- hiện tại
- kinh nghiệm
- các chuyên gia
- thông tin phản hồi
- năm
- tập trung
- Trong
- xây dựng
- Forward
- tìm thấy
- từ
- Frontier
- xa hơn
- tương lai
- được
- Nhóm
- Phát triển
- có
- có hại
- giúp đỡ
- tại đây
- Nhấn mạnh
- House
- Tuy nhiên
- http
- HTTPS
- Nhân loại
- i
- ý tưởng
- Va chạm
- tầm quan trọng
- cải thiện
- in
- Tăng lên
- chỉ
- thông tin
- sự đổi mới
- đầu vào
- những hiểu biết
- Internet
- đầu tư
- IT
- jpg
- kiến thức
- phòng thí nghiệm
- Ngôn ngữ
- lớn
- lớn nhất
- ít nhất
- Lượt thích
- hạn chế
- Hạn chế
- Xem
- độc hại
- nghĩa là
- có ý nghĩa
- đo
- đo lường
- phương pháp
- phương pháp
- phương pháp
- Metrics
- Might
- nhẹ
- sử dụng sai
- kiểu mẫu
- mô hình
- chi tiết
- Hơn thế nữa
- Cần
- cần thiết
- Mới
- ghi
- quan sát
- thu được
- of
- on
- ONE
- đang diễn ra
- có thể
- OpenAI
- or
- Nền tảng khác
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- một phần
- tham gia
- tham gia
- hiệu suất
- vật lý
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- các nhà hoạch định chính sách
- tiềm năng
- có khả năng
- thủ tục
- thủ tục
- quá trình
- chuyên nghiệp
- giao thức
- gần đây
- liên quan
- phát hành
- nghiên cứu
- Cộng đồng nghiên cứu
- nhà nghiên cứu
- Thông tin
- phản ứng
- Kết quả
- Nguy cơ
- rủi ro
- chạy
- Sự An Toàn
- Quy mô
- Điểm số
- an ninh
- xem
- phục vụ
- định
- một số
- Chia sẻ
- chia sẻ
- chia sẻ
- ý nghĩa
- có ý nghĩa
- tương tự
- kích thước
- một số
- đặc biệt
- giai đoạn
- thống kê
- thống kê
- Các bước
- Sinh viên
- Học tập
- thành công
- như vậy
- hệ thống
- hệ thống
- Lấy
- nhiệm vụ
- thử nghiệm
- Kiểm tra
- việc này
- Sản phẩm
- Tương lai
- sau đó
- Kia là
- điều này
- những
- mối đe dọa
- các mối đe dọa
- thời gian
- đến
- bây giờ
- công cụ
- điều trị
- kiểu
- loại
- hiểu
- us
- sử dụng
- sử dụng
- giá trị
- khả năng tồn tại
- VOX
- cảnh báo
- là
- we
- là
- Điều gì
- khi nào
- liệu
- cái nào
- sẽ
- với
- sẽ
- mang lại
- zephyrnet