การสร้างระบบเตือนภัยล่วงหน้าสำหรับการสร้างภัยคุกคามทางชีวภาพโดยใช้ LLM

การสร้างระบบเตือนภัยล่วงหน้าสำหรับการสร้างภัยคุกคามทางชีวภาพโดยใช้ LLM

โหนดต้นทาง: 3091558

หมายเหตุ: เป็นส่วนหนึ่งของเรา กรอบการเตรียมความพร้อมเรากำลังลงทุนในการพัฒนาวิธีการประเมินที่ได้รับการปรับปรุงสำหรับความเสี่ยงด้านความปลอดภัยที่ใช้ AI เราเชื่อว่าความพยายามเหล่านี้จะได้รับประโยชน์จากข้อมูลในวงกว้าง และการแบ่งปันวิธีการก็อาจมีคุณค่าต่อชุมชนการวิจัยความเสี่ยงของ AI เช่นกัน ด้วยเหตุนี้ เราจึงนำเสนองานในช่วงแรกๆ ของเรา—วันนี้ ซึ่งเน้นไปที่ความเสี่ยงทางชีวภาพ เราหวังว่าจะได้รับคำติชมจากชุมชน และแบ่งปันงานวิจัยที่กำลังดำเนินอยู่ของเราเพิ่มเติม 

พื้นหลัง. เนื่องจาก OpenAI และผู้พัฒนาโมเดลอื่นๆ สร้างระบบ AI ที่มีความสามารถมากขึ้น ศักยภาพในการใช้ AI ทั้งที่เป็นประโยชน์และเป็นอันตรายก็จะเพิ่มขึ้น การใช้งานที่อาจเป็นอันตรายประการหนึ่งที่นักวิจัยและผู้กำหนดนโยบายเน้นย้ำคือความสามารถของระบบ AI ในการช่วยเหลือผู้ดำเนินการที่เป็นอันตรายในการสร้างภัยคุกคามทางชีวภาพ (เช่น ดู ทำเนียบขาว 2023, เลิฟเลซ 2022, แซนด์บริงค์ 2023). ในตัวอย่างสมมุติหนึ่งที่มีการกล่าวถึง ผู้กระทำความผิดอาจใช้แบบจำลองที่มีความสามารถสูงเพื่อพัฒนาโปรโตคอลแบบทีละขั้นตอน แก้ไขปัญหาขั้นตอนห้องปฏิบัติการเปียก หรือแม้แต่ดำเนินการตามขั้นตอนของกระบวนการสร้างภัยคุกคามทางชีวภาพโดยอัตโนมัติเมื่อได้รับสิทธิ์ในการเข้าถึงเครื่องมือ เช่น ห้องปฏิบัติการระบบคลาวด์ (ดู Carter และคณะ 2023). อย่างไรก็ตาม การประเมินความมีชีวิตของตัวอย่างสมมุติดังกล่าวถูกจำกัดด้วยการประเมินและข้อมูลไม่เพียงพอ

ตามที่เราแชร์ไปเมื่อเร็วๆ นี้ กรอบการเตรียมความพร้อมเรากำลังพัฒนาวิธีการประเมินความเสี่ยงประเภทนี้โดยเชิงประจักษ์ เพื่อช่วยให้เราเข้าใจทั้งจุดที่เราอยู่ในปัจจุบันและจุดที่เราอาจจะอยู่ในอนาคต ในที่นี้ เราจะให้รายละเอียดเกี่ยวกับการประเมินใหม่ซึ่งอาจช่วยทำหน้าที่เป็น "tripwire" ที่มีศักยภาพอย่างหนึ่ง ซึ่งส่งสัญญาณถึงความจำเป็นในการระมัดระวังและการทดสอบศักยภาพการใช้งานในทางที่ผิดทางชีวภาพเพิ่มเติม การประเมินนี้มีจุดมุ่งหมายเพื่อวัดว่าแบบจำลองสามารถเพิ่มการเข้าถึงข้อมูลที่เป็นอันตรายของผู้ประสงค์ร้ายเกี่ยวกับการสร้างภัยคุกคามทางชีวภาพอย่างมีนัยสำคัญหรือไม่ เมื่อเทียบกับข้อมูลพื้นฐานของทรัพยากรที่มีอยู่ (เช่น อินเทอร์เน็ต)

เพื่อประเมินสิ่งนี้ เราได้ทำการศึกษากับผู้เข้าร่วม 100 คน ซึ่งประกอบด้วย (ก) ผู้เชี่ยวชาญด้านชีววิทยา 50 คนที่สำเร็จการศึกษาระดับปริญญาเอกและประสบการณ์ห้องปฏิบัติการเปียกระดับมืออาชีพ และ (b) ผู้เข้าร่วมระดับนักเรียน 50 คน โดยมีหลักสูตรชีววิทยาระดับมหาวิทยาลัยอย่างน้อยหนึ่งหลักสูตร ผู้เข้าร่วมแต่ละกลุ่มได้รับการสุ่มให้อยู่ในกลุ่มควบคุมซึ่งเข้าถึงได้เฉพาะอินเทอร์เน็ต หรือกลุ่มบำบัดซึ่งเข้าถึง GPT-4 นอกเหนือจากอินเทอร์เน็ต จากนั้นผู้เข้าร่วมแต่ละคนจะถูกขอให้ทำงานชุดหนึ่งให้เสร็จสิ้น ซึ่งครอบคลุมแง่มุมต่างๆ ของกระบวนการตั้งแต่ต้นทางถึงปลายทางสำหรับการสร้างภัยคุกคามทางชีวภาพ[^1] ตามความรู้ของเรา นี่คือการประเมินผลกระทบของ AI ต่อข้อมูลความเสี่ยงทางชีวภาพโดยมนุษย์ที่ใหญ่ที่สุดในปัจจุบัน

ผลการวิจัย การศึกษาของเราประเมินการเพิ่มประสิทธิภาพสำหรับผู้เข้าร่วมที่สามารถเข้าถึง GPT-4 จากห้าตัวชี้วัด (ความแม่นยำ ความสมบูรณ์ นวัตกรรม เวลาที่ใช้ และความยากลำบากในการประเมินตนเอง) และห้าขั้นตอนในกระบวนการสร้างภัยคุกคามทางชีวภาพ (ความคิด การได้มา การขยาย การกำหนด และปล่อย) เราพบว่ามีความแม่นยำและครบถ้วนเพิ่มขึ้นเล็กน้อยสำหรับผู้ที่สามารถเข้าถึงโมเดลภาษาได้ โดยเฉพาะอย่างยิ่ง จากการวัดความแม่นยำของการตอบสนองในระดับ 10 จุด เราสังเกตเห็นคะแนนเฉลี่ยเพิ่มขึ้น 0.88 สำหรับผู้เชี่ยวชาญ และ 0.25 สำหรับนักเรียน เมื่อเทียบกับคะแนนพื้นฐานที่ใช้อินเทอร์เน็ตเท่านั้น และการเพิ่มขึ้นที่คล้ายกันสำหรับความสมบูรณ์ (0.82 สำหรับผู้เชี่ยวชาญ และ 0.41 สำหรับนักเรียน) อย่างไรก็ตาม ขนาดผลกระทบที่ได้รับไม่ใหญ่พอที่จะมีนัยสำคัญทางสถิติ และการศึกษาของเราเน้นย้ำถึงความจำเป็นในการวิจัยเพิ่มเติมเกี่ยวกับเกณฑ์ประสิทธิภาพที่บ่งบอกถึงการเพิ่มขึ้นอย่างมีนัยสำคัญของความเสี่ยง นอกจากนี้ เราสังเกตว่าการเข้าถึงข้อมูลเพียงอย่างเดียวไม่เพียงพอที่จะสร้างภัยคุกคามทางชีวภาพ และการประเมินนี้ไม่ได้ทดสอบความสำเร็จในการสร้างภัยคุกคามทางกายภาพ

ด้านล่างนี้ เราจะแบ่งปันขั้นตอนการประเมินของเราและผลลัพธ์ที่ได้โดยละเอียดยิ่งขึ้น นอกจากนี้เรายังหารือเกี่ยวกับข้อมูลเชิงลึกด้านระเบียบวิธีหลายประการที่เกี่ยวข้องกับการกระตุ้นความสามารถและข้อควรพิจารณาด้านความปลอดภัยที่จำเป็นในการดำเนินการประเมินประเภทนี้ด้วยแบบจำลองขอบเขตในวงกว้าง นอกจากนี้เรายังหารือถึงข้อจำกัดของนัยสำคัญทางสถิติในฐานะวิธีการที่มีประสิทธิภาพในการวัดความเสี่ยงของแบบจำลอง และความสำคัญของการวิจัยใหม่ในการประเมินความหมายของผลการประเมินแบบจำลอง

ประทับเวลา:

เพิ่มเติมจาก OpenAI

รูปภาพ GPT

โหนดต้นทาง: 747759
ประทับเวลา: มิถุนายน 17, 2020