ساختن یک سیستم هشدار اولیه برای ایجاد تهدید بیولوژیکی با کمک LLM

بازنشر افلاطون

دنبال: 0

توجه: به عنوان بخشی از ما چارچوب آمادگی، ما در حال سرمایه گذاری در توسعه روش های ارزیابی بهبود یافته برای خطرات ایمنی مبتنی بر هوش مصنوعی هستیم. ما معتقدیم که این تلاش‌ها از ورودی‌های گسترده‌تر سود می‌برند و به اشتراک‌گذاری روش‌ها نیز می‌تواند برای جامعه تحقیقاتی ریسک هوش مصنوعی ارزشمند باشد. برای این منظور، ما برخی از کارهای اولیه خود را ارائه می کنیم - امروز، با تمرکز بر خطر بیولوژیکی. ما مشتاقانه منتظر بازخورد جامعه و به اشتراک گذاشتن بیشتر تحقیقات در حال انجام خود هستیم.

زمینه. همانطور که OpenAI و سایر توسعه دهندگان مدل سیستم های هوش مصنوعی توانمندتری می سازند، پتانسیل استفاده های مفید و مضر هوش مصنوعی افزایش می یابد. یکی از کاربردهای بالقوه مضر که توسط محققان و سیاست گذاران برجسته شده است، توانایی سیستم های هوش مصنوعی برای کمک به عوامل مخرب در ایجاد تهدیدات بیولوژیکی است (به عنوان مثال، نگاه کنید به کاخ سفید 2023, لاولیس 2022, Sandbrink 2023). در یک مثال فرضی مورد بحث، یک عامل مخرب ممکن است از یک مدل بسیار توانمند برای توسعه یک پروتکل گام به گام، عیب‌یابی روش‌های آزمایشگاه مرطوب یا حتی اجرای مستقل مراحل فرآیند ایجاد تهدید زیستی در صورت دسترسی به ابزارهایی مانند استفاده کند. آزمایشگاه های ابری (نگاه کنید به کارتر و همکاران، 2023). با این حال، ارزیابی قابلیت حیات چنین مثال‌های فرضی با ارزیابی‌ها و داده‌های ناکافی محدود شد.

به دنبال ما به اشتراک گذاشته شده اخیر چارچوب آمادگی، ما در حال توسعه روش‌هایی برای ارزیابی تجربی این نوع ریسک‌ها هستیم تا به ما کمک کند هم امروز کجا هستیم و هم در آینده در کجا باشیم. در اینجا، ما یک ارزیابی جدید را به تفصیل شرح می‌دهیم که می‌تواند به عنوان یک "سیم سیم" بالقوه کمک کند که نیاز به احتیاط و آزمایش بیشتر پتانسیل سوء استفاده بیولوژیکی را نشان می‌دهد. هدف این ارزیابی اندازه‌گیری این است که آیا مدل‌ها می‌توانند به طور معناداری دسترسی عوامل مخرب به اطلاعات خطرناک در مورد ایجاد تهدید بیولوژیکی را در مقایسه با منابع موجود (یعنی اینترنت) افزایش دهند.

برای ارزیابی این، ما مطالعه‌ای را با 100 شرکت‌کننده انسانی انجام دادیم که شامل (الف) 50 متخصص زیست‌شناسی با مدرک دکترا و تجربه آزمایشگاهی حرفه‌ای و (ب) 50 شرکت‌کننده در سطح دانشجو، با حداقل یک دوره در سطح دانشگاه در زیست‌شناسی بود. هر گروه از شرکت کنندگان به طور تصادفی به یک گروه کنترل که فقط به اینترنت دسترسی داشتند یا یک گروه درمانی که علاوه بر اینترنت به GPT-4 دسترسی داشتند، تقسیم شدند. سپس از هر شرکت‌کننده خواسته شد تا مجموعه‌ای از وظایف را تکمیل کند که جنبه‌های فرآیند انتها به انتها را برای ایجاد تهدید بیولوژیکی پوشش می‌دهد.^{[^1]} با توجه به دانش ما، این بزرگترین ارزیابی انسانی تا به امروز از تأثیر هوش مصنوعی بر اطلاعات زیستی است.

یافته ها مطالعه ما افزایش عملکرد را برای شرکت‌کنندگانی که به GPT-4 دسترسی داشتند در پنج معیار (دقت، کامل بودن، نوآوری، زمان صرف شده و دشواری ارزیابی خود) و پنج مرحله در فرآیند ایجاد تهدید بیولوژیکی (ایده‌سازی، کسب، بزرگ‌نمایی، فرمول‌بندی) ارزیابی کرد. ، و آزاد کردن). برای کسانی که به مدل زبانی دسترسی دارند، افزایش ملایمی در دقت و کامل یافتیم. به طور خاص، در مقیاس 10 درجه‌ای که دقت پاسخ‌ها را اندازه‌گیری می‌کند، میانگین امتیاز 0.88 برای متخصصان و 0.25 برای دانش‌آموزان را نسبت به خط پایه فقط اینترنتی و افزایش‌های مشابه برای کامل بودن (0.82 برای کارشناسان و 0.41 برای دانش‌آموزان) مشاهده کردیم. با این حال، اندازه‌های اثر به‌دست‌آمده به اندازه‌ای بزرگ نبودند که از نظر آماری معنی‌دار باشند، و مطالعه ما نیاز به تحقیقات بیشتر در مورد اینکه چه آستانه‌های عملکردی نشان‌دهنده افزایش معنی‌دار ریسک است را برجسته کرد. علاوه بر این، ما توجه می کنیم که دسترسی به اطلاعات به تنهایی برای ایجاد یک تهدید بیولوژیکی کافی نیست و این ارزیابی موفقیت در ساخت فیزیکی تهدیدات را آزمایش نمی کند.

در زیر، روش ارزیابی خود و نتایج حاصل از آن را با جزئیات بیشتری به اشتراک می گذاریم. ما همچنین چندین بینش روش‌شناختی مربوط به استخراج قابلیت و ملاحظات امنیتی مورد نیاز برای اجرای این نوع ارزیابی با مدل‌های مرزی در مقیاس را مورد بحث قرار می‌دهیم. ما همچنین محدودیت‌های معناداری آماری را به عنوان روشی مؤثر برای اندازه‌گیری ریسک مدل و اهمیت تحقیقات جدید در ارزیابی معنی‌داری نتایج ارزیابی مدل مورد بحث قرار می‌دهیم.