بناء نظام إنذار مبكر لخلق تهديد بيولوجي بمساعدة LLM

بناء نظام إنذار مبكر لخلق تهديد بيولوجي بمساعدة LLM

عقدة المصدر: 3091558

ملحوظة: كجزء من أعمالنا إطار الاستعداد، نحن نستثمر في تطوير طرق تقييم محسنة لمخاطر السلامة التي يدعمها الذكاء الاصطناعي. ونحن نعتقد أن هذه الجهود سوف تستفيد من مدخلات أوسع، وأن تبادل الأساليب يمكن أن يكون ذا قيمة أيضًا لمجتمع أبحاث مخاطر الذكاء الاصطناعي. ولتحقيق هذه الغاية، نقدم بعضًا من أعمالنا المبكرة، والتي تركز اليوم على المخاطر البيولوجية. نحن نتطلع إلى تلقي تعليقات المجتمع ومشاركة المزيد من أبحاثنا المستمرة. 

خلفية. ومع قيام OpenAI ومطوري النماذج الآخرين ببناء أنظمة ذكاء اصطناعي أكثر قدرة، فإن احتمالات الاستخدام المفيد والضار للذكاء الاصطناعي سوف تنمو. أحد الاستخدامات الضارة المحتملة، والتي أبرزها الباحثون وصناع السياسات، هو قدرة أنظمة الذكاء الاصطناعي على مساعدة الجهات الفاعلة الخبيثة في خلق تهديدات بيولوجية (على سبيل المثال، انظر البيت الأبيض 2023, لوفليس 2022, ساندبرينك 2023). في أحد الأمثلة الافتراضية التي تمت مناقشتها، قد يستخدم ممثل خبيث نموذجًا عالي القدرة لتطوير بروتوكول خطوة بخطوة، أو استكشاف أخطاء إجراءات المختبر الرطب، أو حتى تنفيذ خطوات عملية إنشاء التهديد البيولوجي بشكل مستقل عند منحه إمكانية الوصول إلى أدوات مثل مختبرات السحابة (انظر كارتر وآخرون ، 2023). ومع ذلك، فإن تقييم جدوى مثل هذه الأمثلة الافتراضية كان محدودًا بسبب عدم كفاية التقييمات والبيانات.

بعد مشاركتنا الأخيرة إطار الاستعداد، نحن نعمل على تطوير منهجيات لتقييم هذه الأنواع من المخاطر بشكل تجريبي، لمساعدتنا على فهم أين نحن اليوم وأين يمكن أن نكون في المستقبل. هنا، نقوم بتفصيل تقييم جديد يمكن أن يساعد في العمل بمثابة "سلك تعثر" محتمل يشير إلى الحاجة إلى الحذر وإجراء مزيد من الاختبارات لاحتمالات إساءة الاستخدام البيولوجي. يهدف هذا التقييم إلى قياس ما إذا كانت النماذج يمكن أن تزيد بشكل مفيد وصول الجهات الفاعلة الخبيثة إلى المعلومات الخطيرة حول خلق التهديد البيولوجي، مقارنة بخط الأساس للموارد الموجودة (أي الإنترنت).

لتقييم ذلك، أجرينا دراسة مع 100 مشارك بشري، منهم (أ) 50 خبيرًا في علم الأحياء حاصلين على درجة الدكتوراه وخبرة مهنية في المختبرات الرطبة و(ب) 50 مشاركًا على مستوى الطلاب، مع دورة دراسية واحدة على الأقل على مستوى الجامعة في علم الأحياء. تم تعيين كل مجموعة من المشاركين بشكل عشوائي إما إلى مجموعة مراقبة، والتي كان لديها إمكانية الوصول إلى الإنترنت فقط، أو مجموعة علاجية، والتي كان لديها إمكانية الوصول إلى GPT-4 بالإضافة إلى الإنترنت. ثم طُلب من كل مشارك إكمال مجموعة من المهام التي تغطي جوانب العملية الشاملة لإنشاء التهديد البيولوجي.[^ 1] على حد علمنا، يعد هذا أكبر تقييم بشري حتى الآن لتأثير الذكاء الاصطناعي على معلومات المخاطر البيولوجية.

الموجودات. قامت دراستنا بتقييم الارتفاعات في أداء المشاركين الذين لديهم إمكانية الوصول إلى GPT-4 عبر خمسة مقاييس (الدقة، والاكتمال، والابتكار، والوقت المستغرق، وصعوبة التقييم الذاتي) وخمس مراحل في عملية خلق التهديد البيولوجي (التفكير، والاكتساب، والتكبير، والصياغة). ، والإفراج). لقد وجدنا زيادات طفيفة في الدقة والاكتمال لأولئك الذين لديهم إمكانية الوصول إلى نموذج اللغة. على وجه التحديد، على مقياس من 10 نقاط لقياس دقة الاستجابات، لاحظنا زيادة في متوسط ​​الدرجات قدرها 0.88 للخبراء و0.25 للطلاب مقارنة بخط الأساس للإنترنت فقط، وارتفاعات مماثلة للاكتمال (0.82 للخبراء و0.41 للطلاب). ومع ذلك، فإن أحجام التأثير التي تم الحصول عليها لم تكن كبيرة بما يكفي لتكون ذات دلالة إحصائية، وسلطت دراستنا الضوء على الحاجة إلى مزيد من البحث حول عتبات الأداء التي تشير إلى زيادة كبيرة في المخاطر. علاوة على ذلك، نلاحظ أن الوصول إلى المعلومات وحده لا يكفي لخلق تهديد بيولوجي، وأن هذا التقييم لا يختبر مدى النجاح في البناء المادي للتهديدات.

أدناه، نشارك إجراءات التقييم والنتائج التي أسفرت عنها بمزيد من التفاصيل. نناقش أيضًا العديد من الأفكار المنهجية المتعلقة باستنباط القدرات والاعتبارات الأمنية اللازمة لتشغيل هذا النوع من التقييم باستخدام النماذج الحدودية على نطاق واسع. نناقش أيضًا قيود الأهمية الإحصائية كوسيلة فعالة لقياس مخاطر النموذج، وأهمية البحث الجديد في تقييم مدى جدوى نتائج تقييم النموذج.

الطابع الزمني:

اكثر من OpenAI

صورة GPT

عقدة المصدر: 747759
الطابع الزمني: يونيو 17، 2020

تقديم Whisper

عقدة المصدر: 1672766
الطابع الزمني: سبتمبر 21، 2022