एलएलएम-सहायता प्राप्त जैविक खतरा निर्माण के लिए एक प्रारंभिक चेतावनी प्रणाली का निर्माण

एलएलएम-सहायता प्राप्त जैविक खतरा निर्माण के लिए एक प्रारंभिक चेतावनी प्रणाली का निर्माण

स्रोत नोड: 3091558

नोट: हमारे हिस्से के रूप में तैयारी की रूपरेखा, हम एआई-सक्षम सुरक्षा जोखिमों के लिए बेहतर मूल्यांकन विधियों के विकास में निवेश कर रहे हैं। हमारा मानना ​​है कि इन प्रयासों को व्यापक इनपुट से लाभ होगा, और तरीकों को साझा करना एआई जोखिम अनुसंधान समुदाय के लिए भी उपयोगी हो सकता है। इस उद्देश्य से, हम आज अपना कुछ प्रारंभिक कार्य प्रस्तुत कर रहे हैं, जो जैविक जोखिम पर केंद्रित है। हम सामुदायिक प्रतिक्रिया और अपने चल रहे शोध को और अधिक साझा करने के लिए उत्सुक हैं। 

पृष्ठभूमि। जैसे-जैसे ओपनएआई और अन्य मॉडल डेवलपर्स अधिक सक्षम एआई सिस्टम का निर्माण करेंगे, एआई के लाभकारी और हानिकारक दोनों उपयोगों की संभावना बढ़ेगी। शोधकर्ताओं और नीति निर्माताओं द्वारा उजागर किया गया एक संभावित हानिकारक उपयोग, जैविक खतरे पैदा करने में दुर्भावनापूर्ण अभिनेताओं की सहायता करने के लिए एआई सिस्टम की क्षमता है (उदाहरण के लिए, देखें) व्हाइट हाउस 2023, लवलेस 2022, सैंडब्रिंक 2023). चर्चा किए गए एक काल्पनिक उदाहरण में, एक दुर्भावनापूर्ण अभिनेता चरण-दर-चरण प्रोटोकॉल विकसित करने, वेट-लैब प्रक्रियाओं का निवारण करने, या यहां तक ​​कि बायोथ्रेट निर्माण प्रक्रिया के चरणों को स्वायत्त रूप से निष्पादित करने के लिए एक उच्च-सक्षम मॉडल का उपयोग कर सकता है जब उसे जैसे उपकरणों तक पहुंच दी जाती है। क्लाउड लैब (देखें कार्टर एट अल।, एक्सएनयूएमएक्स). हालाँकि, ऐसे काल्पनिक उदाहरणों की व्यवहार्यता का आकलन अपर्याप्त मूल्यांकन और डेटा द्वारा सीमित था।

हमारे हाल ही में साझा किए गए के बाद तैयारी की रूपरेखा, हम इस प्रकार के जोखिमों का अनुभवजन्य मूल्यांकन करने के लिए कार्यप्रणाली विकसित कर रहे हैं, जिससे हमें यह समझने में मदद मिलेगी कि हम आज कहां हैं और भविष्य में हम कहां हो सकते हैं। यहां, हम एक नए मूल्यांकन का विवरण देते हैं जो एक संभावित "ट्रिपवायर" के रूप में काम करने में मदद कर सकता है जो सावधानी की आवश्यकता और जैविक दुरुपयोग क्षमता के आगे परीक्षण का संकेत देता है। इस मूल्यांकन का उद्देश्य यह मापना है कि क्या मॉडल मौजूदा संसाधनों (यानी, इंटरनेट) की आधार रेखा की तुलना में, जैविक खतरे के निर्माण के बारे में खतरनाक जानकारी तक दुर्भावनापूर्ण अभिनेताओं की पहुंच को सार्थक रूप से बढ़ा सकते हैं।

इसका मूल्यांकन करने के लिए, हमने 100 मानव प्रतिभागियों के साथ एक अध्ययन किया, जिसमें (ए) पीएचडी और पेशेवर वेट लैब अनुभव वाले 50 जीव विज्ञान विशेषज्ञ और (बी) जीव विज्ञान में कम से कम एक विश्वविद्यालय स्तर के पाठ्यक्रम के साथ 50 छात्र-स्तर के प्रतिभागी शामिल थे। प्रतिभागियों के प्रत्येक समूह को यादृच्छिक रूप से या तो एक नियंत्रण समूह को सौंपा गया था, जिसकी केवल इंटरनेट तक पहुंच थी, या एक उपचार समूह, जिसके पास इंटरनेट के अलावा जीपीटी -4 तक पहुंच थी। फिर प्रत्येक प्रतिभागी को जैविक खतरे के निर्माण के लिए शुरू से अंत तक की प्रक्रिया के पहलुओं को कवर करने वाले कार्यों का एक सेट पूरा करने के लिए कहा गया।[^1] हमारी जानकारी के अनुसार, यह बायोरिस्क जानकारी पर एआई के प्रभाव का अब तक का सबसे बड़ा मानव मूल्यांकन है।

जाँच - परिणाम। हमारे अध्ययन ने पांच मेट्रिक्स (सटीकता, पूर्णता, नवाचार, लिया गया समय और स्व-रेटेड कठिनाई) और जैविक खतरा निर्माण प्रक्रिया में पांच चरणों (विचार, अधिग्रहण, आवर्धन, सूत्रीकरण) में जीपीटी -4 तक पहुंच वाले प्रतिभागियों के प्रदर्शन में वृद्धि का आकलन किया। , और रिलीज)। हमने भाषा मॉडल तक पहुंच रखने वाले लोगों के लिए सटीकता और पूर्णता में मामूली वृद्धि देखी। विशेष रूप से, प्रतिक्रियाओं की सटीकता को मापने वाले 10-बिंदु पैमाने पर, हमने इंटरनेट-केवल बेसलाइन की तुलना में विशेषज्ञों के लिए 0.88 और छात्रों के लिए 0.25 की औसत स्कोर वृद्धि देखी, और पूर्णता के लिए समान उत्थान (विशेषज्ञों के लिए 0.82 और छात्रों के लिए 0.41)। हालाँकि, प्राप्त प्रभाव का आकार सांख्यिकीय रूप से महत्वपूर्ण होने के लिए पर्याप्त बड़ा नहीं था, और हमारे अध्ययन ने प्रदर्शन सीमा के बारे में अधिक शोध की आवश्यकता पर प्रकाश डाला जो जोखिम में सार्थक वृद्धि का संकेत देता है। इसके अलावा, हम ध्यान दें कि अकेले सूचना तक पहुंच जैविक खतरा पैदा करने के लिए अपर्याप्त है, और यह मूल्यांकन खतरों के भौतिक निर्माण में सफलता के लिए परीक्षण नहीं करता है।

नीचे, हम अपनी मूल्यांकन प्रक्रिया और उससे प्राप्त परिणामों को अधिक विस्तार से साझा करते हैं। हम बड़े पैमाने पर फ्रंटियर मॉडल के साथ इस प्रकार के मूल्यांकन को चलाने के लिए आवश्यक क्षमता प्राप्ति और सुरक्षा विचारों से संबंधित कई पद्धतिगत अंतर्दृष्टि पर भी चर्चा करते हैं। हम मॉडल जोखिम को मापने की एक प्रभावी विधि के रूप में सांख्यिकीय महत्व की सीमाओं और मॉडल मूल्यांकन परिणामों की सार्थकता का आकलन करने में नए शोध के महत्व पर भी चर्चा करते हैं।

समय टिकट:

से अधिक OpenAI

छवि GPT

स्रोत नोड: 747759
समय टिकट: जून 17, 2020