Building An Early Warning System For LLM-aided Biological Threat Creation

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

نوٹ: ہمارے حصے کے طور پر تیاری کا فریم ورک، ہم AI سے چلنے والے حفاظتی خطرات کے لیے بہتر تشخیصی طریقوں کی ترقی میں سرمایہ کاری کر رہے ہیں۔ ہمیں یقین ہے کہ ان کوششوں سے وسیع تر ان پٹ سے فائدہ ہو گا، اور طریقوں کا اشتراک AI رسک ریسرچ کمیونٹی کے لیے بھی اہمیت کا حامل ہو سکتا ہے۔ اس مقصد کے لیے، ہم اپنے ابتدائی کام میں سے کچھ پیش کر رہے ہیں—آج، جو حیاتیاتی خطرے پر مرکوز ہے۔ ہم کمیونٹی کے تاثرات کے منتظر ہیں، اور اپنی جاری تحقیق کا مزید اشتراک کرنے کے لیے۔

پس منظر جیسا کہ OpenAI اور دیگر ماڈل ڈیولپرز زیادہ قابل AI سسٹمز بناتے ہیں، AI کے فائدہ مند اور نقصان دہ استعمال کے امکانات بڑھتے جائیں گے۔ ایک ممکنہ طور پر نقصان دہ استعمال، جس پر محققین اور پالیسی سازوں نے روشنی ڈالی ہے، وہ ہے AI سسٹمز کے لیے حیاتیاتی خطرات پیدا کرنے میں بدنیتی پر مبنی اداکاروں کی مدد کرنے کی صلاحیت (مثال کے طور پر، دیکھیں وائٹ ہاؤس 2023, لیولیس 2022, سینڈ برنک 2023)۔ ایک زیر بحث فرضی مثال میں، ایک بدنیتی پر مبنی اداکار مرحلہ وار پروٹوکول تیار کرنے، گیلے لیب کے طریقہ کار کا ازالہ کرنے، یا حتیٰ کہ جب ٹولز تک رسائی دی جائے تو خود مختاری سے بائیوتھریٹ تخلیق کے عمل کو انجام دینے کے لیے ایک انتہائی قابل ماڈل کا استعمال کر سکتا ہے۔ کلاؤڈ لیبز (ملاحظہ کریں کارٹر اور ایل.، 2023)۔ تاہم، اس طرح کی فرضی مثالوں کی عملداری کا اندازہ ناکافی تشخیص اور ڈیٹا کی وجہ سے محدود تھا۔

ہمارے حال ہی میں اشتراک کے بعد تیاری کا فریم ورکہم اس قسم کے خطرات کا تجرباتی جائزہ لینے کے لیے طریقہ کار تیار کر رہے ہیں، تاکہ ہمیں یہ سمجھنے میں مدد ملے کہ ہم آج کہاں ہیں اور مستقبل میں کہاں ہو سکتے ہیں۔ یہاں، ہم ایک نئی تشخیص کی تفصیل دیتے ہیں جو ایک ممکنہ "ٹرپ وائر" کے طور پر کام کرنے میں مدد کر سکتا ہے جو احتیاط کی ضرورت اور حیاتیاتی غلط استعمال کی صلاحیت کی مزید جانچ کی نشاندہی کرتا ہے۔ اس تشخیص کا مقصد یہ پیمائش کرنا ہے کہ آیا موجودہ وسائل (یعنی انٹرنیٹ) کی بنیادی لائن کے مقابلے میں ماڈلز حیاتیاتی خطرے کی تخلیق کے بارے میں خطرناک معلومات تک نقصان دہ اداکاروں کی رسائی کو معنی خیز طور پر بڑھا سکتے ہیں۔

اس کا جائزہ لینے کے لیے، ہم نے 100 انسانی شرکاء کے ساتھ ایک مطالعہ کیا، جس میں (a) 50 حیاتیات کے ماہرین پی ایچ ڈی اور پیشہ ورانہ گیلے لیب کے تجربے اور (b) 50 طالب علم کی سطح کے شرکاء، جن میں کم از کم ایک یونیورسٹی کی سطح کا بیالوجی کورس تھا۔ شرکاء کے ہر گروپ کو تصادفی طور پر یا تو ایک کنٹرول گروپ کو تفویض کیا گیا تھا، جس کے پاس صرف انٹرنیٹ تک رسائی تھی، یا ایک علاج گروپ، جس کو انٹرنیٹ کے علاوہ GPT-4 تک رسائی حاصل تھی۔ اس کے بعد ہر شریک سے کہا گیا کہ وہ حیاتیاتی خطرے کی تخلیق کے لیے اختتام سے آخر تک کے عمل کے پہلوؤں کا احاطہ کرنے والے کاموں کا ایک سیٹ مکمل کرے۔^{[^1]} ہمارے علم کے مطابق، یہ بائیورک معلومات پر AI کے اثرات کا آج تک کا سب سے بڑا انسانی جائزہ ہے۔

نتائج ہمارے مطالعے نے پانچ میٹرکس (درستگی، مکمل، اختراع، وقت لیا، اور خود ریٹیڈ مشکل) اور حیاتیاتی خطرے کی تخلیق کے عمل کے پانچ مراحل (نظریہ، حصول، اضافہ، تشکیل) میں GPT-4 تک رسائی کے حامل شرکاء کی کارکردگی میں بہتری کا اندازہ لگایا۔ ، اور رہائی)۔ ہم نے زبان کے ماڈل تک رسائی رکھنے والوں کے لیے درستگی اور مکمل ہونے میں ہلکی سی بہتری پائی۔ خاص طور پر، جوابات کی درستگی کی پیمائش کرنے والے 10 نکاتی پیمانے پر، ہم نے ماہرین کے لیے اوسط اسکور میں 0.88 اور طلبہ کے لیے 0.25 کا اضافہ دیکھا جو انٹرنیٹ کے لیے صرف بیس لائن کے مقابلے میں، اور اسی طرح کی بہتری (ماہرین کے لیے 0.82 اور طلبہ کے لیے 0.41)۔ تاہم، حاصل کردہ اثر کے سائز اعدادوشمار کے لحاظ سے اہم ہونے کے لیے اتنے بڑے نہیں تھے، اور ہمارے مطالعے نے اس بارے میں مزید تحقیق کی ضرورت کو اجاگر کیا کہ کارکردگی کی کون سی حد خطرے میں بامعنی اضافے کی نشاندہی کرتی ہے۔ مزید برآں، ہم نوٹ کرتے ہیں کہ حیاتیاتی خطرہ پیدا کرنے کے لیے معلومات تک رسائی ہی ناکافی ہے، اور یہ کہ یہ تشخیص خطرات کی جسمانی تعمیر میں کامیابی کے لیے جانچ نہیں کرتا۔

ذیل میں، ہم اپنے تشخیصی طریقہ کار اور اس سے حاصل ہونے والے نتائج کو مزید تفصیل سے بتاتے ہیں۔ ہم اہلیت کے اخراج اور حفاظتی تحفظات سے متعلق متعدد طریقہ کار پر بھی تبادلہ خیال کرتے ہیں جو اس قسم کی تشخیص کو بڑے پیمانے پر فرنٹیئر ماڈلز کے ساتھ چلانے کے لیے درکار ہیں۔ ہم ماڈل کے خطرے کی پیمائش کے ایک مؤثر طریقہ کے طور پر شماریاتی اہمیت کی حدود، اور ماڈل کی تشخیص کے نتائج کی معنی خیزی کا اندازہ لگانے میں نئی تحقیق کی اہمیت پر بھی تبادلہ خیال کرتے ہیں۔