এলএলএম-সহায়তা জৈবিক হুমকি সৃষ্টির জন্য একটি প্রাথমিক সতর্কতা ব্যবস্থা তৈরি করা

এলএলএম-সহায়তা জৈবিক হুমকি সৃষ্টির জন্য একটি প্রাথমিক সতর্কতা ব্যবস্থা তৈরি করা

উত্স নোড: 3091558

দ্রষ্টব্য: আমাদের অংশ হিসাবে প্রস্তুতি ফ্রেমওয়ার্ক, আমরা এআই-সক্ষম নিরাপত্তা ঝুঁকির জন্য উন্নত মূল্যায়ন পদ্ধতির উন্নয়নে বিনিয়োগ করছি। আমরা বিশ্বাস করি যে এই প্রচেষ্টাগুলি বৃহত্তর ইনপুট থেকে উপকৃত হবে এবং সেই পদ্ধতিগুলি ভাগ করে নেওয়াও এআই ঝুঁকি গবেষণা সম্প্রদায়ের জন্য মূল্যবান হতে পারে। এই লক্ষ্যে, আমরা আমাদের প্রথম দিকের কিছু কাজ উপস্থাপন করছি—আজ, জৈবিক ঝুঁকির উপর দৃষ্টি নিবদ্ধ করে। আমরা সম্প্রদায়ের প্রতিক্রিয়া এবং আমাদের চলমান গবেষণার আরও ভাগ করার জন্য উন্মুখ। 

পটভূমি। ওপেনএআই এবং অন্যান্য মডেল ডেভেলপাররা আরও সক্ষম এআই সিস্টেম তৈরি করার ফলে, এআই-এর উপকারী এবং ক্ষতিকারক উভয় ব্যবহারের সম্ভাবনা বাড়বে। একটি সম্ভাব্য ক্ষতিকারক ব্যবহার, যা গবেষক এবং নীতিনির্ধারকদের দ্বারা হাইলাইট করা হয়েছে, জৈবিক হুমকি তৈরিতে ক্ষতিকারক অভিনেতাদের সহায়তা করার জন্য এআই সিস্টেমের ক্ষমতা (যেমন, দেখুন হোয়াইট হাউস 2023, লাভলেস 2022, স্যান্ডব্রিঙ্ক 2023) একটি আলোচিত অনুমানমূলক উদাহরণে, একজন দূষিত অভিনেতা ধাপে ধাপে প্রোটোকল তৈরি করতে, ওয়েট-ল্যাব পদ্ধতির সমস্যা সমাধান করতে, বা এমনকি সরঞ্জামগুলিতে অ্যাক্সেস দেওয়ার সময় স্বায়ত্তশাসিতভাবে বায়োথ্রেট সৃষ্টি প্রক্রিয়ার পদক্ষেপগুলি সম্পাদন করতে একটি উচ্চ-সক্ষম মডেল ব্যবহার করতে পারে মেঘ পরীক্ষাগার (দেখুন কার্টার এট আল।, 2023) যাইহোক, এই ধরনের অনুমানমূলক উদাহরণগুলির কার্যকারিতা মূল্যায়ন অপর্যাপ্ত মূল্যায়ন এবং ডেটা দ্বারা সীমাবদ্ধ ছিল।

আমাদের সম্প্রতি শেয়ার করা অনুসরণ প্রস্তুতি ফ্রেমওয়ার্ক, আমরা আজকে কোথায় আছি এবং ভবিষ্যতে আমরা কোথায় থাকতে পারি তা বুঝতে সাহায্য করার জন্য এই ধরনের ঝুঁকিগুলিকে অভিজ্ঞতামূলকভাবে মূল্যায়ন করার জন্য পদ্ধতিগুলি তৈরি করছি। এখানে, আমরা একটি নতুন মূল্যায়নের বিশদ বিবরণ দিচ্ছি যা একটি সম্ভাব্য "ট্রিপওয়্যার" হিসাবে কাজ করতে সাহায্য করতে পারে যা সতর্কতা এবং জৈবিক অপব্যবহারের সম্ভাবনার আরও পরীক্ষার প্রয়োজনের সংকেত দেয়। এই মূল্যায়নের লক্ষ্য হল বিদ্যমান সংস্থানগুলির (অর্থাৎ, ইন্টারনেট) বেসলাইনের তুলনায় মডেলগুলি জৈবিক হুমকি সৃষ্টির বিষয়ে বিপজ্জনক তথ্যে দূষিত অভিনেতাদের অ্যাক্সেসকে অর্থপূর্ণভাবে বৃদ্ধি করতে পারে কিনা তা পরিমাপ করা।

এটি মূল্যায়ন করার জন্য, আমরা 100 জন মানব অংশগ্রহণকারীর সাথে একটি অধ্যয়ন পরিচালনা করেছি, যার মধ্যে রয়েছে (a) 50 জন জীববিজ্ঞান বিশেষজ্ঞ পিএইচডি এবং পেশাদার ওয়েট ল্যাব অভিজ্ঞতা এবং (b) 50 জন ছাত্র-স্তরের অংশগ্রহণকারী, জীববিজ্ঞানের অন্তত একটি বিশ্ববিদ্যালয়-স্তরের কোর্স সহ। অংশগ্রহণকারীদের প্রতিটি গ্রুপকে এলোমেলোভাবে একটি নিয়ন্ত্রণ গোষ্ঠীর জন্য বরাদ্দ করা হয়েছিল, যার কেবল ইন্টারনেট অ্যাক্সেস ছিল, বা একটি চিকিত্সা গ্রুপ, যাদের ইন্টারনেট ছাড়াও GPT-4 অ্যাক্সেস ছিল। তারপরে প্রতিটি অংশগ্রহণকারীকে জৈবিক হুমকি সৃষ্টির জন্য শেষ-থেকে-শেষ প্রক্রিয়ার দিকগুলিকে কভার করে কাজগুলির একটি সেট সম্পূর্ণ করতে বলা হয়েছিল।[^1] আমাদের জানামতে, এটি বায়োরিস্ক তথ্যের উপর AI-এর প্রভাবের আজ পর্যন্ত সবচেয়ে বড় মানব মূল্যায়ন।

ফাইন্ডিংস। আমাদের অধ্যয়ন পাঁচটি মেট্রিক (নির্ভুলতা, সম্পূর্ণতা, উদ্ভাবন, সময় নেওয়া এবং স্ব-রেট করা অসুবিধা) এবং জৈবিক হুমকি সৃষ্টির প্রক্রিয়ার পাঁচটি ধাপ (ধারণা, অধিগ্রহণ, বড়করণ, প্রণয়ন) জুড়ে GPT-4 অ্যাক্সেস সহ অংশগ্রহণকারীদের কর্মক্ষমতার উন্নতির মূল্যায়ন করেছে। , এবং মুক্তি)। যাদের ভাষার মডেলে অ্যাক্সেস রয়েছে তাদের জন্য আমরা নির্ভুলতা এবং সম্পূর্ণতায় হালকা উন্নতি পেয়েছি। বিশেষত, প্রতিক্রিয়াগুলির নির্ভুলতা পরিমাপের 10-পয়েন্ট স্কেলে, আমরা শুধুমাত্র ইন্টারনেট-ভিত্তিক বেসলাইনের তুলনায় বিশেষজ্ঞদের জন্য 0.88 এবং ছাত্রদের জন্য 0.25 এর গড় স্কোর বৃদ্ধি লক্ষ্য করেছি এবং সম্পূর্ণতার জন্য অনুরূপ উন্নতি (বিশেষজ্ঞদের জন্য 0.82 এবং ছাত্রদের জন্য 0.41)। যাইহোক, প্রাপ্ত প্রভাবের আকারগুলি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ হওয়ার জন্য যথেষ্ট বড় ছিল না, এবং আমাদের অধ্যয়ন কার্যক্ষমতার থ্রেশহোল্ডগুলি ঝুঁকির একটি অর্থপূর্ণ বৃদ্ধি নির্দেশ করে সে সম্পর্কে আরও গবেষণার প্রয়োজনীয়তা তুলে ধরে। অধিকন্তু, আমরা লক্ষ্য করি যে শুধুমাত্র তথ্য অ্যাক্সেস একটি জৈবিক হুমকি তৈরি করার জন্য অপর্যাপ্ত, এবং এই মূল্যায়ন হুমকিগুলির শারীরিক নির্মাণে সাফল্যের জন্য পরীক্ষা করে না।

নীচে, আমরা আমাদের মূল্যায়ন পদ্ধতি এবং এটির ফলাফলগুলি আরও বিশদে শেয়ার করি৷ আমরা স্কেল এ ফ্রন্টিয়ার মডেলগুলির সাথে এই ধরণের মূল্যায়ন চালানোর জন্য প্রয়োজনীয় সক্ষমতা উন্মোচন এবং সুরক্ষা বিবেচনার সাথে সম্পর্কিত বেশ কয়েকটি পদ্ধতিগত অন্তর্দৃষ্টি নিয়েও আলোচনা করি। আমরা মডেল ঝুঁকি পরিমাপ করার একটি কার্যকর পদ্ধতি হিসাবে পরিসংখ্যানগত তাত্পর্যের সীমাবদ্ধতা এবং মডেল মূল্যায়ন ফলাফলের অর্থপূর্ণতা মূল্যায়নে নতুন গবেষণার গুরুত্ব নিয়েও আলোচনা করি।

সময় স্ট্যাম্প:

থেকে আরো OpenAI