Створення системи раннього попередження для створення біологічної загрози за допомогою LLM

Перевидано Платоном

читають: 0

Примітка: в рамках нашого Структура готовності, ми інвестуємо в розробку вдосконалених методів оцінки ризиків безпеки, пов’язаних зі штучним інтелектом. Ми вважаємо, що ці зусилля принесуть користь від ширшого внеску, і що обмін методами також може бути цінним для спільноти дослідників ризиків ШІ. З цією метою ми представляємо деякі наші ранні роботи — сьогодні, зосереджені на біологічному ризику. Ми з нетерпінням чекаємо на відгуки спільноти та на те, щоб поділитися нашими поточними дослідженнями.

Фон У міру того, як OpenAI та інші розробники моделей створюють більш потужні системи штучного інтелекту, зростатиме потенціал як корисного, так і шкідливого використання штучного інтелекту. Одним із потенційно шкідливих видів використання, на якому дослідники та політики підкреслюють, є здатність систем ШІ допомагати зловмисникам у створенні біологічних загроз (наприклад, див. Білий дім 2023, Лавлейс 2022, Сендбринк 2023). В одному з обговорюваних гіпотетичних прикладів зловмисник може використовувати високопродуктивну модель для розробки покрокового протоколу, усунення несправностей процедур мокрої лабораторії або навіть автономного виконання етапів процесу створення біозагрози, якщо йому надано доступ до таких інструментів, як хмарні лабораторії (Див. Carter et al., 2023). Однак оцінка життєздатності таких гіпотетичних прикладів була обмежена недостатніми оцінками та даними.

Слідкуючи за нашим нещодавно поширеним Структура готовності, ми розробляємо методології для емпіричної оцінки цих типів ризиків, щоб допомогти нам зрозуміти, де ми зараз і де ми можемо бути в майбутньому. Тут ми детально описуємо нову оцінку, яка може допомогти слугувати одним із потенційних «провідників», що сигналізує про необхідність обережності та подальшого тестування потенціалу біологічного зловживання. Ця оцінка має на меті визначити, чи можуть моделі істотно збільшити доступ зловмисників до небезпечної інформації про створення біологічної загрози порівняно з базовим рівнем існуючих ресурсів (тобто Інтернету).

Щоб оцінити це, ми провели дослідження за участю 100 людей, у тому числі (а) 50 експертів з біології з докторським ступенем і професійним досвідом роботи в мокрій лабораторії та (б) 50 учасників на рівні студентів, які пройшли принаймні один курс біології університетського рівня. Кожна група учасників була випадковим чином розподілена або до контрольної групи, яка мала лише доступ до Інтернету, або до групи лікування, яка мала доступ до GPT-4 на додаток до Інтернету. Потім кожного учасника попросили виконати набір завдань, що охоплюють аспекти наскрізного процесу створення біологічної загрози.^{[^1]} Наскільки нам відомо, це найбільша на сьогоднішній день людська оцінка впливу ШІ на інформацію про біоризики.

Висновки. У нашому дослідженні було оцінено підвищення продуктивності для учасників з доступом до GPT-4 за п’ятьма показниками (точність, повнота, інноваційність, витрачений час і самооцінка складності) і п’ятьма етапами процесу створення біологічної загрози (ідея, отримання, збільшення, формулювання) , і відпустіть). Ми виявили незначне підвищення точності та повноти для тих, хто має доступ до мовної моделі. Зокрема, за 10-бальною шкалою вимірювання точності відповідей ми спостерігали збільшення середнього балу на 0.88 для експертів і 0.25 для студентів порівняно з вихідним рівнем лише в Інтернеті, а також аналогічні підвищення для повноти (0.82 для експертів і 0.41 для студентів). Однак отримані розміри ефекту були недостатньо великими, щоб бути статистично значущими, і наше дослідження підкреслило необхідність додаткових досліджень щодо того, які порогові значення ефективності вказують на значуще збільшення ризику. Крім того, ми зазначаємо, що лише доступу до інформації недостатньо для створення біологічної загрози, і що ця оцінка не перевіряє успішність фізичної конструкції загроз.

Нижче ми докладніше розповідаємо про нашу процедуру оцінювання та результати, які вона дала. Ми також обговорюємо кілька методологічних ідей, пов’язаних із виявленням можливостей і міркуваннями безпеки, необхідними для проведення такого типу оцінки з граничними моделями в масштабі. Ми також обговорюємо обмеження статистичної значущості як ефективного методу вимірювання ризику моделі та важливість нових досліджень для оцінки значущості результатів оцінки моделі.