Создание системы раннего предупреждения о создании биологической угрозы с помощью LLM

Переиздано Платоном

Читают: 0

Примечание. В рамках нашего Структура готовности, мы инвестируем в разработку улучшенных методов оценки рисков безопасности с помощью ИИ. Мы считаем, что эти усилия выиграют от более широкого участия и что обмен методами также может быть полезен сообществу исследователей рисков ИИ. С этой целью мы представляем некоторые из наших ранних работ, сегодня посвященных биологическим рискам. Мы с нетерпением ждем отзывов сообщества и возможности поделиться результатами наших текущих исследований.

Задний план. По мере того как OpenAI и другие разработчики моделей создают более функциональные системы ИИ, потенциал как полезного, так и вредного использования ИИ будет расти. Одним из потенциально вредных применений, отмеченных исследователями и политиками, является способность систем ИИ помогать злоумышленникам в создании биологических угроз (например, см. Белый дом 2023, Ловелас 2022, Сэндбринк 2023). В одном обсуждаемом гипотетическом примере злоумышленник может использовать высокопроизводительную модель для разработки пошагового протокола, устранения неполадок в процедурах мокрой лаборатории или даже автономно выполнять этапы процесса создания биологической угрозы, если ему предоставлен доступ к таким инструментам, как облачные лаборатории (См. Картер и др., 2023). Однако оценка жизнеспособности таких гипотетических примеров была ограничена недостаточным количеством оценок и данных.

После нашего недавно опубликованного Структура готовностимы разрабатываем методологии эмпирической оценки этих типов рисков, которые помогут нам понять, где мы находимся сегодня и где мы можем оказаться в будущем. Здесь мы подробно описываем новую оценку, которая могла бы послужить потенциальным «путем», сигнализирующим о необходимости осторожности и дальнейшего тестирования потенциала биологического злоупотребления. Эта оценка направлена на то, чтобы определить, могут ли модели существенно расширить доступ злоумышленников к опасной информации о создании биологических угроз по сравнению с базовым уровнем существующих ресурсов (например, Интернета).

Чтобы оценить это, мы провели исследование с участием 100 человек, в том числе (а) 50 экспертов по биологии с докторской степенью и профессиональным опытом работы в мокрых лабораториях и (б) 50 участников студенческого уровня, прошедших как минимум один университетский курс биологии. Каждую группу участников случайным образом распределяли либо в контрольную группу, которая имела доступ только к Интернету, либо в экспериментальную группу, которая помимо Интернета имела доступ к GPT-4. Затем каждому участнику было предложено выполнить ряд задач, охватывающих аспекты сквозного процесса создания биологической угрозы.^{[^ 1]} Насколько нам известно, это крупнейшая на сегодняшний день человеческая оценка влияния ИИ на информацию о биорисках.

Выводы. В нашем исследовании оценивалось повышение производительности участников, имеющих доступ к GPT-4, по пяти показателям (точность, полнота, инновации, затраченное время и самооценка сложности) и пяти этапам процесса создания биологической угрозы (идея, приобретение, усиление, формулирование). и отпустите). Мы обнаружили небольшое повышение точности и полноты у тех, кто имел доступ к языковой модели. В частности, по 10-балльной шкале, измеряющей точность ответов, мы наблюдали увеличение среднего балла на 0.88 для экспертов и 0.25 для студентов по сравнению с базовым показателем только в Интернете, а также аналогичное повышение полноты ответов (0.82 для экспертов и 0.41 для студентов). Однако полученные размеры эффекта были недостаточно велики, чтобы быть статистически значимыми, и наше исследование подчеркнуло необходимость дополнительных исследований того, какие пороговые значения производительности указывают на значимое увеличение риска. Более того, мы отмечаем, что одного только доступа к информации недостаточно для создания биологической угрозы, и что эта оценка не является проверкой успеха в физическом построении угроз.

Ниже мы более подробно рассказываем о нашей процедуре оценки и результатах, которые она дала. Мы также обсуждаем несколько методологических идей, связанных с выявлением возможностей и соображениями безопасности, необходимыми для проведения такого типа оценки с использованием пограничных моделей в большом масштабе. Мы также обсуждаем ограничения статистической значимости как эффективного метода измерения риска модели и важность новых исследований в оценке значимости результатов оценки модели.