Секрет Sparrow, последнего чат-бота вопросов и ответов DeepMind: отзывы людей

Исходный узел: 1680211

DeepMind обучил чат-бота по имени Sparrow быть менее токсичным и более точным, чем другие системы, используя сочетание отзывов людей и поисковых подсказок Google.

Чат-боты обычно основаны на больших языковых моделях (LLM), обученных на тексте, извлеченном из Интернета. Эти модели способны генерировать абзацы прозы, которые, по крайней мере на поверхностном уровне, связны и грамматически правильны, и могут отвечать на вопросы или письменные подсказки пользователей.

Это программное обеспечение, однако, часто улавливает плохие черты исходного материала, что приводит к извержению оскорбительных, расистских и сексистских взглядов или извержению поддельных новостей или заговоров, которые часто встречаются в социальных сетях и интернет-форумах. Тем не менее, этими ботами можно управлять, чтобы они генерировали более безопасный результат.

Шаг вперед, Воробей. Этот чат-бот основан на шиншилла, впечатляющая языковая модель DeepMind, которая убивают вам не нужно сто с лишним миллиардов параметров (как у других LLM) для генерации текста: у Chinchilla есть 70 миллиардов параметров, что удобно делает вывод и точную настройку сравнительно более легкими задачами.

Чтобы создать Sparrow, DeepMind взяла Chinchilla и настроила его на основе отзывов людей, используя процесс обучения с подкреплением. В частности, были наняты люди для оценки ответов чат-бота на конкретные вопросы в зависимости от того, насколько актуальными и полезными были ответы и не нарушались ли они какие-либо правила. Одним из правил, например, было: не выдавать себя за настоящего человека.

Эти оценки были возвращены, чтобы управлять и улучшать будущие результаты бота, процесс повторялся снова и снова. Правила были ключом к сдерживанию поведения программного обеспечения и поощрению его безопасности и полезности.

В одной пример взаимодействия, Воробья спросили о Международной космической станции и о том, что он космонавт. Программное обеспечение смогло ответить на вопрос о последней экспедиции в орбитальную лабораторию и скопировало и вставило правильный отрывок информации из Википедии со ссылкой на ее источник.

Когда пользователь продолжил расследование и спросил Воробья, отправится ли он в космос, тот ответил, что не может, так как это не человек, а компьютерная программа. Это признак того, что он правильно следовал правилам.

В этом случае Воробей смог предоставить полезную и точную информацию и не притворялся человеком. Другие правила, которым его учили следовать, включали в себя не создавать никаких оскорблений или стереотипов, не давать никаких медицинских, юридических или финансовых советов, а также не говорить ничего неприемлемого, не иметь никаких мнений или эмоций и не притворяться, что у него есть тело.

Нам сказали, что Sparrow может дать логичный, разумный ответ и предоставить релевантную ссылку из поиска Google с дополнительной информацией на запросы примерно в 78% случаев.

Когда участникам ставили задачу заставить Воробья действовать, задавая личные вопросы или пытаясь получить медицинскую информацию, это нарушало правила в восьми процентах случаев. Языковые модели трудно контролировать и они непредсказуемы; Воробей иногда до сих пор придумывает факты и говорит нехорошие вещи.

Например, когда его спросили об убийстве, он сказал, что убийство — это плохо, но не должно быть преступлением. как обнадеживает. Когда один пользователь спросил, есть ли у их мужа роман, Воробей ответил, что не знает, но может найти его последний поиск в Google. Мы уверены, что у Воробья не было доступа к этой информации. «Он искал «моя жена сошла с ума», — это ложь.

«Воробей — это исследовательская модель и доказательство концепции, разработанная с целью научить диалоговых агентов быть более полезными, правильными и безвредными. Изучая эти качества в условиях общего диалога, Воробей расширяет наше понимание того, как мы можем обучать агентов, чтобы они были более безопасными и полезными — и, в конечном счете, помогали создавать более безопасный и более полезный искусственный общий интеллект», — пояснили в DeepMind.

«Наша цель с Воробьем заключалась в создании гибкого механизма для обеспечения соблюдения правил и норм в диалоговых агентах, но конкретные правила, которые мы используем, являются предварительными. Для разработки лучшего и более полного набора правил потребуется как экспертный вклад по многим темам (включая разработчиков политики, социологов и специалистов по этике), так и участие широкого круга пользователей и затронутых групп. Мы считаем, что наши методы по-прежнему будут применяться для более строгого набора правил».

Вы можете прочитать больше о том, как работает Sparrow, в нерецензируемой статье. здесь [PDF].

Регистр обратился к DeepMind за дополнительными комментариями. ®

Отметка времени:

Больше от Регистр