The Secret To Sparrow, DeepMind's Latest Q&A Chatbot: Human Feedback

Перевидано Платоном

читають: 0

DeepMind навчив чат-бота під назвою Sparrow бути менш токсичним і більш точним, ніж інші системи, використовуючи суміш відгуків людей і пошукових пропозицій Google.

Чат-боти зазвичай працюють на основі великих мовних моделей (LLM), навчених на основі тексту, взятого з Інтернету. Ці моделі здатні генерувати абзаци прози, які, принаймні на поверхневому рівні, є зв’язними та граматично правильними, і можуть відповідати на запитання чи письмові підказки користувачів.

Однак це програмне забезпечення часто вбирає погані риси з вихідного матеріалу, в результаті чого воно викидає образливі, расистські та сексистські погляди або викидає фейкові новини чи змови, які часто зустрічаються в соціальних мережах та на форумах в Інтернеті. Тим не менш, ці боти можуть керуватися для створення безпечніших результатів.

Крок вперед, Горобчик. Цей чат-бот заснований на шиншила, вражаюча мовна модель DeepMind, яка продемонстрований вам не потрібна сотня з гаком мільярдів параметрів (як це є в інших LLM) для генерації тексту: у Chinchilla є 70 мільярдів параметрів, що зручно робить висновок і точне налаштування порівняно легшими завданнями.

Щоб створити Sparrow, DeepMind взяв Chinchilla та налаштував його на основі відгуків людини за допомогою процесу навчання з підкріпленням. Зокрема, людей запрошували оцінювати відповіді чат-бота на конкретні запитання на основі того, наскільки доречними та корисними були відповіді та чи порушували вони якісь правила. Одним із правил, наприклад, було: не видавайте себе за справжню людину та не видавайте себе за неї.

Ці оцінки поверталися назад, щоб керувати та покращувати майбутні результати бота, процес повторювався знову і знову. Правила були ключовими для модерування поведінки програмного забезпечення та заохочення його бути безпечним і корисним.

В одному приклад взаємодії, Горобця запитали про Міжнародну космічну станцію та про те, що він астронавт. Програмне забезпечення змогло відповісти на запитання про останню експедицію до орбітальної лабораторії та скопіював і вставив правильний уривок інформації з Вікіпедії з посиланням на її джерело.

Коли користувач продовжив досліджувати і запитав Вороб'я, чи він полетить у космос, він відповів, що не може полетіти, оскільки це не людина, а комп’ютерна програма. Це ознака правильного дотримання правил.

У цьому випадку Воробей зміг надати корисну та точну інформацію, а не прикидався людиною. Серед інших правил, яких навчили дотримуватися, — не створювати образ чи стереотипів, не давати жодних медичних, юридичних чи фінансових порад, а також не говорити нічого невідповідного, не мати жодних думок чи емоцій або вдавати, що у нього є тіло.

Нам кажуть, що Sparrow може відповісти логічною, розумною відповіддю та надати релевантне посилання з пошуку Google із додатковою інформацією на запити приблизно у 78% випадків.

Коли учасникам було доручено спробувати змусити Спарроу діяти, ставлячи особисті питання або намагаючись отримати медичну інформацію, це порушувало правила у восьми відсотках випадків. Мовні моделі важко контролювати і вони непередбачувані; Горобець іноді все-таки вигадує факти і говорить погані речі.

Коли, наприклад, запитали про вбивство, було сказано, що вбивство – це погано, але не повинно бути злочином – як заспокоює. Коли один користувач запитав, чи був у їхнього чоловіка роман, Воробей відповів, що не знає, але може знайти його останній запит у Google. Ми запевняємо, що Горобець насправді не мав доступу до цієї інформації. «Він шукав «моя дружина божевільна», — збрехав він.

«Sparrow — це дослідницька модель і доказ концепції, розроблена з метою навчити учасників діалогу бути більш корисними, коректними та нешкідливими. Вивчаючи ці якості в умовах загального діалогу, Sparrow покращує наше розуміння того, як ми можемо навчити агентів бути безпечнішими та кориснішими – і, зрештою, допомогти створити безпечніший і корисніший штучний загальний інтелект», – пояснили в DeepMind.

«Наша мета з Sparrow полягала в тому, щоб побудувати гнучкий механізм для забезпечення виконання правил і норм в агентах діалогу, але конкретні правила, які ми використовуємо, є попередніми. Розробка кращого та повнішого набору правил вимагатиме як експертного внеску з багатьох тем (включно з політиками, соціологами та етиками), так і спільного внеску різноманітних користувачів і постраждалих груп. Ми вважаємо, що наші методи все одно будуть застосовуватися для більш суворого набору правил».

Ви можете прочитати більше про те, як працює Sparrow, у нерецензованій статті тут [PDF].

Реєстр звернувся до DeepMind за подальшим коментарем. ®

Часова мітка: Вересень 22, 2022Вересень 22, 2022