Кращий спосіб оцінити LLM - KDnuggets

Перевидано Платоном

читають: 0

Останні досягнення в розробці LLM популяризували їх використання для різноманітних завдань НЛП, які раніше вирішувалися за допомогою старих методів машинного навчання. Великі мовні моделі здатні вирішувати різноманітні мовні проблеми, такі як класифікація, узагальнення, пошук інформації, створення вмісту, відповіді на запитання та підтримка розмови — і все це використовуючи лише одну модель. Але як ми знаємо, що вони добре справляються з усіма цими різними завданнями?

Зростання LLM виявило невирішену проблему: у нас немає надійного стандарту для їх оцінки. Оцінку ускладнює те, що вони використовуються для дуже різноманітних завдань, і нам бракує чіткого визначення того, що є гарною відповіддю для кожного випадку використання.

У цій статті обговорюються сучасні підходи до оцінювання LLM і представлено нову таблицю лідерів LLM, що використовує людське оцінювання, яке вдосконалює існуючі методи оцінювання.

Перша і звичайна початкова форма оцінки полягає в тому, щоб запустити модель на кількох підібраних наборах даних і перевірити її продуктивність. HuggingFace створив Відкрийте таблицю лідерів LLM де великі моделі відкритого доступу оцінюються за допомогою чотирьох добре відомих наборів даних (AI2 Reasoning Challenge , HellaSwag , MMLU , TruthfulQA). Це відповідає автоматичному оцінюванню та перевіряє здатність моделі отримати факти для деяких конкретних питань.

Це приклад питання з MMLU набір даних.

Тема: коледж_медицина

Питання: Очікуваним побічним ефектом добавок креатину є.

А) м'язова слабкість
Б) збільшення маси тіла
В) м'язові судоми
Г) втрата електролітів

Відповідь: (Б)

Оцінка моделі за відповіді на запитання такого типу є важливою метрикою та добре служить для перевірки фактів, але вона не перевіряє генеративну здатність моделі. Це, мабуть, найбільший недолік цього методу оцінювання, оскільки генерування вільного тексту є однією з найважливіших функцій LLM.

Здається, у спільноті існує консенсус щодо того, що для належної оцінки моделі нам потрібна людська оцінка. Зазвичай це робиться шляхом порівняння відповідей різних моделей.

Кращий спосіб оцінити LLM
Порівняння двох швидких завершень у проекті LMSYS – скріншот автора

Анотатори вирішують, яка відповідь краща, як показано в прикладі вище, і іноді кількісно оцінюють різницю в якості швидких завершень. LMSYS Org створила a лідерів який використовує цей тип людської оцінки та порівнює 17 різних моделей, повідомляючи про Рейтинг Ело для кожної моделі.

Оскільки людське оцінювання важко масштабувати, було докладено зусиль, щоб масштабувати та прискорити процес оцінювання, і це призвело до цікавого проекту під назвою АльпакаЕваль. Тут кожна модель порівнюється з базовою лінією (text-davinci-003, наданий GPT-4), а людська оцінка замінюється судженням GPT-4. Це справді швидко та з можливістю масштабування, але чи можемо ми довіряти моделі, яка виконає оцінку? Ми повинні знати про упередженості моделі. Проект фактично показав, що GPT-4 може сприяти більшим відповідям.

Методи оцінювання LLM продовжують розвиватися, оскільки спільнота штучного інтелекту шукає прості, справедливі та масштабовані підходи. Остання розробка походить від команди Toloka з новим лідерів для подальшого вдосконалення поточних стандартів оцінювання.

Новий лідерів порівнює відповіді моделі з підказками користувачів у реальному світі, які класифікуються за корисними завданнями НЛП, як описано в цей документ InstructGPT. Він також показує загальний рейтинг перемог кожної моделі в усіх категоріях.

Кращий спосіб оцінити LLM
Таблиця лідерів Toloka – скріншот автора

Оцінка, яка використовується для цього проекту, подібна до тієї, що виконується в AlpacaEval. Оцінки в таблиці лідерів представляють відсоток виграшів відповідної моделі порівняно з Гуанако 13B модель, яка тут служить базовим порівнянням. Вибір Guanaco 13B є вдосконаленням методу AlpacaEval, який використовує як базову модель text-davinci-003, яка незабаром застаріла.

Фактична оцінка виконується людьми-експертами-анотаторами за набором підказок реального світу. Для кожної підказки анотаторам дають два завершення та запитують, якому з них вони віддають перевагу. Ви можете знайти детальну інформацію про методологію тут.

Цей тип людського оцінювання є більш корисним, ніж будь-який інший автоматичний метод оцінювання, і має покращити оцінювання людиною, що використовується для Таблиця лідерів LMSYS. Недоліком методу LMSYS є те, що будь-хто з link можуть брати участь в оцінюванні, викликаючи серйозні сумніви щодо якості даних, зібраних таким чином. Замкнена група експертів-анотаторів має кращий потенціал для отримання надійних результатів, і Toloka застосовує додаткові методи контролю якості, щоб забезпечити якість даних.

У цій статті ми представили багатообіцяюче нове рішення для оцінювання LLM — Toloka Leaderboard. Цей підхід є інноваційним, поєднує в собі сильні сторони існуючих методів, додає деталізацію для конкретного завдання та використовує надійні методи людського анотування для порівняння моделей.

Ознайомтеся з дошкою та поділіться з нами своїми думками та пропозиціями щодо покращень.

Магдалена Конкевич є проповідником даних у Toloka, глобальній компанії, яка підтримує швидку та масштабовану розробку ШІ. Вона має ступінь магістра зі штучного інтелекту в Единбурзькому університеті та працювала інженером з НЛП, розробником і спеціалістом з обробки даних для компаній Європи та Америки. Вона також брала участь у навчанні та наставництві Data Scientists і регулярно бере участь у публікаціях Data Science та Machine Learning.