Лучший способ оценить LLM - KDnuggets

Переиздано Платоном

Читают: 0

Недавние достижения в разработке LLM популяризировали их использование для различных задач НЛП, которые ранее решались с использованием старых методов машинного обучения. Большие языковые модели способны решать различные языковые задачи, такие как классификация, обобщение, поиск информации, создание контента, ответы на вопросы и поддержание разговора — и все это с использованием одной единственной модели. Но как мы узнаем, что они хорошо справляются со всеми этими различными задачами?

Рост числа LLM выявил нерешенную проблему: у нас нет надежного стандарта для их оценки. Что усложняет оценку, так это то, что они используются для самых разнообразных задач, и у нас нет четкого определения того, что является хорошим ответом для каждого варианта использования.

В этой статье обсуждаются текущие подходы к оценке LLM и представлена новая таблица лидеров LLM, использующая человеческую оценку, которая улучшает существующие методы оценки.

Первая и обычная первоначальная форма оценки — запустить модель на нескольких тщательно подобранных наборах данных и проверить ее эффективность. HuggingFace создал Открыть таблицу лидеров LLM где большие модели открытого доступа оцениваются с использованием четырех известных наборов данных (Задача рассуждения AI2 , ХеллаСваг , ММЛУ , Правдивый контроль качества). Это соответствует автоматической оценке и проверяет способность модели получать факты для некоторых конкретных вопросов.

Это пример вопроса из ММЛУ набор данных.

Тема: колледж_медицина

Вопрос: Ожидаемый побочный эффект от приема креатина.

А) мышечная слабость
Б) прибавка в массе тела
В) мышечные судороги
Д) потеря электролитов

Ответ: (Б)

Оценка модели при ответе на вопросы такого типа является важным показателем и хорошо служит для проверки фактов, но не проверяет генеративную способность модели. Вероятно, это самый большой недостаток этого метода оценки, поскольку создание свободного текста является одной из наиболее важных особенностей LLM.

Кажется, в сообществе существует консенсус, что для правильной оценки модели нам нужна человеческая оценка. Обычно это делается путем сравнения ответов разных моделей.

Лучший способ оценить LLM
Сравнение двух быстрых завершений в проекте LMSYS – скриншот автора

Аннотаторы решают, какой ответ лучше, как показано в примере выше, и иногда количественно оценивают разницу в качестве подсказок. Организация LMSYS создала лидеров который использует этот тип человеческой оценки и сравнивает 17 различных моделей, сообщая о Эло рейтинг для каждой модели.

Поскольку человеческую оценку трудно масштабировать, были предприняты усилия по масштабированию и ускорению процесса оценки, в результате чего появился интересный проект под названием АльпакаЭвал. Здесь каждая модель сравнивается с базовым уровнем (text-davinci-003, предоставленным GPT-4), а человеческая оценка заменяется оценкой GPT-4. Это действительно быстро и масштабируемо, но можем ли мы доверять приведенной здесь модели для выполнения оценки? Нам необходимо осознавать предвзятость модели. Проект фактически показал, что GPT-4 может предпочитать более длинные ответы.

Методы оценки LLM продолжают развиваться, поскольку сообщество ИИ ищет простые, справедливые и масштабируемые подходы. Последняя разработка принадлежит команде Толока с новым лидеров для дальнейшего совершенствования существующих стандартов оценки.

Новый лидеров сравнивает ответы модели с реальными пользовательскими подсказками, которые классифицируются по полезным задачам НЛП, как описано в этот документ InstructGPT. Он также показывает общий процент побед каждой модели во всех категориях.

Лучший способ оценить LLM
Таблица лидеров Толоки – скриншот Автора

Оценка, использованная в этом проекте, аналогична той, которая выполняется в AlpacaEval. Очки в таблице лидеров представляют процент побед соответствующей модели по сравнению с Гуанако 13Б модель, которая служит здесь базовым сравнением. Выбор Guanaco 13B является усовершенствованием метода AlpacaEval, который использует в качестве базовой модели скоро устаревшую модель text-davinci-003.

Фактическая оценка выполняется экспертами-аннотаторами на основе набора реальных подсказок. Для каждой подсказки аннотаторам даются два варианта завершения и их спрашивают, какой из них они предпочитают. Подробности о методике вы можете узнать здесь.

Этот тип человеческой оценки более полезен, чем любой другой автоматический метод оценки, и должен улучшить человеческую оценку, используемую для Таблица лидеров LMSYS. Недостатком метода LMSYS является то, что любой, у кого есть ссылке могут принять участие в оценке, что вызывает серьезные вопросы о качестве данных, собранных таким образом. Закрытая группа экспертов-аннотаторов имеет больший потенциал для получения надежных результатов, и Толока применяет дополнительные методы контроля качества для обеспечения качества данных.

В этой статье мы представили новое многообещающее решение для оценки LLM — таблицу лидеров Толоки. Этот подход является инновационным, сочетает в себе сильные стороны существующих методов, добавляет детализацию для конкретных задач и использует надежные методы человеческого аннотирования для сравнения моделей.

Изучите доску и поделитесь с нами своим мнением и предложениями по улучшению.

Магдалена Конкевич — евангелист данных в Toloka, глобальной компании, поддерживающей быструю и масштабируемую разработку искусственного интеллекта. Она получила степень магистра в области искусственного интеллекта в Эдинбургском университете и работала инженером НЛП, разработчиком и специалистом по обработке данных в компаниях в Европе и Америке. Она также участвовала в обучении и наставничестве ученых, работающих с данными, и регулярно участвует в публикациях по науке о данных и машинному обучению.