За пределами показателей: гибридный подход к оценке эффективности LLM

Переиздано Платоном

Читают: 0

гибридный подход к оценке деятельности ТОО

Модели больших языков (LLM) представляют собой уникальную проблему, когда дело доходит до оценки производительности. В отличие от традиционного машинного обучения, где результаты часто являются двоичными, результаты LLM находятся в диапазоне правильности. Кроме того, хотя ваша базовая модель может превосходить других по широким показателям, общая производительность не гарантирует оптимальную производительность для ваших конкретных случаев использования.

Таким образом, целостный подход к оценке LLM должен использовать различные подходы, такие как использование LLM для оценки LLM (т. е. автоматическая оценка) и использование гибридных подходов человека и LLM. В этой статье рассматриваются конкретные шаги различных методов, описывающие, как создавать собственные наборы оценок, адаптированные к вашему приложению, определять соответствующие метрики и внедрять строгие методы оценки — как для выбора моделей, так и для мониторинга текущей производительности в производстве.

Создавайте целевые оценочные наборы для ваших сценариев использования

Чтобы оценить эффективность LLM для конкретного варианта использования, вам необходимо протестировать модель на наборе примеров, которые репрезентативны для ваших целевых вариантов использования. Для этого необходимо создать собственный набор оценок.

Начните с малого. Для тестирования производительности LLM в вашем сценарии использования вы можете начать всего с 10 примеров. Каждый из этих примеров можно запустить несколько раз, чтобы оценить согласованность и надежность модели.
Подберите сложные примеры. Выбранные вами примеры не должны быть простыми. Они должны быть сложными и призваны максимально проверить возможности модели. Это могут быть подсказки с неожиданными входными данными, вопросы, которые могут вызвать предвзятость, или вопросы, требующие глубокого понимания предмета. Речь идет не о том, чтобы обмануть модель, а скорее о том, чтобы подготовить ее к непредсказуемому характеру реальных приложений.
Рассмотрите возможность использования LLM для создания набора оценок.. Интересно, что использование языковых моделей для построения оценочных наборов для оценки себя или других языковых моделей является обычной практикой. Например, LLM может генерировать набор пар вопросов и ответов на основе входного текста, который вы можете использовать в качестве первой партии образцов для своего приложения для ответов на вопросы.
Учитывайте отзывы пользователей. Отзывы пользователей, будь то внутреннее командное тестирование или более широкое развертывание, часто выявляют непредвиденные проблемы и реальные сценарии. Такая обратная связь может быть включена в ваши наборы оценок в качестве новых интересных примеров.

По сути, создание специального набора оценок — это динамический процесс, адаптирующийся и развивающийся параллельно с жизненным циклом вашего проекта LLM. Эта итеративная методология гарантирует, что ваша модель будет соответствовать текущим актуальным задачам.

Объедините показатели, сравнения и оценку на основе критериев

Одних показателей обычно недостаточно для оценки LLM. LLM работают в сфере, где не всегда есть единственный «правильный» ответ. Более того, использование совокупных показателей может ввести в заблуждение. Модель может преуспеть в одной области и дать сбои в другой, но при этом получить впечатляющий средний балл.

Ваши критерии оценки будут зависеть от различных атрибутов конкретной системы LLM. Хотя точность и беспристрастность являются общими целями, другие критерии могут иметь первостепенное значение в конкретных сценариях. Например, медицинский чат-бот может отдавать приоритет безобидности ответов, бот службы поддержки клиентов может подчеркивать поддержание последовательного дружелюбного тона, а веб-приложение для разработки может требовать выходные данные в определенном формате.

Чтобы упростить процесс, несколько критериев оценки могут быть объединены в один. функция обратной связи. В качестве входных данных он будет принимать текст, сгенерированный LLM, и некоторые метаданные, а затем выводить оценку, указывающую качество текста.

Таким образом, целостная оценка эффективности LLM обычно включает как минимум 3 различных подхода:

Количественным показателям: когда существуют окончательные правильные ответы, вы можете по умолчанию использовать традиционные методы оценки ML, используя количественные подходы.
Эталонные сравнения: В случаях, когда нет четкого единственного ответа, но имеется доступная ссылка на приемлемые ответы, ответ модели можно сравнить и сопоставить с ранее существовавшими примерами.
Критериальная оценка: при отсутствии ссылки фокус смещается на оценку результатов модели по заранее определенным критериям.

Как эталонные сравнения, так и оценки на основе критериев могут выполняться либо оценщиками-людьми, либо с помощью автоматизированных процессов. Далее мы углубимся в преимущества и недостатки этих различных подходов к оценке.

Человеческий, автоматический и гибридный подходы

Человеческая оценка часто рассматривается как золотой стандарт для оценки приложений машинного обучения, включая системы на основе LLM, но это не всегда осуществимо из-за временных или технических ограничений. Автоматическая оценка и гибридные подходы часто используются на предприятиях для масштабирования оценки эффективности LLM.

Человеческая оценка

Наличие человеческого контроля за результатами работы приложений на основе LLM имеет важное значение для обеспечения точности и надежности этих систем. Однако полагаться исключительно на этот подход для оценки LLM может быть не идеальным из-за следующих ключевых ограничений:

Проблемы качества: Удивительно, но продвинутые модели, такие как GPT-4, часто дают оценки более высокого качества по сравнению со средними результатами работников, нанятых через Mechanical Turk. Люди-оценщики, если они не руководствуются тщательным экспериментальным планом, могут не сосредоточиться на ключевых качествах, которые имеют наибольшее значение. Есть склонность зацикливаться на поверхностных элементах; например, они могут предпочесть правильно оформленный, но ошибочный ответ точному, но ясно представленному.
Затраты: Получение оценок от людей высшего уровня обходится дорого. Чем выше качество оценки вы стремитесь, тем выше соответствующие затраты.
Временные ограничения: Сбор оценок людей требует много времени. В быстро меняющемся мире разработки систем на основе LLM, где развертывание может произойти в течение нескольких дней или недель, разработчики не всегда могут позволить себе делать паузу и ждать обратной связи.

Эти ограничения подчеркивают важность дополнения человеческих оценок более эффективными методами оценки.

Автоматическая оценка

Большие языковые модели доказали свою способность оценивать производительность своих аналогов. Примечательно, что более продвинутый или более крупный LLM можно использовать для оценки производительности меньших моделей. LLM также часто используют для оценки собственной производительности. Учитывая механику LLM, модель изначально может дать неверный ответ. Тем не менее, снабжая ту же модель стратегически продуманной подсказкой, требующей оценки ее первоначальной реакции, модель фактически получает возможность «поразмыслить» или «переосмыслить». Эта процедура существенно повышает вероятность того, что модель выявит какие-либо ошибки.

Использование LLM для оценки других LLM предлагает быструю и экономически эффективную альтернативу использованию оценщиков-людей. Однако у этого метода есть серьезные недостатки, к устранению которых должны быть готовы лидеры бизнеса и технологий:

Получив задание оценить ответ по шкале от 1 до 5, студенты LLM могут проявлять последовательную предвзятость к определенному рейтингу, независимо от фактического качества ответа.
Сравнивая свою собственную продукцию с результатами других моделей, LLM обычно показывает предпочтение своему собственному ответу.
Последовательность вариантов ответа иногда может влиять на оценку, например, демонстрируя предпочтение первому отображаемому варианту ответа.
LLM, как правило, предпочитают более длинные ответы, даже если они содержат фактические ошибки или их труднее понять и использовать людям.

Учитывая несовершенства, присущие оценке LLM, стратегическое включение ручного надзора со стороны людей-оценщиков остается желательным шагом, и его нельзя исключать из процесса разработки вашего приложения LLM.

Гибридный подход

Преобладающий подход заключается в том, что разработчики в значительной степени полагаются на автоматические оценки, проводимые LLM. Это снабжает их механизмом немедленной обратной связи, позволяющим быстро выбирать модель, выполнять точную настройку и экспериментировать с различными системными подсказками. Цель состоит в том, чтобы получить оптимально работающую систему на основе этих автоматических оценок. После завершения этапа автоматической оценки следующим шагом обычно является более глубокое погружение с участием высококвалифицированных оценщиков для проверки достоверности автоматической оценки.

Обеспечение высококачественных человеческих оценок может оказаться дорогостоящим мероприятием. Хотя прибегать к такому уровню проверки после каждой незначительной доработки системы непрагматично, человеческая оценка является обязательным этапом перед переходом системы LLM в производственную среду. Как отмечалось ранее, оценки LLM могут проявлять предвзятость и быть ненадежными.

После развертывания крайне важно получить подлинные отзывы от конечных пользователей наших приложений на основе LLM. Обратная связь может быть простой: пользователи могут оценить ответ как полезный (палец вверх) или бесполезный (палец вниз), но в идеале он должен сопровождаться подробными комментариями, подчеркивающими сильные и слабые стороны ответов модели.

Обновления фундаментальных моделей или изменения в пользовательских запросах могут непреднамеренно снизить производительность вашего приложения или выявить скрытые недостатки. Постоянный мониторинг эффективности приложения LLM в соответствии с нашими определенными критериями остается критически важным на протяжении всего срока его эксплуатации, поэтому вы можете быстро выявлять и устранять возникающие недостатки. .

Основные выводы

Оценка производительности систем на основе LLM представляет собой уникальные проблемы, отличающие эту задачу от традиционных оценок машинного обучения. В процессе оценки системы LLM необходимо учитывать следующие важные соображения для обоснования вашей методологии:

Индивидуальные наборы для оценки: Чтобы получить полезную информацию, необходимо создать надежные, ориентированные на приложения оценочные наборы. Эти наборы не обязательно должны быть большими, но они должны охватывать ряд сложных образцов.
Динамическое расширение задач оценки: По мере получения отзывов от пользователей крайне важно итеративно расширять и уточнять набор оценок, чтобы учитывать возникающие проблемы и нюансы.
Количественные показатели и качественные критерии: Сложная природа программ LLM часто ускользает от простых количественных показателей. Очень важно установить набор критериев, адаптированных к вашему конкретному случаю использования, что позволит более детально оценить производительность модели.
Единая функция обратной связи: Чтобы упростить процесс оценки, рассмотрите возможность объединения нескольких критериев в единую, последовательную функцию обратной связи.
Гибридный подход к оценке: Использование как LLM, так и высококачественных оценщиков в вашем процессе оценки предлагает более комплексную перспективу и дает наиболее надежные и экономически эффективные результаты.
Непрерывный мониторинг реального мира: Объединив отзывы пользователей с функцией унифицированной обратной связи, вы можете постоянно отслеживать и точно настраивать производительность LLM, обеспечивая согласованное соответствие реальным требованиям.