Модели больших языков (LLM) представляют собой уникальную проблему, когда дело доходит до оценки производительности. В отличие от традиционного машинного обучения, где результаты часто являются двоичными, результаты LLM находятся в диапазоне правильности. Кроме того, хотя ваша базовая модель может превосходить других по широким показателям, общая производительность не гарантирует оптимальную производительность для ваших конкретных случаев использования.
Таким образом, целостный подход к оценке LLM должен использовать различные подходы, такие как использование LLM для оценки LLM (т. е. автоматическая оценка) и использование гибридных подходов человека и LLM. В этой статье рассматриваются конкретные шаги различных методов, описывающие, как создавать собственные наборы оценок, адаптированные к вашему приложению, определять соответствующие метрики и внедрять строгие методы оценки — как для выбора моделей, так и для мониторинга текущей производительности в производстве.
Создавайте целевые оценочные наборы для ваших сценариев использования
Чтобы оценить эффективность LLM для конкретного варианта использования, вам необходимо протестировать модель на наборе примеров, которые репрезентативны для ваших целевых вариантов использования. Для этого необходимо создать собственный набор оценок.
- Начните с малого. Для тестирования производительности LLM в вашем сценарии использования вы можете начать всего с 10 примеров. Каждый из этих примеров можно запустить несколько раз, чтобы оценить согласованность и надежность модели.
- Подберите сложные примеры. Выбранные вами примеры не должны быть простыми. Они должны быть сложными и призваны максимально проверить возможности модели. Это могут быть подсказки с неожиданными входными данными, вопросы, которые могут вызвать предвзятость, или вопросы, требующие глубокого понимания предмета. Речь идет не о том, чтобы обмануть модель, а скорее о том, чтобы подготовить ее к непредсказуемому характеру реальных приложений.
- Рассмотрите возможность использования LLM для создания набора оценок.. Интересно, что использование языковых моделей для построения оценочных наборов для оценки себя или других языковых моделей является обычной практикой. Например, LLM может генерировать набор пар вопросов и ответов на основе входного текста, который вы можете использовать в качестве первой партии образцов для своего приложения для ответов на вопросы.
- Учитывайте отзывы пользователей. Отзывы пользователей, будь то внутреннее командное тестирование или более широкое развертывание, часто выявляют непредвиденные проблемы и реальные сценарии. Такая обратная связь может быть включена в ваши наборы оценок в качестве новых интересных примеров.
По сути, создание специального набора оценок — это динамический процесс, адаптирующийся и развивающийся параллельно с жизненным циклом вашего проекта LLM. Эта итеративная методология гарантирует, что ваша модель будет соответствовать текущим актуальным задачам.
Объедините показатели, сравнения и оценку на основе критериев
Одних показателей обычно недостаточно для оценки LLM. LLM работают в сфере, где не всегда есть единственный «правильный» ответ. Более того, использование совокупных показателей может ввести в заблуждение. Модель может преуспеть в одной области и дать сбои в другой, но при этом получить впечатляющий средний балл.
Ваши критерии оценки будут зависеть от различных атрибутов конкретной системы LLM. Хотя точность и беспристрастность являются общими целями, другие критерии могут иметь первостепенное значение в конкретных сценариях. Например, медицинский чат-бот может отдавать приоритет безобидности ответов, бот службы поддержки клиентов может подчеркивать поддержание последовательного дружелюбного тона, а веб-приложение для разработки может требовать выходные данные в определенном формате.
Чтобы упростить процесс, несколько критериев оценки могут быть объединены в один. функция обратной связи. В качестве входных данных он будет принимать текст, сгенерированный LLM, и некоторые метаданные, а затем выводить оценку, указывающую качество текста.
Таким образом, целостная оценка эффективности LLM обычно включает как минимум 3 различных подхода:
- Количественным показателям: когда существуют окончательные правильные ответы, вы можете по умолчанию использовать традиционные методы оценки ML, используя количественные подходы.
- Эталонные сравнения: В случаях, когда нет четкого единственного ответа, но имеется доступная ссылка на приемлемые ответы, ответ модели можно сравнить и сопоставить с ранее существовавшими примерами.
- Критериальная оценка: при отсутствии ссылки фокус смещается на оценку результатов модели по заранее определенным критериям.
Как эталонные сравнения, так и оценки на основе критериев могут выполняться либо оценщиками-людьми, либо с помощью автоматизированных процессов. Далее мы углубимся в преимущества и недостатки этих различных подходов к оценке.
Человеческий, автоматический и гибридный подходы
Человеческая оценка часто рассматривается как золотой стандарт для оценки приложений машинного обучения, включая системы на основе LLM, но это не всегда осуществимо из-за временных или технических ограничений. Автоматическая оценка и гибридные подходы часто используются на предприятиях для масштабирования оценки эффективности LLM.
Человеческая оценка
Наличие человеческого контроля за результатами работы приложений на основе LLM имеет важное значение для обеспечения точности и надежности этих систем. Однако полагаться исключительно на этот подход для оценки LLM может быть не идеальным из-за следующих ключевых ограничений:
- Проблемы качества: Удивительно, но продвинутые модели, такие как GPT-4, часто дают оценки более высокого качества по сравнению со средними результатами работников, нанятых через Mechanical Turk. Люди-оценщики, если они не руководствуются тщательным экспериментальным планом, могут не сосредоточиться на ключевых качествах, которые имеют наибольшее значение. Есть склонность зацикливаться на поверхностных элементах; например, они могут предпочесть правильно оформленный, но ошибочный ответ точному, но ясно представленному.
- Затраты: Получение оценок от людей высшего уровня обходится дорого. Чем выше качество оценки вы стремитесь, тем выше соответствующие затраты.
- Временные ограничения: Сбор оценок людей требует много времени. В быстро меняющемся мире разработки систем на основе LLM, где развертывание может произойти в течение нескольких дней или недель, разработчики не всегда могут позволить себе делать паузу и ждать обратной связи.
Эти ограничения подчеркивают важность дополнения человеческих оценок более эффективными методами оценки.
Автоматическая оценка
Большие языковые модели доказали свою способность оценивать производительность своих аналогов. Примечательно, что более продвинутый или более крупный LLM можно использовать для оценки производительности меньших моделей. LLM также часто используют для оценки собственной производительности. Учитывая механику LLM, модель изначально может дать неверный ответ. Тем не менее, снабжая ту же модель стратегически продуманной подсказкой, требующей оценки ее первоначальной реакции, модель фактически получает возможность «поразмыслить» или «переосмыслить». Эта процедура существенно повышает вероятность того, что модель выявит какие-либо ошибки.
Использование LLM для оценки других LLM предлагает быструю и экономически эффективную альтернативу использованию оценщиков-людей. Однако у этого метода есть серьезные недостатки, к устранению которых должны быть готовы лидеры бизнеса и технологий:
- Получив задание оценить ответ по шкале от 1 до 5, студенты LLM могут проявлять последовательную предвзятость к определенному рейтингу, независимо от фактического качества ответа.
- Сравнивая свою собственную продукцию с результатами других моделей, LLM обычно показывает предпочтение своему собственному ответу.
- Последовательность вариантов ответа иногда может влиять на оценку, например, демонстрируя предпочтение первому отображаемому варианту ответа.
- LLM, как правило, предпочитают более длинные ответы, даже если они содержат фактические ошибки или их труднее понять и использовать людям.
Учитывая несовершенства, присущие оценке LLM, стратегическое включение ручного надзора со стороны людей-оценщиков остается желательным шагом, и его нельзя исключать из процесса разработки вашего приложения LLM.
Гибридный подход
Преобладающий подход заключается в том, что разработчики в значительной степени полагаются на автоматические оценки, проводимые LLM. Это снабжает их механизмом немедленной обратной связи, позволяющим быстро выбирать модель, выполнять точную настройку и экспериментировать с различными системными подсказками. Цель состоит в том, чтобы получить оптимально работающую систему на основе этих автоматических оценок. После завершения этапа автоматической оценки следующим шагом обычно является более глубокое погружение с участием высококвалифицированных оценщиков для проверки достоверности автоматической оценки.
Обеспечение высококачественных человеческих оценок может оказаться дорогостоящим мероприятием. Хотя прибегать к такому уровню проверки после каждой незначительной доработки системы непрагматично, человеческая оценка является обязательным этапом перед переходом системы LLM в производственную среду. Как отмечалось ранее, оценки LLM могут проявлять предвзятость и быть ненадежными.
После развертывания крайне важно получить подлинные отзывы от конечных пользователей наших приложений на основе LLM. Обратная связь может быть простой: пользователи могут оценить ответ как полезный (палец вверх) или бесполезный (палец вниз), но в идеале он должен сопровождаться подробными комментариями, подчеркивающими сильные и слабые стороны ответов модели.
Обновления фундаментальных моделей или изменения в пользовательских запросах могут непреднамеренно снизить производительность вашего приложения или выявить скрытые недостатки. Постоянный мониторинг эффективности приложения LLM в соответствии с нашими определенными критериями остается критически важным на протяжении всего срока его эксплуатации, поэтому вы можете быстро выявлять и устранять возникающие недостатки. .
Основные выводы
Оценка производительности систем на основе LLM представляет собой уникальные проблемы, отличающие эту задачу от традиционных оценок машинного обучения. В процессе оценки системы LLM необходимо учитывать следующие важные соображения для обоснования вашей методологии:
- Индивидуальные наборы для оценки: Чтобы получить полезную информацию, необходимо создать надежные, ориентированные на приложения оценочные наборы. Эти наборы не обязательно должны быть большими, но они должны охватывать ряд сложных образцов.
- Динамическое расширение задач оценки: По мере получения отзывов от пользователей крайне важно итеративно расширять и уточнять набор оценок, чтобы учитывать возникающие проблемы и нюансы.
- Количественные показатели и качественные критерии: Сложная природа программ LLM часто ускользает от простых количественных показателей. Очень важно установить набор критериев, адаптированных к вашему конкретному случаю использования, что позволит более детально оценить производительность модели.
- Единая функция обратной связи: Чтобы упростить процесс оценки, рассмотрите возможность объединения нескольких критериев в единую, последовательную функцию обратной связи.
- Гибридный подход к оценке: Использование как LLM, так и высококачественных оценщиков в вашем процессе оценки предлагает более комплексную перспективу и дает наиболее надежные и экономически эффективные результаты.
- Непрерывный мониторинг реального мира: Объединив отзывы пользователей с функцией унифицированной обратной связи, вы можете постоянно отслеживать и точно настраивать производительность LLM, обеспечивая согласованное соответствие реальным требованиям.
Наслаждайтесь этой статьей? Подпишитесь на дополнительные исследования ИИ исследований.
Мы сообщим вам, когда мы выпустим больше кратких статей, подобных этой.
Похожие страницы:
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Автомобили / электромобили, Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- ЧартПрайм. Улучшите свою торговую игру с ChartPrime. Доступ здесь.
- Смещения блоков. Модернизация права собственности на экологические компенсации. Доступ здесь.
- Источник: https://www.topbots.com/llm-performance-evaluation/
- :имеет
- :является
- :нет
- :куда
- $UP
- 1
- 10
- a
- О нас
- приемлемый
- в сопровождении
- Учетная запись
- точность
- точный
- Достигать
- приобретение
- фактического соединения
- адрес
- продвинутый
- Преимущества
- После
- против
- совокупный
- AI
- ай исследование
- Позволяющий
- в одиночестве
- причислены
- альтернатива
- всегда
- an
- и
- Другой
- ответ
- ответы
- любой
- кроме
- Применение
- Разработка приложения
- Приложения
- подхода
- подходы
- МЫ
- гайд
- статьи
- AS
- оценить
- оценки;
- связанный
- At
- Атрибуты
- Автоматизированный
- Автоматический
- доступен
- в среднем
- Ждите
- Использование темпера с изогнутым основанием
- основанный
- BE
- до
- Beyond
- предубеждения
- форсирует
- Бот
- изоферменты печени
- широкий
- Строительство
- бизнес
- но
- by
- CAN
- кандидат
- кандидатов
- Пропускная способность
- захватить
- случаев
- случаев
- пойманный
- вызов
- проблемы
- сложные
- Chatbot
- Выберите
- ПОСЛЕДОВАТЕЛЬНЫЙ
- Сбор
- комбинируя
- выходит
- Комментарии
- Общий
- сравненный
- сравнив
- Заполненная
- комплексный
- Рассматривать
- соображения
- последовательный
- ограничения
- строить
- непрерывно
- обычный
- Основные
- исправить
- рентабельным
- дорогостоящий
- Расходы
- может
- покрытие
- Создайте
- Критерии
- критической
- решающее значение
- Текущий
- изготовленный на заказ
- клиент
- служба поддержки
- Дней
- глубоко
- более глубокий
- По умолчанию
- определенный
- окончательный
- демонстрирующий
- развертывание
- развертывания
- предназначенный
- конструкций
- подробный
- застройщиков
- Развитие
- различный
- отображается
- отчетливый
- не
- домен
- Dont
- вниз
- недостатки
- два
- динамический
- e
- каждый
- Ранее
- фактически
- эффективный
- или
- элементы
- появление
- подчеркивать
- позволяет
- охватывала
- прилагать усилия
- обеспечивает
- обеспечение
- Предприятие
- Окружающая среда
- ошибки
- сущность
- существенный
- установить
- Эфир (ETH)
- оценивать
- оценки
- оценка
- оценки
- Даже
- Каждая
- развивается
- пример
- Примеры
- Excel
- выполненный
- существовать
- Расширьте
- расширение
- дорогим
- экспериментальный
- облегчается
- Фактический
- спотыкаться
- быстрый темп
- в пользу
- выполнимый
- Обратная связь
- несколько
- Во-первых,
- Фокус
- после
- Что касается
- формат
- часто
- дружественный
- от
- функция
- Более того
- собирать
- Общие
- в общем
- порождать
- генерируется
- подлинный
- получить
- данный
- цель
- Золото
- Золотой стандарт
- Рост
- гарантия
- происходить
- Сильнее
- Освоение
- Есть
- имеющий
- сильно
- высококачественный
- высший
- выделив
- целостный
- Как
- How To
- Однако
- HTTPS
- человек
- Гибридный
- i
- идеальный
- Идеально
- определения
- идентифицирующий
- if
- немедленная
- императив
- осуществлять
- значение
- впечатляющий
- in
- включают
- включены
- указывает
- наделяют информацией
- свойственный
- начальный
- первоначально
- вход
- затраты
- размышления
- пример
- интегрированный
- в нашей внутренней среде,
- в
- IT
- ЕГО
- саму трезвость
- JPG
- Основные
- Знать
- язык
- большой
- больше
- Лидеры
- изучение
- наименее
- уровень
- Кредитное плечо
- Используя
- ЖИЗНЬЮ
- Жизненный цикл
- такое как
- вероятность
- недостатки
- ТОО
- дольше
- машина
- обучение с помощью машины
- сохранение
- руководство
- Вопрос
- макс-ширина
- Май..
- механический
- механика
- механизм
- основным медицинским
- меров
- объединение
- Метаданные
- метод
- Методология
- методы
- дотошный
- Метрика
- может быть
- небольшая
- дезориентировать
- ML
- модель
- Модели
- монитор
- Мониторинг
- БОЛЕЕ
- более эффективным
- самых
- с разными
- должен
- природа
- обязательно
- Необходимость
- Новые
- следующий
- особенно
- отметил,
- целей
- of
- Предложения
- .
- on
- консолидировать
- ONE
- постоянный
- работать
- оперативный
- Возможность
- оптимальный
- or
- Другое
- наши
- Результаты
- выходной
- за
- надзор
- собственный
- пар
- Первостепенный
- особый
- Пауза
- производительность
- выполнения
- перспектива
- фаза
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- практика
- прагматический
- подготовленный
- представить
- представлены
- разрабатывает
- Расставляйте приоритеты
- процедуры
- процесс
- Процессы
- производит
- Производство
- проектов
- доказанный
- обеспечивать
- Вопросы и ответы
- качественный
- качества
- количественный
- Запросы
- Вопросы
- быстро
- ассортимент
- Обменный курс
- скорее
- рейтинг
- реальный мир
- область
- Получать
- совершенствовать
- Несмотря на
- зарегистрироваться
- освободить
- соответствующие
- надежность
- складская
- опираясь
- остатки
- представитель
- Запросы
- требовать
- Требования
- требуется
- исследованиям
- курорт
- ответ
- ответы
- Итоги
- Показывает
- тщательный
- надежный
- Run
- то же
- Шкала
- Сценарии
- Гол
- рассмотрение
- Искать
- выбор
- выбор
- последовательность действий
- набор
- Наборы
- установка
- настройки
- Смены
- недостатки
- должен
- подпись
- просто
- упростить
- единственное число
- меньше
- So
- только
- некоторые
- конкретный
- Спектр
- стандарт
- Начало
- Шаг
- Шаги
- По-прежнему
- простой
- Стратегический
- Стратегически
- упорядочить
- сильные
- предмет
- по существу
- такие
- РЕЗЮМЕ
- топ
- поддержка
- SWIFT
- система
- системы
- с учетом
- взять
- приняты
- Тандем
- цель
- целевое
- Сложность задачи
- команда
- Технический
- снижения вреда
- Технологии
- тестXNUMX
- Тестирование
- который
- Ассоциация
- их
- Их
- тогда
- Там.
- Эти
- они
- этой
- Через
- по всему
- кропотливый
- раз
- в
- TONE
- ТОП-БОТЫ
- к
- традиционный
- Переход
- типично
- понимать
- понимание
- Неожиданный
- непредвиденный
- унифицированный
- созданного
- В отличие от
- непредсказуемый
- Updates
- использование
- прецедент
- используемый
- Информация о пользователе
- пользователей
- через
- обычно
- использовать
- использовать
- VALIDATE
- разнообразие
- с помощью
- просматриваемые
- we
- Web
- Веб-разработка
- Недели
- когда
- будь то
- который
- в то время как
- Шире
- будете
- в
- без
- рабочие
- Мир
- еще
- доходность
- являетесь
- ВАШЕ
- зефирнет