Beyond Metrics: A Hybrid Approach To LLM Performance Evaluation

Republicado por Platão

seguidores: 0

abordagem híbrida para avaliação de desempenho LLP

Grandes Modelos de Linguagem (LLMs) apresentam um desafio único quando se trata de avaliação de desempenho. Ao contrário do aprendizado de máquina tradicional, onde os resultados são frequentemente binários, os resultados do LLM residem em um espectro de correção. Além disso, embora seu modelo básico possa se destacar em métricas amplas, o desempenho geral não garante o desempenho ideal para seus casos de uso específicos.

Portanto, uma abordagem holística para avaliar LLMs deve utilizar uma variedade de abordagens, como o uso de LLMs para avaliar LLMs (ou seja, autoavaliação) e o uso de abordagens híbridas humano-LLM. Este artigo se aprofunda nas etapas específicas de diferentes métodos, abordando como criar conjuntos de avaliação personalizados adaptados à sua aplicação, identificar métricas relevantes e implementar métodos de avaliação rigorosos – tanto para selecionar modelos quanto para monitorar o desempenho contínuo na produção.

Crie conjuntos de avaliação direcionados para seus casos de uso

Para avaliar o desempenho de um LLM em um caso de uso específico, você precisa testar o modelo em um conjunto de exemplos que sejam representativos de seus casos de uso alvo. Isso requer a construção de um conjunto de avaliação personalizado.

Comece pequeno. Para testar o desempenho do LLM em seu caso de uso, você pode começar com apenas 10 exemplos. Cada um desses exemplos pode ser executado diversas vezes para avaliar a consistência e a confiabilidade do modelo.
Escolha exemplos desafiadores. Os exemplos que você escolher não devem ser simples. Eles devem ser desafiadores, projetados para testar ao máximo a capacidade do modelo. Isso pode incluir solicitações com informações inesperadas, consultas que possam induzir preconceitos ou perguntas que exijam um conhecimento profundo do assunto. Não se trata de enganar o modelo, mas sim de garantir que ele esteja preparado para a natureza imprevisível das aplicações do mundo real.
Considere aproveitar LLMs para construir um conjunto de avaliação. Curiosamente, é uma prática comum aproveitar modelos de linguagem para construir conjuntos de avaliação para avaliar a si mesmo ou outros modelos de linguagem. Por exemplo, um LLM pode gerar um conjunto de pares de perguntas e respostas com base em um texto de entrada, que você pode usar como primeiro lote de amostras para seu aplicativo de resposta a perguntas.
Incorpore feedback do usuário. Seja a partir de testes internos da equipe ou de uma implantação mais ampla, o feedback dos usuários muitas vezes revela desafios imprevistos e cenários do mundo real. Esse feedback pode ser integrado como novos exemplos desafiadores nos seus conjuntos de avaliação.

Em essência, construir um conjunto de avaliação personalizado é um processo dinâmico, adaptando-se e crescendo em conjunto com o ciclo de vida do seu projeto LLM. Essa metodologia iterativa garante que seu modelo permaneça sintonizado com os desafios atuais e relevantes.

Combine métricas, comparações e avaliação baseada em critérios

As métricas por si só são geralmente insuficientes para avaliar os LLMs. Os LLMs operam em um domínio onde nem sempre há uma resposta “correta” singular. Além disso, o uso de métricas agregadas pode ser enganoso. Um modelo pode se destacar em um domínio e falhar em outro, mas ainda assim registrar uma pontuação média impressionante.

Seus critérios de avaliação dependerão dos atributos distintos do sistema LLM específico. Embora a precisão e a imparcialidade sejam objetivos comuns, outros critérios podem ser fundamentais em cenários específicos. Por exemplo, um chatbot médico pode priorizar a inocuidade da resposta, um bot de suporte ao cliente pode enfatizar a manutenção de um tom amigável consistente ou um aplicativo de desenvolvimento web pode exigir resultados em um formato específico.

Para agilizar o processo, múltiplos critérios de avaliação podem ser integrados em um único função de feedback. Terá como entrada o texto gerado por um LLM e alguns metadados, e então gerará uma pontuação que indica a qualidade do texto.

Assim, a avaliação holística do desempenho do LLM normalmente envolve pelo menos 3 abordagens diferentes:

Métricas quantitativas: quando existem respostas corretas definitivas, você pode usar como padrão os métodos tradicionais de avaliação de ML usando abordagens quantitativas.
Comparações de referência: Para casos sem uma resposta singular clara, mas com uma referência disponível de respostas aceitáveis, a resposta do modelo pode ser comparada e contrastada com exemplos pré-existentes.
Avaliação Baseada em Critérios: na ausência de uma referência, o foco muda para avaliar o resultado do modelo em relação aos critérios predefinidos.

Tanto as comparações de referência como as avaliações baseadas em critérios podem ser executadas por avaliadores humanos ou através de processos automatizados. A seguir, nos aprofundaremos nas vantagens e desvantagens dessas abordagens distintas de avaliação.

Abordagens humanas, de autoavaliação e híbridas

A avaliação humana é frequentemente vista como o padrão ouro para avaliar aplicações de aprendizado de máquina, incluindo sistemas baseados em LLM, mas nem sempre é viável devido a restrições temporais ou técnicas. As abordagens de autoavaliação e híbridas são frequentemente usadas em ambientes empresariais para dimensionar a avaliação de desempenho do LLM.

Avaliação Humana

Ter supervisão humana sobre o resultado de aplicações baseadas em LLM é essencial para garantir a precisão e a confiabilidade desses sistemas. No entanto, confiar apenas nesta abordagem para avaliar LLMs pode não ser ideal devido às seguintes limitações principais:

Preocupações com a qualidade: Surpreendentemente, modelos avançados como o GPT-4 produzem frequentemente avaliações de qualidade superior em comparação com os resultados médios dos trabalhadores contratados através do Mechanical Turk. Os avaliadores humanos, a menos que sejam guiados por projetos experimentais meticulosos, podem não se concentrar nas qualidades essenciais que mais importam. Há uma tendência a se deixar levar por elementos superficiais; por exemplo, eles podem preferir uma resposta bem formatada, mas errônea, em vez de uma resposta precisa, mas apresentada de forma clara.
Implicações de custo: Adquirir avaliações humanas de alto nível é caro. Quanto maior for a qualidade da avaliação que procura, maiores serão os custos associados.
Restrições de tempo: A coleta de avaliações humanas é demorada. No mundo acelerado do desenvolvimento de sistemas baseados em LLM, onde as implantações podem acontecer em poucos dias ou semanas, os desenvolvedores nem sempre podem se dar ao luxo de fazer uma pausa e aguardar feedback.

Estas restrições sublinham a importância de complementar as avaliações humanas com técnicas de avaliação mais eficientes.

Autoavaliação

Grandes modelos de linguagem provaram ser adeptos da avaliação do desempenho de suas contrapartes. Notavelmente, um LLM mais avançado ou maior pode ser utilizado para avaliar o desempenho de modelos menores. Também é comum usar um LLM para avaliar seus próprios resultados. Dada a mecânica dos LLMs, um modelo pode inicialmente fornecer uma resposta incorreta. No entanto, ao fornecer ao mesmo modelo uma solicitação estrategicamente elaborada que solicita uma avaliação da sua resposta inicial, o modelo obtém efetivamente uma oportunidade para “refletir” ou “repensar”. Este procedimento aumenta substancialmente a probabilidade de o modelo identificar quaisquer erros.

Usar LLMs para avaliar outros LLMs oferece uma alternativa rápida e econômica à contratação de avaliadores humanos. No entanto, este método tem armadilhas críticas que os líderes empresariais e tecnológicos devem estar preparados para enfrentar:

Quando encarregados de avaliar uma resposta em uma escala de 1 a 5, os LLMs podem exibir um viés consistente para uma classificação específica, independentemente da qualidade real da resposta.
Ao comparar o seu próprio resultado com o de outros modelos, um LLM geralmente mostra uma preferência por sua própria resposta.
A sequenciação dos candidatos a respostas pode ocasionalmente influenciar a avaliação, como, por exemplo, demonstrar preferência pela primeira resposta candidata exibida.
LLMs tendem a favorecer respostas mais longas, mesmo que contenham erros factuais ou sejam mais difíceis de serem compreendidos e usados por usuários humanos.

Dadas as imperfeições inerentes às avaliações LLM, a incorporação estratégica da supervisão manual por avaliadores humanos continua a ser uma etapa aconselhável e não deve ser omitida do seu processo de desenvolvimento de aplicações LLM.

Abordagem Híbrida

A abordagem predominante é que os desenvolvedores se apoiem fortemente em avaliações automáticas facilitadas pelos LLMs. Isso os equipa com um mecanismo de feedback imediato, permitindo seleção rápida de modelos, ajuste fino e experimentação com diversos prompts do sistema. O objetivo é alcançar um sistema com desempenho ideal baseado nessas avaliações automáticas. Depois que a fase de avaliação automatizada for concluída, a próxima etapa normalmente envolve um mergulho mais profundo com avaliadores humanos de alta qualidade para validar a confiabilidade da autoavaliação.

Garantir avaliações humanas de alta qualidade pode ser uma tarefa dispendiosa. Embora não seja pragmático recorrer a este nível de escrutínio após cada pequeno refinamento do sistema, a avaliação humana é uma fase indispensável antes da transição de um sistema LLM para um ambiente de produção. Conforme observado anteriormente, as avaliações dos LLMs podem manifestar preconceitos e não ser confiáveis.

Após a implantação, é crucial coletar feedback genuíno dos usuários finais de nossos aplicativos baseados em LLM. O feedback pode ser tão simples quanto fazer com que os usuários classifiquem uma resposta como útil (polegar para cima) ou não útil (polegar para baixo), mas idealmente deve ser acompanhado de comentários detalhados destacando os pontos fortes e fracos das respostas do modelo.

Atualizações do modelo fundamental ou mudanças nas consultas dos usuários podem degradar inadvertidamente o desempenho do seu aplicativo ou expor pontos fracos latentes. O monitoramento contínuo do desempenho do aplicativo LLM em relação aos nossos critérios definidos permanece crítico durante toda a sua vida operacional para que você possa identificar e resolver rapidamente deficiências emergentes. .

Principais lições

Avaliar o desempenho de sistemas baseados em LLM apresenta desafios únicos, diferenciando a tarefa das avaliações convencionais de aprendizado de máquina. No processo de avaliação de um sistema LLM, as seguintes considerações críticas devem ser levadas em conta para informar a sua metodologia:

Conjuntos de avaliação personalizados: para obter insights acionáveis, é fundamental construir conjuntos de avaliação robustos e centrados em aplicativos. Esses conjuntos não precisam necessariamente ser grandes, mas devem abranger uma variedade de amostras desafiadoras.
Expansão Dinâmica dos Desafios de Avaliação: à medida que você recebe feedback dos usuários, é crucial expandir e refinar iterativamente o conjunto de avaliação para capturar desafios e nuances em evolução.
Métricas Quantitativas e Critérios Qualitativos: A natureza complexa dos LLMs muitas vezes escapa às métricas quantitativas diretas. É essencial estabelecer um conjunto de critérios adaptados ao seu caso de uso específico, permitindo uma avaliação mais detalhada do desempenho do modelo.
Função de feedback unificado: Para simplificar o processo de avaliação, considere combinar vários critérios em uma função de feedback única e coerente.
Abordagem de avaliação híbrida: Aproveitar LLMs e avaliadores humanos de alta qualidade em seu processo de avaliação oferece uma perspectiva mais abrangente e produz os resultados mais confiáveis e econômicos.
Monitoramento contínuo do mundo real: Ao mesclar o feedback do usuário com a função de feedback unificado, você pode monitorar e ajustar continuamente o desempenho do LLM, garantindo um alinhamento consistente com os requisitos do mundo real.

Avisaremos quando lançarmos mais artigos de resumo como este.

Relacionado

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Automotivo / EVs, Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
ChartPrime. Eleve seu jogo de negociação com ChartPrime. Acesse aqui.
BlockOffsets. Modernizando a Propriedade de Compensação Ambiental. Acesse aqui.
Fonte: https://www.topbots.com/llm-performance-evaluation/