超越指标：LLM 绩效评估的混合方法

由柏拉图重新发布

关注： 0

有限合伙企业绩效评估的混合方法

大型语言模型 (LLM) 在性能评估方面提出了独特的挑战。与传统机器学习的结果通常是二元的不同，法学硕士的输出存在一系列正确性。此外，虽然您的基本模型可能在广泛的指标上表现出色，但一般性能并不能保证您的特定用例的最佳性能。

因此，评估LLM的整体方法必须利用多种方法，例如使用LLM来评估LLM（即自动评估）以及使用人类-LLM混合方法。本文深入探讨了不同方法的具体步骤，涵盖如何创建适合您的应用程序的自定义评估集、查明相关指标以及实施严格的评估方法 - 既用于选择模型又监控生产中的持续性能。

为您的用例构建有针对性的评估集

要评估法学硕士在特定用例上的表现，您需要在一组代表您的目标用例的示例上测试模型。这需要构建自定义评估集。

从小事做起。为了在您的用例上测试 LLM 性能，您可以从少至 10 个示例开始。每个示例都可以运行多次以评估模型的一致性和可靠性。
选取具有挑战性的例子。 您选择的示例不应简单明了。它们应该具有挑战性，旨在最大限度地测试模型的能力。这可能包括带有意外输入的提示、可能引起偏见的查询或需要深入了解主题的问题。这并不是要欺骗模型，而是要确保它为现实世界应用程序的不可预测性做好准备。
考虑利用法学硕士来构建评估集。有趣的是，利用语言模型构建评估集来评估自身或其他语言模型是一种常见的做法。例如，法学硕士可以根据输入文本生成一组问答对，您可以将其用作问答应用程序的第一批样本。
纳入用户反馈。无论是内部团队测试还是更广泛的部署，用户反馈通常会揭示不可预见的挑战和现实场景。此类反馈可以作为新的具有挑战性的示例集成到您的评估集中。

从本质上讲，构建自定义评估集是一个动态过程，与 LLM 项目的生命周期同步调整和发展。这种迭代方法可确保您的模型始终适应当前的相关挑战。

结合指标、比较和基于标准的评估

单独的指标通常不足以评估法学硕士。法学硕士所处的领域并不总是有单一的“正确”答案。此外，使用聚合指标可能会产生误导。一个模型可能在一个领域表现出色，而在另一个领域表现不佳，但仍然取得了令人印象深刻的平均分数。

您的评估标准将取决于特定法学硕士系统的独特属性。虽然准确性和公正性是共同目标，但在特定情况下其他标准可能至关重要。例如，医疗聊天机器人可能会优先考虑响应无害性，客户支持机器人可能会强调保持一致的友好语气，或者网络开发应用程序可能需要特定格式的输出。

为了简化流程，可以将多个评估标准集成到一个单一的评估标准中反馈功能。它将把法学硕士生成的文本和一些元数据作为输入，然后输出一个表明文本质量的分数。

因此，LLM 表现的整体评估通常需要至少 3 种不同的方法：

定量指标：当存在明确的正确答案时，您可以使用以下命令默认使用传统的 ML 评估方法定量方法.
参考比较：对于没有明确单一答案但具有可接受响应的可用参考的实例，可以将模型的响应与预先存在的示例进行比较和对比。
基于标准的评估：在没有参考的情况下，重点会转移到根据预定义的标准来衡量模型的输出。

参考比较和基于标准的评估都可以由人工评估员或通过自动化流程执行。接下来，我们将深入研究这些不同评估方法的优点和缺点。

人工、自动评估和混合方法

人工评估经常被视为评估机器学习应用程序（包括基于法学硕士的系统）的黄金标准，但由于时间或技术限制，并不总是可行。自动评估和混合方法通常在企业环境中使用来扩展法学硕士绩效评估。

人工评价

对基于法学硕士的申请的输出进行人工监督对于确保这些系统的准确性和可靠性至关重要。然而，由于以下主要限制，仅仅依靠这种方法来评估法学硕士可能并不理想：

质量问题：令人惊讶的是，与通过 Mechanical Turk 雇用的工人的平均结果相比，GPT-4 等先进模型通常会产生更高质量的评估。除非以细致的实验设计为指导，否则人类评估者可能不会关注最重要的核心品质。人们有陷入肤浅因素的倾向；例如，他们可能更喜欢格式良好但错误的回复，而不是准确但简单的回复。
成本影响：获得顶级的人类评估是昂贵的。您寻求的评估质量越高，相关成本就越高。
时间限制：收集人类评价非常耗时。在基于 LLM 的系统开发的快节奏世界中，部署可能在短短几天或几周内完成，开发人员不能总是暂停并等待反馈。

这些限制强调了用更有效的评估技术补充人类评估的重要性。

自动评估

大型语言模型已被证明擅长评估其对应模型的性能。值得注意的是，可以利用更先进或更大的法学硕士来评估较小模型的性能。使用法学硕士来评估自己的成果也很常见。鉴于法学硕士的机制，模型最初可能会提供错误的答案。然而，通过为同一模型提供一个精心设计的提示，要求对其初始响应进行评估，该模型实际上获得了“反思”或“重新思考”的机会。此过程大大提高了模型识别任何错误的可能性。

使用法学硕士来评估其他法学硕士为雇用人类评估员提供了一种快速且经济高效的替代方案。然而，这种方法存在严重的缺陷，业务和技术领导者必须准备好解决这些缺陷：