大型语言模型 (LLM) 在性能评估方面提出了独特的挑战。 与传统机器学习的结果通常是二元的不同,法学硕士的输出存在一系列正确性。 此外,虽然您的基本模型可能在广泛的指标上表现出色,但一般性能并不能保证您的特定用例的最佳性能。
因此,评估LLM的整体方法必须利用多种方法,例如使用LLM来评估LLM(即自动评估)以及使用人类-LLM混合方法。 本文深入探讨了不同方法的具体步骤,涵盖如何创建适合您的应用程序的自定义评估集、查明相关指标以及实施严格的评估方法 - 既用于选择模型又监控生产中的持续性能。
为您的用例构建有针对性的评估集
要评估法学硕士在特定用例上的表现,您需要在一组代表您的目标用例的示例上测试模型。 这需要构建自定义评估集。
- 从小事做起。 为了在您的用例上测试 LLM 性能,您可以从少至 10 个示例开始。 每个示例都可以运行多次以评估模型的一致性和可靠性。
- 选取具有挑战性的例子。 您选择的示例不应简单明了。 它们应该具有挑战性,旨在最大限度地测试模型的能力。 这可能包括带有意外输入的提示、可能引起偏见的查询或需要深入了解主题的问题。 这并不是要欺骗模型,而是要确保它为现实世界应用程序的不可预测性做好准备。
- 考虑利用法学硕士来构建评估集。 有趣的是,利用语言模型构建评估集来评估自身或其他语言模型是一种常见的做法。 例如,法学硕士可以根据输入文本生成一组问答对,您可以将其用作问答应用程序的第一批样本。
- 纳入用户反馈。 无论是内部团队测试还是更广泛的部署,用户反馈通常会揭示不可预见的挑战和现实场景。 此类反馈可以作为新的具有挑战性的示例集成到您的评估集中。
从本质上讲,构建自定义评估集是一个动态过程,与 LLM 项目的生命周期同步调整和发展。 这种迭代方法可确保您的模型始终适应当前的相关挑战。
结合指标、比较和基于标准的评估
单独的指标通常不足以评估法学硕士。 法学硕士所处的领域并不总是有单一的“正确”答案。 此外,使用聚合指标可能会产生误导。 一个模型可能在一个领域表现出色,而在另一个领域表现不佳,但仍然取得了令人印象深刻的平均分数。
您的评估标准将取决于特定法学硕士系统的独特属性。 虽然准确性和公正性是共同目标,但在特定情况下其他标准可能至关重要。 例如,医疗聊天机器人可能会优先考虑响应无害性,客户支持机器人可能会强调保持一致的友好语气,或者网络开发应用程序可能需要特定格式的输出。
为了简化流程,可以将多个评估标准集成到一个单一的评估标准中 反馈功能。 它将把法学硕士生成的文本和一些元数据作为输入,然后输出一个表明文本质量的分数。
因此,LLM 表现的整体评估通常需要至少 3 种不同的方法:
- 定量指标:当存在明确的正确答案时,您可以使用以下命令默认使用传统的 ML 评估方法 定量方法.
- 参考比较:对于没有明确单一答案但具有可接受响应的可用参考的实例,可以将模型的响应与预先存在的示例进行比较和对比。
- 基于标准的评估:在没有参考的情况下,重点会转移到根据预定义的标准来衡量模型的输出。
参考比较和基于标准的评估都可以由人工评估员或通过自动化流程执行。 接下来,我们将深入研究这些不同评估方法的优点和缺点。
人工、自动评估和混合方法
人工评估经常被视为评估机器学习应用程序(包括基于法学硕士的系统)的黄金标准,但由于时间或技术限制,并不总是可行。 自动评估和混合方法通常在企业环境中使用来扩展法学硕士绩效评估。
人工评价
对基于法学硕士的申请的输出进行人工监督对于确保这些系统的准确性和可靠性至关重要。 然而,由于以下主要限制,仅仅依靠这种方法来评估法学硕士可能并不理想:
- 质量问题:令人惊讶的是,与通过 Mechanical Turk 雇用的工人的平均结果相比,GPT-4 等先进模型通常会产生更高质量的评估。 除非以细致的实验设计为指导,否则人类评估者可能不会关注最重要的核心品质。 人们有陷入肤浅因素的倾向; 例如,他们可能更喜欢格式良好但错误的回复,而不是准确但简单的回复。
- 成本影响:获得顶级的人类评估是昂贵的。 您寻求的评估质量越高,相关成本就越高。
- 时间限制:收集人类评价非常耗时。 在基于 LLM 的系统开发的快节奏世界中,部署可能在短短几天或几周内完成,开发人员不能总是暂停并等待反馈。
这些限制强调了用更有效的评估技术补充人类评估的重要性。
自动评估
大型语言模型已被证明擅长评估其对应模型的性能。 值得注意的是,可以利用更先进或更大的法学硕士来评估较小模型的性能。 使用法学硕士来评估自己的成果也很常见。 鉴于法学硕士的机制,模型最初可能会提供错误的答案。 然而,通过为同一模型提供一个精心设计的提示,要求对其初始响应进行评估,该模型实际上获得了“反思”或“重新思考”的机会。 此过程大大提高了模型识别任何错误的可能性。
使用法学硕士来评估其他法学硕士为雇用人类评估员提供了一种快速且经济高效的替代方案。 然而,这种方法存在严重的缺陷,业务和技术领导者必须准备好解决这些缺陷:
- 当负责对答案进行 1 到 5 级评分时,法学硕士可能会 表现出一致的偏见 无论响应的实际质量如何,都会获得特定的评级。
- 当将自己的输出与其他模型的输出进行比较时,法学硕士通常 显示出对自己反应的偏好.
- 响应候选者的排序有时可以 影响评价,例如,展示对第一个显示的候选答案的偏好。
- LLM 倾向于 赞成更长的回应,即使它们包含事实错误或者人类用户更难以理解和使用。
鉴于 LLM 评估固有的缺陷,由人类评估员进行手动监督的战略性纳入仍然是明智的一步,不应从您的 LLM 申请开发过程中忽略。
混合方式
开发人员普遍采用的方法是严重依赖法学硕士推动的自动评估。 这为他们提供了即时反馈机制,可以根据不同的系统提示进行快速模型选择、微调和实验。 目标是基于这些自动评估实现性能最佳的系统。 自动评估阶段完成后,下一步通常涉及与高质量的人类评估人员进行更深入的研究,以验证自动评估的可信度。
确保高质量的人工评估可能是一项成本高昂的工作。 虽然在每次细微的系统改进后都采取这种级别的审查并不切合实际,但在将 LLM 系统过渡到生产环境之前,人工评估是一个不可或缺的阶段。 如前所述,法学硕士的评估可能存在偏见且不可靠。
部署后,从我们基于 LLM 的应用程序的最终用户那里收集真实的反馈至关重要。 反馈可以很简单,例如让用户将响应评价为有用(竖起大拇指)或无用(竖起大拇指),但理想情况下应该附有详细的评论,突出显示模型响应的优点和缺点。
基础模型更新或用户查询的变化可能会无意中降低应用程序的性能或暴露潜在的弱点。 根据我们定义的标准持续监控法学硕士申请的性能在其整个运行周期中仍然至关重要,这样您就可以快速识别并解决新出现的缺陷。 。
关键精华
评估基于法学硕士的系统的性能提出了独特的挑战,使该任务与传统的机器学习评估不同。 在评估法学硕士系统的过程中,应考虑以下关键因素以告知您的方法:
- 定制评估集:为了获得可行的见解,必须构建强大的、以应用程序为中心的评估集。 这些集合不一定需要很大,但它们应该包含一系列具有挑战性的样本。
- 评估挑战的动态扩展:当您收到用户的反馈时,迭代扩展和完善评估集以捕捉不断变化的挑战和细微差别至关重要。
- 定量指标和定性标准:法学硕士错综复杂的性质常常无法用简单的定量指标来衡量。 必须建立一套适合您的特定用例的标准,以便对模型的性能进行更细致的评估。
- 统一反馈功能:为了简化评估过程,请考虑将多个标准组合成一个单一的、连贯的反馈函数。
- 混合评估方法:在评估过程中利用法学硕士和高质量的人工评估员可以提供更全面的视角,并产生最可靠和最具成本效益的结果。
- 持续的现实世界监控:通过将用户反馈与统一反馈功能合并,您可以持续监控和微调 LLM 表现,确保与现实需求保持一致。
喜欢这篇文章吗? 注册以获取更多AI研究更新。
当我们发布更多像这样的摘要文章时,我们会通知您。
相关
- :具有
- :是
- :不是
- :在哪里
- $UP
- 1
- 10
- a
- 关于
- 可接受
- 伴随着
- 账号管理
- 精准的
- 收购
- 实际
- 地址
- 高级
- 优点
- 后
- 驳
- 骨料
- AI
- 研究
- 允许
- 单
- 还
- 替代
- 时刻
- an
- 和
- 另一个
- 回答
- 答案
- 任何
- 除了
- 应用领域
- 应用程序开发
- 应用领域
- 的途径
- 方法
- 保健
- 刊文
- 刊文
- AS
- 评估
- 评定
- 相关
- At
- 属性
- 自动化
- 自动表
- 可使用
- 等待
- 基地
- 基于
- BE
- before
- 超越
- 偏见
- 提升
- 博特
- 都
- 广阔
- 建筑物
- 商业
- 但是
- by
- CAN
- 候选人
- 候选人
- 容量
- 捕获
- 案件
- 例
- 抓
- 挑战
- 挑战
- 挑战
- 聊天机器人
- 相干
- 收藏
- 结合
- 购买的订单均
- 注释
- 相当常见
- 相比
- 比较
- 完成
- 全面
- 考虑
- 注意事项
- 一贯
- 约束
- 建设
- 一直
- 常规
- 核心
- 正确
- 经济有效
- 昂贵
- 成本
- 可以
- 覆盖
- 创建信息图
- 标准
- 危急
- 关键
- 电流
- 习俗
- 顾客
- 客户支持
- 一年中的
- 深
- 更深
- 默认
- 定义
- 明确
- 示范
- 部署
- 部署
- 设计
- 设计
- 详细
- 开发
- 研发支持
- 不同
- 显示
- 不同
- 不会
- 域
- 别
- 向下
- 缺点
- 两
- 动态
- e
- 每
- 此前
- 只
- 高效
- 或
- 分子
- 新兴经济体的新市场。
- 强调
- 使
- 环绕
- 努力
- 确保
- 保证
- 企业
- 环境
- 故障
- 本质
- 必要
- 建立
- 醚(ETH)
- 评估
- 评估
- 评估
- 评价
- 甚至
- 所有的
- 演变
- 例子
- 例子
- Excel
- 执行
- 存在
- 扩大
- 扩张
- 昂贵
- 试验
- 促进
- 事实
- 衰退
- 快节奏
- 赞成
- 可行
- 反馈
- 少数
- 姓氏:
- 专注焦点
- 以下
- 针对
- 格式
- 频繁
- 友好
- 止
- 功能
- 此外
- 收集
- 其他咨询
- 通常
- 生成
- 产生
- 真正
- 得到
- 特定
- 目标
- 黄金
- 最高标准
- 成长
- 保证
- 发生
- 更难
- 治理
- 有
- 有
- 严重
- 高品质
- 更高
- 突出
- 整体
- 创新中心
- How To
- 但是
- HTTPS
- 人
- 杂交种
- i
- 理想
- 理想
- 鉴定
- 确定
- if
- 即时
- 势在必行
- 实施
- 重要性
- 有声有色
- in
- 包括
- 包括
- 表示
- 通知
- 固有
- 初始
- 原来
- 输入
- 输入
- 可行的洞见
- 例
- 集成
- 内部
- 成
- IT
- 它的
- 本身
- JPG
- 键
- 知道
- 语言
- 大
- 大
- 领导人
- 学习
- 最少
- Level
- 杠杆作用
- 借力
- 生活
- 生命周期
- 喜欢
- 可能性
- 限制
- LLP
- 不再
- 机
- 机器学习
- 维持
- 手册
- 问题
- 最大宽度
- 可能..
- 机械
- 机械学
- 机制
- 医生
- 聚体
- 合并
- 元数据
- 方法
- 研究方法
- 方法
- 细致
- 指标
- 可能
- 未成年人
- 误导
- ML
- 模型
- 模型
- 显示器
- 监控
- 更多
- 更高效
- 最先进的
- 多
- 必须
- 自然
- 一定
- 需求
- 全新
- 下页
- 特别是
- 注意到
- 目标
- of
- 优惠精选
- 经常
- on
- 一旦
- 一
- 正在进行
- 操作
- 操作
- ZAP优势
- 最佳
- or
- 其他名称
- 我们的
- 结果
- 产量
- 超过
- 疏忽
- 己
- 对
- 最重要的
- 特别
- 暂停
- 性能
- 执行
- 透视
- 相
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 在练习上
- 务实
- 准备
- 当下
- 呈现
- 礼物
- 优先
- 程序
- 过程
- 过程
- 生产
- 生产
- 项目
- 成熟
- 提供
- Q&A
- 定性
- 气质
- 质量
- 量
- 查询
- 有疑问吗?
- 很快
- 范围
- 率
- 宁
- 等级
- 真实的世界
- 境界
- 接收
- 提炼
- 而不管
- 寄存器
- 释放
- 相应
- 可靠性
- 可靠
- 依托
- 遗迹
- 代表
- 要求
- 要求
- 岗位要求
- 需要
- 研究
- 度假村
- 响应
- 回复
- 成果
- 揭示
- 严格
- 健壮
- 运行
- 同
- 鳞片
- 情景
- 得分了
- 审查
- 寻找
- 选择
- 选择
- 测序
- 集
- 套数
- 设置
- 设置
- 转移
- 缺点
- 应该
- 签署
- 简易
- 简化
- 单数
- 小
- So
- 独自
- 一些
- 具体的
- 光谱
- 标准
- 开始
- 步
- 步骤
- 仍
- 简单的
- 善用
- 从战略
- 精简
- 优势
- 主题
- 基本上
- 这样
- 概要
- 优于
- SUPPORT
- SWIFT的
- 系统
- 产品
- 量身定制
- 采取
- 拍摄
- 串联
- 目标
- 针对
- 任务
- 团队
- 文案
- 技术
- 专业技术
- test
- 测试
- 这
- 其
- 他们
- 然后
- 那里。
- 博曼
- 他们
- Free Introduction
- 通过
- 始终
- 耗时的
- 时
- 至
- TONE
- 热门
- 向
- 传统
- 过渡
- 一般
- 理解
- 理解
- 意外
- 意外
- 统一
- 独特
- 不像
- 变幻莫测
- 最新动态
- 使用
- 用例
- 用过的
- 用户
- 用户
- 运用
- 平时
- 利用
- 利用
- 验证
- 各种
- 通过
- 查看
- we
- 卷筒纸
- Web开发
- 周
- ,尤其是
- 是否
- 这
- 而
- 更宽
- 将
- 中
- 也完全不需要
- 工人
- 世界
- 但
- 产量
- 您
- 您一站式解决方案
- 和风网