Skip to content

大模型评测:BLEU 不够用了,现在都在测什么

一、背景

训练或选型模型,不能只看 「感觉挺聪明」;上线更不能只看 demo。评测(Evaluation)回答的是:在咱业务场景里,它到底有多稳、多安全、多花多少钱。传统 NLP 里 BLEU、ROUGE 看 n-gram 重叠,适合 机器翻译、摘要;但 开放式问答、对话、工具调用,重叠分数往往 和人类观感脱节

做过 RAG、Agent 的同学更需要:检索命中率、忠实度、任务成功率、幻觉率、延迟与 Token 成本——一套 分层指标。本文用口语把常见评测套路串起来,方便你和算法、产品 对齐验收标准

二、核心概念和核心原理(详细解答+通俗解释)

(一)核心概念(先通俗,再详细)

  • 1. 自动指标 vs 人工评测通俗解释:自动指标 便宜可复现,但可能「钻空子」;人工 贵但准。详细解答:工程上常 自动筛一遍 + 抽样人工;核心链路用 Golden Set(标准问答对)。

  • 2. LLM-as-a-Judge通俗解释:用 更强模型 给回答打分或对比两条谁更好。详细解释:要快、要 盲测(隐藏模型名)、要 多轮独立 减偏差;已知问题是 评委自己也偏好自己的风格

  • 3. 任务级成功率通俗解释:Agent 场景看 最终是否完成用户目标(工单关闭、SQL 跑通、测试通过)。详细解答:比单句 BLEU 更贴近产品;要记录 步数、失败原因分类

(二)核心原理(通俗拆解,一步一步讲清楚)

  1. **第一步:定义「什么叫对」**通俗解释:摘要要 事实一致 还是 写得漂亮?代码要 可运行 还是 风格统一?标准不清,分数没意义。详细解答:Rubric(评分细则) 要先写死。

  2. 第二步:分层评测通俗解释:检索层(Recall@k)、生成层(忠实度、引用对齐)、系统层(P95 延迟、成本)。详细解答:哪层掉链子就 单独优化,别混为一谈。

  3. 第三步:红队与安全通俗解释:恶意提示、越狱、隐私泄露 要单测;拒答率误杀率 要平衡。详细解答:合规行业 必做 清单,不是可选项。

三、补充进阶知识点(易懂不晦涩,适配新手进阶)

  • 1. 基准套件通俗解释:MMLU、GSM8K、HumanEval 等 公开榜 看模型通用能力;垂直榜 看领域。简单补充:榜分高 ≠ 你业务好,要自建评测。

  • 2. A/B 与置信区间通俗解释:改 Prompt、改 RAG,对比实验 要样本量够;看区间 别光看均值。简单补充:线上 影子流量 是高级玩法。

  • 3. 和之前知识点的关联****幻觉 文章里的忠实度评测;RAG 要测 无检索/错检索 下的退化;量化重跑关键集微调灾难性遗忘(通用题掉分)。

四、文章知识总结

  1. 背景:开放式任务要 多维指标;BLEU 只是工具之一。
  2. 核心概念:自动/人工/LLM 评委;任务成功率;Rubric 先行。
  3. 核心原理:分层找瓶颈;安全单测;统计意识。
  4. 进阶:公开基准 + 私有 Golden Set;线上 A/B。
  5. 核心逻辑先写验收标准,再谈模型好坏——否则永远在吵架。

总结:评测是 AI 工程的「测试部门」;和开发一样,可重复、可回归 才算专业。把本文和 RAG、幻觉、Agent 连读,你能拼出一张 质量门禁地图