大模型评测：BLEU 不够用了，现在都在测什么

一、背景

训练或选型模型，不能只看 「感觉挺聪明」；上线更不能只看 demo。评测（Evaluation）回答的是：在咱业务场景里，它到底有多稳、多安全、多花多少钱。传统 NLP 里 BLEU、ROUGE 看 n-gram 重叠，适合 机器翻译、摘要；但 开放式问答、对话、工具调用，重叠分数往往 和人类观感脱节。

做过 RAG、Agent 的同学更需要：检索命中率、忠实度、任务成功率、幻觉率、延迟与 Token 成本——一套 分层指标。本文用口语把常见评测套路串起来，方便你和算法、产品 对齐验收标准。

二、核心概念和核心原理（详细解答+通俗解释）

（一）核心概念（先通俗，再详细）

1. 自动指标 vs 人工评测通俗解释：自动指标 便宜可复现，但可能「钻空子」；人工 贵但准。详细解答：工程上常 自动筛一遍 + 抽样人工；核心链路用 Golden Set（标准问答对）。
2. LLM-as-a-Judge通俗解释：用 更强模型 给回答打分或对比两条谁更好。详细解释：要快、要盲测（隐藏模型名）、要 多轮独立 减偏差；已知问题是 评委自己也偏好自己的风格。
3. 任务级成功率通俗解释：Agent 场景看 最终是否完成用户目标（工单关闭、SQL 跑通、测试通过）。详细解答：比单句 BLEU 更贴近产品；要记录 步数、失败原因分类。

（二）核心原理（通俗拆解，一步一步讲清楚）

**第一步：定义「什么叫对」**通俗解释：摘要要 事实一致 还是 写得漂亮？代码要 可运行 还是 风格统一？标准不清，分数没意义。详细解答：Rubric（评分细则） 要先写死。
第二步：分层评测通俗解释：检索层（Recall@k）、生成层（忠实度、引用对齐）、系统层（P95 延迟、成本）。详细解答：哪层掉链子就 单独优化，别混为一谈。
第三步：红队与安全通俗解释：恶意提示、越狱、隐私泄露 要单测；拒答率 与 误杀率 要平衡。详细解答：合规行业必做清单，不是可选项。

三、补充进阶知识点（易懂不晦涩，适配新手进阶）

1. 基准套件通俗解释：MMLU、GSM8K、HumanEval 等 公开榜 看模型通用能力；垂直榜 看领域。简单补充：榜分高 ≠ 你业务好，要自建评测。
2. A/B 与置信区间通俗解释：改 Prompt、改 RAG，对比实验 要样本量够；看区间 别光看均值。简单补充：线上 影子流量 是高级玩法。
3. 和之前知识点的关联****幻觉 文章里的忠实度评测；RAG 要测 无检索/错检索 下的退化；量化后 重跑关键集；微调看 灾难性遗忘（通用题掉分）。

四、文章知识总结

背景：开放式任务要 多维指标；BLEU 只是工具之一。
核心概念：自动/人工/LLM 评委；任务成功率；Rubric 先行。
核心原理：分层找瓶颈；安全单测；统计意识。
进阶：公开基准 + 私有 Golden Set；线上 A/B。
核心逻辑：先写验收标准，再谈模型好坏——否则永远在吵架。

总结：评测是 AI 工程的「测试部门」；和开发一样，可重复、可回归 才算专业。把本文和 RAG、幻觉、Agent 连读，你能拼出一张 质量门禁地图。

大模型评测：BLEU 不够用了，现在都在测什么 ​

一、背景 ​

二、核心概念和核心原理（详细解答+通俗解释） ​

（一）核心概念（先通俗，再详细） ​

（二）核心原理（通俗拆解，一步一步讲清楚） ​

三、补充进阶知识点（易懂不晦涩，适配新手进阶） ​

四、文章知识总结 ​