斯坦福 CS336 从零构建大模型 (2025 春) - 第十二讲：模型评估 (Evaluation)

2401_87352879

435人浏览 · 2026-03-18 11:38:31

2401_87352879 · 2026-03-18 11:38:31 发布

斯坦福 CS336 从零构建大模型 (2025 春) - 第十二讲：模型评估 (Evaluation)

文章目录

斯坦福 CS336 从零构建大模型 (2025 春) - 第十二讲：模型评估 (Evaluation)

第12讲的主题是**“模型评估（Evaluation）”**。虽然从表面上看，评估似乎只是“给定一个模型，测试它有多好”的机械过程，但它实际上是一个深刻且复杂的课题，直接决定了语言模型的开发方向。Andrej Karpathy 曾指出我们正处于一场“评估危机（Evaluation Crisis）”中，因为许多基准测试（Benchmarks）已经饱和、被操纵或存在缺陷。

以下是本讲不遗漏核心知识点的详细内容梳理，以及课堂问答的汇总：

一、评估的目的与分析框架 (Purpose & Framework)

评估的目的因人而异：

用户/企业：为了做出购买或使用决策（例如在 Claude、Gemini 或 o3 之间选择）。
研究人员：为了了解模型的原始能力和科学进展。
政策制定者/企业：客观了解模型的益处与潜在危害。
模型开发者：获取反馈以改进模型（如决定是否保留某项干预措施）。

评估的四个核心环节：

输入（Inputs）：提示词从何而来？是否覆盖了长尾情况？是否针对特定模型进行了适配？
调用模型（Calling LM）：采用少样本（few-shot）、零样本、思维链（CoT）还是工具调用？模型对提示词的敏感度极高。
输出评估（Outputs）：参考答案是否干净无误？使用什么指标？是否考虑了推理成本？如何处理开放式生成的评估难题？
结果解释（Interpretation）：得分高真的意味着好吗？是否存在训练集和测试集的重叠（数据污染）？评估的到底是模型、系统还是方法？

二、困惑度（Perplexity）作为评估指标 (Perplexity Metrics)

背景：困惑度衡量模型对验证集/测试集数据的预测概率。在2010年代，研究者常在 PTB、WikiText 等标准数据集上指定训练集和测试集来刷困惑度。GPT-2 改变了这一范式，通过在 WebText 上训练后直接在这些数据集上进行零样本（zero-shot）困惑度评估，展现了强大的泛化能力。
优势：比下游任务的准确率曲线更平滑；具有“普适性（Universal）”，因为它关注每一个Token，模型很难像做选择题那样“蒙对”。
困惑度至上主义（Perplexity Maximalist）：有观点认为，只要最小化模型分布 P 和真实分布 T 的困惑度，使其无限逼近真实分布，最终就能解决所有任务并实现 AGI。但反方认为这可能不够高效，因为模型会把算力浪费在不重要的Token上。
隐患：如果在排行榜上比拼困惑度，必须完全信任 API 提供商返回的概率分布真的是合法分布（和为1），否则极易作弊。

三、标准知识与推理基准测试 (Knowledge & Reasoning)

MMLU：2020年推出，包含57个学科的多项选择题。起初用于通过少样本提示评估基础模型（Base models），如果一个基础模型没“专门复习”就能考高分，说明它具备通用智能。但现在分数已接近饱和（90%+）。
MMLU-Pro：为了增加难度，选项从4个增加到10个，删除了无意义问题，并更依赖思维链（CoT）。
GPQA (Google-Proof Q&A)：包含极难的博士级问题，专家准确率仅65%，而非专家即使允许使用Google搜索也只能拿30%。
Humanity’s Last Exam (HLE)：极高难度的多模态考卷，目前顶级模型得分仍在20%左右。

四、指令遵循与开放式生成评估 (Instruction & Open-ended)

评估开放式回答是一个未解决的难题，目前有以下几种主要方式：

Chatbot Arena：众包给互联网用户，通过盲测对两个模型的回答进行成对偏好排名（ELO积分）。优点是动态更新，缺点是存在操纵排行榜（Leaderboard illusion）的现象，且大众用户的评判标准存疑。
IFEval：专门测试模型遵循特定约束的能力（例如“字数限制”、“不能包含特定标点”），可以通过脚本自动验证，但不评估语义质量，容易被钻空子。
AlpacaEval & WildBench：使用强模型（如GPT-4）作为裁判（LLM-as-a-judge）来计算胜率。需要注意模型裁判存在“长度偏见（Length Bias）”，倾向于给长篇大论打高分。

五、智能体与纯逻辑推理基准测试 (Agents & Pure Reasoning)

智能体需要进行多次迭代和工具调用。典型基准包括：SWE-bench（解决GitHub代码Issue并痛过单元测试）、Cybench（网络安全黑客夺旗赛）、MLE-bench（自主打Kaggle比赛）。
ARC AGI Challenge：这是一个2D网格模式推理任务，没有任何语言描述或文本知识。它剔除了世界知识的干扰，专门测试模型“举一反三”的纯粹智力与推理能力（目前 o3 等推理模型表现突出）。

六、安全性评估 (Safety Benchmarks)

HarmBench & AIR-Bench：测试模型对有害指令（如制造危险品）的拒绝率，以及是否符合法律和安全规范。
越狱（Jailbreaking）：通过优化提示词可以绕过安全限制（例如输出毁灭人类的计划）。
能力（Capability） vs. 倾向（Propensity）：安全不仅是拒绝回答，还包括减少幻觉。基础模型往往具备作恶的“能力”，而对齐微调是为了降低其作恶的“倾向”。对于开源模型，单纯压制倾向是不够的，因为微调很容易解除限制。

七、评估的有效性与现实脱节问题 (Validity & Realism)

现实感缺乏（Realism）：现有的标准化考试更像是在“测验（Quizzing）”模型，而真实用户是在“提问/求助（Asking）”。这两者分布差异巨大。例如 MedLM 的临床真实任务测试就比标准医学考试更有现实意义。
训练集与测试集重叠（Data Contamination）：模型厂商由于不公开训练数据，数据污染防不胜防。只能通过提示技巧推断模型是否“背过”测试集，或者依赖社区建立更好的报告规范。
标签噪声（Label Noise）：许多看起来极难的数学基准测试（如 MATH、GSM8K）实际上包含大量错误的答案标签，清理后模型得分会大幅上升。

八、核心概念问答 (Q&A)

Q1：在评估时，提示词输入是否应该针对特定模型进行适配（Adapted to the model）？

回答：视目标而定。如果是多轮对话评估，必须根据模型前一轮的输出来动态适配；在“红队测试（Red Teaming）”找漏洞时，针对模型适配能更高效地发现罕见失败。但适配模型也会导致不同模型之间的横向对比变得困难。

Q2：对于很多能力的提升，仅看“困惑度”下降足够吗？有没有不随困惑度提升而改善的能力？

回答：在具体某个小任务上，困惑度与下游表现的关联可能波动很大。但把时间线拉长、模型规模放大来看，困惑度的整体下降确实对应着模型各种综合能力的全面提升。

Q3：为什么模型在输出概率分布时，可能会对所有词都给出 0.8 的概率（不符合概率总和为1）？

回答：这通常是 API 接口提供商的代码Bug。如果API只返回生成 Token 的概率，我们作为评估方很难验证背后整个词表的概率总和是否真的是1。

Q4：在 MMLU 等评估中，少样本提示（Few-shot）中的样本选择会影响性能吗？现在还会用少样本吗？

回答：样本的选择、顺序、格式对模型性能影响巨大。现在少样本提示越来越少见，因为经过指令微调的模型只需要清晰的指令（Zero-shot）就能输出正确格式，而且可以节省上下文的Token成本。

Q5：对于 GPQA（防Google搜索）这样的基准，如何保证闭源模型（如o3）或人类评估者私下没有偷偷使用Google或语言模型？

回答：对于 o3，我们调用时不开启联网搜索功能并信任提供商的系统。对于人类，评估方付钱给他们并要求不使用，但也确实很难进行完美的物理监控，这是一个合理的盲区。

Q6：基准测试似乎越来越关注专家级问题，这会让模型更好地服务普通大众吗？

回答：由于专家极其昂贵，攻克专家级问题能够证明模型的泛化能力和智力上限，从而使其有能力完成复杂的高价值工作。当然，针对普通大众的客服支持或基础问答同样很有价值，也需要对应的评估。

Q7：像 Humanity’s Last Exam 这样通过“公开征集”收集问题，难道不会收集到非常偏门且有严重偏差的数据吗？

回答：是的数据会产生巨大的选择偏差。因为积极响应征集的人往往是深度接触大模型的研究者，他们提交的问题会极其刁钻和特定，并不能代表真实世界用户的普遍分布，这只能证明它“极难”。

Q8：HellaSwag 任务中提到的视频（Video）在训练中起什么作用？

回答： HellaSwag 完全是纯文本数据集，视频这个词只是因为它的语料是从 ActivityNet（视频动作识别集）和 WikiHow 挖掘并转化成文本的。顺便一提，这也暗示了数据重叠风险，因为维基百科和WikiHow都在预训练数据中。

Q9：在看模型的安全拒绝率（Refusal Rate）时，有没有考虑模型可能变成“复读机”，拒绝回答任何正常问题？

回答：问得很好。如果一个模型拒绝回答任何问题，它的安全得分会极高，但毫无用处。所以安全评估必须与能力评估（Capabilities Eval）成对进行，确保模型既安全，又保持了对正常请求的帮助性（Helpfulness）。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

一个GitHub Issue就能投毒Claude Code？我拆解了整条供应链攻击链

上周Claude Code刚被AMD AI负责人用23万次调用记录实锤"越更新越差"[1]，这周它的GitHub Actions又被安全研究者扒出了一个供应链级别的漏洞——一个恶意GitHub Issue，就能让Claude Code帮你把仓库Secret全偷走，甚至往你的代码里投毒[2]。这个漏洞有多严重？CVSS v4.0评分7.8，Anthropic为此支付了4800美元赏金。更可怕的是，A