斯坦福 CS336 从零构建大模型 (2025 春) - 第十二讲:模型评估 (Evaluation)
斯坦福 CS336 从零构建大模型 (2025 春) - 第十二讲:模型评估 (Evaluation)
文章目录
- 斯坦福 CS336 从零构建大模型 (2025 春) - 第十二讲:模型评估 (Evaluation)
-
- 一、 评估的目的与分析框架 (Purpose & Framework)
- 二、 困惑度(Perplexity)作为评估指标 (Perplexity Metrics)
- 三、 标准知识与推理基准测试 (Knowledge & Reasoning)
- 四、 指令遵循与开放式生成评估 (Instruction & Open-ended)
- 五、 智能体与纯逻辑推理基准测试 (Agents & Pure Reasoning)
- 六、 安全性评估 (Safety Benchmarks)
- 七、 评估的有效性与现实脱节问题 (Validity & Realism)
- 八、 核心概念问答 (Q&A)
-
- Q1:在评估时,提示词输入是否应该针对特定模型进行适配(Adapted to the model)?
- Q2:对于很多能力的提升,仅看“困惑度”下降足够吗?有没有不随困惑度提升而改善的能力?
- Q3:为什么模型在输出概率分布时,可能会对所有词都给出 0.8 的概率(不符合概率总和为1)?
- Q4:在 MMLU 等评估中,少样本提示(Few-shot)中的样本选择会影响性能吗?现在还会用少样本吗?
- Q5:对于 GPQA(防Google搜索)这样的基准,如何保证闭源模型(如o3)或人类评估者私下没有偷偷使用Google或语言模型?
- Q6:基准测试似乎越来越关注专家级问题,这会让模型更好地服务普通大众吗?
- Q7:像 Humanity's Last Exam 这样通过“公开征集”收集问题,难道不会收集到非常偏门且有严重偏差的数据吗?
- Q8:HellaSwag 任务中提到的视频(Video)在训练中起什么作用?
- Q9:在看模型的安全拒绝率(Refusal Rate)时,有没有考虑模型可能变成“复读机”,拒绝回答任何正常问题?
第12讲的主题是**“模型评估(Evaluation)”**。虽然从表面上看,评估似乎只是“给定一个模型,测试它有多好”的机械过程,但它实际上是一个深刻且复杂的课题,直接决定了语言模型的开发方向。Andrej Karpathy 曾指出我们正处于一场“评估危机(Evaluation Crisis)”中,因为许多基准测试(Benchmarks)已经饱和、被操纵或存在缺陷。
以下是本讲不遗漏核心知识点的详细内容梳理,以及课堂问答的汇总:
一、 评估的目的与分析框架 (Purpose & Framework)
评估的目的因人而异:
- 用户/企业:为了做出购买或使用决策(例如在 Claude、Gemini 或 o3 之间选择)。
- 研究人员:为了了解模型的原始能力和科学进展。
- 政策制定者/企业:客观了解模型的益处与潜在危害。
- 模型开发者:获取反馈以改进模型(如决定是否保留某项干预措施)。
评估的四个核心环节:
- 输入(Inputs):提示词从何而来?是否覆盖了长尾情况?是否针对特定模型进行了适配?
- 调用模型(Calling LM):采用少样本(few-shot)、零样本、思维链(CoT)还是工具调用?模型对提示词的敏感度极高。
- 输出评估(Outputs):参考答案是否干净无误?使用什么指标?是否考虑了推理成本?如何处理开放式生成的评估难题?
- 结果解释(Interpretation):得分高真的意味着好吗?是否存在训练集和测试集的重叠(数据污染)?评估的到底是模型、系统还是方法?
二、 困惑度(Perplexity)作为评估指标 (Perplexity Metrics)
- 背景:困惑度衡量模型对验证集/测试集数据的预测概率。在2010年代,研究者常在 PTB、WikiText 等标准数据集上指定训练集和测试集来刷困惑度。GPT-2 改变了这一范式,通过在 WebText 上训练后直接在这些数据集上进行零样本(zero-shot)困惑度评估,展现了强大的泛化能力。
- 优势:比下游任务的准确率曲线更平滑;具有“普适性(Universal)”,因为它关注每一个Token,模型很难像做选择题那样“蒙对”。
- 困惑度至上主义(Perplexity Maximalist):有观点认为,只要最小化模型分布 P 和真实分布 T 的困惑度,使其无限逼近真实分布,最终就能解决所有任务并实现 AGI。但反方认为这可能不够高效,因为模型会把算力浪费在不重要的Token上。
- 隐患:如果在排行榜上比拼困惑度,必须完全信任 API 提供商返回的概率分布真的是合法分布(和为1),否则极易作弊。
三、 标准知识与推理基准测试 (Knowledge & Reasoning)
- MMLU:2020年推出,包含57个学科的多项选择题。起初用于通过少样本提示评估基础模型(Base models),如果一个基础模型没“专门复习”就能考高分,说明它具备通用智能。但现在分数已接近饱和(90%+)。
- MMLU-Pro:为了增加难度,选项从4个增加到10个,删除了无意义问题,并更依赖思维链(CoT)。
- GPQA (Google-Proof Q&A):包含极难的博士级问题,专家准确率仅65%,而非专家即使允许使用Google搜索也只能拿30%。
- Humanity’s Last Exam (HLE):极高难度的多模态考卷,目前顶级模型得分仍在20%左右。
四、 指令遵循与开放式生成评估 (Instruction & Open-ended)
评估开放式回答是一个未解决的难题,目前有以下几种主要方式:
- Chatbot Arena:众包给互联网用户,通过盲测对两个模型的回答进行成对偏好排名(ELO积分)。优点是动态更新,缺点是存在操纵排行榜(Leaderboard illusion)的现象,且大众用户的评判标准存疑。
- IFEval:专门测试模型遵循特定约束的能力(例如“字数限制”、“不能包含特定标点”),可以通过脚本自动验证,但不评估语义质量,容易被钻空子。
- AlpacaEval & WildBench:使用强模型(如GPT-4)作为裁判(LLM-as-a-judge)来计算胜率。需要注意模型裁判存在“长度偏见(Length Bias)”,倾向于给长篇大论打高分。
五、 智能体与纯逻辑推理基准测试 (Agents & Pure Reasoning)
- 智能体需要进行多次迭代和工具调用。典型基准包括:SWE-bench(解决GitHub代码Issue并痛过单元测试)、Cybench(网络安全黑客夺旗赛)、MLE-bench(自主打Kaggle比赛)。
- ARC AGI Challenge:这是一个2D网格模式推理任务,没有任何语言描述或文本知识。它剔除了世界知识的干扰,专门测试模型“举一反三”的纯粹智力与推理能力(目前 o3 等推理模型表现突出)。
六、 安全性评估 (Safety Benchmarks)
- HarmBench & AIR-Bench:测试模型对有害指令(如制造危险品)的拒绝率,以及是否符合法律和安全规范。
- 越狱(Jailbreaking):通过优化提示词可以绕过安全限制(例如输出毁灭人类的计划)。
- 能力(Capability) vs. 倾向(Propensity):安全不仅是拒绝回答,还包括减少幻觉。基础模型往往具备作恶的“能力”,而对齐微调是为了降低其作恶的“倾向”。对于开源模型,单纯压制倾向是不够的,因为微调很容易解除限制。
七、 评估的有效性与现实脱节问题 (Validity & Realism)
- 现实感缺乏(Realism):现有的标准化考试更像是在“测验(Quizzing)”模型,而真实用户是在“提问/求助(Asking)”。这两者分布差异巨大。例如 MedLM 的临床真实任务测试就比标准医学考试更有现实意义。
- 训练集与测试集重叠(Data Contamination):模型厂商由于不公开训练数据,数据污染防不胜防。只能通过提示技巧推断模型是否“背过”测试集,或者依赖社区建立更好的报告规范。
- 标签噪声(Label Noise):许多看起来极难的数学基准测试(如 MATH、GSM8K)实际上包含大量错误的答案标签,清理后模型得分会大幅上升。
八、 核心概念问答 (Q&A)
Q1:在评估时,提示词输入是否应该针对特定模型进行适配(Adapted to the model)?
回答: 视目标而定。如果是多轮对话评估,必须根据模型前一轮的输出来动态适配;在“红队测试(Red Teaming)”找漏洞时,针对模型适配能更高效地发现罕见失败。但适配模型也会导致不同模型之间的横向对比变得困难。
Q2:对于很多能力的提升,仅看“困惑度”下降足够吗?有没有不随困惑度提升而改善的能力?
回答: 在具体某个小任务上,困惑度与下游表现的关联可能波动很大。但把时间线拉长、模型规模放大来看,困惑度的整体下降确实对应着模型各种综合能力的全面提升。
Q3:为什么模型在输出概率分布时,可能会对所有词都给出 0.8 的概率(不符合概率总和为1)?
回答: 这通常是 API 接口提供商的代码Bug。如果API只返回生成 Token 的概率,我们作为评估方很难验证背后整个词表的概率总和是否真的是1。
Q4:在 MMLU 等评估中,少样本提示(Few-shot)中的样本选择会影响性能吗?现在还会用少样本吗?
回答: 样本的选择、顺序、格式对模型性能影响巨大。现在少样本提示越来越少见,因为经过指令微调的模型只需要清晰的指令(Zero-shot)就能输出正确格式,而且可以节省上下文的Token成本。
Q5:对于 GPQA(防Google搜索)这样的基准,如何保证闭源模型(如o3)或人类评估者私下没有偷偷使用Google或语言模型?
回答: 对于 o3,我们调用时不开启联网搜索功能并信任提供商的系统。对于人类,评估方付钱给他们并要求不使用,但也确实很难进行完美的物理监控,这是一个合理的盲区。
Q6:基准测试似乎越来越关注专家级问题,这会让模型更好地服务普通大众吗?
回答: 由于专家极其昂贵,攻克专家级问题能够证明模型的泛化能力和智力上限,从而使其有能力完成复杂的高价值工作。当然,针对普通大众的客服支持或基础问答同样很有价值,也需要对应的评估。
Q7:像 Humanity’s Last Exam 这样通过“公开征集”收集问题,难道不会收集到非常偏门且有严重偏差的数据吗?
回答: 是的数据会产生巨大的选择偏差。因为积极响应征集的人往往是深度接触大模型的研究者,他们提交的问题会极其刁钻和特定,并不能代表真实世界用户的普遍分布,这只能证明它“极难”。
Q8:HellaSwag 任务中提到的视频(Video)在训练中起什么作用?
回答: HellaSwag 完全是纯文本数据集,视频这个词只是因为它的语料是从 ActivityNet(视频动作识别集)和 WikiHow 挖掘并转化成文本的。顺便一提,这也暗示了数据重叠风险,因为维基百科和WikiHow都在预训练数据中。
Q9:在看模型的安全拒绝率(Refusal Rate)时,有没有考虑模型可能变成“复读机”,拒绝回答任何正常问题?
回答: 问得很好。如果一个模型拒绝回答任何问题,它的安全得分会极高,但毫无用处。所以安全评估必须与能力评估(Capabilities Eval)成对进行,确保模型既安全,又保持了对正常请求的帮助性(Helpfulness)。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)