模型发布会那些榜单，到底在测什么

粒方336

308人浏览 · 2026-04-13 01:25:27

粒方336 · 2026-04-13 01:25:27 发布

每次新模型发布，最热闹的部分往往不是模型名，而是后面那张长表。

SWE-Bench Verified、Terminal-Bench 2.0、OSWorld、GPQA Diamond、MMLU、MMMU Pro、BrowseComp……名字一个比一个唬人，像极了游戏里的成就系统。

如果咱们不常盯模型圈，很容易有两个感觉：

第一，怎么每家都赢了？
第二，这些分数到底跟我有什么关系？

如果只想先记一个最实用的版本，其实可以直接看这个：

想看写代码、改 bug、提 PR：先看 SWE-Bench Verified
想看在终端里跑命令、改配置、排障：先看 Terminal-Bench 2.0
想看自动操作桌面软件：先看 OSWorld
想看自己查资料、做研究、汇总网页信息：先看 BrowseComp
想看图表、截图、公式、文档理解：先看 MMMU Pro
想看知识底子和高难推理：再看 MMLU、GPQA Diamond、Humanity's Last Exam
想看工具调用和 agent 工作流：看 MCP Atlas、t2-bench

先把这张"使用说明"记住，再回头看各家发布会，就没那么容易被一堆数字带着跑了。

这事其实挺像手机发布会跑分。

早几年，大家最爱看的还是"模型会不会答题"。后来发现，答题高分不等于真能干活；再后来，Agent、工具调用、电脑操作这些能力开始变重要，于是榜单也一波一波换主角。

所以看这些 benchmark，别只看分数，先看它想证明什么。很多时候，榜单本身就是厂商在说：咱们这一代模型，想让你记住它最擅长的是什么。

第一代明星：先证明模型会考试

MMLU

MMLU 算是大模型 benchmark 里的老牌指标，测的是大范围学科知识问答。数学、物理、法律、医学、经济都覆盖到了，本质上像一张综合考试卷。

它当年火，很大程度上是因为简单直接：谁分高，谁看起来更"聪明"。但它现在越来越像基础分。原因也简单：选择题适合标准化比较，但也最容易把"会答题"和"会做事"混在一起。

所以现在如果哪家发布会还把 MMLU 放得特别靠前，业内一般不会太激动。它能说明模型底��不错，但很难单靠它证明模型已经能进真实工作流。

GPQA Diamond

GPQA Diamond 测的是专家级高难度知识推理。题目来自物理、化学、生物这些理工科领域，难度明显高于 MMLU。

它在发布会里常扮演一个角色：证明模型不只是"知道得多"，而是"碰到硬题也能推"。

但这个榜单也有很典型的圈内观感：更像高智商证明题，不太像日常工作流。

也就是说，一个模型 GPQA Diamond 很高，咱们会倾向于认为它推理能力不错；但不会直接得出"那它写代码、调环境、查资料也一定强"的结论。

Humanity’s Last Exam

Humanity's Last Exam 这个名字就很会做发布会 PPT。

它测的是跨学科高难度综合题，目的很明确：给顶级模型再造一个更难拉开差距的赛场。

这个榜单的"八卦感"很强，很多人第一次记住它，不是因为题型，而是因为名字太像宣发文案。

但它也确实反映了一个规律：老 benchmark 快被刷穿以后，行业就会继续造更难的新 benchmark。

第二代明星：光会答题不够，还得会看图

MMMU Pro

MMMU Pro 测的是图文混合内容的理解和推理。题目里既有文字，也有图片、图表、公式、示意图，模型需要一起理解。

它出现的背景很现实：很多真实任务本来就不是纯文本，咱们看报表、截图、流程图，本来就是图文混着来的。

所以 MMMU Pro 比 MMLU 更接近真实场景。但它主要还是在考"理解"，不是在考"执行"。它��证明模型看得懂，不代表模型一定能把事做完。

第三代明星：大家开始关心模型到底能不能干活

这一波是近两年最热闹的。原因很简单：大家对"模型像学霸一样会做题"已经有点审美疲劳了，开始追问另一个问题：它到底能不能自己干活？

SWE-Bench Verified

SWE-Bench Verified 现在几乎已经成了代码模型发布会的保留节目。

它测的是真实软件工程里的修 bug 和实现需求能力：给模型一个 GitHub 仓库里的真实 issue 和代码，让它改代码，再跑仓库自带的测试，看它到底有没有改对。Verified 版本则是把原始数据集里更靠谱、可复现的题筛出来。

这个榜单为什么这么火？因为它第一次把"会不会写代码"往"能不能在真实仓库里把事做成"推进了一大步。

但圈里也有个默认共识：SWE-Bench 很重要，但不能神化。任务集合、agent scaffold、工具链、上下文长度，都会影响结果；有些团队甚至明显是在"备赛"。

所以看到高分，正确打开方式不是"它已经是全栈工程师了"，而是：它在标准化代码修复任务里，更像一个能干活的助手了。

Terminal-Bench 2.0

Terminal-Bench 2.0 测的是终端环境里的连续操作能力。

模型要在真实命令行环境里读日志、跑命令、改配置、执行脚本、调试错误。重点不再是最后吐出一个答案，而是一连串动作能不能串起来。

它能火起来，和 Agent 这波热潮关系很大。因为很多开发任务本来就不是"给我一段代码"，而是先看目录、再读文件、再跑命令、再看报错、再修改、再验证。

所以 Terminal-Bench 2.0 代表的是一个明确转向：模型比较的单位，从"回答"变成了"完成任务"。

OSWorld

OSWorld 测的是电脑界面操作能力。

模型要像人一样操作桌面环境：打开应用、点菜单、填表单、拖拽文件、切换窗口。它考的不是代码能力，而是 GUI 场景下的执行能力。

这类榜单很符合"让模型接管更多日常软件操作"的想象，因为很多办公软件和企业内网工具根本没有优雅 API，最后还是得点界面。

不过它的问题也很明显：GUI 环境非常脆弱，分辨率、等待时间、页面细节变化，都会影响结果。也就是说，它更接近真实世界，但也更不稳定。

BrowseComp

BrowseComp 测的是上网找资料并回答复杂问题的能力。

模型需要主动浏览网页、搜索信息、整合多个来源，最后再给出答案。它特别有时代感，因为很多用户对 AI 的真实期待，本来就不是"背知识库"，而是"你去查一下，然后整理给我"。

不过同样地，BrowseComp 高分也不等于现实里就一定靠谱。搜索策略、页面新旧、网页可访问性，都会影响表现。它测出来的是一种很有价值的上限，不是最终体验本身。

还有一类新榜单：工具调用和 Agent 编排

t2-bench / MCP Atlas

这类 benchmark 测的是工具调用和多步流程编排能力。

MCP Atlas 更偏向看模型在 MCP 生态里的工具使用能力，t2-bench 更强调多步任务怎么串起来。核心问题其实都一样：模型会不会正确选工具、按顺序调用工具、在中间步骤出错时继续往下走。

这类榜单越来越多，也很现实：单模型能力差距在缩小，真正拉开体验差距的，开始变成工具链和 workflow。

所以越往后看，benchmark 就越不像传统考试，越像"给一个数字实习生发电脑、发终端、发浏览器、发一堆工具，然后看它能不能把活接住"。

ARC-AGI 2：最容易引发争论的一个

ARC-AGI 2 测的是面对全新题型时的泛化能力。

题目通常是抽象图形推理，模型之前没见过类似模式，不能靠背题，只能临场找规律。

它在一众 benchmark 里气质很特别，因为它不太关心知识储备，也不太关心具体工具使用，而更像在追问：模型到底有没有一种更一般性的抽象推理能力？

这也是为什么它总能引发讨论。支持的人会觉得它更接近"智能"本身；怀疑的人会觉得它离真实工作太远。所以它很适合用来吵架，不太适合单独拿来指导采购。

为什么每隔一阵子，发布会主推的榜单就会换一批

规律其实很简单：

先找到一个大家都认可、又方便比较的 benchmark
大家围着它优化，分数越卷越高
用户发现"高分"和"真有用"之间还有距离
于是新的 benchmark 出来，去补旧 benchmark 没覆盖到的能力

所以榜单的演化史，某种程度上就是行业对"模型到底该有用在哪儿"这件事的认知演化史。

早期大家最关心"像不像学霸"，后来关心"会不会推理"，再后来关心"能不能调用工具、操作电脑、自己把任务做完"。

顺手看一眼：几家最近都拿什么分数上桌

如果咱们把最近几家的公开页和配图摊开来看，会更直观地发现一件事：大家虽然都在讲 benchmark，但根本不是按同一张卷子在汇报成绩。

有的主打 SWE-bench Verified，有的更爱讲 SWE-Bench Pro、Terminal-Bench 2.0、MCP Atlas，还有的会把 ClueEval、OmniDocBench 这种更贴近自己市场和产品形态的指标搬出来。

下面这张表，不是为了告诉咱们"谁绝对第一"，而是为了让咱们感受一下：同样叫 benchmark，对外展示时的选题就已经带着立场了。

模型	公开给出的数据	我更在意它说明了什么
`GPT-5.4`	`BrowseComp 86.8%`、`SWE-bench Verified 81.42%`、`MCP Atlas 62.7%`、`Humanity's Last Exam（with tools）53.0%`	OpenAI 这次明显更想强调"能自己查、能自己做、能自己接工具"
`Claude Opus 4.6`	Anthropic 官方新闻页也给了 `SWE-bench Verified 81.42%`、`BrowseComp 86.8%`、`MCP Atlas 62.7%`、`Humanity's Last Exam（with tools）53.0%` 这一组数据；配图里还出现了 `Coding Performance Evaluation 57.5`	这更像在告诉外界：Opus 不只会写，还在往"长任务 + 工具链"方向对齐
`GLM-5.1`	官方文档正文能直接抄到的是 `SWE-Bench Pro 58.4`；官方配图里还能看到 `Coding Performance Evaluation 54.9`	智谱这次最想讲的是 coding 和 agentic coding，口径也更偏工程任务
`Qwen3.6-Plus`	官方博客配图里能看到 `Terminal-Bench 2.0 61.4`、`SWE-bench Pro 59.3`、`SWE-bench Verified 78.8`、`SWE-bench Multilingual 89`、`ClueEval 58.7`、`QwenWebBench 1518 Elo`、`NL2Repo 37.3`、`MMMU 86.0`、`OmniDocBench v1.5 91.2`、`Video-MME 87.8`	阿里这次摆法特别像"全栈能力墙"：既要 coding，也要中文/网页/文档/视频，多模态和 agent 一起讲

对应的官方来源：

GPT-5.4：https://openai.com/zh-Hant/index/introducing-gpt-5-4/
Claude Opus 4.6：https://www.anthropic.com/news/claude-opus-4-6
GLM-5.1：https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
Qwen3.6：https://qwen.ai/blog?id=qwen3.6

如果再把这些数字横着看一遍，会发现一个很有意思的现象：

GPT-5.4 和 Claude Opus 4.6 更爱拿 BrowseComp、MCP Atlas、HLE with tools 这种"高级代理人"味道很重的指标出来
GLM-5.1 直接抓 SWE-Bench Pro 和 coding 配图，思路非常直给：先证明能干活
Qwen3.6-Plus 则更像一整面展板，恨不得把 coding、中文、文档、多模态、视频理解全摆上去

所以咱们平时看发布会榜单，最值得先问的不是"这个分高不高"，而是：

它为什么偏偏选这个分数给咱们看？

benchmark 从来不只是测量工具，它也是叙事工具。

那咱们普通用户到底应该怎么看

我自己的建议是，先别问"谁分最高"，先问"你最想拿它干什么"。

写代码、改 bug、提 PR：重点看 SWE-Bench Verified
在 CLI 里跑命令、改配置、排障：重点看 Terminal-Bench 2.0
自动操作桌面软件：重点看 OSWorld
查资料、做研究、汇总网页信息：重点看 BrowseComp
看图表、截图、公式、文档：重点看 MMMU Pro
看基础知识和高难推理底子：再参考 MMLU、GPQA Diamond、Humanity's Last Exam
看工具调用和 agent 工作流：参考 t2-bench、MCP Atlas

如果非要再补一句更"圈内"的判断，那就是：

今天的 benchmark 分数，已经越来越像产品定位广告，而不是最终使用体验本身。

一句话总结

MMLU：老牌综合考试，测知识覆盖
GPQA Diamond：高难专家题，测深度推理
Humanity's Last Exam：更难的综合拉分题，适合头部模型互卷
MMMU Pro：图文混合理解，多模态开始上桌
SWE-Bench Verified：真实仓库修 bug，代码能力最受关注的代表
Terminal-Bench 2.0：终端连续操作，代表 Agent 工作流转向
OSWorld：桌面 GUI 操作，离"数字员工"更近一步
BrowseComp：上网查资料，测主动检索与整合
ARC-AGI 2：抽象泛化能力，最容易引发"这算不算真正智能"争论
t2-bench / MCP Atlas：工具调用与多步编排，反映 Agent 生态竞争

如果咱们把这些榜单串起来看，会发现它们其实不是一堆散乱缩写，而是一条很清楚的线：

模型圈这几年一直在把"聪明"翻译成"有用"，只是每一代 benchmark 翻译的方法不一样。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从翻车到真香：一块DSP模组如何拯救你的语音通话设计

AtomGit开源社区

嵌入式语音通话翻车记：我用一块DSP模组搞定了回音、噪声和远场拾音

AtomGit开源社区

【免费开源】多格式文件转换工具 Pro：图片、PDF、文档、批量重命名一站式转换

摘要：多格式文件转换工具 Pro 是一款免费、本地的 Windows 文件处理工具，支持图片、文档、PDF、音视频等多种格式转换及批量操作。特点包括：完全免费：无会员、登录或付费限制，所有功能永久开放。本地运行：数据通过 SQLite 存储，文件不上传云端，保障隐私安全。多功能支持：图片处理（格式转换、压缩、合并PDF等）；文档互转（Excel/CSV、Markdown/PDF等）；