模型发布会那些榜单,到底在测什么
每次新模型发布,最热闹的部分往往不是模型名,而是后面那张长表。
SWE-Bench Verified、Terminal-Bench 2.0、OSWorld、GPQA Diamond、MMLU、MMMU Pro、BrowseComp……名字一个比一个唬人,像极了游戏里的成就系统。
如果咱们不常盯模型圈,很容易有两个感觉:
- 第一,怎么每家都赢了?
- 第二,这些分数到底跟我有什么关系?
如果只想先记一个最实用的版本,其实可以直接看这个:
- 想看写代码、改 bug、提 PR:先看
SWE-Bench Verified - 想看在终端里跑命令、改配置、排障:先看
Terminal-Bench 2.0 - 想看自动操作桌面软件:先看
OSWorld - 想看自己查资料、做研究、汇总网页信息:先看
BrowseComp - 想看图表、截图、公式、文档理解:先看
MMMU Pro - 想看知识底子和高难推理:再看
MMLU、GPQA Diamond、Humanity's Last Exam - 想看工具调用和 agent 工作流:看
MCP Atlas、t2-bench
先把这张"使用说明"记住,再回头看各家发布会,就没那么容易被一堆数字带着跑了。
这事其实挺像手机发布会跑分。
早几年,大家最爱看的还是"模型会不会答题"。后来发现,答题高分不等于真能干活;再后来,Agent、工具调用、电脑操作这些能力开始变重要,于是榜单也一波一波换主角。
所以看这些 benchmark,别只看分数,先看它想证明什么。很多时候,榜单本身就是厂商在说:咱们这一代模型,想让你记住它最擅长的是什么。
第一代明星:先证明模型会考试
MMLU
MMLU 算是大模型 benchmark 里的老牌指标,测的是大范围学科知识问答。数学、物理、法律、医学、经济都覆盖到了,本质上像一张综合考试卷。
它当年火,很大程度上是因为简单直接:谁分高,谁看起来更"聪明"。但它现在越来越像基础分。原因也简单:选择题适合标准化比较,但也最容易把"会答题"和"会做事"混在一起。
所以现在如果哪家发布会还把 MMLU 放得特别靠前,业内一般不会太激动。它能说明模型底��不错,但很难单靠它证明模型已经能进真实工作流。
GPQA Diamond
GPQA Diamond 测的是专家级高难度知识推理。题目来自物理、化学、生物这些理工科领域,难度明显高于 MMLU。
它在发布会里常扮演一个角色:证明模型不只是"知道得多",而是"碰到硬题也能推"。
但这个榜单也有很典型的圈内观感:更像高智商证明题,不太像日常工作流。
也就是说,一个模型 GPQA Diamond 很高,咱们会倾向于认为它推理能力不错;但不会直接得出"那它写代码、调环境、查资料也一定强"的结论。
Humanity’s Last Exam
Humanity's Last Exam 这个名字就很会做发布会 PPT。
它测的是跨学科高难度综合题,目的很明确:给顶级模型再造一个更难拉开差距的赛场。
这个榜单的"八卦感"很强,很多人第一次记住它,不是因为题型,而是因为名字太像宣发文案。
但它也确实反映了一个规律:老 benchmark 快被刷穿以后,行业就会继续造更难的新 benchmark。
第二代明星:光会答题不够,还得会看图
MMMU Pro
MMMU Pro 测的是图文混合内容的理解和推理。题目里既有文字,也有图片、图表、公式、示意图,模型需要一起理解。
它出现的背景很现实:很多真实任务本来就不是纯文本,咱们看报表、截图、流程图,本来就是图文混着来的。
所以 MMMU Pro 比 MMLU 更接近真实场景。但它主要还是在考"理解",不是在考"执行"。它��证明模型看得懂,不代表模型一定能把事做完。
第三代明星:大家开始关心模型到底能不能干活
这一波是近两年最热闹的。原因很简单:大家对"模型像学霸一样会做题"已经有点审美疲劳了,开始追问另一个问题:它到底能不能自己干活?
SWE-Bench Verified
SWE-Bench Verified 现在几乎已经成了代码模型发布会的保留节目。
它测的是真实软件工程里的修 bug 和实现需求能力:给模型一个 GitHub 仓库里的真实 issue 和代码,让它改代码,再跑仓库自带的测试,看它到底有没有改对。Verified 版本则是把原始数据集里更靠谱、可复现的题筛出来。
这个榜单为什么这么火?因为它第一次把"会不会写代码"往"能不能在真实仓库里把事做成"推进了一大步。
但圈里也有个默认共识:SWE-Bench 很重要,但不能神化。任务集合、agent scaffold、工具链、上下文长度,都会影响结果;有些团队甚至明显是在"备赛"。
所以看到高分,正确打开方式不是"它已经是全栈工程师了",而是:它在标准化代码修复任务里,更像一个能干活的助手了。
Terminal-Bench 2.0
Terminal-Bench 2.0 测的是终端环境里的连续操作能力。
模型要在真实命令行环境里读日志、跑命令、改配置、执行脚本、调试错误。重点不再是最后吐出一个答案,而是一连串动作能不能串起来。
它能火起来,和 Agent 这波热潮关系很大。因为很多开发任务本来就不是"给我一段代码",而是先看目录、再读文件、再跑命令、再看报错、再修改、再验证。
所以 Terminal-Bench 2.0 代表的是一个明确转向:模型比较的单位,从"回答"变成了"完成任务"。
OSWorld
OSWorld 测的是电脑界面操作能力。
模型要像人一样操作桌面环境:打开应用、点菜单、填表单、拖拽文件、切换窗口。它考的不是代码能力,而是 GUI 场景下的执行能力。
这类榜单很符合"让模型接管更多日常软件操作"的想象,因为很多办公软件和企业内网工具根本没有优雅 API,最后还是得点界面。
不过它的问题也很明显:GUI 环境非常脆弱,分辨率、等待时间、页面细节变化,都会影响结果。也就是说,它更接近真实世界,但也更不稳定。
BrowseComp
BrowseComp 测的是上网找资料并回答复杂问题的能力。
模型需要主动浏览网页、搜索信息、整合多个来源,最后再给出答案。它特别有时代感,因为很多用户对 AI 的真实期待,本来就不是"背知识库",而是"你去查一下,然后整理给我"。
不过同样地,BrowseComp 高分也不等于现实里就一定靠谱。搜索策略、页面新旧、网页可访问性,都会影响表现。它测出来的是一种很有价值的上限,不是最终体验本身。
还有一类新榜单:工具调用和 Agent 编排
t2-bench / MCP Atlas
这类 benchmark 测的是工具调用和多步流程编排能力。
MCP Atlas 更偏向看模型在 MCP 生态里的工具使用能力,t2-bench 更强调多步任务怎么串起来。核心问题其实都一样:模型会不会正确选工具、按顺序调用工具、在中间步骤出错时继续往下走。
这类榜单越来越多,也很现实:单模型能力差距在缩小,真正拉开体验差距的,开始变成工具链和 workflow。
所以越往后看,benchmark 就越不像传统考试,越像"给一个数字实习生发电脑、发终端、发浏览器、发一堆工具,然后看它能不能把活接住"。
ARC-AGI 2:最容易引发争论的一个
ARC-AGI 2 测的是面对全新题型时的泛化能力。
题目通常是抽象图形推理,模型之前没见过类似模式,不能靠背题,只能临场找规律。
它在一众 benchmark 里气质很特别,因为它不太关心知识储备,也不太关心具体工具使用,而更像在追问:模型到底有没有一种更一般性的抽象推理能力?
这也是为什么它总能引发讨论。支持的人会觉得它更接近"智能"本身;怀疑的人会觉得它离真实工作太远。所以它很适合用来吵架,不太适合单独拿来指导采购。
为什么每隔一阵子,发布会主推的榜单就会换一批
规律其实很简单:
- 先找到一个大家都认可、又方便比较的 benchmark
- 大家围着它优化,分数越卷越高
- 用户发现"高分"和"真有用"之间还有距离
- 于是新的 benchmark 出来,去补旧 benchmark 没覆盖到的能力
所以榜单的演化史,某种程度上就是行业对"模型到底该有用在哪儿"这件事的认知演化史。
早期大家最关心"像不像学霸",后来关心"会不会推理",再后来关心"能不能调用工具、操作电脑、自己把任务做完"。
顺手看一眼:几家最近都拿什么分数上桌
如果咱们把最近几家的公开页和配图摊开来看,会更直观地发现一件事:大家虽然都在讲 benchmark,但根本不是按同一张卷子在汇报成绩。
有的主打 SWE-bench Verified,有的更爱讲 SWE-Bench Pro、Terminal-Bench 2.0、MCP Atlas,还有的会把 ClueEval、OmniDocBench 这种更贴近自己市场和产品形态的指标搬出来。
下面这张表,不是为了告诉咱们"谁绝对第一",而是为了让咱们感受一下:同样叫 benchmark,对外展示时的选题就已经带着立场了。
| 模型 | 公开给出的数据 | 我更在意它说明了什么 |
|---|---|---|
GPT-5.4 |
BrowseComp 86.8%、SWE-bench Verified 81.42%、MCP Atlas 62.7%、Humanity's Last Exam(with tools)53.0% |
OpenAI 这次明显更想强调"能自己查、能自己做、能自己接工具" |
Claude Opus 4.6 |
Anthropic 官方新闻页也给了 SWE-bench Verified 81.42%、BrowseComp 86.8%、MCP Atlas 62.7%、Humanity's Last Exam(with tools)53.0% 这一组数据;配图里还出现了 Coding Performance Evaluation 57.5 |
这更像在告诉外界:Opus 不只会写,还在往"长任务 + 工具链"方向对齐 |
GLM-5.1 |
官方文档正文能直接抄到的是 SWE-Bench Pro 58.4;官方配图里还能看到 Coding Performance Evaluation 54.9 |
智谱这次最想讲的是 coding 和 agentic coding,口径也更偏工程任务 |
Qwen3.6-Plus |
官方博客配图里能看到 Terminal-Bench 2.0 61.4、SWE-bench Pro 59.3、SWE-bench Verified 78.8、SWE-bench Multilingual 89、ClueEval 58.7、QwenWebBench 1518 Elo、NL2Repo 37.3、MMMU 86.0、OmniDocBench v1.5 91.2、Video-MME 87.8 |
阿里这次摆法特别像"全栈能力墙":既要 coding,也要中文/网页/文档/视频,多模态和 agent 一起讲 |
对应的官方来源:
GPT-5.4:https://openai.com/zh-Hant/index/introducing-gpt-5-4/Claude Opus 4.6:https://www.anthropic.com/news/claude-opus-4-6GLM-5.1:https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1Qwen3.6:https://qwen.ai/blog?id=qwen3.6
如果再把这些数字横着看一遍,会发现一个很有意思的现象:
GPT-5.4和Claude Opus 4.6更爱拿BrowseComp、MCP Atlas、HLE with tools这种"高级代理人"味道很重的指标出来GLM-5.1直接抓SWE-Bench Pro和 coding 配图,思路非常直给:先证明能干活Qwen3.6-Plus则更像一整面展板,恨不得把 coding、中文、文档、多模态、视频理解全摆上去
所以咱们平时看发布会榜单,最值得先问的不是"这个分高不高",而是:
它为什么偏偏选这个分数给咱们看?
benchmark 从来不只是测量工具,它也是叙事工具。
那咱们普通用户到底应该怎么看
我自己的建议是,先别问"谁分最高",先问"你最想拿它干什么"。
- 写代码、改 bug、提 PR:重点看
SWE-Bench Verified - 在 CLI 里跑命令、改配置、排障:重点看
Terminal-Bench 2.0 - 自动操作桌面软件:重点看
OSWorld - 查资料、做研究、汇总网页信息:重点看
BrowseComp - 看图表、截图、公式、文档:重点看
MMMU Pro - 看基础知识和高难推理底子:再参考
MMLU、GPQA Diamond、Humanity's Last Exam - 看工具调用和 agent 工作流:参考
t2-bench、MCP Atlas
如果非要再补一句更"圈内"的判断,那就是:
今天的 benchmark 分数,已经越来越像产品定位广告,而不是最终使用体验本身。
一句话总结
MMLU:老牌综合考试,测知识覆盖GPQA Diamond:高难专家题,测深度推理Humanity's Last Exam:更难的综合拉分题,适合头部模型互卷MMMU Pro:图文混合理解,多模态开始上桌SWE-Bench Verified:真实仓库修 bug,代码能力最受关注的代表Terminal-Bench 2.0:终端连续操作,代表 Agent 工作流转向OSWorld:桌面 GUI 操作,离"数字员工"更近一步BrowseComp:上网查资料,测主动检索与整合ARC-AGI 2:抽象泛化能力,最容易引发"这算不算真正智能"争论t2-bench/MCP Atlas:工具调用与多步编排,反映 Agent 生态竞争
如果咱们把这些榜单串起来看,会发现它们其实不是一堆散乱缩写,而是一条很清楚的线:
模型圈这几年一直在把"聪明"翻译成"有用",只是每一代 benchmark 翻译的方法不一样。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)