每次新模型发布,最热闹的部分往往不是模型名,而是后面那张长表。

SWE-Bench VerifiedTerminal-Bench 2.0OSWorldGPQA DiamondMMLUMMMU ProBrowseComp……名字一个比一个唬人,像极了游戏里的成就系统。

如果咱们不常盯模型圈,很容易有两个感觉:

  • 第一,怎么每家都赢了?
  • 第二,这些分数到底跟我有什么关系?

如果只想先记一个最实用的版本,其实可以直接看这个:

  • 想看写代码、改 bug、提 PR:先看 SWE-Bench Verified
  • 想看在终端里跑命令、改配置、排障:先看 Terminal-Bench 2.0
  • 想看自动操作桌面软件:先看 OSWorld
  • 想看自己查资料、做研究、汇总网页信息:先看 BrowseComp
  • 想看图表、截图、公式、文档理解:先看 MMMU Pro
  • 想看知识底子和高难推理:再看 MMLUGPQA DiamondHumanity's Last Exam
  • 想看工具调用和 agent 工作流:看 MCP Atlast2-bench

先把这张"使用说明"记住,再回头看各家发布会,就没那么容易被一堆数字带着跑了。

这事其实挺像手机发布会跑分。

早几年,大家最爱看的还是"模型会不会答题"。后来发现,答题高分不等于真能干活;再后来,Agent、工具调用、电脑操作这些能力开始变重要,于是榜单也一波一波换主角。

所以看这些 benchmark,别只看分数,先看它想证明什么。很多时候,榜单本身就是厂商在说:咱们这一代模型,想让你记住它最擅长的是什么。

第一代明星:先证明模型会考试

MMLU

MMLU 算是大模型 benchmark 里的老牌指标,测的是大范围学科知识问答。数学、物理、法律、医学、经济都覆盖到了,本质上像一张综合考试卷。

它当年火,很大程度上是因为简单直接:谁分高,谁看起来更"聪明"。但它现在越来越像基础分。原因也简单:选择题适合标准化比较,但也最容易把"会答题"和"会做事"混在一起。

所以现在如果哪家发布会还把 MMLU 放得特别靠前,业内一般不会太激动。它能说明模型底��不错,但很难单靠它证明模型已经能进真实工作流。

GPQA Diamond

GPQA Diamond 测的是专家级高难度知识推理。题目来自物理、化学、生物这些理工科领域,难度明显高于 MMLU

它在发布会里常扮演一个角色:证明模型不只是"知道得多",而是"碰到硬题也能推"。

但这个榜单也有很典型的圈内观感:更像高智商证明题,不太像日常工作流。

也就是说,一个模型 GPQA Diamond 很高,咱们会倾向于认为它推理能力不错;但不会直接得出"那它写代码、调环境、查资料也一定强"的结论。

Humanity’s Last Exam

Humanity's Last Exam 这个名字就很会做发布会 PPT。

它测的是跨学科高难度综合题,目的很明确:给顶级模型再造一个更难拉开差距的赛场。

这个榜单的"八卦感"很强,很多人第一次记住它,不是因为题型,而是因为名字太像宣发文案。

但它也确实反映了一个规律:老 benchmark 快被刷穿以后,行业就会继续造更难的新 benchmark。

第二代明星:光会答题不够,还得会看图

MMMU Pro

MMMU Pro 测的是图文混合内容的理解和推理。题目里既有文字,也有图片、图表、公式、示意图,模型需要一起理解。

它出现的背景很现实:很多真实任务本来就不是纯文本,咱们看报表、截图、流程图,本来就是图文混着来的。

所以 MMMU ProMMLU 更接近真实场景。但它主要还是在考"理解",不是在考"执行"。它��证明模型看得懂,不代表模型一定能把事做完。

第三代明星:大家开始关心模型到底能不能干活

这一波是近两年最热闹的。原因很简单:大家对"模型像学霸一样会做题"已经有点审美疲劳了,开始追问另一个问题:它到底能不能自己干活?

SWE-Bench Verified

SWE-Bench Verified 现在几乎已经成了代码模型发布会的保留节目。

它测的是真实软件工程里的修 bug 和实现需求能力:给模型一个 GitHub 仓库里的真实 issue 和代码,让它改代码,再跑仓库自带的测试,看它到底有没有改对。Verified 版本则是把原始数据集里更靠谱、可复现的题筛出来。

这个榜单为什么这么火?因为它第一次把"会不会写代码"往"能不能在真实仓库里把事做成"推进了一大步。

但圈里也有个默认共识:SWE-Bench 很重要,但不能神化。任务集合、agent scaffold、工具链、上下文长度,都会影响结果;有些团队甚至明显是在"备赛"。

所以看到高分,正确打开方式不是"它已经是全栈工程师了",而是:它在标准化代码修复任务里,更像一个能干活的助手了。

Terminal-Bench 2.0

Terminal-Bench 2.0 测的是终端环境里的连续操作能力

模型要在真实命令行环境里读日志、跑命令、改配置、执行脚本、调试错误。重点不再是最后吐出一个答案,而是一连串动作能不能串起来。

它能火起来,和 Agent 这波热潮关系很大。因为很多开发任务本来就不是"给我一段代码",而是先看目录、再读文件、再跑命令、再看报错、再修改、再验证。

所以 Terminal-Bench 2.0 代表的是一个明确转向:模型比较的单位,从"回答"变成了"完成任务"。

OSWorld

OSWorld 测的是电脑界面操作能力

模型要像人一样操作桌面环境:打开应用、点菜单、填表单、拖拽文件、切换窗口。它考的不是代码能力,而是 GUI 场景下的执行能力。

这类榜单很符合"让模型接管更多日常软件操作"的想象,因为很多办公软件和企业内网工具根本没有优雅 API,最后还是得点界面。

不过它的问题也很明显:GUI 环境非常脆弱,分辨率、等待时间、页面细节变化,都会影响结果。也就是说,它更接近真实世界,但也更不稳定。

BrowseComp

BrowseComp 测的是上网找资料并回答复杂问题的能力

模型需要主动浏览网页、搜索信息、整合多个来源,最后再给出答案。它特别有时代感,因为很多用户对 AI 的真实期待,本来就不是"背知识库",而是"你去查一下,然后整理给我"。

不过同样地,BrowseComp 高分也不等于现实里就一定靠谱。搜索策略、页面新旧、网页可访问性,都会影响表现。它测出来的是一种很有价值的上限,不是最终体验本身。

还有一类新榜单:工具调用和 Agent 编排

t2-bench / MCP Atlas

这类 benchmark 测的是工具调用和多步流程编排能力

MCP Atlas 更偏向看模型在 MCP 生态里的工具使用能力,t2-bench 更强调多步任务怎么串起来。核心问题其实都一样:模型会不会正确选工具、按顺序调用工具、在中间步骤出错时继续往下走。

这类榜单越来越多,也很现实:单模型能力差距在缩小,真正拉开体验差距的,开始变成工具链和 workflow。

所以越往后看,benchmark 就越不像传统考试,越像"给一个数字实习生发电脑、发终端、发浏览器、发一堆工具,然后看它能不能把活接住"。

ARC-AGI 2:最容易引发争论的一个

ARC-AGI 2 测的是面对全新题型时的泛化能力

题目通常是抽象图形推理,模型之前没见过类似模式,不能靠背题,只能临场找规律。

它在一众 benchmark 里气质很特别,因为它不太关心知识储备,也不太关心具体工具使用,而更像在追问:模型到底有没有一种更一般性的抽象推理能力?

这也是为什么它总能引发讨论。支持的人会觉得它更接近"智能"本身;怀疑的人会觉得它离真实工作太远。所以它很适合用来吵架,不太适合单独拿来指导采购。

为什么每隔一阵子,发布会主推的榜单就会换一批

规律其实很简单:

  1. 先找到一个大家都认可、又方便比较的 benchmark
  2. 大家围着它优化,分数越卷越高
  3. 用户发现"高分"和"真有用"之间还有距离
  4. 于是新的 benchmark 出来,去补旧 benchmark 没覆盖到的能力

所以榜单的演化史,某种程度上就是行业对"模型到底该有用在哪儿"这件事的认知演化史

早期大家最关心"像不像学霸",后来关心"会不会推理",再后来关心"能不能调用工具、操作电脑、自己把任务做完"。

顺手看一眼:几家最近都拿什么分数上桌

如果咱们把最近几家的公开页和配图摊开来看,会更直观地发现一件事:大家虽然都在讲 benchmark,但根本不是按同一张卷子在汇报成绩。

有的主打 SWE-bench Verified,有的更爱讲 SWE-Bench ProTerminal-Bench 2.0MCP Atlas,还有的会把 ClueEvalOmniDocBench 这种更贴近自己市场和产品形态的指标搬出来。

下面这张表,不是为了告诉咱们"谁绝对第一",而是为了让咱们感受一下:同样叫 benchmark,对外展示时的选题就已经带着立场了。

模型 公开给出的数据 我更在意它说明了什么
GPT-5.4 BrowseComp 86.8%SWE-bench Verified 81.42%MCP Atlas 62.7%Humanity's Last Exam(with tools)53.0% OpenAI 这次明显更想强调"能自己查、能自己做、能自己接工具"
Claude Opus 4.6 Anthropic 官方新闻页也给了 SWE-bench Verified 81.42%BrowseComp 86.8%MCP Atlas 62.7%Humanity's Last Exam(with tools)53.0% 这一组数据;配图里还出现了 Coding Performance Evaluation 57.5 这更像在告诉外界:Opus 不只会写,还在往"长任务 + 工具链"方向对齐
GLM-5.1 官方文档正文能直接抄到的是 SWE-Bench Pro 58.4;官方配图里还能看到 Coding Performance Evaluation 54.9 智谱这次最想讲的是 coding 和 agentic coding,口径也更偏工程任务
Qwen3.6-Plus 官方博客配图里能看到 Terminal-Bench 2.0 61.4SWE-bench Pro 59.3SWE-bench Verified 78.8SWE-bench Multilingual 89ClueEval 58.7QwenWebBench 1518 EloNL2Repo 37.3MMMU 86.0OmniDocBench v1.5 91.2Video-MME 87.8 阿里这次摆法特别像"全栈能力墙":既要 coding,也要中文/网页/文档/视频,多模态和 agent 一起讲

对应的官方来源:

如果再把这些数字横着看一遍,会发现一个很有意思的现象:

  • GPT-5.4Claude Opus 4.6 更爱拿 BrowseCompMCP AtlasHLE with tools 这种"高级代理人"味道很重的指标出来
  • GLM-5.1 直接抓 SWE-Bench Pro 和 coding 配图,思路非常直给:先证明能干活
  • Qwen3.6-Plus 则更像一整面展板,恨不得把 coding、中文、文档、多模态、视频理解全摆上去

所以咱们平时看发布会榜单,最值得先问的不是"这个分高不高",而是:

它为什么偏偏选这个分数给咱们看?

benchmark 从来不只是测量工具,它也是叙事工具。

那咱们普通用户到底应该怎么看

我自己的建议是,先别问"谁分最高",先问"你最想拿它干什么"。

  • 写代码、改 bug、提 PR:重点看 SWE-Bench Verified
  • 在 CLI 里跑命令、改配置、排障:重点看 Terminal-Bench 2.0
  • 自动操作桌面软件:重点看 OSWorld
  • 查资料、做研究、汇总网页信息:重点看 BrowseComp
  • 看图表、截图、公式、文档:重点看 MMMU Pro
  • 看基础知识和高难推理底子:再参考 MMLUGPQA DiamondHumanity's Last Exam
  • 看工具调用和 agent 工作流:参考 t2-benchMCP Atlas

如果非要再补一句更"圈内"的判断,那就是:

今天的 benchmark 分数,已经越来越像产品定位广告,而不是最终使用体验本身。

一句话总结

  • MMLU:老牌综合考试,测知识覆盖
  • GPQA Diamond:高难专家题,测深度推理
  • Humanity's Last Exam:更难的综合拉分题,适合头部模型互卷
  • MMMU Pro:图文混合理解,多模态开始上桌
  • SWE-Bench Verified:真实仓库修 bug,代码能力最受关注的代表
  • Terminal-Bench 2.0:终端连续操作,代表 Agent 工作流转向
  • OSWorld:桌面 GUI 操作,离"数字员工"更近一步
  • BrowseComp:上网查资料,测主动检索与整合
  • ARC-AGI 2:抽象泛化能力,最容易引发"这算不算真正智能"争论
  • t2-bench / MCP Atlas:工具调用与多步编排,反映 Agent 生态竞争

如果咱们把这些榜单串起来看,会发现它们其实不是一堆散乱缩写,而是一条很清楚的线:

模型圈这几年一直在把"聪明"翻译成"有用",只是每一代 benchmark 翻译的方法不一样。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐