在这里插入图片描述

昨晚 10 点半,Anthropic 发了一条推文,3 小时 330 万浏览。

Claude Opus 4.7,他们说这是"最能干的 Opus"。

我看完官方博客、跑完三个 benchmark 数据源、做完横纵向对比表之后,想说一句可能不太受欢迎的话:

大部分人根本不需要 Opus 4.7。

不是因为它不好——恰恰相反,它好得很具体。问题出在:你选模型的方式本身就是错的。

01 先看数据,再聊感受

Opus 4.7 的核心提升:

SWE-bench Verified(编程):80.8% → 87.6%,一个版本涨了 6.8 个百分点。
视觉精度 XBOW:54.5% → 98.5%,接近翻倍。
CursorBench(IDE 内编程):58% → 70%
生产环境任务解决量:上一代的 3 倍
工具调用错误:减少 33%

这些数字很硬。编程场景下,Opus 4.7 是目前毫无争议的第一。

但我紧接着做了一件事——把它和 GPT-5.4、Gemini 3.1 Pro 放在同一张表里。

结果让我清醒了。

02 没有全能之王

能力维度 第一名 分数 第二名 差距
编程(SWE-bench) Claude Opus 4.7 87.6% Gemini 3.1 Pro 80.6% +7pp
工具调用(MCP-Atlas) Claude Opus 4.7 77.3% Gemini 73.9% +3.4pp
科学推理(GPQA) GPT-5.4 Pro 94.4% Opus 4.7 94.2% 仅差0.2%
多语言(MMMLU) Gemini 3.1 Pro 92.6% Opus 4.7 91.5% +1.1pp
搜索(BrowseComp) GPT-5.4 Pro 89.3% Opus 4.7 79.3% +10pp
数学(FrontierMath) GPT-5.4 Pro 50.0% 无对手
上下文长度 Gemini 3.1 Pro 1000万 Llama 4 Scout 1000万 并列

编程 → Claude 碾压。数学 → OpenAI 统治。科学+多模态 → Google 最全面。

三家各有一块绝对领地,没有任何一个模型在所有维度上同时第一。

这就是 2026 年 4 月的真相:AI 模型之间的竞争,已经从"谁更强"变成了"谁在你的场景里更强"。

03 选错模型,等于烧钱

来看一笔账。

假设你是一个日常开发团队,主要用 AI 写代码和 review。你选了 GPT-5.4 Pro,因为"综合最强"。

GPT-5.4 Pro 定价:$30 输入 / $180 输出(每百万 token)。
Claude Sonnet 4.6 定价:$3 输入 / $15 输出。

编程场景下,Sonnet 4.6 的 SWE-bench 是 79.6%,GPT-5.4 是 78.2%。

你花了 10 倍的价格,买到了更低 1.4% 的编程分数。

反过来,如果你是做科研推理的,选了 Opus 4.7($5/$25),而 Gemini 3.1 Pro($2/$12)在 GPQA 上还高了 0.1%,你又多花了 2 倍。

这不是"哪个模型好"的问题,是"你的钱花在对的地方了吗"的问题。

04 一张决策表,省你半小时

别看 benchmark 论文了。记住这张表就够:

你的场景 直接选 月成本量级 别选
日常写代码 Claude Sonnet 4.6 ($3/$15) $50-200 GPT-5.4 Pro(贵10倍,编程更弱)
高难 Agent 自主任务 Claude Opus 4.7 ($5/$25) $200-800
科研推理/博士级问答 Gemini 3.1 Pro ($2/$12) $30-150 Opus(科学推理不是最强项)
数学竞赛/研究级数学 GPT-5.4 Pro ($30/$180) $500+ 其他所有(数学OpenAI无对手)
预算极度敏感 Kimi K2 Thinking ($0.6/$2.5) $10-50 任何 $5+ 的模型
处理超长文档 Gemini 3.1 Pro (1000万上下文) $30-150 Opus(20万上下文,差50倍)
本地部署/数据不出境 GLM-5 或 Llama 4 硬件成本 所有闭源API
极致省钱跑量 Qwen 3.5 9B ($0.10/M) $5-20

核心逻辑:先定场景,再选模型。不是反过来。

05 Opus 4.7 真正值得关注的三件事

抛开 benchmark 数字,Opus 4.7 有三个能力升级是质变级别的:

第一,自我验证。

推文原话:“verifies its own outputs before reporting back”。

这不是简单的 double-check。它会在输出前主动设计一套验证方案,跑完验证才给你结果。遇到数据对不上的情况,它会告诉你"数据不足,我无法确认",而不是编一个看起来合理的答案。

对于跑长时间 Agent 任务的人,这是从"你要盯着它"到"它自己能负责"的跨越。

第二,视觉分辨率 3 倍提升。

从约 125 万像素到 375 万像素。XBOW 渗透测试的视觉精度从 54.5% 跳到 98.5%。

之前让 Claude 看截图、分析 UI、读文档里的表格,经常瞎猜。现在基本能看清了。这对产品经理、设计师、测试工程师来说是实打实的能力解锁。

第三,Anthropic 手里还有一张没打的牌。

官方博客明确说了:Opus 4.7 不如 Claude Mythos Preview。

Mythos 在 SWE-bench Pro 上跑出了 77.8%,Opus 4.7 是 64.3%——差了 13.5 个百分点。

这意味着 Anthropic 的技术上限远不止于此。Opus 4.7 是正式发布的"稳定版",Mythos 是还在测试的"核弹"。

06 2026 年选模型的底层逻辑变了

去年这个时候,选模型的决策很简单——选最贵最强的就对了,因为差距太大。

今年不一样了。三个趋势彻底改变了游戏规则:

趋势一:成本崩塌。 去年花 $500/月才能用到的能力,今年 $50 就够了。Qwen 3.5 9B 只要 $0.10/M tokens,一个 9B 参数的小模型在 GPQA 上跑出了 81.7%——超过去年的 120B 大模型。

趋势二:开源逼平闭源。 GLM-5 在 SWE-bench 上 77.8%,Claude Opus 4.6 是 80.8%,差距只有 3 个百分点。"开源落后闭源两年"这句话,2026 年已经被数据证伪了。

趋势三:没有全能冠军。 每家都有自己的绝对领地——Claude 的编程、OpenAI 的数学、Google 的科学推理和长上下文。选模型从"选最强的"变成了"选最匹配的"。

所以我的建议很简单:

别追"最新发布",追"最匹配场景"。Opus 4.7 发布了,很好。但如果你的核心场景是科研推理,Gemini 3.1 Pro 仍然是更好的选择,而且只要 1/2.5 的价格。

连夜写完这篇的时候,外面天快亮了。推特上还在刷 Opus 4.7 的 benchmark 截图,评论区一片"Claude 永远的神"。

我只想说一句:2026 年了,"神"有好几个。关键是你拜对了庙。


*数据来源:Anthropic 官方博客、Build Fast with AI、LM Council(Epoch/Scale 独立测试)、Vellum.ai。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐