Claude Opus 4.7 上手实测:代码能力到底涨了多少?附迁移避坑指南
上周(4月16日),Anthropic 发布了 Claude Opus 4.7。我第一时间切到这个模型跑了几天,说说真实感受和具体数据。
先看数字:代码能力到底涨了多少
直接贴 Anthropic 官方公布的基准测试数据,跟 Opus 4.6 和 GPT-5.4 对比:
| 测试项 | Opus 4.6 | Opus 4.7 | GPT-5.4 |
|---|---|---|---|
| SWE-bench Verified | 80.8% | 87.6% | — |
| SWE-bench Pro(多语言) | 53.4% | 64.3% | 57.7% |
| CursorBench | 58% | 70% | — |
| MCP-Atlas(工具调用) | 75.8% | 77.3% | 68.1% |
| Terminal-Bench 2.0 | 65.4% | 69.4% | 75.1% |
| GPQA Diamond | 91.3% | 94.2% | 94.4% |
| BrowseComp(网页搜索) | 83.7% | 79.3% | 89.3% |
拆开看看:
SWE-bench Verified 从 80.8% 跳到 87.6%,接近 7 个百分点。这个测试是 500 个经过人工验证的 GitHub issue,模型要端到端地修复。Cursor CEO 也在自家 CursorBench 上实测了 58% → 70% 的提升。
MCP-Atlas 测试里 Opus 4.7 拿了 77.3%,这个数字在所有公开模型里最高。如果你在做多工具调用的 Agent 编排,这是最该关注的指标。
但有个退步:BrowseComp 从 83.7% 掉到 79.3%。如果你的 Agent 大量依赖网页搜索和信息抓取,这个退步要留意。
最有用的新功能:自验证行为
跑了几天之后,我觉得最实际的改进不在跑分上,而是模型的"自验证"行为。
以前用 Opus 4.6 写完代码,它经常直接告诉你"搞定了"。你一跑,发现有 bug。Opus 4.7 不一样——它写完代码后会自己跑测试,发现问题就自己修,修完再跑,确认通过了才报告完成。
Notion AI 团队说 Opus 4.7 是"第一个通过我们隐式需求测试的模型"——就是那些不明确告诉模型该调什么工具、模型需要自己推断的场景。Hex 的 CTO 也提到,这个模型"在数据缺失时会直接说缺数据,不会编一个看起来合理但实际上错误的答案"。
实际体感就是:以前用 Claude Code 做复杂重构,写完了我还得盯着跑一遍,经常要改两三轮。换了 Opus 4.7 之后,它自己跑测试、自己修,我收到结果时已经是能用的了。省了不少来回。
实操:怎么切换到 Opus 4.7
API 调用
模型 ID 从 claude-opus-4-6 改成 claude-opus-4-7,价格没变——输入 $5/百万 token,输出 $25/百万 token。
Python 示例:
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-7", # 之前是 claude-opus-4-6
max_tokens=4096,
messages=[
{"role": "user", "content": "帮我写一个 Python 装饰器,记录函数执行时间并自动重试失败的请求"}
]
)
print(response.content[0].text)
Claude Code 里切换
Claude Code 已经更新支持 Opus 4.7,直接在终端里操作:
# 切换模型
/model claude-opus-4-7
# 设置 effort 等级(下面会讲)
/effort xhigh
# 或者启动时指定
claude --model claude-opus-4-7 --effort xhigh
也可以通过环境变量设置:
export CLAUDE_CODE_MODEL=claude-opus-4-7
export CLAUDE_CODE_EFFORT_LEVEL=xhigh
在 Cursor 里用
Cursor 的模型选择器里已经有 Opus 4.7 了,直接下拉菜单切换。
新的 effort 等级:xhigh
Opus 4.7 新增了一个 xhigh effort 等级,在原来的 high 和 max 之间。Claude Code 现在默认用 xhigh。
之前的等级是 low、medium、high、max。现在多了个 xhigh。
Hex 团队有个观察挺有意思:低 effort 的 Opus 4.7 大约等于中等 effort 的 Opus 4.6。按这个换算,如果你之前在 Opus 4.6 上用 high,那现在 Opus 4.7 上用 xhigh 是对等选择。
具体怎么设:
# Claude Code 内部
/effort xhigh
# API 调用时设置
response = client.messages.create(
model="claude-opus-4-7",
max_tokens=4096,
thinking={
"type": "enabled",
"budget_tokens": 10000
},
messages=[...]
)
简单任务用 medium 就够了,复杂的代码重构或者多步骤 Agent 任务再上 xhigh。别什么都用 max,费钱而且慢。
Task Budget:控制 Agent 的 token 开销
这个是公开测试阶段的新功能。以前 Agent 跑长任务时,token 消耗经常失控。Task Budget 给模型设一个 token 上限,模型会看到一个倒计时,在预算快用完时自动收束任务。
用法是在请求头里加 beta 标识:
response = client.messages.create(
model="claude-opus-4-7",
max_tokens=4096,
extra_headers={
"anthropic-beta": "task-budgets-2026-03-13"
},
task_budget=50000, # token 上限
messages=[...]
)
实际跑下来,设 50000 token 预算能覆盖大多数中等复杂度的编码任务。如果是大型重构,建议设到 100000 以上。
视觉能力:分辨率提升 3.3 倍
Opus 4.7 处理图片的最大分辨率从 1568px(约 1.15MP)提升到 2576px(约 3.75MP)。这个是模型级别的改动,不需要改任何 API 参数,传图片进去自动按高分辨率处理。
做 Computer Use 的开发者受益最大。以前 Opus 4.6 做屏幕操作时,坐标经常对不上——因为截图被降采样了,模型输出的像素坐标和实际屏幕坐标有偏差,需要额外加一步缩放校正。
Opus 4.7 不用了。截图坐标和屏幕坐标 1:1 对应。XBOW Visual Acuity 测试从 54.5% 飙到 98.5%,几乎满分。
如果你在做 UI 自动化 Agent,这个改进省掉了不少麻烦。
迁移要注意的坑
虽然 API 层面改个模型 ID 就行,但有两个地方要留意。
1. Tokenizer 变了
Opus 4.7 换了新的 tokenizer。同样的文本,token 数量可能比之前多 1x 到 1.35x。虽然单价没变,但同样的请求实际花费可能贵 10% - 35%。
建议迁移前先拿你的典型 prompt 跑一遍,对比一下 token 消耗。
2. BrowseComp 下降
前面说过了,网页搜索能力有退步。如果你的系统里有依赖模型做大量网页调研的环节,先测一下实际表现再决定是否切换。
3. Cyber 安全限制
Opus 4.7 内置了网络安全方面的限制,会自动检测和拦截部分安全相关请求。如果你在做合法的安全测试(渗透测试、红队演练),需要加入 Anthropic 的 Cyber Verification Program 才能正常使用。
我的建议
做编码 Agent 的话,直接切。代码能力提升是实打实的,自验证减少了返工次数,xhigh effort 在效果和成本之间也有不错的平衡。
做网页搜索和信息搜集的 Agent 先等等。BrowseComp 掉了 4 个点,先拿你自己的场景测一下,别盲目跟进。
另外注意新 tokenizer 的额外开销,同样的 prompt 可能多花 10% - 35%。迁移前先对比一下 token 数量。
Anthropic 还有个更强的 Mythos Preview 模型,但只对少数企业合作伙伴开放。对大多数开发者来说,Opus 4.7 就是当前能用的天花板。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)