上周(4月16日),Anthropic 发布了 Claude Opus 4.7。我第一时间切到这个模型跑了几天,说说真实感受和具体数据。

先看数字:代码能力到底涨了多少

直接贴 Anthropic 官方公布的基准测试数据,跟 Opus 4.6 和 GPT-5.4 对比:

测试项 Opus 4.6 Opus 4.7 GPT-5.4
SWE-bench Verified 80.8% 87.6%
SWE-bench Pro(多语言) 53.4% 64.3% 57.7%
CursorBench 58% 70%
MCP-Atlas(工具调用) 75.8% 77.3% 68.1%
Terminal-Bench 2.0 65.4% 69.4% 75.1%
GPQA Diamond 91.3% 94.2% 94.4%
BrowseComp(网页搜索) 83.7% 79.3% 89.3%

拆开看看:

SWE-bench Verified 从 80.8% 跳到 87.6%,接近 7 个百分点。这个测试是 500 个经过人工验证的 GitHub issue,模型要端到端地修复。Cursor CEO 也在自家 CursorBench 上实测了 58% → 70% 的提升。

MCP-Atlas 测试里 Opus 4.7 拿了 77.3%,这个数字在所有公开模型里最高。如果你在做多工具调用的 Agent 编排,这是最该关注的指标。

但有个退步:BrowseComp 从 83.7% 掉到 79.3%。如果你的 Agent 大量依赖网页搜索和信息抓取,这个退步要留意。

最有用的新功能:自验证行为

跑了几天之后,我觉得最实际的改进不在跑分上,而是模型的"自验证"行为。

以前用 Opus 4.6 写完代码,它经常直接告诉你"搞定了"。你一跑,发现有 bug。Opus 4.7 不一样——它写完代码后会自己跑测试,发现问题就自己修,修完再跑,确认通过了才报告完成。

Notion AI 团队说 Opus 4.7 是"第一个通过我们隐式需求测试的模型"——就是那些不明确告诉模型该调什么工具、模型需要自己推断的场景。Hex 的 CTO 也提到,这个模型"在数据缺失时会直接说缺数据,不会编一个看起来合理但实际上错误的答案"。

实际体感就是:以前用 Claude Code 做复杂重构,写完了我还得盯着跑一遍,经常要改两三轮。换了 Opus 4.7 之后,它自己跑测试、自己修,我收到结果时已经是能用的了。省了不少来回。

实操:怎么切换到 Opus 4.7

API 调用

模型 ID 从 claude-opus-4-6 改成 claude-opus-4-7,价格没变——输入 $5/百万 token,输出 $25/百万 token。

Python 示例:

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-7",  # 之前是 claude-opus-4-6
    max_tokens=4096,
    messages=[
        {"role": "user", "content": "帮我写一个 Python 装饰器,记录函数执行时间并自动重试失败的请求"}
    ]
)
print(response.content[0].text)

Claude Code 里切换

Claude Code 已经更新支持 Opus 4.7,直接在终端里操作:

# 切换模型
/model claude-opus-4-7

# 设置 effort 等级(下面会讲)
/effort xhigh

# 或者启动时指定
claude --model claude-opus-4-7 --effort xhigh

也可以通过环境变量设置:

export CLAUDE_CODE_MODEL=claude-opus-4-7
export CLAUDE_CODE_EFFORT_LEVEL=xhigh

在 Cursor 里用

Cursor 的模型选择器里已经有 Opus 4.7 了,直接下拉菜单切换。

新的 effort 等级:xhigh

Opus 4.7 新增了一个 xhigh effort 等级,在原来的 highmax 之间。Claude Code 现在默认用 xhigh。

之前的等级是 low、medium、high、max。现在多了个 xhigh。

Hex 团队有个观察挺有意思:低 effort 的 Opus 4.7 大约等于中等 effort 的 Opus 4.6。按这个换算,如果你之前在 Opus 4.6 上用 high,那现在 Opus 4.7 上用 xhigh 是对等选择。

具体怎么设:

# Claude Code 内部
/effort xhigh

# API 调用时设置
response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=4096,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    messages=[...]
)

简单任务用 medium 就够了,复杂的代码重构或者多步骤 Agent 任务再上 xhigh。别什么都用 max,费钱而且慢。

Task Budget:控制 Agent 的 token 开销

这个是公开测试阶段的新功能。以前 Agent 跑长任务时,token 消耗经常失控。Task Budget 给模型设一个 token 上限,模型会看到一个倒计时,在预算快用完时自动收束任务。

用法是在请求头里加 beta 标识:

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=4096,
    extra_headers={
        "anthropic-beta": "task-budgets-2026-03-13"
    },
    task_budget=50000,  # token 上限
    messages=[...]
)

实际跑下来,设 50000 token 预算能覆盖大多数中等复杂度的编码任务。如果是大型重构,建议设到 100000 以上。

视觉能力:分辨率提升 3.3 倍

Opus 4.7 处理图片的最大分辨率从 1568px(约 1.15MP)提升到 2576px(约 3.75MP)。这个是模型级别的改动,不需要改任何 API 参数,传图片进去自动按高分辨率处理。

做 Computer Use 的开发者受益最大。以前 Opus 4.6 做屏幕操作时,坐标经常对不上——因为截图被降采样了,模型输出的像素坐标和实际屏幕坐标有偏差,需要额外加一步缩放校正。

Opus 4.7 不用了。截图坐标和屏幕坐标 1:1 对应。XBOW Visual Acuity 测试从 54.5% 飙到 98.5%,几乎满分。

如果你在做 UI 自动化 Agent,这个改进省掉了不少麻烦。

迁移要注意的坑

虽然 API 层面改个模型 ID 就行,但有两个地方要留意。

1. Tokenizer 变了

Opus 4.7 换了新的 tokenizer。同样的文本,token 数量可能比之前多 1x 到 1.35x。虽然单价没变,但同样的请求实际花费可能贵 10% - 35%。

建议迁移前先拿你的典型 prompt 跑一遍,对比一下 token 消耗。

2. BrowseComp 下降

前面说过了,网页搜索能力有退步。如果你的系统里有依赖模型做大量网页调研的环节,先测一下实际表现再决定是否切换。

3. Cyber 安全限制

Opus 4.7 内置了网络安全方面的限制,会自动检测和拦截部分安全相关请求。如果你在做合法的安全测试(渗透测试、红队演练),需要加入 Anthropic 的 Cyber Verification Program 才能正常使用。

我的建议

做编码 Agent 的话,直接切。代码能力提升是实打实的,自验证减少了返工次数,xhigh effort 在效果和成本之间也有不错的平衡。

做网页搜索和信息搜集的 Agent 先等等。BrowseComp 掉了 4 个点,先拿你自己的场景测一下,别盲目跟进。

另外注意新 tokenizer 的额外开销,同样的 prompt 可能多花 10% - 35%。迁移前先对比一下 token 数量。

Anthropic 还有个更强的 Mythos Preview 模型,但只对少数企业合作伙伴开放。对大多数开发者来说,Opus 4.7 就是当前能用的天花板。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐