Claude Opus 4.7 上手实测：代码能力到底涨了多少？附迁移避坑指南

baidu_32885171

892人浏览 · 2026-04-23 11:07:08

baidu_32885171 · 2026-04-23 11:07:08 发布

上周（4月16日），Anthropic 发布了 Claude Opus 4.7。我第一时间切到这个模型跑了几天，说说真实感受和具体数据。

先看数字：代码能力到底涨了多少

直接贴 Anthropic 官方公布的基准测试数据，跟 Opus 4.6 和 GPT-5.4 对比：

测试项	Opus 4.6	Opus 4.7	GPT-5.4
SWE-bench Verified	80.8%	87.6%	—
SWE-bench Pro（多语言）	53.4%	64.3%	57.7%
CursorBench	58%	70%	—
MCP-Atlas（工具调用）	75.8%	77.3%	68.1%
Terminal-Bench 2.0	65.4%	69.4%	75.1%
GPQA Diamond	91.3%	94.2%	94.4%
BrowseComp（网页搜索）	83.7%	79.3%	89.3%

拆开看看：

SWE-bench Verified 从 80.8% 跳到 87.6%，接近 7 个百分点。这个测试是 500 个经过人工验证的 GitHub issue，模型要端到端地修复。Cursor CEO 也在自家 CursorBench 上实测了 58% → 70% 的提升。

MCP-Atlas 测试里 Opus 4.7 拿了 77.3%，这个数字在所有公开模型里最高。如果你在做多工具调用的 Agent 编排，这是最该关注的指标。

但有个退步：BrowseComp 从 83.7% 掉到 79.3%。如果你的 Agent 大量依赖网页搜索和信息抓取，这个退步要留意。

最有用的新功能：自验证行为

跑了几天之后，我觉得最实际的改进不在跑分上，而是模型的"自验证"行为。

以前用 Opus 4.6 写完代码，它经常直接告诉你"搞定了"。你一跑，发现有 bug。Opus 4.7 不一样——它写完代码后会自己跑测试，发现问题就自己修，修完再跑，确认通过了才报告完成。

Notion AI 团队说 Opus 4.7 是"第一个通过我们隐式需求测试的模型"——就是那些不明确告诉模型该调什么工具、模型需要自己推断的场景。Hex 的 CTO 也提到，这个模型"在数据缺失时会直接说缺数据，不会编一个看起来合理但实际上错误的答案"。

实际体感就是：以前用 Claude Code 做复杂重构，写完了我还得盯着跑一遍，经常要改两三轮。换了 Opus 4.7 之后，它自己跑测试、自己修，我收到结果时已经是能用的了。省了不少来回。

实操：怎么切换到 Opus 4.7

API 调用

模型 ID 从 claude-opus-4-6 改成 claude-opus-4-7，价格没变——输入 $5/百万 token，输出 $25/百万 token。

Python 示例：

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-7",  # 之前是 claude-opus-4-6
    max_tokens=4096,
    messages=[
        {"role": "user", "content": "帮我写一个 Python 装饰器，记录函数执行时间并自动重试失败的请求"}
    ]
)
print(response.content[0].text)

Claude Code 里切换

Claude Code 已经更新支持 Opus 4.7，直接在终端里操作：

# 切换模型
/model claude-opus-4-7

# 设置 effort 等级（下面会讲）
/effort xhigh

# 或者启动时指定
claude --model claude-opus-4-7 --effort xhigh

也可以通过环境变量设置：

export CLAUDE_CODE_MODEL=claude-opus-4-7
export CLAUDE_CODE_EFFORT_LEVEL=xhigh

在 Cursor 里用

Cursor 的模型选择器里已经有 Opus 4.7 了，直接下拉菜单切换。

新的 effort 等级：xhigh

Opus 4.7 新增了一个 xhigh effort 等级，在原来的 high 和 max 之间。Claude Code 现在默认用 xhigh。

之前的等级是 low、medium、high、max。现在多了个 xhigh。

Hex 团队有个观察挺有意思：低 effort 的 Opus 4.7 大约等于中等 effort 的 Opus 4.6。按这个换算，如果你之前在 Opus 4.6 上用 high，那现在 Opus 4.7 上用 xhigh 是对等选择。

具体怎么设：

# Claude Code 内部
/effort xhigh

# API 调用时设置
response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=4096,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000
    },
    messages=[...]
)

简单任务用 medium 就够了，复杂的代码重构或者多步骤 Agent 任务再上 xhigh。别什么都用 max，费钱而且慢。

Task Budget：控制 Agent 的 token 开销

这个是公开测试阶段的新功能。以前 Agent 跑长任务时，token 消耗经常失控。Task Budget 给模型设一个 token 上限，模型会看到一个倒计时，在预算快用完时自动收束任务。

用法是在请求头里加 beta 标识：

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=4096,
    extra_headers={
        "anthropic-beta": "task-budgets-2026-03-13"
    },
    task_budget=50000,  # token 上限
    messages=[...]
)

实际跑下来，设 50000 token 预算能覆盖大多数中等复杂度的编码任务。如果是大型重构，建议设到 100000 以上。