Claude 新功能：Sonnet 遇到难题，现在可以直接问 Opus 了。

yfj-unicorn

465人浏览 · 2026-04-10 19:43:47

yfj-unicorn · 2026-04-10 19:43:47 发布

哈喽，大家好，我是顾北！

Anthropic 推出 Advisor Tool：一行代码让小模型"请教"大模型，成本降低、智能提升

你可能也遇到过这个两难

用 Sonnet 跑 Agent 任务，成本低、速度快，但偶尔在关键决策点翻车——架构选错了、任务路径走偏了，后面几十步全废掉。

换成 Opus 跑全程？成本直接上去，而且大多数机械性步骤根本用不到那个级别的智能，纯属浪费。

这个问题我相信很多做 Agent 开发的人都想过，也有人自己攒了"大模型编排小模型"的方案。但大多数实现起来挺麻烦——要维护两个对话流、管理上下文传递、处理轮次路由……

Anthropic 在 2026 年 4 月 9 日直接把这件事做成了 API 原生能力，叫 Advisor Tool。

这个设计思路，比功能本身更值得关注

先说思路，因为这才是有意思的地方。

Advisor Tool 的核心模式叫"顾问策略"（Advisor Strategy）：

执行者（Executor）：Sonnet 或 Haiku，负责全程跑任务——调工具、读结果、一步步往前走
顾问（Advisor）：Opus，只在执行者卡壳、需要决策、或任务快结束时被呼叫，读全部上下文，给一个计划或纠偏建议，然后退场

顾问不调用工具，不直接输出给用户，只给执行者看一段 400-700 token 的建议文字，然后执行者继续干活。

这和常见的"大模型拆解任务、小模型执行"完全是反过来的逻辑。

通常我们的直觉是：用聪明的大模型做规划，用便宜的小模型执行。但这样做有个问题——规划和执行是分离的，执行过程中冒出来的新信息无法反馈给规划层，要么你需要额外的协调逻辑，要么大模型根本看不到执行细节。

Advisor Strategy 的逻辑反过来：让便宜的模型先跑起来，积累上下文，在真正需要高智能的时刻才触发大模型介入。这样 Opus 看到的是"带着大量执行细节的完整上下文"，给出的建议也更贴合实际情况。

顾问见证了整个过程，然后给出建议——而不是在开始时盲目规划。 这个区别挺本质的。

数字说话

光说思路不够，来看实际效果：

配置	基准测试	对比
Sonnet + Opus 顾问 vs Sonnet 单独	SWE-bench Multilingual	+2.7 个百分点，成本降低 11.9%
Haiku + Opus 顾问 vs Haiku 单独	BrowseComp	41.2% vs 19.7%，得分翻倍
Haiku + Opus 顾问 vs Sonnet 单独	BrowseComp	得分低 29%，但成本低 85%

最后那组数据最有意思：如果你的任务对智能要求不是极致，Haiku + Opus 顾问可以用 Sonnet 15% 的成本跑出七成多的效果——对于高并发、高频次的场景，这个算法非常划算。

Sonnet with an Opus advisor vs. Sonnet alone scoring on SWE-bench Multilingual

三个真实用户的评价也值得留意：

Bolt CEO Eric Simmons："在复杂任务上做出更好的架构决策，而简单任务不增加任何开销。计划和执行轨迹有了天壤之别。"

Genspark 联创兼CTO Kay Zhu："在 agent 轮次、工具调用和整体得分上都有明显提升——比我们自己搭建的规划工具还好。"

Eve Legal ML工程师 Anuraj Pandey："在结构化文档抽取任务上，顾问工具让 Haiku 4.5 能按需咨询 Opus 4.6，以五分之一的成本达到前沿模型质量。"

注意 Kay Zhu 说的那句话——"比我们自己搭建的规划工具还好"。自己搭的方案在功能上可以对标，但工程代价完全不同。

接入有多简单？真的是一行

这是 Anthropic 这次做得很克制的一个地方：整个 advisor 机制发生在一次 /v1/messages 请求内部，你不需要管理额外的上下文传递或轮次路由。

response = client.messages.create(
    model="claude-sonnet-4-6",  # 执行者
    tools=[
        {
            "type": "advisor_20260301",
            "name": "advisor",
            "model": "claude-opus-4-6",
            "max_uses": 3,       # 每次请求最多调用顾问3次
        },
        # 你原来的其他工具照常放这里
    ],
    messages=[...]
)

加入 advisor_20260301 到 tools 数组，完成。Sonnet 会自己决定什么时候叫顾问，你不需要写额外的调用逻辑。

费用怎么算：顾问产生的 token 按 Opus 费率计，执行者的 token 按 Sonnet/Haiku 费率计，分开统计在 usage.iterations 里。顾问通常只输出 400-700 token 的建议文字（含思考约 1400-1800 token），不生成最终输出——最终输出由便宜的执行者完成，所以整体成本比全程 Opus 低很多。

有几个细节要注意：

max_uses 是成本保险丝。设成 3 意味着这个请求里顾问最多被叫 3 次，超了就返回错误，执行者继续跑不退出。
Prompt caching 建议 3 次以上才开。顾问每次调用都会写一条缓存，第二次起才能读到节省。调用次数少的话，写缓存本身的成本会超过节省的部分。
多轮对话要把 advisor_tool_result 带回去。这个块不能丢，否则下一轮 API 会报 400。

适合哪些场景，不适合哪些

适合用 Advisor Tool 的情况：

代码 Agent 任务：大多数步骤是读文件、跑命令、看结果，机械性高；但关键的"怎么改这个架构"需要高智能。典型场景就是 SWE-bench 那类 bug 修复任务。
多步研究流水线：搜索 → 筛选 → 汇总，中间偶尔需要判断"这条信息值不值得深挖"。
Computer Use 类任务：大量重复性点击操作，偶尔需要判断下一步走哪个路径。

不太适合的情况：

单轮问答：没有执行过程积累，顾问也没什么可看的
每一轮都需要 Opus 级别判断：这种情况直接用 Opus 全程跑更合适，advisor 的设计假设是"大多数步骤机械性强"

我的判断

这个功能目前是 Beta，需要加 anthropic-beta: advisor-tool-2026-03-01 请求头。但即便是 Beta，设计思路已经很完整了。

我觉得它真正的价值不只是省钱和提分——而是 把"什么时候需要更高智能"这个决策权还给了模型本身。

以前我们做 Agent 系统，需要在代码层面决定"哪些步骤用大模型、哪些用小模型"，这是一个脆弱的工程决策，因为任务的难度分布往往不规律。现在可以让执行者自己感知到"我卡了，需要帮助"，然后触发顾问——这更接近人类工作的方式。

对于正在做 Agent 系统的开发者，我建议：先跑一遍你自己的 eval，对比"Sonnet 单独"和"Sonnet + Opus 顾问"的结果。如果你的任务里有明显的"关键决策点"，大概率会看到显著提升。

相关文档：

https://claude.com/blog/the-advisor-strategy

https://platform.claude.com/docs/en/agents-and-tools/tool-use/advisor-tool

你在 Agent 项目里遇到过"小模型在关键点翻车"的情况吗？欢迎评论区聊聊你的解法。

我是顾北，关注我，我们下期再见！

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从词嵌入到RNN（其一）

AtomGit开源社区

AI Agent Harness Engineering 私有化部署：难点、成本与最佳实践

本文将带你深入探讨AI Agent Harness Engineering私有化部署的全过程。我们将从什么是AI Agent Harness Engineering开始，逐步深入到私有化部署的技术难点、成本分析，最后分享业界的最佳实践。AI Agent Harness Engineering的核心概念和架构私有化部署的必要性和适用场景技术栈选择和环境准备部署过程中的关键难点和解决方案成本构成分析和

AtomGit开源社区

ragflow v0.25.4 版本更新：RESTful API 数据源连接器、Agent 标签管理、Widget 持久化、GPT-5.4 模型支持全面升级

本次更新中，Widget 自定义和持久化也是一个非常值得关注的改进点。Widget 往往是界面中承担展示、操作或信息汇总功能的组件。能够自定义 Widget，说明用户可以根据自己的使用习惯或业务需求，对界面组件进行更灵活的配置。这会让界面更贴近实际使用，而不是只停留在固定布局和固定展示方式上。这一项已经在前面详细说明，本次更新明确包含了这项能力，说明它是本版的重要改进之一。代码地址：github.