【深度】Claude Code /plan 模式的致命局限,和我如何用 Qoder 多专家架构解决它
【深度】Claude Code /plan 模式的致命局限,和我如何用 Qoder 多专家架构解决它
用 Claude Code 三个月后,我发现 /plan 模式已经足够强,但单独用它做复杂项目交付还差几件事。结合阿里 Qoder 的多专家设计思想,我设计了一套高阶方法论,让 AI 编程真正从"对话助手"变成"可靠流水线"。
关键词:Claude Code、Qoder、多 Agent 架构、AI 编程工程化、Quest Mode、Agentic Engineering
适合读者:已经用 Claude Code 写过代码,想用它做完整项目交付的工程师
前言:/plan 模式已经足够强,但还不够
Claude Code 的 /plan 模式是我用过的最被低估的功能。
它把 Claude 从一个"听到需求就立刻改代码的急躁初级程序员",瞬间变成一个"只读权限、先思考后行动"的资深架构师。Anthropic 官方推荐的 Explore → Plan → Implement 工作流,足以应付大多数中小型任务。
但当我用它做了三个月复杂项目交付之后,我发现了一个问题:
/plan 模式强在规划,但弱在执行,更弱在长链路可靠交付。
具体来说:
- 规划阶段它很强,但编码阶段它容易"偏离航线"
- 测试阶段它自己写、自己测、自己判断通过,GAN 架构早就证明了这样做的问题
- 碰到复杂项目,它的上下文会衰减,每个阶段都要重新对齐背景
- 一旦失败,没有状态管理,通常只能从头重来或者放弃
这就是我设计 Quest Mode 的起点。
Quest Mode 不是 Claude Code 或 Qoder 的内置功能,而是我结合 Qoder 的多专家架构设计思想,对 Claude Code /plan 模式的高阶增强方法论。它的目标很明确:让 AI 编程从"聊天"变成"可靠流水线"。
一、Claude Code /plan 模式为什么值得用
在说不足之前,先把 /plan 模式的价值说清楚。很多人还没意识到它有多强。
1.1 /plan 模式的工作原理
当你切换到 /plan 模式时,Claude Code 做了三件事:
权限降级:从可读写变成只读。不能修改代码,不能运行危险命令,不能提交 Git。
角色切换:从执行者变成架构师。它会阅读代码、理清逻辑、向你提问确认细节,最后输出一份结构化的实施计划。
风险识别:它会主动告诉你"修改这个模块可能影响 X 功能",而不是埋头改完再说。
1.2 标准的 Explore → Plan → Implement 工作流
第一步:Explore(探索)
输入:我想做一个小红书评论分析工具
Claude 做的事:扫描项目结构,理解技术栈,找到相关文件
输出:上下文理解 + 澄清问题
第二步:Plan(规划)
输入:确认需求后
Claude 做的事:制定详细实施计划,拆解里程碑
输出:需求文档 + 技术方案 + 任务清单
第三步:Implement(实施)
输入:确认计划
Claude 做的事:切换到正常模式,逐个里程碑实现
输出:代码变更 + 测试结果
这个工作流本身没有问题。Anthropic 的设计很精妙,/plan 模式的只读约束、风险识别、结构化输出,都是工程化的最佳实践。
1.3 /plan 模式真正的价值
很多人把 /plan 模式当成"更谨慎的代码生成",这是误解。它的真正价值在于:
把决策和执行分离。/plan 阶段专注决策(做什么、怎么做、有什么风险),Implement 阶段专注执行(写代码、跑测试)。决策阶段不应该有执行权限,执行阶段不应该偏离决策。
用 CLAUDE.md 建立长期记忆。把项目规范、编码风格、架构约束写到 CLAUDE.md,Claude 每次新会话都能继承上下文,减少重复说明。
用清晰的验收标准减少反馈回路。给 Claude 测试用例或预期输出,它就能自我检查。模糊的成功标准会让你成为唯一的反馈回路,每个错误都要你介入。
二、/plan 模式在复杂项目中的五个局限
说完了价值,说问题。用它做了三个月项目交付后,我总结了五个真实的局限。
局限一:单 Agent 执行,阶段切换时上下文丢失
这是最根本的问题。
/plan 模式是一个 Agent 负责整个流程:规划 → 编码 → 测试。听起来是一个连贯的过程,但实践中有一个致命的问题:
第一阶段做的需求理解,到第四阶段已经记不全了。
每次新阶段开始,Claude 都要重新加载上下文。随着项目变大,加载的上下文越来越多,Claude 开始"遗忘"早期做出的决策。它会在编码阶段偏离最初的需求理解,写一些最初计划里根本没有的功能。
根本原因:没有 L1 信息边界层的设计。每个阶段该知道什么、不该知道什么,没有明确的边界定义。
局限二:编码和测试是同一个 Agent,自己测自己
这是 GAN 架构早就证明过的问题。
Claude 写完代码,自己运行测试,自己判断通过没有。问题很明显:Agent 很难真正否定自己的产出。它会下意识地放过一些问题,或者在修复时引入新的问题。
Anthropic 的官方指南里其实也意识到了这一点,提到"给 Claude 提供测试用例,让它自我检查"。但自己写测试、自己跑测试、自己判断结果,本质上还是同一套判断逻辑在起作用。
局限三:工具权限没有按阶段区分
在 /plan 模式的默认设定里,规划阶段和编码阶段能调用的工具是一样的。这导致:
- 规划阶段 Claude 可能已经开始写代码(它看到文件就想改)
- 测试阶段 Claude 还在改需求(没有门控约束)
- 没有阶段锁定机制,流水线随时可能崩溃
局限四:失败后没有恢复机制
这是最影响生产效率的问题。
测试挂了,Claude 在一堆未提交的变更里来回修改,越改越乱。它的错误修复往往是"试试这个,不行再试试那个"的试错模式,不系统,容易在错误的方向上越走越远。
最后的解决办法往往是"算了重来"。但重来之后,大概率还是会遇到类似的问题,因为没有状态管理,不知道上次失败的具体原因。
局限五:报告质量完全依赖最后一次对话
/plan 模式输出的是结构化计划,但执行完成后的交付报告就不太有结构了。内容取决于 Claude 最后说了什么,格式随机,容易漏项。没有变更清单,没有验收记录,交付物不完整。
三、Qoder 的多专家架构带来了什么
2025年8月,阿里发布了 Qoder,一个 Agentic 编程平台。2026年3月,Qoder 上线了 Experts Mode(专家团模式),引起了我的注意。
Experts Mode 的核心思想:输入一句自然语言需求,AI 自动组建多个专项软件工程智能体,并行完成调研、计划、编码、测试、代码审查等任务,交付完整工程结果。
每个专家是经过专项调优的软件工程智能体,各自运行在最适合自身任务的模型上。Qoder 官方称这样做成本可以降至单一顶级模型的 1/2 到 1/5。
为什么这个设计思想重要:
传统的对话式编程是一个 Agent 打天下。Qoder 的 Experts Mode 证明了:不同类型的任务,确实应该由不同专长的 Agent 来处理。
Plan Expert 专注理解需求和拆解任务,它不需要写代码的能力。
Code Expert 专注写代码,它不需要知道需求的原始背景。
Test Expert 专注验证,它不应该和 Code Expert 是同一个人。
Review Expert 专注质量把关,它只有读权限,不能直接改代码。
多专家架构的核心优势:
- 职责边界清晰,每个专家知道自己该做什么、不该做什么
- 专家之间通过结构化文档交接,不依赖 Agent 的记忆
- 独立验证,真正做到"生成和验证分离"
- 每个专家可以运行在最适合自己任务的模型上
这就是我在 Quest Mode 设计中借鉴的核心思想。
四、Quest Mode:结合 /plan 和多专家架构的高阶方法论
Quest Mode 是我对 Claude Code /plan 模式的高阶增强方法论,结合了 Qoder 的多专家架构设计思想。它的目标是在 /plan 模式的"先规划后执行"基础上,增加多专家流水线、状态管理、失败恢复,让复杂项目交付真正可靠。
4.1 整体架构
┌─────────────────────────────────────────────────────┐
│ L6: 约束与恢复层 │
│ 阶段门控 │ 失败策略 │ 超时控制 │ 自动回滚 │
├─────────────────────────────────────────────────────┤
│ L5: 评估与观测层 │
│ Code Review │ 自动化测试 │ 报告生成 │ 质量评分 │
├─────────────────────────────────────────────────────┤
│ L4: 记忆与状态层 │
│ Quest State.json │ 变更清单 │ 阶段产物 │ 版本快照 │
├─────────────────────────────────────────────────────┤
│ L3: 执行编排层 │
│ 状态机 │ 阶段门控 │ 并行任务 │ 进度追踪 │
├─────────────────────────────────────────────────────┤
│ L2: 工具系统层 │
│ Plan │ Code │ Test │ Review 工具集分层授权 │
├─────────────────────────────────────────────────────┤
│ L1: 信息边界层 │
│ 需求文档 │ 上下文摘要 │ 各阶段知识卡片 │
└─────────────────────────────────────────────────────┘
4.2 四专家流水线
基于 Qoder 的 Experts Mode 思想,我把原来单 Agent 的流程替换成四个专家:
Master Agent(主持全局,协调四专家分工)
│
├── Plan Expert → 专注文档:理解需求,拆解任务(借鉴 /plan 模式)
├── Code Expert → 专注代码:实现功能,遵守规范
├── Test Expert → 专注验证:运行测试,检查覆盖率
└── Review Expert → 专注质量:代码审查,安全审计(无写权限)
和 /plan 模式的关系:Quest Mode 的 Plan Expert 不是另起炉灶,而是把 /plan 模式的最佳实践(只读约束、风险识别、结构化输出)固化为基础能力。
职责分工:
| 专家 | 核心职责 | 借鉴来源 |
|---|---|---|
| Plan Expert | 需求理解、任务拆解、技术方案 | Claude Code /plan 模式 |
| Code Expert | 代码实现、代码规范、小步提交 | — |
| Test Expert | 测试用例、自动化验证、覆盖率检查 | — |
| Review Expert | 代码审查、安全审计、质量报告 | Qoder Experts Mode |
4.3 和 /plan 模式的本质区别
Quest Mode 不是"更好的 /plan 模式",而是不同的分工:
| 维度 | /plan 模式 | Quest Mode |
|---|---|---|
| 目标 | 单次任务规划 | 完整项目交付流水线 |
| Agent | 单 Agent 全流程 | 四专家流水线 |
| 验证 | Agent 自己测自己 | 独立 Test + Review Expert |
| 上下文 | 依赖对话记忆 | 结构化文档交接 |
| 失败恢复 | 手动重试 | 自动快照 + 回滚 |
| 适用场景 | 中小型任务 | 复杂多模块项目 |
五、核心组件详细设计
5.1 状态机与阶段门控
class QuestState:
INIT = "init" # 初始状态
PLANNING = "planning" # 规划中(Plan Expert 运行)
PLAN_APPROVED = "plan_approved" # 方案已确认(用户批准)
CODING = "coding" # 编码中(Code Expert 运行)
CODE_APPROVED = "code_approved" # 代码已审核
TESTING = "testing" # 测试中(Test Expert 运行)
COMPLETED = "completed" # 全部完成
FAILED = "failed" # 失败
RECOVERING = "recovering" # 恢复中
阶段门控规则:
| 当前状态 | 触发条件 | 启动专家 | 退出条件 | 审批人 |
|---|---|---|---|---|
| init | 用户提交需求 | Plan Expert | 需求文档输出 | 用户确认 |
| planning | 方案已确认 | Code Expert | 所有代码变更提交 | Review Expert |
| coding | Review 通过 | Test Expert | 测试覆盖率 >= 80% | Test Expert |
| testing | 测试通过 | Review Expert | 质量分数 >= 85 | Review Expert |
5.2 失败策略
FAILURE_STRATEGIES = {
"planning": {
"max_retries": 3,
"on_max_retry": "请求用户澄清需求",
"snapshot": "保存方案草稿到 .quest/plan/draft.md",
"recovery": "从草稿恢复,不从头开始",
},
"coding": {
"max_retries": 5,
"on_max_retry": "git 回滚到上一稳定 commit",
"snapshot": "每完成一个文件立即 git add + commit",
"recovery": "git checkout 到上一 commit",
},
"testing": {
"max_retries": 3,
"on_max_retry": "Code Expert 修复后重测",
"snapshot": "保存测试结果快照",
"recovery": "只重跑失败的测试用例",
},
}
5.3 记忆管理:.quest/ 目录结构
.quest/
├── state.json # 当前状态(状态机状态)
├── context.md # 全局上下文摘要
├── plan/
│ ├── requirements.md # 原始需求
│ ├── spec.md # 技术方案(/plan 模式的结构化输出)
│ └── tasks.md # 任务清单
├── code/
│ ├── changes.md # 代码变更清单
│ └── files.md # 已修改文件列表
├── test/
│ ├── results.md # 测试结果
│ └── coverage.md # 覆盖率报告
├── review/
│ ├── report.md # 质量审查报告
│ └── risks.md # 风险清单
└── reports/
└── delivery.md # 最终交付报告
上下文摘要模板(每个阶段开始时自动生成):
# Quest 上下文摘要
## 项目背景
一句话描述项目在做什么
## 当前阶段
[✓] Plan [ ] Code [ ] Test [ ] Review [ ] Report
## 已完成
- 需求文档已完成
- 技术方案已确认
## 当前瓶颈
认证模块 Token 过期未处理
## 接下来
1. 修复 Token 刷新逻辑
2. 重跑认证测试
3. 生成交付报告
5.4 工具集按专家分层授权
这是关键设计:不是每个专家都需要 bash 权限。
| 专家 | 允许的工具 |
|---|---|
| Plan Expert | read, glob, grep, web_search, write(借鉴 /plan 模式) |
| Code Expert | read, write, exec, git, linter, formatter |
| Test Expert | exec, read, glob, write(测试文件) |
| Review Expert | read, glob, exec(安全扫描), linter(仅读) |
Review Expert 没有 exec 的写权限,不能修改代码。它只能运行只读的安全扫描,修复必须通过 Master Agent 协调 Code Expert 完成。
六、完整流程
用户提交需求
│
▼
Plan Expert(借鉴 /plan 模式)
→ 理解需求 → 澄清细节 → 制定方案
→ 输出:requirements.md + spec.md + tasks.md
│ 用户确认方案
▼
Code Expert
→ 按 spec.md 实现 → 每文件完成立即 git commit
→ 输出:changes.md + 文件变更
│ Review Expert 通过
▼
Test Expert
→ 写测试 → 运行测试 → 检查覆盖率
→ 输出:test-results.md + coverage.md
│ 测试通过
▼
Review Expert
→ 代码审查 → 安全审计 → 质量评分
→ 输出:quality-report.md(无写权限)
│ 质量达标
▼
报告生成器
→ 汇总所有阶段产物 → 生成 delivery.md
│ 用户确认
▼
交付完成
七、四周落地计划
第一周:搭架子
创建 .quest/ 目录结构,编写四个专家的提示词模板,实现基础状态机,配置阶段门控规则。
第二周:引入独立验证
Test Expert 和 Code Expert 完全分离,Review Expert 代码审查功能,测试覆盖率自动检查。
第三周:增强恢复能力
每个阶段快照机制,失败后自动回滚脚本,上下文压缩生成器。
第四周:与 Claude Code /plan 模式集成
用 Claude Code 的 /plan 命令作为 Plan Expert 入口,CLAUDE.md 作为上下文管理基础,封装成可复用项目模板。
八、总结
| 维度 | /plan 模式(单独使用) | Quest Mode(多专家流水线) |
|---|---|---|
| Agent 架构 | 单 Agent 全流程 | 四专家流水线 |
| 验证机制 | Agent 自己测自己 | 独立 Test + Review Expert |
| 上下文管理 | 依赖对话记忆 | 结构化文档交接 |
| 失败恢复 | 手动重试或放弃 | 自动快照 + 回滚 |
| 工具权限 | 没有阶段区分 | 按专家精确授权 |
| 报告质量 | 依赖最后对话 | 结构化模板生成 |
| 适用场景 | 中小型任务 | 复杂多模块项目 |
核心洞察只有一句话:AI 编程的瓶颈从来不是模型有多强,而是工程基础设施能不能兜住长链路可靠交付的任务。
Claude Code 的 /plan 模式是迄今为止最被低估的 AI 编程功能之一。但单 Agent 的局限是真实存在的。Qoder 的 Experts Mode 证明了多专家架构的可行性。我所做的,不过是把这两个洞察合在一起,用工程化的方式落地。
相关阅读:
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)