AI Agent 认知模型与推理模式综述
AI Agent 认知模型与推理模式综述
从 ReAct 到 LATS,从单智能体到多智能体协作——系统梳理 LLM Agent 的核心认知架构
一、引言:为什么 Agent 需要"认知模型"
2022 年 10 月,一篇名为《ReAct: Synergizing Reasoning and Acting in Language Models》的论文横空出世,首次将 LLM 的"推理"和"行动"统一在一个循环中。此后两年,Agent 认知模型经历了爆发式增长——ReWOO、Reflexion、Tree-of-Thoughts、LATS、Plan-and-Execute、Pre-Act……这些名字背后,是人类对"让 LLM 像人一样思考"的持续探索。
本文将系统梳理当前主流的 Agent 认知模型,从底层推理基座到高层协作模式,分析每种模式的核心思想、适用场景和设计取舍。
二、认知基座:Chain-of-Thought(思维链)
所有 Agent 认知模型的根基,来自 Chain-of-Thought(CoT)——让模型在输出最终答案前,先生成中间推理步骤。
用户问题:一个农场有 23 只鸡和 17 只兔子,一共多少条腿?
CoT 推理:
鸡: 23 × 2 = 46 条腿
兔子: 17 × 4 = 68 条腿
总腿数: 46 + 68 = 114 条腿
最终答案:114
2022 年,Google 的研究表明,仅需在 prompt 末尾加上"Let’s think step by step",就能将 MultiArith 准确率从 17.7% 提升到 78.7%。
但这只是"纯内省"——模型的知识被冻结在权重中,无法访问外部世界。Agent 认知模型的核心突破,就是给模型装上了手脚和眼睛。
三、核心 Agent 认知模型
3.1 ReAct(Reasoning + Acting)—— 开山之作
论文: Yao et al., “ReAct: Synergizing Reasoning and Acting in Language Models” (2022.10)
核心循环: Thought → Action → Observation → Thought → ...
这是最经典的 Agent 模式。模型在每一步中:
- Thought:思考当前需要做什么
- Action:执行具体操作(搜索、计算、调用工具)
- Observation:观察执行结果
- 基于观察更新认知,进入下一步
Thought 1: 我需要找到 2023 年诺贝尔物理学奖得主
Action 1: Search["2023 Nobel Prize Physics winner"]
Observation 1: Pierre Agostini, Ferenc Krausz, Anne L'Huillier...
Thought 2: 我需要了解 Anne L'Huillier 的主要贡献
Action 2: Search["Anne L'Huillier attosecond physics contribution"]
Observation 2: 她在阿秒物理学的开创性工作...
Final Answer: 2023 年诺贝尔物理学奖授予...
性能数据:ALFWorld 提升 34%,WebShop 提升 10%(对比纯推理或纯行动)
优势:
- 推理过程可追溯,便于调试
- 通过外部工具接地气,减少幻觉
- 灵活适应,无需预定义执行路径
局限:
- Token 消耗随步数线性增长
- 不支持回溯(如果第三步发现第一步走错了,无法回头)
- 纯串行执行,无法并行
Ruby的注释:ReAct 是目前绝大多数 Agent 框架(LangChain、AutoGPT、agent-os)的默认模式,也是理解其他模式的基础。
3.2 Reflexion(反思)—— 从失败中学习
论文: Shinn et al., “Reflexion: Language Agents with Verbal Reinforcement Learning” (2023)
核心创新:Agent 不仅行动,还会在行动后进行自我反思,并将反思存入长期记忆,用于指导下一次尝试。
第一次尝试:
任务: 写一个正则表达式验证邮箱
行动: 输出 "\\w+@\\w+\\.\\w+"
评估: 测试失败 — 未匹配 "user@sub.example.com"
反思: "这个正则只允许一个点号分隔的域名,没有处理子域名的情况"
第二次尝试(携带反思记忆):
优化后的输出: "^[\\w.-]+@[\\w-]+(\\.[\\w-]+)+$"
评估: 测试通过 ✓
架构:
- Actor:执行任务的 LLM
- Evaluator:评估任务是否成功(基于测试用例、环境反馈等)
- Self-Reflection:生成语言化的反思,存入长期记忆
- Memory:存储反思轨迹,作为后续尝试的上下文
性能数据:HumanEval 91%(GPT-4),ALFWorld 130/134 任务成功
关键洞察:这是"语言化的强化学习"——模型的权重不变,但通过在上下文中积累反思经验,实现了类似于 RL 的渐进优化效果。
适用场景:代码生成(有测试用例)、决策任务(有明确成功/失败信号)、任何可以"试错"的场景。
3.3 Tree-of-Thoughts(思维树)—— 探索多种可能性
论文: Yao et al., “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (2023.5)
核心创新:将推理建模为树搜索——在每个步骤生成多个候选思路,评估后保留最优的继续探索。
[任务:找到24点游戏的解]
│
2, 3, 4, 6 = 24
/ | \
2+3=5 3+4=7 6-4=2
5+4=9 7+6=13 2×3=6
9+6=15 13×2=26 6×4=24 ✓
(剪枝) (剪枝) (到达目标!)
每个节点的操作:
- Expand:生成多个候选思路
- Score:评估每个候选的前景(通过启发式规则或 LLM 自评)
- Prune:保留得分最高的 K 个分支
- Backtrack:如果当前路径失败,回溯尝试其他分支
性能数据:24 点游戏成功率:CoT 4% → ToT 74%
优势:系统化的多路径探索,避免陷入死胡同
代价:大量 LLM 调用(每个节点都需要调用),成本高
适用场景:数学谜题、创意写作、策略规划——需要"多想几种方案"再来比较的场景。
3.4 ReWOO(Reasoning WithOut Observation)—— 大幅降本
论文: Xu et al., “ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models” (2023.5)
核心创新:将"推理"和"工具调用"解耦——先出完整计划(含占位符),再批量执行工具,最后合成答案。
ReAct(串行,每一步都要 LLM):
Thought → Tool → Wait → Thought → Tool → Wait → ...
ReWOO(三阶段):
Planner → 生成完整计划(含 #E1, #E2, #E3 工具占位符)
Worker → 批量执行所有工具(无 LLM 参与)
Solver → 合成最终答案
Token 对比:
| 指标 | ReAct | ReWOO |
|---|---|---|
| HotpotQA 准确率 | 40.8% | 42.4% |
| Token 用量 | ~10,000 | ~2,000(↓80%) |
适用场景:工具需求可预测的多跳问答、内容摘要、成本敏感部署。
局限:执行中无法根据中间结果动态调整计划。
3.5 Plan-and-Execute(先规划后执行)—— 工程化首选
核心创新:将任务分解为规划阶段和执行阶段,两者可以由不同能力的模型承担。
Planning Phase(强模型,如 GPT-4o):
任务: 为一篇技术博客生成配图和数据
计划:
1. 提取文章中的关键数据点
2. 为每个数据点生成可视化描述
3. 生成图表代码
4. 整合到文章中
Execution Phase(弱模型,如 GPT-4o-mini):
按序执行上述步骤,必要时触发 Replan
优势:
- 可以用强模型规划 + 弱模型执行,降低成本
- 支持 DAG 级并行执行
- 包含 Replan 机制,可动态调整
性能:比串行 ReAct 降低约 3.7 倍延迟,准确率提升约 9%
典型框架:LangGraph、CrewAI 的 sequential/parallel 模式、agent-workflow 的 YAML-defined FSM
3.6 LATS(Language Agent Tree Search)—— 集大成者
论文: Zhou et al., “Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models” (2023)
核心创新:融合 ReAct + Tree-of-Thoughts + Reflexion + MCTS(蒙特卡洛树搜索)。
LATS =
ReAct 的行动能力
+ ToT 的多路径探索
+ Reflexion 的自我反思
+ MCTS 的搜索策略
在每个决策点:
→ 生成多个候选行动
→ 用树搜索探索
→ 通过反思评估路径价值
→ 选择最优路径继续
性能:HotpotQA exact match 0.61(ReAct 0.32,Reflexion 0.51)
代价:每次请求约 71 次 LLM 调用
适用场景:需要深度推理的复杂任务、交互式 QA —— 成本允许的前提下追求最高质量。
四、模型谱系与演进关系
Chain-of-Thought (2022.01)
│
┌───────────┼───────────┐
▼ ▼ ▼
ReAct Tree-of-Thoughts Self-Ask
(2022.10) (2023.05) (2022.10)
│ │ │
├─────┬─────┤ │
▼ ▼ ▼ │
Reflexion ReWOO LATS │
(2023) (2023) (2023) │
│ │ │ │
▼ ▼ ▼ ▼
┌────────────── Plan-and-Execute ──────────────┐
│ (2023-2025) │
│ ├─ LLM Compiler (DAG + 并行, 2024) │
│ ├─ Pre-Act (持续精化计划, 2025) │
│ └─ Self-Discovery (自适应推理策略, 2024) │
└──────────────────────────────────────────────┘
│
▼
Multi-Agent Architectures
├─ Orchestrator-Worker (Anthropic, 2025)
├─ Debate / Adversarial
└─ Hierarchical Teams
两条演进主线:
| 支线 | 路径 | 核心关注 |
|---|---|---|
| 规划先行 | ReAct → ReWOO → Plan-Solve → LLM Compiler | 效率、并行、降本 |
| 反思驱动 | Reflexion → Self-Refine → LATS | 质量、纠错、学习 |
| 终点收敛 | LATS 融合两者,Pre-Act 和 Orchestrator-Worker 继承并发扬 | 质量+效率 |
五、特殊模式
Self-Ask(自问自答)
论文: Press et al., “Measuring and Narrowing the Compositionality Gap in Language Models” (2022.10)
Agent 将复杂问题分解为子问题,逐个回答,最后整合。与 ReAct 同月提出,思路相似但侧重问题分解而非工具使用。
STORM(多视角研究报告生成)
论文: Shao et al., “Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models” (2024)
从多个"专家视角"并行探索一个主题,最终合成为结构化的研究报告。本质上是多角色模拟 + 知识合成的 Agent 模式。
LLM Compiler(编译器思维)
将任务视为编译过程:解析指令 → 构建 DAG(有向无环图)→ 识别可并行的节点 → 调度执行。相比 ReWOO 的线性计划,Compiler 的 DAG 可以实现真正的并行。声称 3.6× 加速,6.7× Token 节省。
Pre-Act(持续精化)
论文: Hu et al. (2025.5)
在 Plan-and-Execute 基础上,Agent 在执行过程中持续预测未来的工具使用并提前优化。最新发表的执行期优化模式。
六、Anthropic 的工业实践
Anthropic 在 2025 年发表的 Agent 构建指南中,提出了三层递进模型:
Single-call → Workflows → Agents
(简单任务) (预定流程) (自主循环)
核心原则:
- 简单的就是最好的 — 能用单次调用解决的不要用 Agent
- 把 Agent 放进 task 的上下文窗口里思考 — 它在做决策时能看到什么信息?
- 工具设计即 Prompt 设计 — 工具描述是 Agent 理解能力的首要接口
- 上下文工程 > Prompt 工程 — 在 Agent 循环中,管理上下文比优化单次 prompt 重要得多
实践数据:
- 上下文编辑 + Agent 记忆 → 39% 性能提升
- 多 Agent 协作系统 → 90.2% 性能提升(对比单 Agent)但 15 倍 Token 消耗
- Sub-agent 隔离上下文 → 90% 时间缩减
七、选型指南
按任务复杂度
| 复杂度 | 推荐模式 | 示例 |
|---|---|---|
| 1-2 步 | 直接 LLM / Single-call | 摘要、翻译、分类 |
| 3-5 步 | ReAct / Reflexion | 搜索问答、简单代码生成 |
| 5-10 步 | Plan-Execute / ReWOO | 多跳 QA、报告生成 |
| 10+ 步 | LATS / ToT / 多 Agent | 复杂编程、策略分析 |
按成本预算
| 预算 | 推荐模式 |
|---|---|
| 低 | ReWOO、最小化 ReAct |
| 中 | ReAct + 1-2 轮 Reflexion、Plan-Execute |
| 高 | LATS、多 Agent 协作、多轮 Reflexion |
按可靠性要求
| 要求 | 推荐模式 |
|---|---|
| 标准 | ReAct |
| 较高 | ReAct + Reflexion(有测试用例自检) |
| 极高 | LATS + 多路径验证 + 投票/集成 |
按是否需要工具
需要工具 → 需要并行 → LLM Compiler
→ 不需要并行 → 预算敏感 → ReWOO
→ 不敏感 → ReAct
不需要工具 → 质量优先 → Reflexion / LATS
→ 速度优先 → Plan-Solve
八、你的 Agent OS 应该支持哪些模式
回到实际工程,一个生产级 Agent 框架至少应该原生支持三种模式:
| 模式 | 用途 | 实现优先级 |
|---|---|---|
| ReAct | 默认模式,覆盖 80% 场景 | P0 |
| Plan-Execute | 复杂多步任务,弱模型执行 | P1 |
| Reflexion | 需要自我纠错的场景(代码、测试) | P1 |
更高级的模式(LATS、LLM Compiler、多 Agent)可以根据实际需求逐步补充——但前三者是地基,缺一不可。
参考文献
- Yao et al. — ReAct: Synergizing Reasoning and Acting in Language Models (2022)
- Shinn et al. — Reflexion: Language Agents with Verbal Reinforcement Learning (2023)
- Yao et al. — Tree of Thoughts: Deliberate Problem Solving with Large Language Models (2023)
- Xu et al. — ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models (2023)
- Zhou et al. — Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models (2023)
- Press et al. — Measuring and Narrowing the Compositionality Gap in Language Models (2022)
- Shao et al. — Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models (2024)
- Erdogan et al. — Plan-and-Act (2025)
- Hu et al. — Pre-Act: Continually Refining Multi-step Execution Plans (2025)
- Anthropic — Building Effective Agents (2024)
- Anthropic — Building Production-Ready Agentic Systems (2025)
- Masterman et al. — The Landscape of Emerging AI Agent Architectures (2024)
- Plaat et al. — Agentic Large Language Models, a Survey (2024)
- Xu et al. — AI Agent Systems: Architectures, Applications, and Evaluation (2025)
写在最后:Agent 认知模型的演进史,本质上是对一个核心问题的持续回答——如何让 LLM 的推理空间从线性链条扩展为树、图乃至搜索森林,同时控制成本、保证可靠性。ReAct 给出了第一个可行答案,它的后继者们正在把这条路的边界推得更远。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)