AI Agent 认知模型与推理模式综述

从 ReAct 到 LATS,从单智能体到多智能体协作——系统梳理 LLM Agent 的核心认知架构


一、引言:为什么 Agent 需要"认知模型"

2022 年 10 月,一篇名为《ReAct: Synergizing Reasoning and Acting in Language Models》的论文横空出世,首次将 LLM 的"推理"和"行动"统一在一个循环中。此后两年,Agent 认知模型经历了爆发式增长——ReWOO、Reflexion、Tree-of-Thoughts、LATS、Plan-and-Execute、Pre-Act……这些名字背后,是人类对"让 LLM 像人一样思考"的持续探索。

本文将系统梳理当前主流的 Agent 认知模型,从底层推理基座到高层协作模式,分析每种模式的核心思想、适用场景和设计取舍。


二、认知基座:Chain-of-Thought(思维链)

所有 Agent 认知模型的根基,来自 Chain-of-Thought(CoT)——让模型在输出最终答案前,先生成中间推理步骤。

用户问题:一个农场有 23 只鸡和 17 只兔子,一共多少条腿?

CoT 推理:
  鸡: 23 × 2 = 46 条腿
  兔子: 17 × 4 = 68 条腿
  总腿数: 46 + 68 = 114 条腿
最终答案:114

2022 年,Google 的研究表明,仅需在 prompt 末尾加上"Let’s think step by step",就能将 MultiArith 准确率从 17.7% 提升到 78.7%。

但这只是"纯内省"——模型的知识被冻结在权重中,无法访问外部世界。Agent 认知模型的核心突破,就是给模型装上了手脚和眼睛


三、核心 Agent 认知模型

3.1 ReAct(Reasoning + Acting)—— 开山之作

论文: Yao et al., “ReAct: Synergizing Reasoning and Acting in Language Models” (2022.10)

核心循环: Thought → Action → Observation → Thought → ...

这是最经典的 Agent 模式。模型在每一步中:

  1. Thought:思考当前需要做什么
  2. Action:执行具体操作(搜索、计算、调用工具)
  3. Observation:观察执行结果
  4. 基于观察更新认知,进入下一步
Thought 1: 我需要找到 2023 年诺贝尔物理学奖得主
Action 1: Search["2023 Nobel Prize Physics winner"]
Observation 1: Pierre Agostini, Ferenc Krausz, Anne L'Huillier...

Thought 2: 我需要了解 Anne L'Huillier 的主要贡献
Action 2: Search["Anne L'Huillier attosecond physics contribution"]
Observation 2: 她在阿秒物理学的开创性工作...

Final Answer: 2023 年诺贝尔物理学奖授予...

性能数据:ALFWorld 提升 34%,WebShop 提升 10%(对比纯推理或纯行动)

优势

  • 推理过程可追溯,便于调试
  • 通过外部工具接地气,减少幻觉
  • 灵活适应,无需预定义执行路径

局限

  • Token 消耗随步数线性增长
  • 不支持回溯(如果第三步发现第一步走错了,无法回头)
  • 纯串行执行,无法并行

Ruby的注释:ReAct 是目前绝大多数 Agent 框架(LangChain、AutoGPT、agent-os)的默认模式,也是理解其他模式的基础。


3.2 Reflexion(反思)—— 从失败中学习

论文: Shinn et al., “Reflexion: Language Agents with Verbal Reinforcement Learning” (2023)

核心创新:Agent 不仅行动,还会在行动后进行自我反思,并将反思存入长期记忆,用于指导下一次尝试。

第一次尝试:
  任务: 写一个正则表达式验证邮箱
  行动: 输出 "\\w+@\\w+\\.\\w+"
  评估: 测试失败 — 未匹配 "user@sub.example.com"
  反思: "这个正则只允许一个点号分隔的域名,没有处理子域名的情况"

第二次尝试(携带反思记忆):
  优化后的输出: "^[\\w.-]+@[\\w-]+(\\.[\\w-]+)+$"
  评估: 测试通过 ✓

架构

  • Actor:执行任务的 LLM
  • Evaluator:评估任务是否成功(基于测试用例、环境反馈等)
  • Self-Reflection:生成语言化的反思,存入长期记忆
  • Memory:存储反思轨迹,作为后续尝试的上下文

性能数据:HumanEval 91%(GPT-4),ALFWorld 130/134 任务成功

关键洞察:这是"语言化的强化学习"——模型的权重不变,但通过在上下文中积累反思经验,实现了类似于 RL 的渐进优化效果。

适用场景:代码生成(有测试用例)、决策任务(有明确成功/失败信号)、任何可以"试错"的场景。


3.3 Tree-of-Thoughts(思维树)—— 探索多种可能性

论文: Yao et al., “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (2023.5)

核心创新:将推理建模为树搜索——在每个步骤生成多个候选思路,评估后保留最优的继续探索。

               [任务:找到24点游戏的解]
                        │
              2, 3, 4, 6 = 24
             /        |        \
        2+3=5      3+4=7      6-4=2
       5+4=9      7+6=13      2×3=6
      9+6=15     13×2=26     6×4=24 ✓
     (剪枝)    (剪枝)      (到达目标!)

每个节点的操作:

  1. Expand:生成多个候选思路
  2. Score:评估每个候选的前景(通过启发式规则或 LLM 自评)
  3. Prune:保留得分最高的 K 个分支
  4. Backtrack:如果当前路径失败,回溯尝试其他分支

性能数据:24 点游戏成功率:CoT 4% → ToT 74%

优势:系统化的多路径探索,避免陷入死胡同

代价:大量 LLM 调用(每个节点都需要调用),成本高

适用场景:数学谜题、创意写作、策略规划——需要"多想几种方案"再来比较的场景。


3.4 ReWOO(Reasoning WithOut Observation)—— 大幅降本

论文: Xu et al., “ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models” (2023.5)

核心创新:将"推理"和"工具调用"解耦——先出完整计划(含占位符),再批量执行工具,最后合成答案。

ReAct(串行,每一步都要 LLM):
  Thought → Tool → Wait → Thought → Tool → Wait → ...

ReWOO(三阶段):
  Planner → 生成完整计划(含 #E1, #E2, #E3 工具占位符)
  Worker  → 批量执行所有工具(无 LLM 参与)
  Solver  → 合成最终答案

Token 对比

指标 ReAct ReWOO
HotpotQA 准确率 40.8% 42.4%
Token 用量 ~10,000 ~2,000(↓80%)

适用场景:工具需求可预测的多跳问答、内容摘要、成本敏感部署。

局限:执行中无法根据中间结果动态调整计划。


3.5 Plan-and-Execute(先规划后执行)—— 工程化首选

核心创新:将任务分解为规划阶段执行阶段,两者可以由不同能力的模型承担。

Planning Phase(强模型,如 GPT-4o):
  任务: 为一篇技术博客生成配图和数据
  计划:
    1. 提取文章中的关键数据点
    2. 为每个数据点生成可视化描述
    3. 生成图表代码
    4. 整合到文章中

Execution Phase(弱模型,如 GPT-4o-mini):
  按序执行上述步骤,必要时触发 Replan

优势

  • 可以用强模型规划 + 弱模型执行,降低成本
  • 支持 DAG 级并行执行
  • 包含 Replan 机制,可动态调整

性能:比串行 ReAct 降低约 3.7 倍延迟,准确率提升约 9%

典型框架:LangGraph、CrewAI 的 sequential/parallel 模式、agent-workflow 的 YAML-defined FSM


3.6 LATS(Language Agent Tree Search)—— 集大成者

论文: Zhou et al., “Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models” (2023)

核心创新:融合 ReAct + Tree-of-Thoughts + Reflexion + MCTS(蒙特卡洛树搜索)。

LATS = 
  ReAct 的行动能力
  + ToT 的多路径探索
  + Reflexion 的自我反思
  + MCTS 的搜索策略

在每个决策点:
  → 生成多个候选行动
  → 用树搜索探索
  → 通过反思评估路径价值
  → 选择最优路径继续

性能:HotpotQA exact match 0.61(ReAct 0.32,Reflexion 0.51)

代价:每次请求约 71 次 LLM 调用

适用场景:需要深度推理的复杂任务、交互式 QA —— 成本允许的前提下追求最高质量。


四、模型谱系与演进关系

           Chain-of-Thought (2022.01)
                    │
        ┌───────────┼───────────┐
        ▼           ▼           ▼
     ReAct      Tree-of-Thoughts   Self-Ask
  (2022.10)      (2023.05)      (2022.10)
        │           │               │
        ├─────┬─────┤               │
        ▼     ▼     ▼               │
   Reflexion  ReWOO  LATS           │
   (2023)   (2023)  (2023)          │
        │     │       │              │
        ▼     ▼       ▼              ▼
   ┌────────────── Plan-and-Execute ──────────────┐
   │  (2023-2025)                                 │
   │  ├─ LLM Compiler (DAG + 并行, 2024)          │
   │  ├─ Pre-Act (持续精化计划, 2025)              │
   │  └─ Self-Discovery (自适应推理策略, 2024)     │
   └──────────────────────────────────────────────┘
                          │
                          ▼
              Multi-Agent Architectures
              ├─ Orchestrator-Worker (Anthropic, 2025)
              ├─ Debate / Adversarial
              └─ Hierarchical Teams

两条演进主线:

支线 路径 核心关注
规划先行 ReAct → ReWOO → Plan-Solve → LLM Compiler 效率、并行、降本
反思驱动 Reflexion → Self-Refine → LATS 质量、纠错、学习
终点收敛 LATS 融合两者,Pre-Act 和 Orchestrator-Worker 继承并发扬 质量+效率

五、特殊模式

Self-Ask(自问自答)

论文: Press et al., “Measuring and Narrowing the Compositionality Gap in Language Models” (2022.10)

Agent 将复杂问题分解为子问题,逐个回答,最后整合。与 ReAct 同月提出,思路相似但侧重问题分解而非工具使用。

STORM(多视角研究报告生成)

论文: Shao et al., “Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models” (2024)

从多个"专家视角"并行探索一个主题,最终合成为结构化的研究报告。本质上是多角色模拟 + 知识合成的 Agent 模式

LLM Compiler(编译器思维)

将任务视为编译过程:解析指令 → 构建 DAG(有向无环图)→ 识别可并行的节点 → 调度执行。相比 ReWOO 的线性计划,Compiler 的 DAG 可以实现真正的并行。声称 3.6× 加速,6.7× Token 节省。

Pre-Act(持续精化)

论文: Hu et al. (2025.5)

在 Plan-and-Execute 基础上,Agent 在执行过程中持续预测未来的工具使用并提前优化。最新发表的执行期优化模式。


六、Anthropic 的工业实践

Anthropic 在 2025 年发表的 Agent 构建指南中,提出了三层递进模型

Single-call → Workflows → Agents
 (简单任务)   (预定流程)   (自主循环)

核心原则

  1. 简单的就是最好的 — 能用单次调用解决的不要用 Agent
  2. 把 Agent 放进 task 的上下文窗口里思考 — 它在做决策时能看到什么信息?
  3. 工具设计即 Prompt 设计 — 工具描述是 Agent 理解能力的首要接口
  4. 上下文工程 > Prompt 工程 — 在 Agent 循环中,管理上下文比优化单次 prompt 重要得多

实践数据

  • 上下文编辑 + Agent 记忆 → 39% 性能提升
  • 多 Agent 协作系统 → 90.2% 性能提升(对比单 Agent)但 15 倍 Token 消耗
  • Sub-agent 隔离上下文 → 90% 时间缩减

七、选型指南

按任务复杂度

复杂度 推荐模式 示例
1-2 步 直接 LLM / Single-call 摘要、翻译、分类
3-5 步 ReAct / Reflexion 搜索问答、简单代码生成
5-10 步 Plan-Execute / ReWOO 多跳 QA、报告生成
10+ 步 LATS / ToT / 多 Agent 复杂编程、策略分析

按成本预算

预算 推荐模式
ReWOO、最小化 ReAct
ReAct + 1-2 轮 Reflexion、Plan-Execute
LATS、多 Agent 协作、多轮 Reflexion

按可靠性要求

要求 推荐模式
标准 ReAct
较高 ReAct + Reflexion(有测试用例自检)
极高 LATS + 多路径验证 + 投票/集成

按是否需要工具

需要工具 → 需要并行 → LLM Compiler
        → 不需要并行 → 预算敏感 → ReWOO
                     → 不敏感 → ReAct
不需要工具 → 质量优先 → Reflexion / LATS
          → 速度优先 → Plan-Solve

八、你的 Agent OS 应该支持哪些模式

回到实际工程,一个生产级 Agent 框架至少应该原生支持三种模式:

模式 用途 实现优先级
ReAct 默认模式,覆盖 80% 场景 P0
Plan-Execute 复杂多步任务,弱模型执行 P1
Reflexion 需要自我纠错的场景(代码、测试) P1

更高级的模式(LATS、LLM Compiler、多 Agent)可以根据实际需求逐步补充——但前三者是地基,缺一不可。


参考文献

  1. Yao et al. — ReAct: Synergizing Reasoning and Acting in Language Models (2022)
  2. Shinn et al. — Reflexion: Language Agents with Verbal Reinforcement Learning (2023)
  3. Yao et al. — Tree of Thoughts: Deliberate Problem Solving with Large Language Models (2023)
  4. Xu et al. — ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models (2023)
  5. Zhou et al. — Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models (2023)
  6. Press et al. — Measuring and Narrowing the Compositionality Gap in Language Models (2022)
  7. Shao et al. — Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models (2024)
  8. Erdogan et al. — Plan-and-Act (2025)
  9. Hu et al. — Pre-Act: Continually Refining Multi-step Execution Plans (2025)
  10. Anthropic — Building Effective Agents (2024)
  11. Anthropic — Building Production-Ready Agentic Systems (2025)
  12. Masterman et al. — The Landscape of Emerging AI Agent Architectures (2024)
  13. Plaat et al. — Agentic Large Language Models, a Survey (2024)
  14. Xu et al. — AI Agent Systems: Architectures, Applications, and Evaluation (2025)

写在最后:Agent 认知模型的演进史,本质上是对一个核心问题的持续回答——如何让 LLM 的推理空间从线性链条扩展为树、图乃至搜索森林,同时控制成本、保证可靠性。ReAct 给出了第一个可行答案,它的后继者们正在把这条路的边界推得更远。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐