AI Agent 认知模型与推理模式综述

yindeyue

91人浏览 · 2026-05-26 08:15:09

yindeyue · 2026-05-26 08:15:09 发布

AI Agent 认知模型与推理模式综述

从 ReAct 到 LATS，从单智能体到多智能体协作——系统梳理 LLM Agent 的核心认知架构

一、引言：为什么 Agent 需要"认知模型"

2022 年 10 月，一篇名为《ReAct: Synergizing Reasoning and Acting in Language Models》的论文横空出世，首次将 LLM 的"推理"和"行动"统一在一个循环中。此后两年，Agent 认知模型经历了爆发式增长——ReWOO、Reflexion、Tree-of-Thoughts、LATS、Plan-and-Execute、Pre-Act……这些名字背后，是人类对"让 LLM 像人一样思考"的持续探索。

本文将系统梳理当前主流的 Agent 认知模型，从底层推理基座到高层协作模式，分析每种模式的核心思想、适用场景和设计取舍。

二、认知基座：Chain-of-Thought（思维链）

所有 Agent 认知模型的根基，来自 Chain-of-Thought（CoT）——让模型在输出最终答案前，先生成中间推理步骤。

用户问题：一个农场有 23 只鸡和 17 只兔子，一共多少条腿？

CoT 推理：
  鸡: 23 × 2 = 46 条腿
  兔子: 17 × 4 = 68 条腿
  总腿数: 46 + 68 = 114 条腿
最终答案：114

2022 年，Google 的研究表明，仅需在 prompt 末尾加上"Let’s think step by step"，就能将 MultiArith 准确率从 17.7% 提升到 78.7%。

但这只是"纯内省"——模型的知识被冻结在权重中，无法访问外部世界。Agent 认知模型的核心突破，就是给模型装上了手脚和眼睛。

三、核心 Agent 认知模型

3.1 ReAct（Reasoning + Acting）—— 开山之作

论文: Yao et al., “ReAct: Synergizing Reasoning and Acting in Language Models” (2022.10)

核心循环: Thought → Action → Observation → Thought → ...

这是最经典的 Agent 模式。模型在每一步中：

Thought：思考当前需要做什么
Action：执行具体操作（搜索、计算、调用工具）
Observation：观察执行结果
基于观察更新认知，进入下一步

Thought 1: 我需要找到 2023 年诺贝尔物理学奖得主
Action 1: Search["2023 Nobel Prize Physics winner"]
Observation 1: Pierre Agostini, Ferenc Krausz, Anne L'Huillier...

Thought 2: 我需要了解 Anne L'Huillier 的主要贡献
Action 2: Search["Anne L'Huillier attosecond physics contribution"]
Observation 2: 她在阿秒物理学的开创性工作...

Final Answer: 2023 年诺贝尔物理学奖授予...

性能数据：ALFWorld 提升 34%，WebShop 提升 10%（对比纯推理或纯行动）

优势：

推理过程可追溯，便于调试
通过外部工具接地气，减少幻觉
灵活适应，无需预定义执行路径

局限：

Token 消耗随步数线性增长
不支持回溯（如果第三步发现第一步走错了，无法回头）
纯串行执行，无法并行

Ruby的注释：ReAct 是目前绝大多数 Agent 框架（LangChain、AutoGPT、agent-os）的默认模式，也是理解其他模式的基础。

3.2 Reflexion（反思）—— 从失败中学习

论文: Shinn et al., “Reflexion: Language Agents with Verbal Reinforcement Learning” (2023)

核心创新：Agent 不仅行动，还会在行动后进行自我反思，并将反思存入长期记忆，用于指导下一次尝试。

第一次尝试：
  任务: 写一个正则表达式验证邮箱
  行动: 输出 "\\w+@\\w+\\.\\w+"
  评估: 测试失败 — 未匹配 "user@sub.example.com"
  反思: "这个正则只允许一个点号分隔的域名，没有处理子域名的情况"

第二次尝试（携带反思记忆）：
  优化后的输出: "^[\\w.-]+@[\\w-]+(\\.[\\w-]+)+$"
  评估: 测试通过 ✓

架构：

Actor：执行任务的 LLM
Evaluator：评估任务是否成功（基于测试用例、环境反馈等）
Self-Reflection：生成语言化的反思，存入长期记忆
Memory：存储反思轨迹，作为后续尝试的上下文

性能数据：HumanEval 91%（GPT-4），ALFWorld 130/134 任务成功

关键洞察：这是"语言化的强化学习"——模型的权重不变，但通过在上下文中积累反思经验，实现了类似于 RL 的渐进优化效果。

适用场景：代码生成（有测试用例）、决策任务（有明确成功/失败信号）、任何可以"试错"的场景。

3.3 Tree-of-Thoughts（思维树）—— 探索多种可能性

论文: Yao et al., “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (2023.5)

核心创新：将推理建模为树搜索——在每个步骤生成多个候选思路，评估后保留最优的继续探索。

               [任务：找到24点游戏的解]
                        │
              2, 3, 4, 6 = 24
             /        |        \
        2+3=5      3+4=7      6-4=2
       5+4=9      7+6=13      2×3=6
      9+6=15     13×2=26     6×4=24 ✓
     (剪枝)    (剪枝)      (到达目标!)

每个节点的操作：

Expand：生成多个候选思路
Score：评估每个候选的前景（通过启发式规则或 LLM 自评）
Prune：保留得分最高的 K 个分支
Backtrack：如果当前路径失败，回溯尝试其他分支

性能数据：24 点游戏成功率：CoT 4% → ToT 74%

优势：系统化的多路径探索，避免陷入死胡同

代价：大量 LLM 调用（每个节点都需要调用），成本高

适用场景：数学谜题、创意写作、策略规划——需要"多想几种方案"再来比较的场景。

3.4 ReWOO（Reasoning WithOut Observation）—— 大幅降本

论文: Xu et al., “ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models” (2023.5)

核心创新：将"推理"和"工具调用"解耦——先出完整计划（含占位符），再批量执行工具，最后合成答案。

ReAct（串行，每一步都要 LLM）:
  Thought → Tool → Wait → Thought → Tool → Wait → ...

ReWOO（三阶段）:
  Planner → 生成完整计划（含 #E1, #E2, #E3 工具占位符）
  Worker  → 批量执行所有工具（无 LLM 参与）
  Solver  → 合成最终答案

Token 对比：

指标	ReAct	ReWOO
HotpotQA 准确率	40.8%	42.4%
Token 用量	~10,000	~2,000（↓80%）

适用场景：工具需求可预测的多跳问答、内容摘要、成本敏感部署。

局限：执行中无法根据中间结果动态调整计划。

3.5 Plan-and-Execute（先规划后执行）—— 工程化首选

核心创新：将任务分解为规划阶段和执行阶段，两者可以由不同能力的模型承担。

Planning Phase（强模型，如 GPT-4o）:
  任务: 为一篇技术博客生成配图和数据
  计划:
    1. 提取文章中的关键数据点
    2. 为每个数据点生成可视化描述
    3. 生成图表代码
    4. 整合到文章中

Execution Phase（弱模型，如 GPT-4o-mini）:
  按序执行上述步骤，必要时触发 Replan

优势：

可以用强模型规划 + 弱模型执行，降低成本
支持 DAG 级并行执行
包含 Replan 机制，可动态调整

性能：比串行 ReAct 降低约 3.7 倍延迟，准确率提升约 9%

典型框架：LangGraph、CrewAI 的 sequential/parallel 模式、agent-workflow 的 YAML-defined FSM

3.6 LATS（Language Agent Tree Search）—— 集大成者

论文: Zhou et al., “Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models” (2023)

核心创新：融合 ReAct + Tree-of-Thoughts + Reflexion + MCTS（蒙特卡洛树搜索）。

LATS = 
  ReAct 的行动能力
  + ToT 的多路径探索
  + Reflexion 的自我反思
  + MCTS 的搜索策略

在每个决策点：
  → 生成多个候选行动
  → 用树搜索探索
  → 通过反思评估路径价值
  → 选择最优路径继续

性能：HotpotQA exact match 0.61（ReAct 0.32，Reflexion 0.51）

代价：每次请求约 71 次 LLM 调用

适用场景：需要深度推理的复杂任务、交互式 QA —— 成本允许的前提下追求最高质量。

四、模型谱系与演进关系

           Chain-of-Thought (2022.01)
                    │
        ┌───────────┼───────────┐
        ▼           ▼           ▼
     ReAct      Tree-of-Thoughts   Self-Ask
  (2022.10)      (2023.05)      (2022.10)
        │           │               │
        ├─────┬─────┤               │
        ▼     ▼     ▼               │
   Reflexion  ReWOO  LATS           │
   (2023)   (2023)  (2023)          │
        │     │       │              │
        ▼     ▼       ▼              ▼
   ┌────────────── Plan-and-Execute ──────────────┐
   │  (2023-2025)                                 │
   │  ├─ LLM Compiler (DAG + 并行, 2024)          │
   │  ├─ Pre-Act (持续精化计划, 2025)              │
   │  └─ Self-Discovery (自适应推理策略, 2024)     │
   └──────────────────────────────────────────────┘
                          │
                          ▼
              Multi-Agent Architectures
              ├─ Orchestrator-Worker (Anthropic, 2025)
              ├─ Debate / Adversarial
              └─ Hierarchical Teams

两条演进主线：

支线	路径	核心关注
规划先行	ReAct → ReWOO → Plan-Solve → LLM Compiler	效率、并行、降本
反思驱动	Reflexion → Self-Refine → LATS	质量、纠错、学习
终点收敛	LATS 融合两者，Pre-Act 和 Orchestrator-Worker 继承并发扬	质量+效率

五、特殊模式

Self-Ask（自问自答）

论文: Press et al., “Measuring and Narrowing the Compositionality Gap in Language Models” (2022.10)

Agent 将复杂问题分解为子问题，逐个回答，最后整合。与 ReAct 同月提出，思路相似但侧重问题分解而非工具使用。

STORM（多视角研究报告生成）

论文: Shao et al., “Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models” (2024)

从多个"专家视角"并行探索一个主题，最终合成为结构化的研究报告。本质上是多角色模拟 + 知识合成的 Agent 模式。

LLM Compiler（编译器思维）

将任务视为编译过程：解析指令 → 构建 DAG（有向无环图）→ 识别可并行的节点 → 调度执行。相比 ReWOO 的线性计划，Compiler 的 DAG 可以实现真正的并行。声称 3.6× 加速，6.7× Token 节省。

Pre-Act（持续精化）

论文: Hu et al. (2025.5)

在 Plan-and-Execute 基础上，Agent 在执行过程中持续预测未来的工具使用并提前优化。最新发表的执行期优化模式。

六、Anthropic 的工业实践

Anthropic 在 2025 年发表的 Agent 构建指南中，提出了三层递进模型：

Single-call → Workflows → Agents
 (简单任务)   (预定流程)   (自主循环)

核心原则：

简单的就是最好的 — 能用单次调用解决的不要用 Agent
把 Agent 放进 task 的上下文窗口里思考 — 它在做决策时能看到什么信息？
工具设计即 Prompt 设计 — 工具描述是 Agent 理解能力的首要接口
上下文工程 > Prompt 工程 — 在 Agent 循环中，管理上下文比优化单次 prompt 重要得多

实践数据：

上下文编辑 + Agent 记忆 → 39% 性能提升
多 Agent 协作系统 → 90.2% 性能提升（对比单 Agent）但 15 倍 Token 消耗
Sub-agent 隔离上下文 → 90% 时间缩减

七、选型指南

按任务复杂度

复杂度	推荐模式	示例
1-2 步	直接 LLM / Single-call	摘要、翻译、分类
3-5 步	ReAct / Reflexion	搜索问答、简单代码生成
5-10 步	Plan-Execute / ReWOO	多跳 QA、报告生成
10+ 步	LATS / ToT / 多 Agent	复杂编程、策略分析

按成本预算

预算	推荐模式
低	ReWOO、最小化 ReAct
中	ReAct + 1-2 轮 Reflexion、Plan-Execute
高	LATS、多 Agent 协作、多轮 Reflexion

按可靠性要求

要求	推荐模式
标准	ReAct
较高	ReAct + Reflexion（有测试用例自检）
极高	LATS + 多路径验证 + 投票/集成

按是否需要工具

需要工具 → 需要并行 → LLM Compiler
        → 不需要并行 → 预算敏感 → ReWOO
                     → 不敏感 → ReAct
不需要工具 → 质量优先 → Reflexion / LATS
          → 速度优先 → Plan-Solve

八、你的 Agent OS 应该支持哪些模式

回到实际工程，一个生产级 Agent 框架至少应该原生支持三种模式：

模式	用途	实现优先级
ReAct	默认模式，覆盖 80% 场景	P0
Plan-Execute	复杂多步任务，弱模型执行	P1
Reflexion	需要自我纠错的场景（代码、测试）	P1

更高级的模式（LATS、LLM Compiler、多 Agent）可以根据实际需求逐步补充——但前三者是地基，缺一不可。

参考文献

Yao et al. — ReAct: Synergizing Reasoning and Acting in Language Models (2022)
Shinn et al. — Reflexion: Language Agents with Verbal Reinforcement Learning (2023)
Yao et al. — Tree of Thoughts: Deliberate Problem Solving with Large Language Models (2023)
Xu et al. — ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models (2023)
Zhou et al. — Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models (2023)
Press et al. — Measuring and Narrowing the Compositionality Gap in Language Models (2022)
Shao et al. — Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models (2024)
Erdogan et al. — Plan-and-Act (2025)
Hu et al. — Pre-Act: Continually Refining Multi-step Execution Plans (2025)
Anthropic — Building Effective Agents (2024)
Anthropic — Building Production-Ready Agentic Systems (2025)
Masterman et al. — The Landscape of Emerging AI Agent Architectures (2024)
Plaat et al. — Agentic Large Language Models, a Survey (2024)
Xu et al. — AI Agent Systems: Architectures, Applications, and Evaluation (2025)