思考

在agent开发浪潮下,经历过知识库构建 rag 图谱,reAct Agent ,openclaw caludecode 企业内部自主规划agent、有明确复杂拓扑限制的Agent,做了这么多在做分析、重构、新任务时,不由的思考这些架构模式有何异同点,随着openclaw harmessagent,langgraph 搭建的拓扑规则会丢掉吗? 自主规划agent是否会全代替掉有人交互的agent。 因此在做技术重构之前,思考得到了这篇文章, 与当下大多数分析的简单的划分不一样,文章从业务分类到编排模式做了详尽科学的分析。
(市面上大多简单的分为: ReAct 、 plan-execute、Reflection、多agent架构,本事缺少最重要的,AI是效能 从业务上区分好才能真正的理解运用做好技术架构)
考虑到脱敏,本文章仅仅做大致方案,不会去讲述具体如何做企业级落地实际方案~

摘要与主结论

核心结论

  1. 整体研究方向:将"业务分类"“编排模式”"能力构件"三层拆分解耦,避免抽象层混淆

  2. 企业级AI应用架构定位:采用人机在环、可中断、可恢复、可审计的workflow方案

  3. OpenAI Deep Research 架构定位:核心研究引擎更接近"自主规划类Agent",但在交互壳层又明显带有人机在环workflow的特征

  4. 核心主线:结合Anthropic、LangChain、Google Cloud、Microsoft及AWS的官方材料,核心主线均为"先用足够简单的系统,仅在复杂度能带来明确收益时,再升级到更agentic的方案",避免过度设计


一、术语与分层坐标系

1.1 三层分类体系

层级 核心问题 典型选项 作用
第一层:交互与控制权 谁主导流程? 人主导、Agent主导、混合主导 业务视角的核心分类依据
第二层:编排方式 流程如何执行? 固定流程、动态推理循环、单Agent或多Agent协作 工程实现的核心维度
第三层:能力与治理 具备哪些支撑能力? 工具调用、记忆、反思、审批、观测、恢复 横切能力,可按需组合到不同编排方式中

1.2 核心术语对齐

术语 定义 备注
Workflow 预定义代码路径、显式状态与流程约束的系统 强调可控性与可审计性
Agent 模型动态决定流程与工具使用的系统 强调自主性与适应性
Agentic Node 嵌入workflow中的具备局部推理能力的节点 平衡可控性与智能性
HITL (Human-in-the-loop) 人机在环,保留人工介入点的系统 确保关键决策可审阅、可接管

二、三类业务架构

2.1 自主规划类Agent(Autonomy-First Agent)

定义

以模型自主决策为主、以动态路径为主的Agent,在人类给出目标、工具权限与边界条件后,Agent自主分解问题、选择工具、决定下一步执行动作,核心是"弱流程约束下的自主闭环"。

核心特征
  • 控制权:Agent主导,人类仅输入目标、设定边界,不参与中间执行步骤
  • 编排方式:动态推理循环,可采用ReAct式的推理—行动循环,或Plan-then-Execute(先规划再执行)变体
  • 核心能力:具备自主问题拆分、工具选择、多步骤连贯执行能力,可搭配记忆、反思等横切能力
  • 风险点:可控性较弱,易出现推理偏差,缺乏强流程约束,不适用于强合规场景
适配场景

目标模糊、任务周期长且无需强流程约束的场景,例如会议调研、多文档汇总、复杂信息整理、跨部门任务统筹等。


2.2 轻量语义辅助类Agent(语义路由/语义工具助手)

定义

不强调"完整Agent"属性,更接近"tool-augmented assistant"或"语义路由节点",核心功能是意图识别、槽位抽取、结构化输出、单次工具调用或单轮检索,实现单轮交互闭环。

核心特征
  • 控制权:人类主导,需每次输入单一指令,Agent仅负责响应指令,不具备自主决策能力
  • 编排方式:单步执行,无复杂流程,采用单轮请求—单轮响应的交互模式
  • 核心能力:具备基础语义解析、单次工具调用能力,可按需搭配会话级有限记忆
  • 风险点:功能单一,无法承载复杂业务链路,仅能满足简单即时需求
适配场景

简单问答、单一工具查询、短会话交互等场景,例如简单会议信息查询、基础业务咨询、一次性数据检索等。


2.3 人机交互Workflow Agent(人机在环工作流编排系统)

定义

以workflow为核心,内部嵌入agentic节点(如ReAct、planner等),构建用户主导、AI辅助的交互模式,核心价值来自共享状态、interrupt、checkpoint、resume、trace和approval。

核心特征
  • 控制权:人类主导,Agent承担辅助执行职责,不突破预设流程边界
  • 编排方式:固定流程(预定义路径),可通过StateGraph等机制承载子图与分支,支持流程中断与恢复
  • 核心能力:具备上下文记忆、多轮人机穿插交互、操作审计、断点恢复能力,可嵌入agentic节点提升智能辅助水平
  • 风险点:自动化程度低于自主规划类Agent,流程固定、灵活度有限,前期需完成完善的流程编排设计
适配场景

企业级强交互、强约束长会话场景,例如审批流程、企业级客服、长周期业务跟进等需多步骤人机穿插操作、且要求流程可控可审计的业务场景。


三、常见Agent模式与能力构件

3.1 编排模式

模式 核心功能 适配场景
ReAct 推理—行动—观察循环,自主规划类Agent中最常见的执行环之一 简单任务与即时响应场景
Plan-then-Execute 先规划后执行,包括Plan-and-Solve、ReWOO等变体 复杂、多步骤、长周期任务
Reflection / Evaluator-Optimizer / Critic Loop 评审—修正循环,通过自我校验与迭代优化输出结果 对结果准确性、严谨性要求较高的任务
Hierarchical 分层智能体架构,上层为总控Agent,下层为子Agent 超复杂、多领域融合任务
Routing 语义路由,根据用户意图将任务分发到对应Agent或工具 多场景分流
Parallelization 并行执行多子任务,提升复杂任务处理效率 多维度同步分析场景
顺序工作流/Prompt Chaining 按预定义顺序执行多步任务,无动态分支 简单固定流程
Orchestrator-Workers/Coordinator 协调者—工作者模式,类似Hierarchical的简化版 多子任务协同
Swarm/Collaboration 多Agent去中心化协作,无明确总控 分布式复杂任务
Human-in-the-loop/Custom Logic 人机在环逻辑,嵌入人工审批、干预节点 强合规场景

3.2 横切能力

能力 定义 适用场景
工具调用能力 接口契约和执行能力 所有架构类型
Memory(记忆) 横切能力,分为短期记忆(会话级)、长期记忆(持久化) 自主规划类、Workflow类
观测 监控、日志、追踪、调试 所有架构类型
审批 人工审阅、审批、接管 Workflow类(核心)
恢复 断点恢复、故障回溯 Workflow类
限流、重试 流量控制、错误处理 所有架构类型

3.3 设计原则

组合原则:大多数真实系统都会混合多种模式,组合不是例外,而是常态。


四、企业级AI应用落地架构

4.1 核心定义

企业级AI应用建议定义为:以显式状态图为核心的人机在环工作流系统,内部嵌入局部agentic子图

这一定义既保留"AI辅助+可控合规"的核心需求,又严格区分workflow与agent的术语边界,避免混淆。

4.2 四层架构设计

层级 职责 核心组件
交互层 用户操作入口:点击触发、自然语言补充、暂停/恢复操作、审批确认、结果反馈 用户点击节点、自然语言输入节点、流程控制节点
编排层 用StateGraph或类似机制承载子图与分支,定义流程路径、子图触发条件、分支逻辑 子图A(确定性工作流)、子图B(Bounded ReAct)
状态层 保存全局共享状态:业务数据、筛选条件、执行进度、操作证据和审计日志 共享图状态、线程级检查点、可选长期记忆
工具与治理层 工具调用(数据检索、摘要生成、导出等)、治理控制(限流、重试、权限管控、观测回溯) 工具调用、审批机制、观测系统、回溯能力

4.3 子图设计

子图A(点击触发链路)
  • 核心功能:点击触发检索、列表刷新、条件筛选
  • 工程实现:确定性工作流节点或"受约束工具流"
  • 映射模式:顺序工作流/Prompt Chaining + 工具调用能力
子图B(自然语言处理链路)
  • 核心功能:处理自然语言意图,如"仅筛选复盘类会议"
  • 工程实现:Bounded Planner/Router 或 Bounded ReAct Node
  • 映射模式:Routing + Bounded ReAct + Plan-then-Execute(计划机制)
  • 特点:明确输入边界、最大工具调用次数、失败回退机制和人工接管边

4.4 状态与记忆管理

表述为"共享图状态 + 线程级检查点 + 可选长期记忆"——LangGraph文档明确区分state、thread、checkpoint、short-term memory、long-term memory,该表述可同时解释中断恢复、多轮交互、故障恢复与审计回放,更贴合工程实现。


五、OpenAI Deep Research架构深度解析

5.1 核心定位与架构特征

OpenAI Deep Research是一个agentic、multi-step、tool-using、planning-heavy、citation-backed的研究系统,核心功能是完成深度研究任务并输出带引用的结构化报告。

5.2 架构分层分析(基于官方公开资料)

5.2.1 官方明确确认的部分(有公开文档支撑)
能力维度 官方确认内容 对应架构模式
核心定位 agentic、multi-step、tool-using、planning-heavy、citation-backed的研究系统 自主规划类Agent核心
规划能力 会先生成结构化研究计划(Research Plan),用户可修改计划、限定可用来源、查看进度并随时打断 Plan-then-Execute模式
工具调用 在API与产品层,均会自主分解子问题、调用web search、code interpreter、MCP/file search等工具,形成工具调用闭环 ReAct循环
交互控制 ChatGPT产品层包有一层用户控制流程,支持审阅计划、中断执行、重定向任务,带有明显的人机在环特征 HITL Workflow壳层
输出特征 返回带内联引用的结构化报告,暴露reasoning summary、搜索调用和代码执行等中间步骤,具备基础校验与可追溯能力 Reflection/Evaluator-Optimizer
优化方式 采用与o1相同的强化学习方法,在需要浏览器与Python工具使用的真实任务上进行训练 强化学习优化
5.2.2 合理推断的部分(有公开线索,无明确官方披露)
推断内容 推断依据 推断结论
多Agent拓扑 OpenAI的Deep Research cookbook明确演示了single-agent和multi-agent两种research pipeline,且通用Agents文档将多Agent分为manager pattern与decentralized handoff pattern 多Agent是其支持的工程实现方式之一,但无法确认"ChatGPT产品内部一定恒为多Agent层级架构"
反思能力 官方明确提到"会用multi-step reasoning来compare and validate findings,暴露reasoning summary与中间步骤" 具备回查、比较、校验与修正能力,但无法确认"内部存在命名明确的Reflection node或Critic agent"
5.2.3 尚未公开的部分(无任何官方文档支撑,需注明边界)
未公开内容 边界说明
内部拓扑细节 ChatGPT产品内部是否固定采用多Agent架构,官方未完整公开
模块命名 内部是否存在显式的"Reflection node""Critic agent"等模块,官方未公开
记忆实现 产品级长期记忆与状态持久化的具体技术实现方式,官方未公开(仅明确"具备stateful/context-managed能力")
强化学习细节 是否采用"端到端多Agent强化学习调优",官方未公开(仅明确"面向真实任务与工具使用的强化学习")

5.3 从OpenAI Deep Research看三类架构的组合应用

5.3.1 架构组合模式
┌─────────────────────────────────────────────────────────────────────────────┐
│               OpenAI Deep Research 架构组合模式                                │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  ┌─────────────────────────────────────────────────────────────────────┐   │
│  │                    外层:HITL Workflow壳层                           │   │
│  │  • 用户可审阅计划、修改计划、限定可用来源                             │   │
│  │  • 支持查看进度、随时打断、重定向任务                                  │   │
│  │  • 明显的人机在环特征                                                 │   │
│  └─────────────────────────────────────────────────────────────────────┘   │
│                              │                                              │
│                              ▼                                              │
│  ┌─────────────────────────────────────────────────────────────────────┐   │
│  │                    核心层:Autonomy-First Agent                       │   │
│  │  ┌───────────────────────────────────────────────────────────────┐  │   │
│  │  │  Plan-then-Execute模式                                        │  │   │
│  │  │  • 先生成结构化研究计划                                        │  │   │
│  │  │  • 用户可修改计划                                              │  │   │
│  │  │  • 按计划执行研究任务                                          │  │   │
│  │  └───────────────────────────────────────────────────────────────┘  │   │
│  │                              │                                        │   │
│  │                              ▼                                        │   │
│  │  ┌───────────────────────────────────────────────────────────────┐  │   │
│  │  │  ReAct循环(工具调用闭环)                                    │  │   │
│  │  │  • 自主分解子问题                                             │  │   │
│  │  │  • 调用web search、code interpreter、MCP/file search          │  │   │
│  │  │  • 形成工具调用闭环                                            │  │   │
│  │  └───────────────────────────────────────────────────────────────┘  │   │
│  │                              │                                        │   │
│  │                              ▼                                        │   │
│  │  ┌───────────────────────────────────────────────────────────────┐  │   │
│  │  │  Reflection/Evaluator-Optimizer(校验修正)                   │  │   │
│  │  │  • multi-step reasoning来compare and validate findings       │  │   │
│  │  │  • 暴露reasoning summary与中间步骤                            │  │   │
│  │  │  • 具备回查、比较、校验与修正能力                              │  │   │
│  │  └───────────────────────────────────────────────────────────────┘  │   │
│  └─────────────────────────────────────────────────────────────────────┘   │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘
5.3.2 与三类业务架构的映射关系

OpenAI Deep Research体现了三类业务架构可正交组合的特点:

层级 OpenAI Deep Research实现 对应架构类型
第一层:交互与控制权 外层HITL Workflow壳层,用户可审阅计划、修改计划、限定可用来源、查看进度、随时打断、重定向任务 人机在环Workflow类(外层控制)
第二层:编排方式 核心层采用Plan-then-Execute + ReAct循环,具备动态推理循环能力 自主规划类Agent(核心执行)
第三层:能力与治理 工具调用(web search、code interpreter、MCP/file search)、记忆(stateful/context-managed)、反思(multi-step reasoning校验)、观测(暴露reasoning summary与中间步骤) 横切能力组合

关键洞察:OpenAI Deep Research不能粗暴归为"纯自主规划类Agent",而是"自主规划核心 + 人机在环控制"的混合形态。

5.4 从OpenAI Deep Research学习架构设计原则

5.4.1 渐进复杂度原则

OpenAI Deep Research的设计体现了"先用足够简单的系统,只有在复杂度能带来明确收益时,再升级到更agentic的方案"的核心原则:

复杂度层级 适用场景 OpenAI Deep Research体现
单Agent/单调用 简单查询、基础咨询 基础ChatGPT对话
Workflow系统 强约束、强审计、多轮交互 Deep Research外层HITL Workflow
多Agent协作 超复杂、多领域融合任务 Deep Research核心层(推断)
5.4.2 人机在环的价值

OpenAI Deep Research在产品层明确加入人机在环控制,这给我们重要启示:

  • 可控性优先:即使核心是自主规划Agent,也要保留人工介入点
  • 透明度关键:暴露reasoning summary与中间步骤,让用户理解AI决策过程
  • 灵活性重要:支持用户修改计划、限定可用来源、随时打断、重定向任务
5.4.3 组合而非例外

OpenAI Deep Research的设计证明了"组合不是例外,而是常态":

  • Plan-then-Execute + ReAct循环
  • 自主规划核心 + 人机在环控制
  • 工具调用 + 记忆 + 反思 + 观测

5.5 精简表述

OpenAI Deep Research ≈ agentic deep-research model + 规划与分解 + 工具调用闭环 + 来源比较/校验 + 引用化报告输出;在ChatGPT产品层又包了一层可审阅计划、可中断的用户控制流程。它的工程实现可以是单Agent,也可以扩展成多Agent流水线,但官方并未完整公开ChatGPT内部的唯一拓扑。


六、选型原则与演进路线

6.1 核心选型原则

渐进复杂度原则:先用足够简单的系统,只有在复杂度确实带来收益时再升级到更 agentic 的方案。

6.2 决策树

┌─────────────────────────────────────────────────────────────────────────────┐
│                        Agent架构选型决策树                                    │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  开始:明确业务需求                                                           │
│        │                                                                     │
│        ▼                                                                     │
│  是否需要强合规、强审计?                                                     │
│   │                                                                         │
│   ├── 是 ──→ 是否需要多轮人机交互?                                          │
│   │           │                                                             │
│   │           ├── 是 ──→ 🎯 人机在环Workflow系统                            │
│   │           │         (审批流程、企业级客服)                            │
│   │           │                                                             │
│   │           └── 否 ──→ 考虑其他方案                                        │
│   │                                                                             │
│   └── 否 ──→ 任务复杂度如何?                                                 │
│             │                                                               │
│             ├── 复杂长周期 ──→ 🎯 自主规划类Agent                           │
│             │               (会议调研、多文档汇总、复杂信息整理)            │
│             │                                                               │
│             └── 简单单次 ──→ 🎯 语义路由/工具助手                           │
│                             (简单查询、基础咨询、一次性检索)                 │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

6.3 演进路线

┌─────────────────────────────────────────────────────────────────────────────┐
│                        Agent架构演进路线                                      │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  阶段1:单Agent/单调用                                                        │
│  ┌─────────────────────────────────────────────────────────────────────┐   │
│  │  工具调用 + 简单推理                                                     │   │
│  │  适用:简单查询、基础咨询、一次性检索                                     │   │
│  └─────────────────────────────────────────────────────────────────────┘   │
│                              ↓                                               │
│  阶段2:Workflow系统                                                         │
│  ┌─────────────────────────────────────────────────────────────────────┐   │
│  │  显式状态图 + 人机在环 + 可审计可追溯                                    │   │
│  │  适用:审批流程、企业级客服、长周期业务跟进                              │   │
│  └─────────────────────────────────────────────────────────────────────┘   │
│                              ↓                                               │
│  阶段3:多Agent协作(仅在复杂度确实带来收益时)                              │
│  ┌─────────────────────────────────────────────────────────────────────┐   │
│  │  Orchestrator-Workers + Hierarchical + 复杂编排                         │  │
│  │  适用:超复杂、多领域融合任务                                            │   │
│  └─────────────────────────────────────────────────────────────────────┘   │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

七、开放问题与边界

7.1 关于OpenAI Deep Research的边界

公开资料更强调的是能力、接口、控制方式与输出形态,而不是内部唯一拓扑。

因此,最终文档最稳妥的写法不是"我断定它内部就是某种单一架构",而是"根据官方公开能力与工程范式,它最接近哪类架构、由哪些模式组合而成、哪些部分是已确认事实、哪些只是高概率推断"。

这样既严谨,也最适合企业内部评审、方案汇报和对外讲解。


八、最终核心原则

  1. 术语严谨:严格区分workflow与agent,不混淆编排模式、横切能力、拓扑结构的抽象层
  2. 表述稳妥:避免绝对化判断,对未公开信息明确区分"推断"与"事实",主动注明研究边界
  3. 落地导向:架构设计与分类均贴合企业工程实践,优先"简单可用",再考虑"复杂升级",避免过度设计
  4. 逻辑清晰:按"控制权—编排方式—能力构件"分层,让三类业务架构、模式库、落地方案的逻辑闭环,无矛盾点
  5. 组合思维:大多数真实系统都会混合多种模式,组合不是例外,而是常态(参考OpenAI Deep Research)

总结

核心要点

  1. 分层思维:把"业务分类"“编排模式”"能力构件"三层拆开写,避免混淆不同抽象层
  2. 术语对齐:workflow与agent是两个不同概念,前者强调可控性,后者强调自主性
  3. 渐进复杂度:先用足够简单的系统,只有在复杂度确实带来收益时再升级到更agentic的方案
  4. 严谨表述:区分"官方确认"“合理推断”"尚未公开"三层,避免把推断写成事实
  5. 组合原则:参考OpenAI Deep Research的设计,大多数真实系统都会混合多种模式,组合不是例外,而是常态

企业级AI应用架构定位

企业级AI应用是"以显式状态图为核心的人机在环工作流系统,内部嵌入局部agentic子图",对当前强约束、强审计、多轮交互场景更适配。

OpenAI Deep Research架构启示

OpenAI Deep Research的核心研究引擎更接近"自主规划类Agent",但在交互壳层又明显带有人机在环workflow的特征,体现了"自主规划核心 + 人机在环控制"的混合形态,这为我们的架构设计提供了重要参考。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐