AI Workflow:AI工作流
一句话解释
AI Workflow 是把大模型、检索、工具调用、业务规则、人工确认、评估和状态管理组织成一条可重复执行的流程,用来更可靠地完成真实任务。
如果 prompt 是“给模型一句指令”,AI Workflow 则是“把模型放进一个有步骤、有边界、有检查点的工作系统里”。
为什么最近变火
AI Workflow 变火,是因为大家很快发现:单次 prompt 很适合演示,但不够支撑稳定生产。
用户可以让模型“一次性写一份报告”,但真实工作通常不是这样完成的。写报告可能需要先查资料、筛来源、生成大纲、写初稿、检查事实、统一格式、等待人工审核、导出 PDF、发给指定对象。每一步都可能失败,也都可能需要不同模型、工具或人工参与。
2023 年之后,RAG、Function Calling、Agent、多模态模型快速发展,模型能做的事情变多了,但系统复杂度也上来了。开发者需要一种方式把这些能力组织起来,而不是把所有逻辑塞进一个巨大 prompt。
2024 年,Andrew Ng 多次强调 agentic workflows,并把 reflection、tool use、planning、multi-agent collaboration 作为重要设计模式来讨论。Anthropic 在 2024 年底发布 Building effective agents,也强调成功的 LLM 系统往往依赖简单、可组合的模式,而不是一开始就追求复杂自主 Agent。OpenAI Agents SDK、LangGraph、LlamaIndex Workflows、Temporal 等工具和框架,也从不同角度把 AI Workflow 推向工程实践。
因此,AI Workflow 的热度来自一个实际需求:大模型要从“能回答”变成“能稳定做事”,就必须进入可控流程。
它解决了什么问题
- 单次 prompt 不稳定:复杂任务拆成多个步骤后,更容易检查和修正。
- 任务需要外部数据:工作流可以在合适步骤调用 RAG、数据库、搜索和 API。
- 任务需要执行动作:工作流可以组织 Function Calling、代码执行、文件处理和业务系统操作。
- 高风险操作需要审批:工作流可以在人类确认后再发送邮件、付款、发布内容或修改数据库。
- 中间结果需要验证:每一步都可以加规则校验、模型评估、测试或人工审查。
- 失败需要恢复:工作流可以记录状态、重试失败步骤、从检查点恢复。
- 成本需要控制:不同步骤可以选择不同模型,小任务用便宜模型,关键步骤用强模型。
- 团队需要可观测性:日志、trace、输入输出和工具调用记录让系统可调试、可审计。
AI Workflow 的核心价值是把“模型能力”变成“可靠流程”。它不一定让模型更聪明,但能让系统更稳。
核心概念
1. Step:步骤
工作流由步骤组成。每个步骤完成一个相对清晰的任务,例如检索资料、抽取字段、调用 API、生成摘要、评估答案、等待审批。
一个好的步骤应该边界清楚,输入输出明确,失败时容易定位。
2. State:状态
状态记录当前任务已经进行到哪里、已有中间结果是什么、下一步需要什么。
没有状态管理,复杂 AI 应用很容易变成“每次都重新开始”。例如一个研究报告工作流需要记住已检索来源、已筛掉的资料、当前大纲、用户修改意见和最终引用。
3. Trigger:触发器
触发器决定工作流何时开始。它可以是用户点击按钮、上传文件、收到邮件、定时任务、Webhook、数据库变化或另一个工作流的输出。
例如:
- 上传合同后触发合同审查流程;
- 每天早上触发日报生成流程;
- 新工单创建后触发客服辅助流程。
4. Tool:工具
工具让工作流能访问外部能力。RAG 检索器、数据库查询、代码执行器、邮件系统、日历、浏览器、OCR、图像识别都可以是工具。
工具调用让工作流不只依赖模型内部知识,而能查资料、算结果、执行动作。
5. Router:路由
路由负责根据输入内容选择不同路径。例如:
- 简单问题直接回答;
- 需要公司知识的问题走 RAG;
- 需要查询数据的问题走 SQL;
- 投诉类问题转人工;
- 高风险请求进入审批流程。
路由可以由规则实现,也可以由模型判断。生产系统中常常二者结合:低风险分类交给模型,高风险边界用规则保护。
6. Guardrail:护栏
护栏用于检查输入、输出和工具调用是否安全、合规、符合格式要求。它可以阻止敏感信息泄露、危险操作、越权访问、错误格式或低质量结果。
护栏不一定都由模型完成。很多时候,正则、权限系统、schema 校验、静态规则和传统代码更可靠。
7. Human-in-the-loop:人在环路中
人在环路中指工作流在关键节点暂停,让人类审核、修改或批准。
这不只是最后点一个“同意”按钮。更好的设计是在风险最高、信息最不确定、业务责任最重的地方引入人类判断。
8. Evaluation:评估
评估用于判断工作流输出是否达标。它可以是自动测试、规则校验、模型评分、人工标注、A/B 测试或用户反馈。
没有评估,AI Workflow 很难持续改进。你不知道失败发生在检索、工具调用、推理、生成、格式化还是人工交接环节。
工作原理
一个典型 AI Workflow 通常将复杂任务分解为可执行步骤,由AI逐步执行并完成目标:

这个图看起来比一个 prompt 复杂,但它更接近真实工作。真实任务往往需要:
- 输入前检查;
- 中间步骤可追踪;
- 失败能重试;
- 高风险能暂停;
- 输出前能评估;
- 最终结果能解释来源。
常见工作流模式
Anthropic 在 Building effective agents 中总结了几类简单有效的模式。结合近年的 Agent 实践,可以把常见 AI Workflow 粗略分为以下几类:
| 模式 | 核心思想 | 适合场景 |
|---|---|---|
| Prompt Chaining | 一个模型输出作为下一步输入 | 文档处理、分阶段写作 |
| Routing | 根据输入类型选择不同路径 | 客服分流、任务分类 |
| Parallelization | 多个步骤并行运行再汇总 | 多来源检索、批量分析 |
| Evaluator-Optimizer | 生成后由评估器检查并要求修改 | 写作、代码、数据抽取 |
| Orchestrator-Workers | 一个协调者拆任务,多个 worker 执行 | 研究报告、复杂分析 |
| Agentic Loop | 模型根据观察结果动态决定下一步 | 开放式研究、编程、浏览器操作 |
不同模式没有优劣之分,关键是任务适配。
如果任务步骤稳定,固定 workflow 往往更可靠。如果任务开放、路径不确定,Agentic Loop 更灵活,但也更需要边界和监控。
典型应用场景
1. RAG 问答工作流
一个生产级 RAG 系统不是“检索 + 回答”这么简单。它可能包含:
- 用户权限检查;
- 问题改写;
- 混合检索;
- reranking;
- 上下文压缩;
- 生成答案;
- 引用校验;
- 不确定时拒答;
- 用户反馈记录。
这就是典型 AI Workflow:多个步骤围绕一个目标协作,让 RAG 从 demo 变成可靠服务。
2. 内容创作工作流
写一篇博客可以拆成:
- 确定主题;
- 搜索权威资料;
- 生成大纲;
- 写初稿;
- 检查事实;
- 补充图表;
- 调整语言风格;
- 生成 Markdown;
- 人工审阅发布。
这比“一次性写一篇文章”更稳定,也更适合学习型内容创作。
3. 客服工单工作流
客服场景中,AI 可以先判断问题类型,再检索知识库、生成回复建议、检查政策风险、必要时转人工。
例如退款、投诉、法律风险、敏感客户,都可以走不同路径。AI 不一定自动回复客户,而是先生成建议,由客服人员确认。
4. 数据分析工作流
数据分析通常需要:
- 理解用户问题;
- 找到相关表;
- 生成 SQL;
- 执行查询;
- 检查结果是否合理;
- 生成图表;
- 写业务解释;
- 保留查询和结果记录。
如果模型直接生成结论,很容易胡说。把分析拆成工作流,可以让每一步可验证。
5. 编程和代码审查工作流
编程 Agent 可以嵌入 workflow:
- 读取 issue;
- 定位相关文件;
- 制定修改计划;
- 修改代码;
- 运行测试;
- 失败则读日志并重试;
- 生成变更说明;
- 等待人类审查。
这也是为什么软件工程是 Agent 和 Workflow 最容易落地的领域之一:代码可以运行,测试可以验证,版本控制可以回滚。
6. 文档处理和审批工作流
企业常见流程包括合同审查、报销审核、发票识别、采购审批、合规检查。
AI 可以抽取字段、比对规则、提示风险、生成摘要,但最终审批往往仍需要人类。工作流可以把 AI 的速度和人的责任边界结合起来。
和其他概念的区别
| 概念 | 关注点 | 和 AI Workflow 的关系 |
|---|---|---|
| Prompt | 单次模型输入 | Workflow 会组织多个 prompt 和步骤 |
| Prompt Engineering | 优化提示词 | Workflow 更关注流程、状态和工具 |
| RAG | 检索增强回答 | RAG 通常是 workflow 中的一段 |
| Function Calling | 调用外部工具 | Workflow 负责决定何时调用、如何处理结果 |
| Agent | 动态规划和行动 | Agent 可以嵌入 workflow,也可以由 workflow 管控 |
| MCP | 标准化连接工具和数据 | Workflow 可以通过 MCP 使用外部能力 |
| Context Engineering | 组织模型上下文 | Workflow 负责在不同步骤构造不同上下文 |
| 传统自动化 | 固定规则执行 | AI Workflow 加入模型判断和生成能力 |
Workflow 和 Agent 怎么选
一个实用判断是:任务路径越稳定,越适合 workflow;任务路径越开放,越需要 Agent。
| 任务类型 | 更适合 |
|---|---|
| 发票字段抽取 | Workflow |
| 固定格式报告生成 | Workflow |
| 客服问题分流 | Workflow + 少量模型判断 |
| 开放式网页调研 | Agent + Workflow 边界 |
| 修复未知代码 bug | Agentic Workflow |
| 自动审批付款 | Workflow + 强人工确认,不应完全 Agent 自主 |
真正成熟的系统通常不是二选一,而是组合:外层 workflow 保证安全、状态和可观测性,内层 Agent 处理开放步骤。
一个简单例子
假设你要用 AI 写一篇技术博客,不希望模型一次性胡写,而是希望它逐步完成。
可以设计一个博客写作工作流:
这个工作流比单次 prompt 更可靠,因为它把风险拆开了:
- 资料是否靠谱,在写作前检查;
- 大纲是否符合目标,在写作前确认;
- 初稿是否有事实问题,在发布前核验;
- 最终结果是否适合读者,由人类判断。
这其实就是你正在做的 AI 发展史系列博客的理想写作方式:不是一次生成全部文章,而是规划、逐篇写作、逐篇检查、逐步扩展。
常见误解
误解 1:AI Workflow 就是画一个流程图
流程图只是表达方式。真正的 workflow 还需要状态、输入输出、错误处理、权限、日志、评估和部署。
如果流程图不能运行、不能恢复、不能检查失败原因,它只是设计草图。
误解 2:工作流越复杂越高级
不一定。复杂 workflow 更难维护,也更容易出现隐性错误。很多可靠系统来自简单模式的组合。
能用规则解决的,不一定要用模型;能用一个确定步骤解决的,不一定要引入 Agent。
误解 3:Agent 会取代 Workflow
不会。Agent 越强,越需要 workflow 约束。没有边界的 Agent 很难进入生产。
Workflow 像轨道,Agent 像能在轨道内灵活处理复杂情况的驾驶员。两者是互补关系。
误解 4:人类确认只需要放在最后
很多高风险任务需要中间确认。比如合同审查,最好在风险条款识别后就让法务确认,而不是等模型生成最终结论后再看。
人在环路中的位置应该根据风险设计,而不是简单放在结尾。
误解 5:有了工作流就不需要评估
工作流更需要评估,因为失败可能发生在任何步骤。检索失败、路由错误、工具调用失败、模型生成错误、人工审批延迟,都会影响最终结果。
评估要覆盖流程级指标,而不只是最终答案质量。
未来趋势
1. Durable Workflow:可持久恢复的 AI 流程
AI 工作流会越来越长,可能运行几分钟、几小时甚至几天。中间会遇到网络失败、API 限流、用户暂停、人工审批和系统重启。
因此,可持久执行会变得重要。LangGraph、Temporal 等工具都在强调状态持久化、暂停恢复、重试和长任务管理。
2. 人机协同界面
未来 AI Workflow 不只是后台流程,还需要更好的用户界面。用户需要知道:
- 当前执行到哪一步;
- 为什么等待我确认;
- AI 使用了哪些资料;
- 哪些操作已经执行;
- 哪些结果不确定;
- 我可以在哪里修改方向。
好的 AI 工作流界面会让用户感觉自己在指挥一个透明团队,而不是盯着一个黑箱加载动画。
3. 工作流评估和可观测性
AI Workflow 需要 trace。开发者要能回放每一步模型输入、输出、工具调用、检索结果、人工修改和错误日志。
未来 AI 工程会越来越像传统软件工程和数据工程的结合:不只写 prompt,还要做监控、测试、回归、报警和版本管理。
4. 多 Agent 工作流
复杂任务可能由多个 Agent 协作完成。例如研究员 Agent 搜资料,写作者 Agent 写稿,审稿 Agent 检查事实,编辑 Agent 调整风格。
多 Agent 工作流很有想象力,但也容易失控。角色越多,通信成本、错误传播和调试难度越高。生产系统需要谨慎设计。
5. 业务流程与 AI 原生流程融合
未来企业不会把 AI Workflow 单独放在旁边,而会把它嵌入 CRM、ERP、代码平台、文档系统、审批系统和数据平台。
AI Workflow 会变成业务流程的一部分:有权限、有审计、有 SLA、有负责人、有回滚机制。
小结
- AI Workflow 是把模型、工具、检索、规则、人工确认和评估组织成可执行流程。
- 它解决的是“单次 prompt 不够稳定、不可控、不可审计”的问题。
- 核心组件包括步骤、状态、触发器、工具、路由、护栏、人在环路中和评估。
- 常见模式包括 prompt chaining、routing、parallelization、evaluator-optimizer、orchestrator-workers 和 agentic loop。
- Workflow 更适合路径稳定的任务,Agent 更适合开放任务,成熟系统通常结合二者。
- RAG、Function Calling、MCP、Context Engineering 都可以成为 AI Workflow 的组成部分。
- AI Workflow 的可靠性来自拆步骤、可验证、可恢复、可审批和可观测。
- 未来趋势包括可持久执行、人机协同界面、流程级评估、多 Agent 协作和业务系统融合。
参考资料
- DeepLearning.AI, Agentic AI with Andrew Ng: https://www.deeplearning.ai/courses/agentic-ai/
- DeepLearning.AI, AI Agentic Design Patterns with AutoGen: https://learn.deeplearning.ai/courses/ai-agentic-design-patterns-with-autogen/information
- Anthropic, Building effective agents, 2024: https://www.anthropic.com/research/building-effective-agents
- OpenAI, New tools for building agents, 2025: https://openai.com/index/new-tools-for-building-agents/
- OpenAI Agents SDK, Agents: https://openai.github.io/openai-agents-python/agents/
- OpenAI Agents SDK, Guardrails: https://openai.github.io/openai-agents-python/guardrails/
- OpenAI Agents SDK, Tracing: https://openai.github.io/openai-agents-python/tracing/
- LangChain, LangGraph: https://www.langchain.com/langgraph
- LangChain Docs, LangGraph Durable execution: https://docs.langchain.com/oss/python/langgraph/durable-execution
- LangChain Blog, Building LangGraph: Designing an Agent Runtime from first principles: https://www.langchain.com/blog/building-langgraph
- LlamaIndex Docs, Workflows: https://docs.llamaindex.ai/en/stable/module_guides/workflow/
- LlamaIndex Docs, Introduction to workflows: https://docs.llamaindex.ai/en/stable/understanding/workflows/
- Temporal, Durable Execution: https://temporal.io/
- Shunyu Yao et al., ReAct: Synergizing Reasoning and Acting in Language Models, 2022: https://arxiv.org/abs/2210.03629
- Timo Schick et al., Toolformer: Language Models Can Teach Themselves to Use Tools, 2023: https://arxiv.org/abs/2302.04761
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)