AI Workflow：AI工作流

星球奋斗者

712人浏览 · 2026-05-28 13:12:47

星球奋斗者 · 2026-05-28 13:12:47 发布

一句话解释

AI Workflow 是把大模型、检索、工具调用、业务规则、人工确认、评估和状态管理组织成一条可重复执行的流程，用来更可靠地完成真实任务。

如果 prompt 是“给模型一句指令”，AI Workflow 则是“把模型放进一个有步骤、有边界、有检查点的工作系统里”。

为什么最近变火

AI Workflow 变火，是因为大家很快发现：单次 prompt 很适合演示，但不够支撑稳定生产。

用户可以让模型“一次性写一份报告”，但真实工作通常不是这样完成的。写报告可能需要先查资料、筛来源、生成大纲、写初稿、检查事实、统一格式、等待人工审核、导出 PDF、发给指定对象。每一步都可能失败，也都可能需要不同模型、工具或人工参与。

2023 年之后，RAG、Function Calling、Agent、多模态模型快速发展，模型能做的事情变多了，但系统复杂度也上来了。开发者需要一种方式把这些能力组织起来，而不是把所有逻辑塞进一个巨大 prompt。

2024 年，Andrew Ng 多次强调 agentic workflows，并把 reflection、tool use、planning、multi-agent collaboration 作为重要设计模式来讨论。Anthropic 在 2024 年底发布 Building effective agents，也强调成功的 LLM 系统往往依赖简单、可组合的模式，而不是一开始就追求复杂自主 Agent。OpenAI Agents SDK、LangGraph、LlamaIndex Workflows、Temporal 等工具和框架，也从不同角度把 AI Workflow 推向工程实践。

因此，AI Workflow 的热度来自一个实际需求：大模型要从“能回答”变成“能稳定做事”，就必须进入可控流程。

它解决了什么问题

单次 prompt 不稳定：复杂任务拆成多个步骤后，更容易检查和修正。
任务需要外部数据：工作流可以在合适步骤调用 RAG、数据库、搜索和 API。
任务需要执行动作：工作流可以组织 Function Calling、代码执行、文件处理和业务系统操作。
高风险操作需要审批：工作流可以在人类确认后再发送邮件、付款、发布内容或修改数据库。
中间结果需要验证：每一步都可以加规则校验、模型评估、测试或人工审查。
失败需要恢复：工作流可以记录状态、重试失败步骤、从检查点恢复。
成本需要控制：不同步骤可以选择不同模型，小任务用便宜模型，关键步骤用强模型。
团队需要可观测性：日志、trace、输入输出和工具调用记录让系统可调试、可审计。

AI Workflow 的核心价值是把“模型能力”变成“可靠流程”。它不一定让模型更聪明，但能让系统更稳。

核心概念

1. Step：步骤

工作流由步骤组成。每个步骤完成一个相对清晰的任务，例如检索资料、抽取字段、调用 API、生成摘要、评估答案、等待审批。

一个好的步骤应该边界清楚，输入输出明确，失败时容易定位。

2. State：状态

状态记录当前任务已经进行到哪里、已有中间结果是什么、下一步需要什么。

没有状态管理，复杂 AI 应用很容易变成“每次都重新开始”。例如一个研究报告工作流需要记住已检索来源、已筛掉的资料、当前大纲、用户修改意见和最终引用。

3. Trigger：触发器

触发器决定工作流何时开始。它可以是用户点击按钮、上传文件、收到邮件、定时任务、Webhook、数据库变化或另一个工作流的输出。

例如：

上传合同后触发合同审查流程；
每天早上触发日报生成流程；
新工单创建后触发客服辅助流程。

4. Tool：工具

工具让工作流能访问外部能力。RAG 检索器、数据库查询、代码执行器、邮件系统、日历、浏览器、OCR、图像识别都可以是工具。

工具调用让工作流不只依赖模型内部知识，而能查资料、算结果、执行动作。

5. Router：路由

路由负责根据输入内容选择不同路径。例如：

简单问题直接回答；
需要公司知识的问题走 RAG；
需要查询数据的问题走 SQL；
投诉类问题转人工；
高风险请求进入审批流程。

路由可以由规则实现，也可以由模型判断。生产系统中常常二者结合：低风险分类交给模型，高风险边界用规则保护。

6. Guardrail：护栏

护栏用于检查输入、输出和工具调用是否安全、合规、符合格式要求。它可以阻止敏感信息泄露、危险操作、越权访问、错误格式或低质量结果。

护栏不一定都由模型完成。很多时候，正则、权限系统、schema 校验、静态规则和传统代码更可靠。

7. Human-in-the-loop：人在环路中

人在环路中指工作流在关键节点暂停，让人类审核、修改或批准。

这不只是最后点一个“同意”按钮。更好的设计是在风险最高、信息最不确定、业务责任最重的地方引入人类判断。

8. Evaluation：评估

评估用于判断工作流输出是否达标。它可以是自动测试、规则校验、模型评分、人工标注、A/B 测试或用户反馈。

没有评估，AI Workflow 很难持续改进。你不知道失败发生在检索、工具调用、推理、生成、格式化还是人工交接环节。

工作原理

一个典型 AI Workflow 通常将复杂任务分解为可执行步骤，由AI逐步执行并完成目标：

在这里插入图片描述

这个图看起来比一个 prompt 复杂，但它更接近真实工作。真实任务往往需要：

输入前检查；
中间步骤可追踪；
失败能重试；
高风险能暂停；
输出前能评估；
最终结果能解释来源。

常见工作流模式

Anthropic 在 Building effective agents 中总结了几类简单有效的模式。结合近年的 Agent 实践，可以把常见 AI Workflow 粗略分为以下几类：

模式	核心思想	适合场景
Prompt Chaining	一个模型输出作为下一步输入	文档处理、分阶段写作
Routing	根据输入类型选择不同路径	客服分流、任务分类
Parallelization	多个步骤并行运行再汇总	多来源检索、批量分析
Evaluator-Optimizer	生成后由评估器检查并要求修改	写作、代码、数据抽取
Orchestrator-Workers	一个协调者拆任务，多个 worker 执行	研究报告、复杂分析
Agentic Loop	模型根据观察结果动态决定下一步	开放式研究、编程、浏览器操作

不同模式没有优劣之分，关键是任务适配。

如果任务步骤稳定，固定 workflow 往往更可靠。如果任务开放、路径不确定，Agentic Loop 更灵活，但也更需要边界和监控。

典型应用场景

1. RAG 问答工作流

一个生产级 RAG 系统不是“检索 + 回答”这么简单。它可能包含：

用户权限检查；
问题改写；
混合检索；
reranking；
上下文压缩；
生成答案；
引用校验；
不确定时拒答；
用户反馈记录。

这就是典型 AI Workflow：多个步骤围绕一个目标协作，让 RAG 从 demo 变成可靠服务。

2. 内容创作工作流

写一篇博客可以拆成：

确定主题；
搜索权威资料；
生成大纲；
写初稿；
检查事实；
补充图表；
调整语言风格；
生成 Markdown；
人工审阅发布。

这比“一次性写一篇文章”更稳定，也更适合学习型内容创作。

3. 客服工单工作流

客服场景中，AI 可以先判断问题类型，再检索知识库、生成回复建议、检查政策风险、必要时转人工。

例如退款、投诉、法律风险、敏感客户，都可以走不同路径。AI 不一定自动回复客户，而是先生成建议，由客服人员确认。

4. 数据分析工作流

数据分析通常需要：

理解用户问题；
找到相关表；
生成 SQL；
执行查询；
检查结果是否合理；
生成图表；
写业务解释；
保留查询和结果记录。

如果模型直接生成结论，很容易胡说。把分析拆成工作流，可以让每一步可验证。

5. 编程和代码审查工作流

编程 Agent 可以嵌入 workflow：

读取 issue；
定位相关文件；
制定修改计划；
修改代码；
运行测试；
失败则读日志并重试；
生成变更说明；
等待人类审查。

这也是为什么软件工程是 Agent 和 Workflow 最容易落地的领域之一：代码可以运行，测试可以验证，版本控制可以回滚。

6. 文档处理和审批工作流

企业常见流程包括合同审查、报销审核、发票识别、采购审批、合规检查。

AI 可以抽取字段、比对规则、提示风险、生成摘要，但最终审批往往仍需要人类。工作流可以把 AI 的速度和人的责任边界结合起来。

和其他概念的区别

概念	关注点	和 AI Workflow 的关系
Prompt	单次模型输入	Workflow 会组织多个 prompt 和步骤
Prompt Engineering	优化提示词	Workflow 更关注流程、状态和工具
RAG	检索增强回答	RAG 通常是 workflow 中的一段
Function Calling	调用外部工具	Workflow 负责决定何时调用、如何处理结果
Agent	动态规划和行动	Agent 可以嵌入 workflow，也可以由 workflow 管控
MCP	标准化连接工具和数据	Workflow 可以通过 MCP 使用外部能力
Context Engineering	组织模型上下文	Workflow 负责在不同步骤构造不同上下文
传统自动化	固定规则执行	AI Workflow 加入模型判断和生成能力

Workflow 和 Agent 怎么选

一个实用判断是：任务路径越稳定，越适合 workflow；任务路径越开放，越需要 Agent。

任务类型	更适合
发票字段抽取	Workflow
固定格式报告生成	Workflow
客服问题分流	Workflow + 少量模型判断
开放式网页调研	Agent + Workflow 边界
修复未知代码 bug	Agentic Workflow
自动审批付款	Workflow + 强人工确认，不应完全 Agent 自主

真正成熟的系统通常不是二选一，而是组合：外层 workflow 保证安全、状态和可观测性，内层 Agent 处理开放步骤。

一个简单例子

假设你要用 AI 写一篇技术博客，不希望模型一次性胡写，而是希望它逐步完成。

可以设计一个博客写作工作流：

这个工作流比单次 prompt 更可靠，因为它把风险拆开了：

资料是否靠谱，在写作前检查；
大纲是否符合目标，在写作前确认；
初稿是否有事实问题，在发布前核验；
最终结果是否适合读者，由人类判断。

这其实就是你正在做的 AI 发展史系列博客的理想写作方式：不是一次生成全部文章，而是规划、逐篇写作、逐篇检查、逐步扩展。

常见误解

误解 1：AI Workflow 就是画一个流程图

流程图只是表达方式。真正的 workflow 还需要状态、输入输出、错误处理、权限、日志、评估和部署。

如果流程图不能运行、不能恢复、不能检查失败原因，它只是设计草图。

误解 2：工作流越复杂越高级

不一定。复杂 workflow 更难维护，也更容易出现隐性错误。很多可靠系统来自简单模式的组合。

能用规则解决的，不一定要用模型；能用一个确定步骤解决的，不一定要引入 Agent。

误解 3：Agent 会取代 Workflow

不会。Agent 越强，越需要 workflow 约束。没有边界的 Agent 很难进入生产。

Workflow 像轨道，Agent 像能在轨道内灵活处理复杂情况的驾驶员。两者是互补关系。

误解 4：人类确认只需要放在最后

很多高风险任务需要中间确认。比如合同审查，最好在风险条款识别后就让法务确认，而不是等模型生成最终结论后再看。

人在环路中的位置应该根据风险设计，而不是简单放在结尾。

误解 5：有了工作流就不需要评估

工作流更需要评估，因为失败可能发生在任何步骤。检索失败、路由错误、工具调用失败、模型生成错误、人工审批延迟，都会影响最终结果。

评估要覆盖流程级指标，而不只是最终答案质量。

未来趋势

1. Durable Workflow：可持久恢复的 AI 流程

AI 工作流会越来越长，可能运行几分钟、几小时甚至几天。中间会遇到网络失败、API 限流、用户暂停、人工审批和系统重启。

因此，可持久执行会变得重要。LangGraph、Temporal 等工具都在强调状态持久化、暂停恢复、重试和长任务管理。

2. 人机协同界面

未来 AI Workflow 不只是后台流程，还需要更好的用户界面。用户需要知道：

当前执行到哪一步；
为什么等待我确认；
AI 使用了哪些资料；
哪些操作已经执行；
哪些结果不确定；
我可以在哪里修改方向。

好的 AI 工作流界面会让用户感觉自己在指挥一个透明团队，而不是盯着一个黑箱加载动画。

3. 工作流评估和可观测性

AI Workflow 需要 trace。开发者要能回放每一步模型输入、输出、工具调用、检索结果、人工修改和错误日志。

未来 AI 工程会越来越像传统软件工程和数据工程的结合：不只写 prompt，还要做监控、测试、回归、报警和版本管理。

4. 多 Agent 工作流

复杂任务可能由多个 Agent 协作完成。例如研究员 Agent 搜资料，写作者 Agent 写稿，审稿 Agent 检查事实，编辑 Agent 调整风格。

多 Agent 工作流很有想象力，但也容易失控。角色越多，通信成本、错误传播和调试难度越高。生产系统需要谨慎设计。

5. 业务流程与 AI 原生流程融合

未来企业不会把 AI Workflow 单独放在旁边，而会把它嵌入 CRM、ERP、代码平台、文档系统、审批系统和数据平台。

AI Workflow 会变成业务流程的一部分：有权限、有审计、有 SLA、有负责人、有回滚机制。

小结

AI Workflow 是把模型、工具、检索、规则、人工确认和评估组织成可执行流程。
它解决的是“单次 prompt 不够稳定、不可控、不可审计”的问题。
核心组件包括步骤、状态、触发器、工具、路由、护栏、人在环路中和评估。
常见模式包括 prompt chaining、routing、parallelization、evaluator-optimizer、orchestrator-workers 和 agentic loop。
Workflow 更适合路径稳定的任务，Agent 更适合开放任务，成熟系统通常结合二者。
RAG、Function Calling、MCP、Context Engineering 都可以成为 AI Workflow 的组成部分。
AI Workflow 的可靠性来自拆步骤、可验证、可恢复、可审批和可观测。
未来趋势包括可持久执行、人机协同界面、流程级评估、多 Agent 协作和业务系统融合。

参考资料

DeepLearning.AI, Agentic AI with Andrew Ng: https://www.deeplearning.ai/courses/agentic-ai/
DeepLearning.AI, AI Agentic Design Patterns with AutoGen: https://learn.deeplearning.ai/courses/ai-agentic-design-patterns-with-autogen/information
Anthropic, Building effective agents, 2024: https://www.anthropic.com/research/building-effective-agents
OpenAI, New tools for building agents, 2025: https://openai.com/index/new-tools-for-building-agents/
OpenAI Agents SDK, Agents: https://openai.github.io/openai-agents-python/agents/
OpenAI Agents SDK, Guardrails: https://openai.github.io/openai-agents-python/guardrails/
OpenAI Agents SDK, Tracing: https://openai.github.io/openai-agents-python/tracing/
LangChain, LangGraph: https://www.langchain.com/langgraph
LangChain Docs, LangGraph Durable execution: https://docs.langchain.com/oss/python/langgraph/durable-execution
LangChain Blog, Building LangGraph: Designing an Agent Runtime from first principles: https://www.langchain.com/blog/building-langgraph
LlamaIndex Docs, Workflows: https://docs.llamaindex.ai/en/stable/module_guides/workflow/
LlamaIndex Docs, Introduction to workflows: https://docs.llamaindex.ai/en/stable/understanding/workflows/
Temporal, Durable Execution: https://temporal.io/
Shunyu Yao et al., ReAct: Synergizing Reasoning and Acting in Language Models, 2022: https://arxiv.org/abs/2210.03629
Timo Schick et al., Toolformer: Language Models Can Teach Themselves to Use Tools, 2023: https://arxiv.org/abs/2302.04761

下一篇：Reasoning Model：推理模型

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

深度解析 Agent A：基于 Ahrefs 万亿级 Web 数据的 AI 智能体技术架构与实现

AtomGit开源社区

电商监控体系从0搭建：我在SRE岗踩了3年坑总结的5个关键设计

本文分享电商监控体系的设计思路与实战经验。作者基于自身运维经验提出三层监控模型：基础设施层（主机/容器）、应用服务层（RED+USE指标）、业务指标层（订单/支付等核心指标），强调每层应设置不同的告警策略。重点包括：避免基础层过度告警，应用层需关联调用链路，业务层需关注真实交易指标。文章还探讨告警收敛、指标与日志链路打通、大促监控扩展等实用技巧，并给出部署验证步骤和常见避坑指南。核心观点是监控应以