文章目录

作者视角:一名在企业 IT 架构与 AIOps 领域深耕十余年的资深架构师
面向读者:计划推进 AI Agent 运维转型的企业 CTO、架构师及技术决策者
成文日期:2026 年 6 月


前言:运维的范式转移正在发生,但不是你想象的那种方式

过去两三年,市面上充斥着大量关于"AI 运维革命"的宣传,动辄"颠覆"、“重塑”,却鲜有落地的技术细节。在我看来,真正值得关注的,不是那些被 PR 精心包装的成功案例,而是那些真实踩过坑、有具体数据支撑、有架构细节可借鉴的工程实践。

从 2024 年到 2026 年,我持续追踪了国内外头部企业在 IT 运维 Agentic AI 领域的进展。坦白说,大多数宣称"全面落地"的项目,实际上仍停留在告警降噪和日志查询的层面——本质上是一个披着 LLM 外衣的高级搜索框。真正实现"从告警感知到自主闭环执行"的案例,在全球范围内屈指可数。

本文选取四个我认为最具架构参考价值的案例:微软的 Azure SRE Agent、谷歌的 SRE AI 系统、交通银行的"1+1+N"多 Agent 架构,以及字节跳动的 SRE-Copilot 框架。这四个案例的共同特点是:有具体的架构设计,有可验证的工程细节,有量化的业务成果。

最后,我会基于这四个案例的工程实践,提炼出一套面向意图落地 Agentic AI 运维的企业的实施建议——不谈概念,只谈操作路径。


一、国际案例一:微软 Azure SRE Agent

1.1 背景与真实痛点

微软在全球运营着数以千计的云服务,Azure 本身就是一个极度复杂的分布式系统。在 AI 代码生成工具普及之后,微软内部开发者的代码交付速度呈指数级增长,这带来了一个工程层面的悖论:代码产出越多,潜在的可靠性风险越多,而运维人员的规模却没有同步增长。On-call 工程师的值班负担在 2024 年前后达到一个不可持续的临界点,这才是 Azure SRE Agent 真正的诞生背景,而非单纯的技术探索。

这个背景之所以重要,是因为它决定了该系统的设计取向:首要目标是减少工程师的"运维 Toil",而不是追求技术上的自动化率最大化。这两个目标看起来相近,实则存在本质差异,后者容易走向盲目的"去人化"陷阱。

1.2 架构设计思路:跨越 SDLC 的 Agentic 闭环

Azure SRE Agent 最值得研究的地方,在于它的设计边界。绝大多数 AIOps 项目把边界划在运维阶段——也就是系统上线之后。微软的做法不同,他们把 Agent 的覆盖范围从代码开发阶段就开始了,形成了一个贯穿整个软件开发生命周期(SDLC)的 Agentic 体系。

具体分三个阶段:

Plan & Code 阶段:专职 Agent 协助工程师和产品经理进行规格文档的撰写,生成原型代码,并将其提交到 Staging 环境。这一阶段的核心价值不是替代开发,而是让 PM 也能直接参与到早期迭代中,极大压缩了需求到原型的周期。

Verify, Test & Deploy 阶段:代码质量审查 Agent、安全 Agent 和部署 Agent 协同工作。值得注意的是,安全检查被 Shift Left 到了代码提交之前,而不是传统的上线后审计,这从架构设计上消除了一大类运维隐患。

Operate & Optimize 阶段:这才是 Azure SRE Agent 的核心战场。Agent 持续监控生产环境,对告警进行自主调查,生成根因分析报告,提出修复建议,在获得授权的场景下直接执行修复。更关键的是,这个 Agent 有一个专属的自身运维实例——也就是说,监控和维护 Azure SRE Agent 这个系统本身的工作,也是由 Azure SRE Agent 来承担的。这种递归自维护设计,在工程上是一个非常有意思的选择。

架构图(逻辑表示)如下:

在这里插入图片描述微软 Azure SRE Agent (来源:Microsoft Tech Community, Apr 2026)

1.3 工程实现细节

工具集成层:微软没有重建一套可观测性基础设施,而是通过 MCP(Model Context Protocol)和 Python 工具集,将 Agent 与现有的遥测平台、代码仓库、事故管理平台(类似 PagerDuty/ServiceNow 的内部系统)打通。MCP 在这里不只是一个技术协议,更是一种工程治理的体现——每个工具有明确的接口描述、权限边界和调用限制,Agent 知道什么能做什么不能做。

学习机制:Agent 在处理每次事故后,会将事故的处理过程、人工干预的原因、最终解决方案一起记录下来,形成经验条目。下次遇到相似事故时,这些历史经验会作为上下文注入给 Agent。这不是传统意义上的模型 Fine-tuning,而是一种基于 RAG 的即时学习——好处是实施简单、响应快;代价是知识质量高度依赖人工反馈的精准度。

治理机制:所有涉及生产变更的操作,必须经过基于 RBAC 的权限验证。高危操作(如扩缩容、服务重启、配置变更)会生成一个"操作提案",通过 Slack 或内部 ChatOps 工具推送给值班工程师,等待人工确认。这个设计听起来平淡,但实际上解决了一个核心的信任问题:工程师可以先审查 Agent 的思考过程,再决定是否授权执行,而不是面对一个不透明的黑盒。

1.4 实际效果

微软公开披露的数据(统计周期:投产后约 9 个月):

  • 自主处理事故数量:35,000+ 件
  • 节省开发者工时:50,000+ 小时
  • Azure App Service:事故处置时间从平均 40.5 小时降至 3 分钟(这个数字需要仔细理解——这里的"40.5 小时"指的是传统人工处置的平均时长,包含了大量的等待时间和跨时区协作延迟;"3 分钟"是 Agent 完成自主调查和提案的时间,不含后续人工审批和执行时间)
  • Azure Container Apps:RCA 结果获得工程师好评率 89%,覆盖事故率 90%+

1.5 值得深思的地方

这个案例有一个经常被忽视的细节:“Building agents with agents”——微软构建 Azure SRE Agent 这个系统本身,也大量使用了 Agent 辅助开发。这意味着 Agentic 开发方式不只是被推广给客户的一个产品,而是微软自身的内部工程文化。这种"吃自己的狗粮"带来的认知积累,是那些纯靠外部咨询构建 AI 运维的团队所无法比拟的。

另一个值得思考的点是:微软明确说"我们学会了不要试图替换现有系统,而是在其上叠加智能层"。这句话背后有惨痛的教训——早期版本的 AI 运维项目,往往试图重建一套新的监控和告警系统,结果陷入了一个漫长而痛苦的数据迁移和组织变革泥潭,最后项目不了了之。


二、国际案例二:谷歌 SRE AI 系统

2.1 背景:谷歌的系统复杂度已超出人类理解能力边界

谷歌 SRE 的挑战,和微软在量级上不可同日而语。Search、Gmail、YouTube、Maps、Google Cloud——每一个都是全球最高访问量的服务之一。微服务架构的深度扩展、地理分布的广泛化、AI 代码生成导致的代码量爆炸,再加上 Google Cloud 本身产品组合的极端复杂性,已经造成了一种状况:现有的系统拓扑和依赖关系,已经很难有任何一个人类工程师能够完全掌握

谷歌在公开发表的白皮书中有一段诚实的描述:“The overall topology and taxonomy is much more complex and difficult to understand, a challenge amplified by the constant stream of system changes resulting from continuous deployment pipelines.”——这是他们启动 SRE AI 项目的根本原因:人类认知能力已经成为运维可靠性的瓶颈。

2.2 架构设计思路:AI Insights 知识飞轮

谷歌 SRE AI 系统(他们内部称为"SRE AI")的架构,我认为最核心的设计不是某个具体的 Agent,而是一个叫做 AI Insights 的持续学习机制。

它的工作方式是这样的:系统持续扫描所有已经处理完成的历史事故,从中提取有价值的信息——包括根因、处置过程、有效的缓解步骤、需要规避的操作、关联的风险类别——然后将这些提炼出来的知识存入向量数据库(Gemini Embedding + Google Vector DB)。当新的事故发生时,负责调查的 Agent 会自动从这个知识库中检索最相关的历史案例,作为推理的先验知识。

这个设计的精妙之处在于:知识的积累是自动化的,不依赖人工整理 SOP 文档。谷歌的运维事故每天数以千计,如果依靠人工来维护一个准确的知识库,本身就是一项沉重的 Toil。AI Insights 把这个负担消解掉了——每次处理完事故,知识自动入库,形成正向飞轮。

架构分层如下:

在这里插入图片描述谷歌 SRE AI (来源:Google Cloud Blog, May 2026)

2.3 几个重要的工程约束

谷歌公开了他们在构建 SRE AI 时遵守的几条高层原则,这些原则看起来是常识,但在实际工程中往往是最先被违背的:

原则一:不替换已经运转良好的自动化。谷歌明确说,如果一件事情用传统的规则引擎或脚本已经做得很好,就没必要引入 LLM——这是一种工程成熟度的体现。LLM 不是银弹,它在处理边界模糊、上下文复杂的问题上有优势,但在处理确定性强、规则清晰的问题上,远不如一条精心设计的规则高效可靠。

原则二:Agent 必须有身份,必须有权限边界。谷歌要求每个 SRE AI Agent 有明确的角色和权限分配,就像一个真实的工程师一样。这个原则解决了一个很现实的问题:当 Agent 犯错时,你能追溯是哪个 Agent 做了什么操作、基于什么依据,而不是面对一个说不清楚的黑盒。

原则三:必须能够解释自己的决策。“We favor transparency over black-box automation”——谷歌要求 Agent 在执行任何操作后,能够解释它考虑了什么选项、为什么选择了当前方案、拒绝了哪些替代方案。这一点直接影响了 Agent 的 Prompt 设计和输出结构,要求 Agent 的思考链(Chain of Thought)不只是供 LLM 自己参考,还需要以可读的格式输出给人类审查。

原则四:必须为 AI 失败设计容灾。这是一个很少有厂商在 PR 材料里提到的原则,但谷歌明确提出:Business Continuity Plan 必须包含 AI 系统失败时的回退方案。换句话说,AI 运维系统本身也需要有运维,也可能宕机,也可能产生错误结论。

2.4 异常检测的一个具体创新

谷歌的 SRE AI 在异常检测上做了一个值得关注的转变:从静态阈值到基于 TimesFM 的动态异常检测。

传统的 SRE 实践要求为每个 SLI 设定明确的 SLO,然后配置告警阈值。这对于用户行为比较均匀的服务是有效的。但对于 Google Cloud 这样支持数百种负载模式的平台服务,任何一个静态阈值要么会产生大量误报(阈值设得太低),要么会遗漏真实异常(阈值设得太高)。

TimesFM 是谷歌内部开发的时序基础模型,它通过历史时序数据学习每个指标的"正常行为模式",从而实现无需手动设置阈值的异常检测。更进一步,谷歌还在探索将来自客户的反馈信号——比如客户工单的提交频率、客户的 SLA 申诉记录——纳入到异常检测的信号源中。这意味着系统可以在客户真正投诉之前,就发现那些"指标看起来正常但体验已经异常"的隐性问题。

2.5 实际效果

谷歌目前公开的量化数据相对有限,但有几个公开可考证的效果:

  • AI Insights 已经在内部稳定运行,持续积累历史事故知识,形成对 Agent 调查行为的实质性改善
  • 针对每个事故的自主缓解操作已在部分低风险场景落地
  • "Autonomous Levels"追踪体系已建立,帮助团队理解哪些场景可以提升自主度、哪些需要保留人工

谷歌尚未对外公布类似微软那样精确的事故处理数量和工时节省数据,这可能有两个原因:一是谷歌的运维规模太大,量化评估本身就很复杂;二是谷歌更强调架构完整性和长期能力建设,而非短期 KPI。


三、国内案例一:交通银行"1+1+N"多 Agent 智能运维架构

3.1 背景:金融运维的特殊约束

交通银行是中国国有大型商业银行之一,其数据中心的 IT 系统承载着核心金融业务。在讨论这个案例时,必须先理解金融 IT 运维的特殊约束,这些约束在互联网企业中并不存在:

监管合规约束:核心银行系统的变更,需要经过严格的审批流程,不可能接受"Agent 自动执行变更"这种模式。任何对生产系统的修改,必须有人工审批记录,且必须可审计、可回溯。

高可用性极限要求:银行业对系统可用性的要求是 99.999%(5个9),这意味着每年允许的宕机时间不超过 5.26 分钟。任何运维操作失败的代价,都可能直接演变为金融风险。

数据安全边界:运维系统必须在严格的数据分类分级框架内运行,不能将生产数据随意送入外部 LLM 接口。这对技术选型有直接影响。

这些约束决定了交通银行的 Agentic 运维不可能简单地照搬互联网公司的玩法,而必须在"智能化"和"合规安全"之间找到一个可落地的平衡点。

3.2 架构设计思路:"1+1+N"的层次化 Agent 协同

交通银行与华为联合设计的"1+1+N"架构,本质上是一个三层的 Multi-Agent 协同体系:

在这里插入图片描述交通银行 “1+1+N” 多 Agent 架构 (来源:华为案例 + IDC 2025 AI卓越奖)

这个架构的分层逻辑非常清晰:大脑层负责"想",编排层负责"调度",执行层负责"做"。三层职责分离,使得每层可以独立演化,不会因为某个域的技术升级而影响整体架构的稳定性。

3.3 DataMaster 存储域 Agent 的具体实现

以存储域 Agent 为例,这是交通银行案例中技术细节公开最充分的部分。

DataMaster(华为 iMaster DME 存储数据管理系统)的 Agent 核心是一个"快思考 + 深思考"的双路径诊断机制:

快思考路径(秒级响应):基于规则引擎,匹配已知故障模式。当存储性能指标出现特定组合(如 IO 延迟突增 + 队列深度积压 + 特定错误码),直接触发对应的处置预案。这一路径不依赖 LLM,延迟可控,适用于已知故障类型的快速响应。

深思考路径(分钟级响应):当快思考路径无法匹配到已知故障模式时,触发 LLM 推理。具体流程:

  1. 收集多维度运维数据(性能指标、告警日志、硬件健康状态、业务流量)
  2. 将原始数据结构化,转换为 LLM 可理解的自然语言描述
  3. 结合 RAG 从知识库中检索相似历史故障和处置经验
  4. LLM 进行推理,生成根因分析报告和处置建议
  5. 将报告推送给运维工程师,等待人工确认后执行

NL2API 技术是这个架构的另一个关键能力。传统的存储运维操作,需要工程师熟悉 CLI 命令或 API 接口,学习成本高,操作易出错。NL2API 允许运维工程师用自然语言描述需求(如"分析 A 虚拟机最近一小时的 CPU 性能问题"),系统自动将其解析为对应的 API 调用序列,完成数据采集和分析后,以结构化报告的形式返回结果。

这个设计降低了运维操作的门槛,但更重要的是,它使得一个 LLM 可以在不理解底层 API 细节的情况下,通过自然语言接口完成复杂的数据查询和操作。这是一种非常实用的"工具抽象"策略。

3.4 知识图谱的作用

在"大脑层",知识图谱发挥的作用值得单独拿出来说。交通银行的 IT 基础设施极为复杂,计算节点、存储阵列、网络设备、中间件、应用系统之间的依赖关系构成了一张庞大的图。

传统的 CMDB 记录的是静态的配置信息,但故障往往沿着动态的依赖路径传播。知识图谱的价值在于将这种依赖关系与历史故障传播路径叠加,使得 Agent 在接收到一个存储层的告警时,能够迅速推断出哪些上层业务系统可能受到影响,从而在业务层感知到问题之前,主动介入处置。

这个"影响域预判"能力,是从被动响应走向主动防御的关键技术基础。

3.5 量化效果

指标 实施前 实施后 提升幅度
故障根因定位时间 小时级 分钟级 显著压缩
值班告警智能处置率 60% 首次落地目标
平均处理时长 基准值 -40% 达标
单轮问答准确率 >90% 业界领先
多轮对话融合度 >85% 业界领先

荣誉:IDC 2025 "AI 与生成式 AI 领军者"卓越奖;"AI 领航杯"全国一等奖。

3.6 值得关注的取舍

交通银行的案例有一个明显的设计取舍:优先选择提案式执行,而非完全自主执行。在 60% 的自动处置中,大部分是告警分类、影响域评估、初步诊断这类"读"操作,真正涉及生产变更的"写"操作,仍然需要人工确认。

这个取舍是正确的。金融行业的监管要求、系统稳定性要求,以及当前 LLM 推理可靠性的实际水平,共同决定了这种保守策略是当下最合理的选择。把"60% 的处置率"解读为"60% 的问题被 AI 完全解决"是一种误导——正确的理解是"60% 的告警事件在进入人工处理环节之前,AI 完成了充分的上下文准备工作,使得人工处理的效率大幅提升"。


四、国内案例二:字节跳动 SRE-Copilot 框架

4.1 背景:超大规模互联网运维的核心矛盾

字节跳动的 IT 运维挑战,与银行有本质的不同。字节的系统特点是:规模超大、变更频繁、服务类型多样、故障模式高度动态。抖音、今日头条、抖音海外版等产品,每天有海量的服务调用、部署变更和配置修改,SRE 团队在高峰期面临的故障密度,是大多数企业难以想象的。

字节 SRE 团队面临的核心矛盾是:传统 AIOps 算法的泛化能力不足。一个在某个服务的故障数据上训练出来的异常检测模型,换到另一个服务就完全失效。维护数百个各自独立的算法模型,本身就是一项沉重的技术债务。LLM 的出现,给了他们一个用通用模型替代领域专用模型的可能性。

4.2 SRE-Copilot 三层架构

字节跳动的 SRE-Copilot 框架(公开于 AIOps 2023 挑战赛及 QCon 北京 2024),形成了一个清晰的三层 Agent 协同体系:

在这里插入图片描述字节跳动 SRE-Copilot (来源:InfoQ QCon北京2024,演讲人:王宁)

4.3 核心创新:故障在自然语言空间中分类

这是字节这个案例中我认为最有原创价值的设计。

传统 AIOps 的根因分析,通常做法是:把故障的各项指标特征提取出来,压缩成一个向量,然后在向量空间中通过相似度检索找到最接近的历史故障案例,从而得出根因推断。这个思路本质上是一种聚类/分类方法。

它的问题在于:向量化的过程会丢失语义信息。"CPU 使用率 95%,内存使用率 80%,请求延迟 2000ms"在向量空间中的位置,高度依赖于训练数据的分布。如果训练数据里这种组合从来没出现过,或者只出现过少量样本,分类结果就很不可靠。

字节的做法完全不同:他们让每个底层 Agent 在发现异常后,输出的不是 JSON 结构体,而是一段自然语言描述。比如,指标 Agent 不返回 {"cpu_usage": 0.95, "anomaly": true},而是返回:“本次故障持续约 10 分钟,CPU 使用率持续高于 90%,同时内存使用率逼近上限,对外接口请求延迟显著上升,有明显的资源竞争特征。”

这些自然语言描述被汇总后,和从知识库中检索出来的专家经验、历史故障描述,一起送给根因推理 LLM,进行综合判断。

这个设计的优势在于:LLM 天然擅长在自然语言空间中做语义推理,把所有的异常信息都转换成自然语言之后,LLM 可以利用它在预训练阶段积累的大量工程知识(关于 CPU 争用、JVM GC、磁盘 IO 等的理解),做出超越训练数据限制的推理。即使是一种从来没有在知识库中出现过的新型故障,LLM 也可能给出合理的分析,而传统向量分类方法在这种情况下几乎必然失效。

4.4 知识库的构建策略

字节在知识库建设上采用了一种分层的方式,这个细节很值得借鉴:

第一层:结构化专家经验。每条专家经验的格式是一个三元组:{故障现象描述, 可能根因, 推荐止损措施}。这种格式既便于 RAG 检索,也给 LLM 提供了直接可引用的结构化先验知识。

第二层:半结构化 SOP 文档。允许各业务团队用接近自然语言的 Markdown 文档来描述他们的排障流程,比如"当 Redis 集群 CPU 超过 80% 时,首先检查……,如果……则执行……"。字节发现,让 LLM 直接解析这类文档,比要求业务团队严格按照结构化格式填写更可行,减少了知识沉淀的摩擦。

第三层:历史故障记录。每次 Agent 完成一次诊断,如果工程师对结果进行了确认或修正,这条记录就会进入历史故障库。这形成了一个"使用即积累"的自动化知识沉淀机制。

4.5 ReAct 模式的工程落地

字节在实现多步推理时,采用了 ReAct(Reason + Act)范式,但在落地时做了几个务实的调整:

工作流分静态和动态两种:对于已经摸清楚规律的常见故障场景,使用预先设计好的静态工作流(固定的诊断步骤序列),避免每次都让 LLM 重新规划,减少推理延迟和出错概率。对于新型故障或复杂故障,才使用动态规划模式,让 LLM 根据每一步的检测结果实时决定下一步。

故障大规模爆发时的参数自动解析:在真实的线上故障中,往往会有大量告警卡片同时涌入故障 IM 群。字节训练了专门的 Agent 来解析这些群消息,自动提取出需要诊断的服务名、集群名、时间范围等参数,自动触发对应的诊断流程。这是一个把"自然语言 → 结构化参数"转换用得非常实际的场景。

4.6 一个坦诚的局限性

字节的 SRE-Copilot 负责人王宁在 QCon 演讲中有一段话,我认为比很多成功案例分享更有价值:“这套框架中的工作流规划,目前仍然需要用户自己配置,这是因为大语言模型当前能力的限制所做出的妥协。”

这句话说明了一个现实:当前的 LLM,在理解了故障现象之后,还没有能力完全自主地规划出一套合理的诊断步骤,尤其是在涉及特定技术栈和业务逻辑时。依赖人工配置 SOP 工作流是一种合理的工程妥协,但这也意味着系统的智能化程度,在相当程度上取决于 SOP 文档的质量,而文档质量又取决于团队的知识管理水平。这是一个需要同步建设的软能力,不可忽视。


五、横向比较:四个案例的共性与差异

在进入落地建议之前,有必要做一个横向对比,找出这四个案例背后的共性规律,以及各自的差异所在。

5.1 三个一致性结论

结论一:没有一个成功案例试图绕开现有系统重建。所有案例都是在现有监控、ITSM、代码仓库等基础设施之上"叠加 AI 层",而不是"替换"。这不是因为技术上做不到重建,而是因为工程实践告诉他们,重建带来的组织摩擦和数据迁移成本,往往大于技术收益。

结论二:知识管理是决定系统上限的核心变量。无论是谷歌的 AI Insights 飞轮、字节的三层知识库,还是交通银行的知识图谱+RAG,最终的诊断质量都高度依赖知识积累的质量和广度。那些期望"买一个开箱即用的 AI 运维系统"的团队,往往忽视了知识建设这个前置条件。

结论三:Human-in-the-Loop 是工程必需,不是临时妥协。当前 LLM 的推理可靠性,无论在哪个领域,都还没有达到可以完全信任的程度。所有案例都在高风险操作上保留了人工审批环节,这不是因为保守,而是因为在当前技术条件下,这是唯一负责任的工程选择。未来随着模型能力的提升和对 Agent 行为的深度理解积累,才能逐步扩大自主执行的边界。

5.2 关键差异

规模与复杂度决定架构深度:谷歌的系统因为规模和复杂度极端,必须构建 AI Insights 这样的持续学习机制,否则知识库很快就会过时。字节则因为服务种类多样、故障模式动态,必须用 LLM 的通用推理能力来替代领域专用模型。交通银行则因为合规约束,必须把执行层做成"提案+人工审批"的模式。架构没有通用的最优解,约束条件决定选型。

大厂自研 vs. 联合研发:微软、谷歌的系统是完全自研的,这保证了架构的完整性和深度集成能力,但要求极高的工程投入。交通银行选择了与华为联合研发,这对中国大多数传统企业是更现实的路径,但需要在合作边界上投入大量的协调成本。


六、企业落地 Agentic AI 运维的实施建议

以下建议,是基于以上四个案例的工程实践归纳,并结合当前中国企业运维现状的一线观察所提出的。不是理论推演,而是我认为务实可行、风险可控的操作路径——适用于正处于 AI 运维转型起步期或加速期的企业团队。

6.1 首先要做一件基础建设工作:把可观测性做扎实

这是所有 AI 运维的底层基础,但它是最容易被忽视的地方。很多团队看到谷歌和微软的 Agent 系统后,立刻想要上 LLM 做根因分析,却忽视了一个前提:你的数据是否足够干净、完整、一致?

在我接触过的国内企业客户中,大约 60% 的运维数据存在以下问题之一:日志格式不统一、指标采集存在空洞、链路 Trace 覆盖不完整、CMDB 数据长期未维护。在这种数据质量上直接套 LLM,产生的结果是不可信的——而且更危险的是,LLM 会用一种看起来可信的方式给出错误的答案,比直接报错更难被发现。

具体建议:

  • 推行 OpenTelemetry 标准,统一日志、指标、链路的数据格式和采集方式,这是避免数据孤岛的最有效路径
  • 建立 CMDB 的自动发现和持续校验机制,确保配置数据的实时性
  • 定期进行可观测性质量评估,包括日志覆盖率、告警噪声率、链路采样完整度

只有在可观测性基础扎实的前提下,叠加 AI 层才会有可靠的效果。

6.2 知识体系建设先于 Agent 开发

这是我见过最多团队犯的错误:花了大量时间开发 Agent,却发现 Agent 的知识库是空的或者质量极低,导致诊断准确率惨不忍睹,最终项目失败。

借鉴字节的三层知识库策略,建议企业从以下三个层次构建知识体系:

结构化专家经验库:和客户的核心 SRE 工程师一起,整理最常见的 30-50 种故障模式,为每种模式记录标准的三元组(现象描述、根因、处置措施)。这个工作枯燥但价值极高,是提升 Agent 诊断准确率的最直接手段。

SOP 文档数字化:很多企业有大量的运维 SOP 文档,但散落在各种 Wiki 和共享文件夹中。帮助客户把这些文档整理进统一的知识库,并建立定期更新机制。

历史故障复盘入库:建立机制,使得每次重大故障的复盘报告自动进入知识库,并以统一格式存储。这是谷歌 AI Insights 的核心价值,也是知识积累飞轮的起点。

6.3 以"Shadow Mode → Copilot → 受限自主"的三阶段落地

这条建议借鉴自微软和字节的实践经验,是风险最可控的落地路径:

第一阶段——Shadow Mode(0-3个月):Agent 运行在只读模式,对实时告警进行分析和诊断,但只将结果写入内部日志,不推送给工程师,不参与任何执行操作。这个阶段的目标是:验证数据质量、建立基线评估体系、发现 Agent 在当前知识库水平下的能力边界。有了这三个月的数据积累,你对 Agent 的诊断准确率才有实质性的了解,而不是靠猜测。

第二阶段——Copilot(3-9个月):Agent 开始实时推送诊断报告,但所有执行操作(包括修改任何配置)都需要人工确认。工程师从"自己查日志找根因"变成"审查 Agent 的分析报告,决定是否采纳建议"。这个阶段的关键 KPI 不是自动化率,而是"诊断报告采纳率"——工程师有多少比例的时候认为 Agent 的分析是正确且有帮助的。这个比率需要达到 75% 以上,才有信心进入下一阶段。

第三阶段——受限自主(9个月以后):基于第二阶段积累的数据,识别出那些诊断准确率持续高于 90% 的故障类型,对这些类型的低风险处置操作(如服务重启、缓存清理、临时限流),开放 Agent 的自主执行权限,但必须配套完整的操作日志、自动回滚机制和 SLO 降级检测。

6.4 MCP 协议是基础设施标准化的关键抓手

在当前的市场格局下,MCP(Model Context Protocol)已经成为 AI Agent 与企业工具系统集成的事实标准。微软、谷歌、AWS 都已将其纳入自己的 Agent 架构,主流的可观测性工具(Datadog、New Relic、Grafana)也在陆续提供 MCP 接口。

对于正在推进 Agentic AI 运维的企业而言,这意味着一个具体的建议:在构建 Agent 平台时,优先选择已支持 MCP 接口的工具和平台,同时为内部自研工具(CMDB、监控系统、ITSM 平台)开发 MCP Wrapper。这不只是一个技术选型问题,而是一个积累可复用资产的战略——一旦 MCP Wrapper 做好,可以在不同系统或不同项目之间复用,极大降低集成成本,也为将来扩展 Agent 能力保留了标准化接口。

6.5 不要低估治理架构的复杂度

从以上四个案例来看,最容易被低估的风险,是 Agent 治理体系的复杂度。当你有了 5 个以上的 Agent 同时运行,一旦出现问题,你需要能够回答:哪个 Agent 做了什么操作,基于什么数据,调用了哪些工具,如何回滚。这个能力的建设,需要在架构设计阶段就做好:

  • 每个 Agent 的操作必须有完整的审计日志,格式统一
  • 所有对生产系统的写操作,必须是幂等的,并有自动回滚路径
  • 建立一个类似 ServiceNow AI Control Tower 的监控控制台,实时查看所有 Agent 的运行状态、处理中的任务、异常报警
  • 定期对 Agent 的诊断质量进行人工抽样评估,防止能力悄然退化(这在 RAG 系统中尤其需要注意,知识库的老化是一个隐性风险)

6.6 选择合适的切入场景

不是所有运维场景都适合作为 Agentic AI 的第一个落地点。根据我的判断,以下场景具有较高的成功概率,适合作为切入口:

  • 告警分级与降噪:这是技术难度适中、价值立竿见影的场景。很多客户面临每天数千条告警的噪声问题,如果能把无效告警率从 70% 降到 30%,工程师的工作体验会有立竿见影的改善。
  • 根因分析报告自动生成:不需要 Agent 执行任何操作,只是在告警触发后,自动聚合相关的日志、指标、变更记录,生成一份结构化的初步诊断报告推送给值班工程师。这个功能的技术风险很低,但对值班工程师的排查效率提升非常明显。
  • 事后故障复盘报告自动化:每次重大故障后,SRE 团队都需要撰写 Postmortem。这个工作耗时但重复性高,非常适合 Agent 辅助生成。Google SRE AI 已经将这个场景完整落地,效果很好。

相比之下,自动执行变更操作是最后应该尝试的场景,绝非第一个。原因不是技术不可行,而是信任的建立需要时间——在工程师还没有对 Agent 的诊断能力建立充分信任的情况下,贸然开放执行权限,一次错误就可能断送整个项目。


结语

这四个案例揭示了一个统一的规律:Agentic IT 运维的核心壁垒,不在于技术,而在于数据质量、知识积累和组织信任的建设。技术上可以快速搭出一个框架,但让这个框架在生产环境中持续可靠地运行,并得到工程师的真正认可和依赖,需要的是数年的沉淀。

对于有意入场的企业而言,这既是挑战,也是护城河的来源:市场上绝大多数 AI 运维产品正在用技术堆砌来掩盖底层的能力缺失。真正把数据治理、知识管理和工程治理做扎实的团队,才能建立起竞争对手难以短期复制的核心优势。起点不在于选哪个 LLM、用哪个框架,而在于愿不愿意把那些枯燥但关键的基础工作做到位。


本文参考资料:Microsoft Azure SRE Agent 博客(2026.4)、Google Cloud Blog SRE AI 文章(2026.5)、交通银行×华为 DataMaster 案例(2025)、InfoQ QCon 北京 2024 字节跳动 SRE-Copilot 演讲实录(演讲人:王宁)# 欢迎使用Markdown编辑器

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐