AI SRE 的真正价值不只是“报警来了以后更快写一段 RCA”,而是把线上信号接回产品和研发闭环:报警、日志、链路、部署记录、Feature Flag、事故时间线、聊天记录、Runbook、历史 incident 与客户影响一起进入分析,然后输出可验证的根因、缓解动作、复盘结论、follow-up task,最后沉淀为下一轮产品需求或技术债治理项。

这一轮调研可以看到一个清晰趋势:Datadog Bits AI SRE、PagerDuty SRE Agent、Sentry Seer、Dynatrace Davis、Harness AI SRE、New Relic AI、Grafana Sift/AI 都在把可观测数据、事故协同和 AI 分析合在一起。但它们的成熟度不同:有的重在生产事故调查,有的重在代码级错误修复,有的重在因果拓扑,有的仍是 Preview/Beta。企业落地时不能把“AI 生成的结论”当成事实来源,而要把它当成带证据链的调查草案,由 SRE、研发负责人和产品负责人共同确认。

本文建议的闭环是:

  1. 线上信号先转成结构化 incident dossier。
  2. AI SRE 只在证据足够时给出 RCA,并明确不确定性。
  3. RCA 被拆成三类 follow-up:修复缺陷、补齐观测、产品/架构改造。
  4. follow-up task 再升级为 PRD 或技术方案,但必须保留证据、影响面、验收指标和人工审批。

传统 SRE 流程的问题不是没有数据,而是数据散在太多系统里:APM、日志、指标、追踪、错误平台、CI/CD、Feature Flag、工单、Slack、Runbook、Postmortem、客户反馈各自成岛。事故发生时,一线工程师要在高压状态下完成三件事:判断是否真实影响用户,找出最近变更和异常信号,决定先缓解还是直接修复。

AI SRE 把这个流程向前推进了一步:它可以自动拉取上下文、形成假设、查询相关数据、总结时间线、推荐下一步动作。但更关键的是“事故结束以后”。如果线上事故只生成一份复盘文档,而没有进入 backlog、PRD、技术债路线图和验收标准,系统会继续以同样方式失败。

因此,第 8 篇文章在整个 AI 原生研发闭环里的位置是:把第 7 篇的发布治理结果接到线上,把线上观测再回流到第 3 篇的提需和第 4 篇的技术方案。

发布与变更
Deploy / Flag / Config / Infra

线上信号
Metrics / Logs / Traces / RUM / Errors

报警与事件聚合
Alert / Incident / Issue

AI SRE 调查
假设生成 / 证据查询 / 影响面分析

证据是否充分

标记不确定
请求人工补充数据

RCA 草案
根因 / 触发条件 / 证据链接

缓解与修复
Runbook / Rollback / Patch / Config

复盘与知识沉淀
Postmortem / Memory / Runbook

Follow-up Tasks
缺陷修复 / 观测补齐 / 产品或架构改造

下一轮需求或技术方案
PRD / RFC / Issue / Epic

产品与实践调研

能力矩阵

产品 官方已发布能力 Preview/Beta/需谨慎表述 工程观察
Datadog Incident AI / Bits AI SRE Incident AI 面向 Datadog Incident Management 做时间线、摘要、严重程度和后续动作辅助;Bits AI SRE 官方文档描述为可端到端调查生产问题、形成假设、查询遥测并进行数据化推理。 Datadog 文档中不同 Bits AI SRE 子能力和站点支持会变化,第三方扩展、工作流动作、知识源接入应按租户文档实际标注核验。 Datadog 的优势是遥测、服务目录、事件管理、Workflow Automation 都在同一平台,适合把 RCA 证据链接到后续任务。
PagerDuty SRE Agent 官方文档说明它可在 Operations Console 和 Slack 中分析 incident、提供关键上下文、推荐修复动作;支持分析历史 incident,并从 runbook、事件 payload、用户交互中形成 service memory。 Workflow integrations 已有 GA 公告,但不同日志、知识库和观测工具连接器的可用性需按账号配置核验。 PagerDuty 更靠近 on-call 协同和事故响应流程,适合把“谁负责、下一步做什么、历史类似事故如何处理”标准化。
Sentry Seer Seer 已 GA;官方文档说明它使用 issue details、tracing、logs、profiles 和代码上下文做 RCA、修复建议,并可生成 patch、打开 PR。 Sentry 文档和 changelog 均提示 logs 上下文仍有 Beta 标注;自动 PR 的范围取决于项目配置和 actionability score。 Seer 更偏应用错误和性能 issue 的代码级闭环,是“线上错误 -> 代码修复 PR”的代表。
Dynatrace Davis 官方文档强调 Davis AI 使用 causal topology 自动评估采集信息并突出根因实体,减少告警噪声。 Davis CoPilot、Notebook 等生成式或交互式能力与基础 Davis 因果分析不应混为一谈。 Dynatrace 的强项是拓扑和因果模型,适合复杂企业环境下做影响面和根因候选排序。
Harness AI SRE 官方文档描述为 incident management 系统,结合自动文档、RCA、on-call、runbook、结构化响应;变更事件包括提交、部署、Feature Flag、基础设施和第三方变更。 Harness 文档中 On-call 相关页面出现过功能开关/启用条件,落地时需确认租户是否开放。 Harness 的差异点在 SDLC 连接:同一平台可把 incident 后续动作接到 Jira、Slack、pipeline、rollback、feature flag。
New Relic AI Response intelligence with New Relic AI 文档说明 Issue 页面集成 AI,可总结受影响实体、严重性、告警条件和调试细节;日志告警可分析上下文窗口内大量日志。New Relic Alerts 也支持异常、事件关联、降噪和 RCA。 Response intelligence 文档明确标注 Preview;Predictive Alerts 也有 Public Preview 标注。 New Relic 更适合把告警、日志和变更追踪放进统一 Issue 视图,自动生成需求仍需外部工作流承接。
Grafana AI / Sift Grafana Cloud Sift 是诊断助手,可从 Explore、Dashboard、Grafana Incident、命令面板启动调查,对基础设施遥测运行检查并汇总有趣结果;文档说明它可用于 Grafana Incident 调查。 Sift 在 Grafana Incident 中多数能力当前依赖 Kubernetes telemetry,且部分输入条件如 cluster/namespace 有要求。 Grafana 的优势是开放数据源和现有仪表盘生态,适合在多源观测栈上做调查摘要,但提需闭环需要接 Jira/GitHub/Linear 等系统。

关键差异

第一,Datadog、Dynatrace、New Relic、Grafana 更接近可观测平台入口,天然掌握 telemetry;PagerDuty 更接近 on-call 和事故协同入口,天然掌握响应过程;Sentry 更接近错误和代码上下文;Harness 更接近 SDLC 与交付动作。企业通常不会只用一个平台,因此 AI SRE 架构要避免绑定单点工具,而要设计一个 incident dossier 数据层。

第二,自动 RCA 和自动修复不是同一件事。RCA 是“发生了什么、为什么发生、影响了谁、证据是什么”;修复是“改代码、回滚、扩容、改配置、关 Flag、补测试”。Sentry Seer 可以走到代码 patch 和 PR;Harness 产品页描述了链式动作如发 Slack、创建 Jira、调用 pipeline、回滚;但对大多数企业而言,生产环境的自动动作必须经过审批门禁。

第三,follow-up task 和 PRD 也不是同一件事。一次 P1 事故可能生成三类任务:短期修复 bug,中期补告警和 runbook,长期重构产品体验或架构容量。只有第三类才需要进入 PRD 或路线图;前两类通常进入工程 backlog、可靠性 OKR 或平台治理任务。

输入数据模型:Incident Dossier

AI SRE 不能只吃一条告警标题。企业要让 agent 给出可审计的结论,至少需要把下面的数据整理成统一的 incident dossier。

incident:
  id: INC-2026-0524-001
  severity: P1
  status: resolved
  started_at: 2026-05-24T10:12:00+08:00
  detected_by: monitor|synthetic|customer_ticket|slo_burn|manual
  affected_services:
    - name: checkout-api
      owner_team: payments
      tier: critical
      slo:
        objective: 99.95
        burn_rate: 14.2
  user_impact:
    segments: [paid_enterprise, mobile_ios]
    symptoms: [payment_timeout, duplicate_retry]
    estimated_users: 18400
    revenue_or_trust_impact: high
  signals:
    metrics:
      - query: p95_latency{service=checkout-api}
        anomaly_window: 10:10-10:43
    logs:
      - query: service:checkout-api error:"pool exhausted"
        sample_links: []
    traces:
      - trace_id: abc123
        slow_span: payment-provider.call
    errors:
      - sentry_issue: PAY-9128
    rum_or_synthetic:
      - checkout_conversion_drop: 7.3%
  changes:
    deployments:
      - sha: 4f91c2a
        repo: payment-service
        deployed_at: 10:06
    feature_flags:
      - name: new_retry_policy
        changed_at: 10:04
        rollout: 25%
    infra:
      - autoscaler_policy_change: 09:58
  collaboration:
    incident_channel: slack://inc-001
    commander: user_123
    timeline_events: []
    decisions:
      - 10:29 rollback feature flag to 0%
  knowledge:
    runbooks:
      - checkout-timeout-runbook
    similar_incidents:
      - INC-2026-0417-003
    architecture_docs:
      - checkout-payment-dependency-map
  rca:
    hypothesis:
      - id: H1
        statement: new_retry_policy amplified provider latency and exhausted connection pool
        evidence: [metrics, logs, flag_change, traces]
        confidence: medium
    confirmed_root_cause: null
  follow_ups:
    - type: bugfix|observability|runbook|prd|architecture
      owner: payments
      evidence_links: []
      acceptance_metrics: []

这个模型的重点不是字段越多越好,而是四个关联必须稳定:

  1. 服务到团队:没有 ownership,AI 只能总结,不能推动执行。
  2. 异常到变更:没有 deploy、flag、config、infra change,RCA 容易停留在相关性。
  3. 症状到用户影响:没有客户群体、转化、SLO、收入或信任影响,就无法判断是否进入 PRD。
  4. 结论到证据链接:没有可点击证据,AI 输出只能当文本,不能当复盘依据。

RCA 到自动提需流程

缺陷修复

观测缺口

Runbook 缺口

产品体验问题

架构容量问题

Incident Resolved

生成 Postmortem 草案

抽取 RCA 条目
根因 / 触发条件 / 影响面 / 缓解动作

RCA 是否经人工确认

保持 Draft
补充证据或标记 inconclusive

生成 Follow-up 候选

任务类型

创建 Bug / Issue
附复现条件和日志证据

创建 Observability Task
补指标 / 告警 / dashboard / trace

创建 Runbook Task
补处置步骤和回滚条件

创建 PRD 草案
用户影响 / 业务损失 / 验收指标

创建 RFC / Tech Design
容量模型 / 风险 / 迁移方案

进入研发 Backlog

产品负责人评审

架构评审

进入下一轮路线图

实现 / 测试 / 发布

线上指标验证

自动提需的关键是分类。本文建议把 incident 后续项分成五类:

类型 触发条件 输出物 验收指标
Bugfix 单个代码缺陷、配置错误、边界条件错误 Issue 或直接 PR 错误率下降、回归测试通过、Sentry issue 关闭
Observability RCA 过程中缺少关键指标、日志、trace、synthetic、SLO 观测任务 下一次同类事故可在 N 分钟内定位关键证据
Runbook 缓解步骤依赖个人经验或聊天记录 Runbook 更新任务 演练通过、值班新人可按步骤执行
Product PRD 事故暴露出用户体验、降级策略、业务规则或客户沟通缺口 PRD 草案 用户影响指标、转化/留存/SLA 指标改善
Architecture RFC 根因来自容量模型、耦合、单点、依赖治理 RFC/技术方案 SLO、容量水位、故障隔离、恢复时间改善

这里要明确边界:AI 可以生成候选任务、证据摘要和 PRD 草案,但不应该自动决定优先级。优先级必须由产品、研发和 SRE 共同根据用户影响、事故等级、复发概率、修复成本和战略方向确认。

管理者视角:组织、流程、指标、风险

组织分工

AI SRE 闭环至少涉及四类角色:

角色 责任
Incident Commander 确认事故等级、协调响应、批准高风险缓解动作
Service Owner 确认 RCA、负责修复和可靠性任务
Product Owner 判断用户影响是否升级为 PRD 或路线图项
Platform/SRE Team 维护观测标准、Runbook、AI SRE 工具权限和审计

如果企业只把 AI SRE 放给 on-call 工程师使用,最多降低 MTTR;如果让产品负责人也能看到“线上信号如何变成需求”,才能降低重复事故和无效需求。

指标体系

不要只看“AI 生成了多少 RCA”。建议用以下指标评估:

维度 指标
响应效率 MTTD、MTTA、MTTR、首次有效假设时间、人工查询次数
结论质量 RCA 被确认率、RCA 被驳回率、inconclusive 比例、证据链接完整率
复发控制 同类 incident 复发率、重复告警率、Runbook 覆盖率
闭环效率 Postmortem 到 follow-up task 的时间、follow-up 完成率、逾期率
产品影响 受影响用户数、SLO burn、转化损失、客户工单量、NPS/CSAT 变化
安全治理 自动动作审批率、越权调用数、敏感数据暴露数、审计日志完整率

风险边界

AI SRE 最大的风险不是“答错”,而是“答得像真的”。因此流程上必须约束:

  1. RCA 必须带证据,不允许只给自然语言结论。
  2. 生产写操作默认需要审批,包括回滚、扩容、改配置、关 Feature Flag、触发修复 pipeline。
  3. 不确定就标记 inconclusive,这比强行给根因更可靠。
  4. Postmortem 和 Runbook 更新必须有人审阅,防止错误结论被写进组织记忆。
  5. 数据权限按服务和团队隔离,AI agent 不能因为“调查事故”就读取全公司日志和客户数据。

工程师/架构师视角:系统架构与数据流

一个可落地的 AI SRE 闭环,可以按五层设计。

AI SRE Orchestration

Governance Layer

RBAC

Approval Gates

Audit Log

PII Redaction

Eval & Feedback

Action Layer

Slack / Teams Update

Jira / GitHub Issue

Runbook Step

Rollback / Pipeline

PRD / RFC Draft

Context Layer

Service Catalog

Ownership

Runbooks

Past Incidents

Architecture Docs

Customer Impact

Signal Layer

Metrics

Logs

Traces

Errors

RUM/Synthetic

Deploy/Flag/Config Changes

Incident Dossier Builder

Hypothesis Planner

Tool Executor

Evidence Store

Confidence & Uncertainty

调查策略

工程上不要让 LLM 自由探索所有数据源。更稳妥的方式是“受控调查计划”:

  1. 根据告警类型选择 investigation template,例如 latency、error spike、slo burn、availability、cost、queue backlog。
  2. 先查时间窗口和 blast radius,再查最近变更。
  3. 对每个假设限制工具调用次数和查询范围。
  4. 每个结论必须绑定查询、图表、日志样本或 trace 链接。
  5. 如果证据互相冲突,输出分歧而不是合并成单一结论。

从 RCA 生成 PRD 的模板

当 follow-up 被分类为产品需求时,建议生成下面这种证据化 PRD 草案,而不是泛泛写“优化稳定性”。

## 需求标题
为支付超时场景增加用户可理解的降级与重试保护

## 触发来源
- Incident: INC-2026-0524-001
- 严重等级: P1
- 时间窗口: 2026-05-24 10:12-10:43

## 用户影响
- 受影响用户: 18,400
- 主要用户群体: 企业付费用户、iOS 用户
- 业务影响: 支付转化下降 7.3%,客服工单增加 41%

## RCA 摘要
- 根因: 新重试策略在第三方支付延迟升高时放大连接池耗尽
- 证据: trace 链接、日志查询、Feature Flag 变更、SLO burn 图
- 不确定性: 第三方支付侧限流原因需等待供应商确认

## 产品目标
- 用户在支付异常时获得明确状态和安全重试路径
- 后端在供应商延迟升高时进入保护模式,避免级联重试

## 验收指标
- 支付超时场景下重复扣款投诉为 0
- 供应商 p95 延迟 > 3s 时,checkout-api 错误率不超过 1%
- 同类故障 MTTR 降至 10 分钟内

## 非目标
- 不重构完整支付网关
- 不替换第三方支付供应商

落地参考

第 1 阶段:先把事故数据结构化

  • 服务目录有 owner、tier、SLO、依赖关系。
  • 每条 P1/P2 incident 都有统一 ID、时间线、影响面、变更记录和负责人。
  • 部署、Feature Flag、配置、基础设施变更可以按服务和时间窗口查询。
  • Postmortem 模板固定包含 RCA、证据链接、缓解动作、follow-up 和验收指标。

第 2 阶段:让 AI 做调查助手

  • 只开放只读查询权限:metrics、logs、traces、errors、runbooks、historical incidents。
  • 对每次 AI 调查保存 prompt、工具调用、查询结果、输出版本。
  • RCA 输出必须包含 confidence、evidence、unknowns。
  • 对 P1/P2 incident 做人工确认,统计 AI RCA 被确认率和驳回原因。

第 3 阶段:接入 follow-up task

  • 自动生成候选 Jira/GitHub/Linear task,但默认不自动进入 sprint。
  • task 必须带 incident ID、证据链接、owner、验收指标。
  • task 分类为 bugfix、observability、runbook、prd、architecture。
  • 每周做一次 reliability backlog review,清理无效任务和重复任务。

第 4 阶段:把高价值项升级成 PRD/RFC

  • 对用户影响明显、复发概率高、跨团队协作重的 follow-up 才生成 PRD/RFC。
  • PRD 必须引用线上指标,而不是只引用主观反馈。
  • RFC 必须给出容量、隔离、回滚、迁移和验证方案。
  • 发布后用原 incident 的指标验证是否真正降低风险。

第 5 阶段:谨慎开放自动执行

  • 低风险动作可自动化:通知、状态更新、创建任务、补充时间线、生成复盘草案。
  • 中风险动作需审批:扩容、重启、关 Feature Flag、触发 rollback pipeline。
  • 高风险动作保持人工主导:数据修复、权限变更、跨区域切流、生产库写操作。

AI SRE 不是把值班工程师替换成聊天机器人,而是把事故响应变成可查询、可审计、可复用、可回流的系统。Datadog、PagerDuty、Sentry、Dynatrace、Harness、New Relic、Grafana 已经分别从可观测、on-call、代码修复、因果拓扑、SDLC、Issue 视图和开放调查入口切入这个方向。

企业真正要建设的是“线上信号到需求”的闭环:一次事故不仅要恢复服务,还要留下证据化 RCA、可执行 follow-up、更新后的 Runbook、补齐的观测指标,以及必要时进入产品路线图的 PRD。只有当线上指标能稳定影响下一轮需求和技术方案,AI 原生 SDLC 才算真正闭合。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐