运维养龙虾--AI+可观测性根因分析(值班交接不用手写,AI 五秒生成交接简报)
下午六点,你的班结束了。
下一个工程师即将接手,但他/她打开 Slack/Dead Man's Snooze 看到的是:23 条未处理告警、4 个服务在抖动、2 个故障还在排查中……
传统的做法:花 20 分钟整理一份交接文档,写清楚"哪个服务有问题、什么时间触发的、现在什么状态、后续要注意什么"。
用 SigNoz AI 助手:一句话,五秒钟,完整交接简报自动生成。
这篇文章基于 SigNoz 官方文档 - On-Call Handoff Brief,聊聊如何让 AI 帮你做值班交接。
值班交接,为什么总让人头疼?
做 SRE/DevOps 的都清楚,交接不是"把告警列表甩给下一位"就完事了。
对方需要知道的是:
- 哪些问题是新的,哪些是已经盯了好几小时的"老面孔"
- 每个告警的当前状态:OPEN?RESOLVED?还是反复抖动中?
- 峰值严重程度:错误率最高飙到过多少?是 5% 还是 100%?
- 上下文线索:这个告警之前有过吗?和哪个变更有关?
把这些信息整理清楚,本身就要花时间——而你刚熬完一个班,大脑已经很累了。
SigNoz AI 助手做的,就是把这份整理工作自动化。你告诉它"给我过去 48 小时的告警历史",它从 SigNoz 里拉数据,生成一份可直接发出去的交接摘要。
一句话,生成完整交接简报
操作简单到有点难以置信。
你只需要对 AI 助手说:
获取过去 48 小时的告警历史。对于每条触发过的告警,
告诉我受影响的服务、触发时间、峰值严重级别,
以及是否已解决还是仍处于开放状态。
格式化为交接摘要。
AI 自动调用的工具:
| 工具 | 作用 |
|---|---|
signoz_list_alerts |
拉出所有当前触发的告警 |
signoz_get_alert_history |
获取 48 小时内的完整告警状态转换历史 |
signoz_get_alert |
逐条获取告警详情:严重级别、触发条件、当前状态 |
AI 返回的交接简报,长这样
当前所有 3 条触发告警(严重级别:error):
**前端服务**:48 小时内波动 65 次。峰值错误率 100%。未解决(OPEN)。
**支付服务**:48 小时内波动 119 次(每 24 分钟一次)。峰值错误率 50%。未解决(OPEN)。
**结账服务**:48 小时内波动 44 次。峰值错误率 100%。未解决(OPEN)。
所有三个告警持续波动——错误率短暂低于阈值后又飙升。
没有一条完全解决。
高波动次数表明根本问题未被修复,
只是被低流量间歇性掩盖。
这份摘要包含了交接需要的所有关键信息:
| 信息维度 | 内容 |
|---|---|
| 受影响服务 | 前端、支付、结账,共 3 个 |
| 峰值严重级别 | 2 个 100%,1 个 50% |
| 告警频率 | 最多 119 次波动(支付服务) |
| 当前状态 | 全部 OPEN,均未解决 |
| AI 分析结论 | 高频波动说明根因未修复,只是被低流量掩盖 |
最后那段分析特别有价值——直接告诉接手的人:别以为错误率临时降下来就没事了,这个问题的根因还没找到。
这个场景的核心价值:不只是快
快速生成交接文档当然好,但这个功能的价值远不止"省 20 分钟"。
价值一:让告警历史"活"起来
告警历史本来就有,但躺在 SigNoz 里没人看。AI 帮你把它提炼成叙事性的摘要,接班的人不需要自己去翻历史记录。
价值二:读出告警的"性格"
119 次波动 × 每 24 分钟一次 = 支付服务在过去 48 小时里几乎没有安静过。这种模式靠人眼看告警列表是看不出来的——AI 直接在摘要里写出来。
价值三:结论先行,而不是数据堆砌
一份好的交接文档,不是"告警列表 + 时间戳"的堆叠,而是"发生了什么 → 当前状态如何 → 接下来要注意什么"。AI 生成的内容天然是这个结构。
用这个场景,还有几个小技巧
技巧一:调时间窗口,按需拉取
上面用了"48 小时",实际可以按班次灵活调整:
- 8 小时班:
过去 8 小时的告警历史 - 跨周末交接:
过去 72 小时,突出哪些是新问题、哪些是遗留问题 - 大促/发布日:
过去 24 小时,重点标出哪些与变更相关
技巧二:配合其他调查工具一起用
交接简报是"概览",但接班的人拿到概览后,肯定会想深挖。SigNoz 的其他 AI 场景可以直接接上:
| 接班人的下一步 | 调用的 AI 场景 |
|---|---|
| "前端服务 100% 错误率是什么情况?" | 错误率飙升排查 |
| "有没有可能是延迟引起的级联故障?" | 延迟峰值排查 |
| "这些告警之间有没有关联?" | 告警关联分析 |
| "看一下相关服务的日志" | 自然语言日志探索 |
交接简报是起点,不是终点。
技巧三:交接完,建议发到值班频道存档
AI 生成的摘要可以直接粘贴到 Slack/钉钉/飞书的值班频道,既是正式交接记录,也方便后续复盘时回溯。
怎么接入?
- 有 SigNoz 实例(Cloud 或 Self-Hosted)
- 已在 SigNoz 中配置告警(如果还没配:告警配置指南)
- AI 助手已连接 SigNoz MCP Server
💡 提示:文档里特别提到,推荐用 Claude Desktop 来实现这个场景,Claude 会生成交互式的交接简报可视化内容,更适合分享给接班工程师。
写在最后
值班交接这件事,技术含量不低,但重复性很强——每次班次结束都要做,做的内容结构也都差不多。
AI 接手这部分工作,节省的时间只是一方面。更重要的是:让工程师把精力留给真正需要判断的事情,比如这个故障要不要回滚、那个告警要不要升级,而不是把时间花在复制粘贴告警列表上。
值班已经够累了,能自动化的交接,就别手动了。
SigNoz AI 系列文章
这是 SigNoz AI 智能排查系列的第四篇。更多场景:
- 📄 用自然语言排查线上故障 —— 搜索结果陈旧问题实战
- 📄 P99 延迟飙到 4.7 秒?五步用 AI 找出罪魁祸首 —— 延迟峰值排查实战
- 📄 错误率从 0 飙到 18%,三步用 AI 锁定连接池耗尽 —— 错误率飙升排查实战
参考资料
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)