下午六点,你的班结束了。

下一个工程师即将接手,但他/她打开 Slack/Dead Man's Snooze 看到的是:23 条未处理告警、4 个服务在抖动、2 个故障还在排查中……

传统的做法:花 20 分钟整理一份交接文档,写清楚"哪个服务有问题、什么时间触发的、现在什么状态、后续要注意什么"。

用 SigNoz AI 助手:一句话,五秒钟,完整交接简报自动生成。

这篇文章基于 SigNoz 官方文档 - On-Call Handoff Brief,聊聊如何让 AI 帮你做值班交接。


值班交接,为什么总让人头疼?

做 SRE/DevOps 的都清楚,交接不是"把告警列表甩给下一位"就完事了。

对方需要知道的是:

  • 哪些问题是新的,哪些是已经盯了好几小时的"老面孔"
  • 每个告警的当前状态:OPEN?RESOLVED?还是反复抖动中?
  • 峰值严重程度:错误率最高飙到过多少?是 5% 还是 100%?
  • 上下文线索:这个告警之前有过吗?和哪个变更有关?

把这些信息整理清楚,本身就要花时间——而你刚熬完一个班,大脑已经很累了。

SigNoz AI 助手做的,就是把这份整理工作自动化。你告诉它"给我过去 48 小时的告警历史",它从 SigNoz 里拉数据,生成一份可直接发出去的交接摘要。


一句话,生成完整交接简报

操作简单到有点难以置信。

你只需要对 AI 助手说:

获取过去 48 小时的告警历史。对于每条触发过的告警,
告诉我受影响的服务、触发时间、峰值严重级别,
以及是否已解决还是仍处于开放状态。
格式化为交接摘要。

AI 自动调用的工具:

工具 作用
signoz_list_alerts 拉出所有当前触发的告警
signoz_get_alert_history 获取 48 小时内的完整告警状态转换历史
signoz_get_alert 逐条获取告警详情:严重级别、触发条件、当前状态

AI 返回的交接简报,长这样

当前所有 3 条触发告警(严重级别:error):

**前端服务**:48 小时内波动 65 次。峰值错误率 100%。未解决(OPEN)。
**支付服务**:48 小时内波动 119 次(每 24 分钟一次)。峰值错误率 50%。未解决(OPEN)。
**结账服务**:48 小时内波动 44 次。峰值错误率 100%。未解决(OPEN)。

所有三个告警持续波动——错误率短暂低于阈值后又飙升。
没有一条完全解决。

高波动次数表明根本问题未被修复,
只是被低流量间歇性掩盖。

这份摘要包含了交接需要的所有关键信息:

信息维度 内容
受影响服务 前端、支付、结账,共 3 个
峰值严重级别 2 个 100%,1 个 50%
告警频率 最多 119 次波动(支付服务)
当前状态 全部 OPEN,均未解决
AI 分析结论 高频波动说明根因未修复,只是被低流量掩盖

最后那段分析特别有价值——直接告诉接手的人:别以为错误率临时降下来就没事了,这个问题的根因还没找到。


这个场景的核心价值:不只是快

快速生成交接文档当然好,但这个功能的价值远不止"省 20 分钟"。

价值一:让告警历史"活"起来

告警历史本来就有,但躺在 SigNoz 里没人看。AI 帮你把它提炼成叙事性的摘要,接班的人不需要自己去翻历史记录。

价值二:读出告警的"性格"

119 次波动 × 每 24 分钟一次 = 支付服务在过去 48 小时里几乎没有安静过。这种模式靠人眼看告警列表是看不出来的——AI 直接在摘要里写出来。

价值三:结论先行,而不是数据堆砌

一份好的交接文档,不是"告警列表 + 时间戳"的堆叠,而是"发生了什么 → 当前状态如何 → 接下来要注意什么"。AI 生成的内容天然是这个结构。


用这个场景,还有几个小技巧

技巧一:调时间窗口,按需拉取

上面用了"48 小时",实际可以按班次灵活调整:

  • 8 小时班过去 8 小时的告警历史
  • 跨周末交接过去 72 小时,突出哪些是新问题、哪些是遗留问题
  • 大促/发布日过去 24 小时,重点标出哪些与变更相关

技巧二:配合其他调查工具一起用

交接简报是"概览",但接班的人拿到概览后,肯定会想深挖。SigNoz 的其他 AI 场景可以直接接上:

接班人的下一步 调用的 AI 场景
"前端服务 100% 错误率是什么情况?" 错误率飙升排查
"有没有可能是延迟引起的级联故障?" 延迟峰值排查
"这些告警之间有没有关联?" 告警关联分析
"看一下相关服务的日志" 自然语言日志探索

交接简报是起点,不是终点。

技巧三:交接完,建议发到值班频道存档

AI 生成的摘要可以直接粘贴到 Slack/钉钉/飞书的值班频道,既是正式交接记录,也方便后续复盘时回溯。


怎么接入?

  1. 有 SigNoz 实例(Cloud 或 Self-Hosted)
  2. 已在 SigNoz 中配置告警(如果还没配:告警配置指南
  3. AI 助手已连接 SigNoz MCP Server

💡 提示:文档里特别提到,推荐用 Claude Desktop 来实现这个场景,Claude 会生成交互式的交接简报可视化内容,更适合分享给接班工程师。


写在最后

值班交接这件事,技术含量不低,但重复性很强——每次班次结束都要做,做的内容结构也都差不多。

AI 接手这部分工作,节省的时间只是一方面。更重要的是:让工程师把精力留给真正需要判断的事情,比如这个故障要不要回滚、那个告警要不要升级,而不是把时间花在复制粘贴告警列表上。

值班已经够累了,能自动化的交接,就别手动了。


SigNoz AI 系列文章

这是 SigNoz AI 智能排查系列的第四篇。更多场景:

参考资料

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐