AI运维落地实录：为什么我们放弃“自动SSH”，转而死磕“嵌入式连续会话”？

happymade

322人浏览 · 2026-06-04 10:12:36

happymade · 2026-06-04 10:12:36 发布

一、一个被反复质问的问题：“你的AI连show命令都不会敲？”

在最近的技术交流中，我们频繁遭遇这样的质疑：“现在AI都能自动写脚本、改配置了，MSRM3 的AI居然不能SSH登录设备巡检？是不是技术落后？”

这个问题背后，隐藏着一个普遍的认知误区：把“AI操作能力”等同于“AI运维价值”。但在真实政企生产环境中，让AI自动执行CLI命令至少面临三重不可控风险：

命令体系碎片化：华为、H3C、锐捷、TP-Link等设备的 display/show 命令语法、输出格式、隐藏参数差异巨大，不存在通用的“安全只读模板”；
上下文敏感性：一条看似无害的 display cpu-usage 在高负载设备上可能触发进程阻塞，AI无法感知设备实时状态对命令副作用的影响；
合规审计红线：政企客户对自动化CLI操作有严格审计要求，程序自动远程执行命令本身可能就是项目验收的否决项。

我们最终的选择是：放弃“操作员”定位，全力做“分析师”。这不是技术妥协，而是对生产环境负责的工程伦理。下文将分享 MSRM3 如何将这一理念转化为可落地的AI辅助分析能力。

二、嵌入式+连续会话：让AI长在运维数据流里，且拥有“记忆”

市面上多数AI运维方案采用“全局聊天框+手动贴数据”或“单点分析无记忆”模式，这在实际运维中存在致命断层：用户需要离开当前排查界面、复制数据、组织语言提问，且每次分析都是全新对话，AI不记得上一轮结论，被迫反复提供背景信息。

MSRM3 的解法是 “场景嵌入式触发 + 全局连续上下文会话”：

AI入口嵌入到每一个运维对象的操作界面中；
但所有入口唤起的是 同一个对话窗口，关闭前始终保持完整对话历史；
该窗口以 Windows窗体形态 悬浮于拓扑桌面之上，支持拖拽、最小化、最大化，不打断原有工作流。

嵌入场景	触发方式	数据输入源	连续会话价值
设备信息面板	顶部AI分析按钮	设备基础信息表+接口状态详情表	可针对报告结论深度追问细节
性能/流量时序图	图表顶部按钮	指定时间窗口的指标序列	自动关联前序设备分析结论
日志/Syslog/Trap	多选记录提交	批量日志原文	结合历史诊断上下文关联分析
Telnet/SSH终端	回显内容解读	单次命令返回文本	延续排障思路解读复杂回显
全域知识问答	顶部主选项卡	RAG检索系统全量技术资料库	操作指导与诊断无缝衔接

这种设计的核心原则是：AI的分析上下文由系统自动注入，用户只需表达“分析意图”；同时会话记忆持久化，支持跨场景、跨轮次的连续追问。

在这里插入图片描述

三、连续上下文的实战价值：从“单次问答”到“伴随式排障”

连续会话不是简单的UI复用，而是重构了AI与运维人员的协作模式。在 MSRM3 中，三种典型连续交互成为日常：

深度追问收敛问题：在设备分析报告中看到“40G接口降速”结论后，可直接追问“这个端口最近7天的速率变化趋势如何？”“对端设备型号是否兼容？”，AI自动关联前文设备ID与接口索引，无需用户重复指定；
跨场景自动关联：先完成设备健康分析，再切换到流量图点击分析，AI会主动结合前序结论：“注意到该设备CPU负载偏高，当前流量图显示19:00-20:00存在突发峰值，建议核查该时段是否有备份任务或异常访问”；
知识-实操-排错闭环：新用户通过RAG知识库询问“如何配置SNMP Trap接收”，获得操作步骤后，直接在对话中继续问“我刚配的Trap没收到，帮我分析一下这条Syslog”，AI立即切换至日志分析模式，且仍保留前述配置上下文作为诊断参考。

在这里插入图片描述

这种设计的工程挑战在于 上下文管理策略：既要保证会话连贯性，又要防止无关历史干扰当前分析。MSRM3 采用“场景锚点+滑动窗口”混合机制：当用户点击新场景的分析按钮时，系统自动注入该场景的结构化数据作为新锚点，同时保留最近N轮对话作为背景记忆；而当用户主动提问时，则完全依赖大模型的长上下文理解能力进行自由关联。规则保障精度，模型保障灵活性，二者在连续会话中动态协作。

在这里插入图片描述

四、规则驱动的分析引擎：用运维经验约束AI的“幻觉”

大模型擅长语言生成，但不擅长精确诊断。若直接将原始监控数据丢给AI自由发挥，极易产生“看似专业实则错误”的分析报告。MSRM3 的解法是 将一线运维经验编码为结构化分析指引，作为AI推理的硬性约束。

以SNMP网络设备分析为例，我们为AI定义了明确的交叉校验规则（以下为简化伪代码）：

{
  "fault_detection_rules": [
    {
      "condition": "port.has_business_tag AND (port.speed == null OR port.status == 'down')",
      "conclusion": "潜在故障点：带业务标识端口速率缺失或断开",
      "priority": "high"
    },
    {
      "condition": "port.spec == '40G' AND port.negotiated_speed < '40G'",
      "conclusion": "配置异常：40G接口降速运行，需检查光模块或对端协商",
      "priority": "medium"
    },
    {
      "condition": "critical_port.interface_log == false",
      "conclusion": "监控盲区：关键业务端口未开启接口日志，无法追溯状态变更",
      "priority": "high"
    }
  ],
  "report_constraints": [
    "禁止逐行复述原始表格数据",
    "禁止臆造未观测到的动态趋势",
    "优化建议必须具体可执行（如：为外网线路开启流量记录与阈值告警）"
  ]
}

这套机制确保了AI输出的每一份报告都 有据可依、有规可循。例如当检测到“通讯恢复告警”时，AI不会泛泛而谈“网络已恢复”，而是自动核查带业务备注端口的历史断开记录与当前速率，精准定位曾中断的业务链路。对于主机设备，分析指引同样细化到TCP连接状态解读、磁盘IO延迟关联、SSL证书有效期预警等维度。AI不再是“万能但不可靠”的黑盒，而是 承载了领域知识的白盒分析器。

在这里插入图片描述

五、RAG知识库与场景分析的共生：新手引导与专家诊断的统一

许多工具将“帮助文档”与“智能分析”割裂为两个独立模块，导致用户在“学操作”和“做诊断”之间频繁切换。MSRM3 将二者统一于同一连续对话窗口：

知识库问答层：基于RAG检索系统全量技术资料（功能定义、操作逻辑、授权说明、技术参数），响应“怎么配置XX”“XX指标含义是什么”等操作类问题；
场景分析层：基于结构化数据+领域规则，响应“分析这台设备”“解读这段日志”等诊断类请求。

关键在于 两层能力共享同一会话上下文。例如：用户先问“性能记录怎么开启？”，AI给出操作指引；随后用户在设备面板点击AI分析，发现报告中提示“未开启性能记录”，此时可直接追问“我刚才按你说的开了，为什么还提示未开启？”，AI能结合前文操作指导与当前设备状态，精准判断是配置未生效、采集延迟还是权限问题——这种“教学-验证-排错”闭环，只有连续上下文的统一入口才能实现。

在这里插入图片描述