线上服务告警频发:Pod CrashLoopBackOff、接口 P99 飙升、节点资源告警……你需要快速定位是哪个 Pod 出了问题、翻看分散的容器日志、还要判断是否需要扩容。一个人排查耗时耗力,能不能让多个 Agent 分工协作?

JiuwenSwarm 是基于 openJiuwen 框架构建的智能 AI Agent,提供 Team 模式(多智能体协作)、Skill 技能系统、Heartbeat 心跳巡检、Cron 定时任务等能力,可以帮助云原生开发者构建智能化的 K8s 集群管理 Agent 团队。


核心能力速览

动手之前,先了解 JiuwenSwarm 中与 K8s 管理场景相关的几个核心能力:

Team 模式(多智能体协作)

JiuwenSwarm 支持 Agent / Code / Team 三种运行模式。Team 模式支持配置 Leader + 多个 Agent 的协作团队,通过 /mode team 切换。在 config.yaml 中配置团队结构,Leader 的 persona 字段定义该角色的行为方式。

Skill 技能系统

Skill 是 JiuwenSwarm 的可安装能力模块,每个 Skill 是一个包含 SKILL.md 的文件夹:

my-skill/
├── SKILL.md        # 技能定义(必须)
├── references/     # 参考文档(可选)
└── scripts/        # 辅助脚本(可选)

技能来源包括:内置技能、SkillNet(基于 GitHub)、ClawHub(技能商店)、本地导入。

Heartbeat 心跳巡检

Heartbeat 机制可以按固定间隔触发 Agent 执行任务。在 HEARTBEAT.md 中定义巡检任务,Agent 会在每次心跳时读取并执行。配置位于 config.yaml

heartbeat:
  every: 3600       # 间隔秒数,3600 = 每小时
  target: web       # 结果推送到哪个渠道
  active_hours:     # 生效时间段(本地时间)
    start: 08:00
    end: 22:00

Cron 定时任务

Cron 功能支持创建定时执行的 Agent 任务,在 Web UI 的 Cron / Scheduled tasks 面板中配置,支持标准 5 字段 cron 表达式,结果可推送到 web、飞书等渠道。


实操:搭建 K8s 集群管理 Agent 团队

一、安装与初始化

pip install jiuwenclaw
jiuwenclaw-init

初始化完成后,工作空间位于 ~/.jiuwenclaw/,通过 jiuwenclaw-start 启动服务,浏览器访问 http://localhost:5173

启动后进入"设置 → 配置信息 → 模型配置",填入大模型 API KEY(支持华为云 MaaS 等平台)。

二、配置 K8s 管理团队(Team 模式)

编辑 ~/.jiuwenclaw/config/config.yaml,在 modes 部分添加 Team 配置:

modes:
  team:
    k8s_ops_team:
      team_name: k8s_ops_team
      lifecycle: persistent
      teammate_mode: build_mode
      spawn_mode: inprocess
      leader:
        member_name: k8s_ops_leader
        display_name: K8s运维值班长
        persona: "资深K8s运维工程师,擅长Pod诊断、日志分析和资源扩缩容。
          收到集群异常报告后,你需要:
          1) 执行Pod诊断,定位异常Pod及其根因;
          2) 聚合相关Pod日志,分析异常模式;
          3) 综合资源利用率给出扩缩容建议。
          所有分析结果以结构化格式输出。"
      agents:
        leader:
          workspace:
            stable_base: true
          max_iterations: 200
          completion_timeout: 600.0
    workspace:
      enabled: true
    transport:
      type: inprocess
    storage:
      type: sqlite

启动或重启服务后,在 Web 对话框中输入 /mode team 切换到团队模式。

三、创建 K8s 运维分析技能(Skill)

除了 Team 模式,也可以创建专用 Skill 来处理集群运维分析。

本地创建 Skill 文件:

cd ~/.jiuwenclaw/agent/jiuwenclaw_workspace/skills
mkdir k8s-ops-analysis

创建 SKILL.md

name: k8s-ops-analysis
version: 1.0.0
description: K8s集群运维分析技能,支持Pod诊断、日志聚合分析和扩缩容建议
tags: [k8s, pod, logs, scaling]
allowed_tools: [webSearch, readFile]

K8s 集群运维分析

当收到集群异常需要分析时,按以下流程处理:

步骤

Pod 诊断:对异常 Pod 执行诊断分析(检查状态、事件、资源限制),按严重程度分为 Critical(Pod 不可用)、Warning(频繁重启)、Info(资源预警)。关联同一 Deployment/StatefulSet 下的 Pod 进行分组去重。

日志聚合分析:对异常 Pod 组收集容器日志,使用模式匹配识别 ERROR/WARN 关键信息,按出现频率排序,输出 Top 异常模式和时间线。

扩缩容建议:基于当前资源利用率(CPU/内存)、Pod 异常模式、业务趋势,给出扩缩容建议(扩容/缩容/维持),附上目标副本数和理由。

也可以通过 Web 界面左侧栏 → Skills → Local import → 选择上述技能文件夹安装。

技能自演进: JiuwenSwarm 支持技能自演进(Skill Evolution),Agent 会根据使用反馈自动优化 SKILL.md 内容。在 config.yaml 中配置:

四、配置心跳巡检(Heartbeat)

编辑 ~/.jiuwenclaw/agent/jiuwenclaw_workspace/HEARTBEAT.md,添加 K8s 巡检任务:

心跳任务:
检查集群中是否有新增的 CrashLoopBackOff 或 ImagePullBackOff Pod
如有异常 Pod,按 k8s-ops-analysis 技能流程进行分析
汇总当前各命名空间的 Pod 健康状态统计

config.yaml 中调整心跳间隔:

heartbeat:
  every: 300          # 每 5 分钟巡检一次
  target: web
  active_hours:
    start: 00:00      # 24 小时覆盖
    end: 23:59

五、配置定时集群巡检汇总(Cron)

在 Web UI 中打开 Cron / Scheduled tasks → 点击 New job:

  • namedaily_k8s_report
  • cron_expr0 9 * * *(每天上午 9 点)
  • timezoneAsia/Shanghai
  • targetsweb
  • description:汇总过去 24 小时的集群状态,包括各命名空间 Pod 异常数、Top-5 频繁异常服务、资源利用率概览

也可以通过对话创建:"创建一个每天早上 9 点的定时任务,汇总过去 24 小时 K8s 集群状态,推送到 web。"


实际使用示例

场景:API 服务 Pod 异常引发连锁故障

在 JiuwenSwarm 的 Web 对话框中(使用 /mode team 切换到 Team 模式后)输入:

收到以下集群异常:
[prod-api] Deployment api-server Pod CrashLoopBackOff (3/5 replicas)
[prod-api] HTTP 500 rate spike to 25%
[prod-gateway] response time P99 > 5s
[prod-db] MySQL connection pool exhausted
[monitor] node-03 CPU usage > 95%


特性总结

能力 K8s 场景应用
Team 模式 Leader 统一协调 Pod 诊断、日志分析、扩缩容建议
Skill 技能 可安装的 K8s 运维分析技能,支持自演进优化
Heartbeat 定时巡检集群 Pod 健康状态
Cron 定时 每日自动生成集群巡检报告
Channel 飞书/小艺等渠道接入,告警直达 Agent

相关资源

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐