AI Observability Agent:大模型时代的监控利器

用 Rust 构建的高性能 AI 可观测性平台,让 AI 成本、性能、质量一目了然

项目简介

Prometheus Agent 是什么?

Prometheus Agent(又名 AI Observability Agent)是一个使用 Rust 实现的高性能监控数据采集与上报代理。它不仅继承了传统监控代理的所有能力,还专门针对 AI/LLM 时代的需求进行了深度优化。

┌─────────────────────────────────────────────────────────────────┐
│                    AI Observability Agent                        │
├─────────────────────────────────────────────────────────────────┤
│  传统监控能力              │           AI 专属能力              │
│  ─────────────             │           ─────────────            │
│  • 系统指标采集            │           • OTLP 协议接收          │
│  • 服务指标抓取            │           • AI 专用采集器          │
│  • Remote Write 上报       │           • 成本追踪引擎          │
│  • 多端点故障转移          │           • 质量监控系统          │
└─────────────────────────────────────────────────────────────────┘

为什么需要 AI Observability Agent?

在大模型时代,企业和开发者面临着全新的监控挑战:

挑战 传统监控方案的局限 AI Observability Agent 的解决
成本透明度 无法追踪 AI API 调用成本 内置定价表,实时计算成本
Token 监控 不支持 Token 维度指标 统一 Token 指标格式
多源数据 各 AI 工具指标格式不统一 OTLP 协议统一接收
质量评估 缺少 AI 服务质量指标 内置质量评分引擎
预算控制 无预算管理能力 每日/每月预算告警

核心价值主张

🚀 高性能     - Rust 实现,内存占用 < 100MB,CPU < 5%
🔌 易集成     - 原生支持 OTLP,Claude Code 开箱即用
💰 成本透明   - 实时追踪 AI API 成本,预算超限告警
📊 质量可控   - 响应时间、Token 效率、错误率全面监控
🛡️ 数据可靠   - 本地持久化,网络故障数据不丢失

核心功能亮点

1. 系统指标采集

像 Node Exporter 一样,全面采集容器或物理机的系统监控数据:

采集器 指标示例 说明
CPU node_cpu_seconds_total 各核心各模式 CPU 时间
内存 node_memory_MemAvailable_bytes 可用内存
磁盘 node_disk_read_bytes_total 磁盘读写量
网络 node_network_receive_bytes_total 网络流量
负载 node_load1, node_load5, node_load15 系统负载

支持多平台:Linux、macOS、Windows,自动检测容器/物理机环境。

2. AI 工具监控

OTLP 协议原生支持

Agent 原生支持 OpenTelemetry Protocol (OTLP),可接收 Claude Code 等 AI 工具的指标数据:

# Claude Code 配置
export CLAUDE_CODE_ENABLE_OTEL=true
export OTEL_EXPORTER_OTLP_ENDPOINT=http://prom-agent:4317

支持的协议:

  • gRPC: 端口 4317
  • HTTP: 端口 4318
AI 专用采集器
采集器 数据源 采集内容
OpenAI Collector OpenAI Usage API Token 使用量、请求数、成本
LiteLLM Collector LiteLLM Proxy /metrics 请求延迟、Token、成本
统一指标格式

所有 AI 指标使用统一前缀和标签:

ai_requests_total{source="claude_code", model="claude-3-opus", provider="anthropic"}
ai_tokens_input_total{source="claude_code", model="claude-3-opus"}
ai_tokens_output_total{source="claude_code", model="claude-3-opus"}
ai_cost_usd_total{source="claude_code", model="claude-3-opus"}

3. 成本追踪

内置定价表

支持 20+ 主流 AI 模型的定价数据:

模型 输入成本 ($/1K tokens) 输出成本 ($/1K tokens)
claude-3-opus 0.015 0.075
claude-3-sonnet 0.003 0.015
gpt-4o 0.005 0.015
gpt-4-turbo 0.01 0.03
预算管理
cost_tracking:
  budget:
    daily_limit_usd: 100
    monthly_limit_usd: 2000
    alert_threshold_percent: 80

预算超限时自动触发告警,支持 Webhook 通知。

成本报告 API
# 查看成本汇总
curl http://localhost:9090/api/v1/costs

# 查看预算状态
curl http://localhost:9090/api/v1/budget

4. 质量评估

内置质量监控系统,支持自定义质量规则:

规则类型 说明 示例
response_time 响应时间检查 平均响应时间 > 5s 触发警告
token_efficiency Token 效率检查 output/input 比率 > 10 触发信息
error_rate 错误率检查 错误率 > 5% 触发严重告警

质量评分算法:

  • 每个规则返回 0-100 分
  • 最终得分 = Σ(规则分数 × 权重) / Σ权重
  • 100 分表示所有规则通过

技术特性

Rust 高性能实现

性能指标              数值
────────────────────────────
OTLP 接收吞吐量       10000+ metrics/s
Remote Write 吞吐量   5000+ samples/s
空闲内存占用          < 100MB
空闲 CPU 占用         < 5%
健康检查延迟 P99      < 5ms

低资源消耗

得益于 Rust 的零成本抽象和 tokio 异步运行时:

  • 内存安全: 无 GC 停顿,内存占用稳定
  • CPU 高效: 异步 IO,最小化系统调用
  • 二进制小: 单文件部署,无运行时依赖

多平台支持

平台 架构 状态
Linux x86_64 ✅ 完全支持
Linux ARM64 ✅ 完全支持
macOS x86_64 ✅ 完全支持
macOS ARM64 (M1/M2) ✅ 完全支持
Windows x86_64 ✅ 完全支持

容器友好

  • 自动检测容器环境
  • 支持 /host/proc 路径映射
  • 提供 Dockerfile 和 Kubernetes DaemonSet 配置

适用场景

AI 开发团队

场景:团队使用 Claude Code 进行开发
需求:追踪 Token 消耗、控制成本、评估开发效率

解决方案:
1. 配置 Claude Code 发送 OTLP 指标到 Agent
2. Agent 计算实时成本并推送到 Prometheus
3. Grafana Dashboard 展示成本趋势和预算消耗
4. 预算超限时自动告警通知

企业 AI 平台

场景:企业内部部署 LiteLLM Proxy 统一管理 AI API
需求:监控所有 AI 调用、成本分摊、质量保障

解决方案:
1. Agent 定期抓取 LiteLLM /metrics 端点
2. 按项目/团队标签聚合成本数据
3. 质量监控规则检测异常调用
4. Grafana Dashboard 展示平台整体健康度

个人开发者

场景:个人使用 OpenAI API 开发应用
需求:追踪 API 成本、监控调用质量

解决方案:
1. Agent 定期拉取 OpenAI Usage API
2. 实时计算成本并设置预算告警
3. 本地 Prometheus + Grafana 可视化
4. 低资源消耗,适合个人服务器

与竞品对比

vs OpenTelemetry Collector

特性 AI Observability Agent OpenTelemetry Collector
部署复杂度 单二进制文件 需要配置多个组件
AI 成本追踪 ✅ 内置 ❌ 需要自定义
预算管理 ✅ 内置 ❌ 不支持
质量评估 ✅ 内置 ❌ 不支持
系统指标采集 ✅ 内置 ❌ 需要额外 receiver
学习曲线 中等

结论: 如果你的主要需求是 AI 监控和成本追踪,AI Observability Agent 提供了更开箱即用的体验。

vs Prometheus Node Exporter

特性 AI Observability Agent Node Exporter
数据推送方式 主动推送 (Remote Write) 被动拉取 (Prometheus Scrape)
AI 指标支持 ✅ 原生支持 ❌ 不支持
成本追踪 ✅ 内置 ❌ 不支持
多端点故障转移 ✅ 支持 ❌ 不支持
本地持久化 ✅ 支持 ❌ 不支持
动态配置 ✅ API 控制 ❌ 需要重启

结论: AI Observability Agent 采用推送模式,更适合需要主动上报数据的场景,同时提供了更丰富的 AI 监控能力。

vs 商业 AI 监控方案

特性 AI Observability Agent 商业方案 (如 Langfuse)
成本 开源免费 按使用量收费
数据主权 自托管,数据本地 数据存储在云端
定制性 高度可定制 受限于平台能力
运维要求 需要自行运维 全托管服务
集成复杂度 需要配置 Prometheus 开箱即用

结论: 对于注重数据主权、成本敏感、有运维能力的团队,AI Observability Agent 是更好的选择。

快速开始

最小配置

# config/agent_config.yaml
agent:
  log_level: info
  listen_address: 0.0.0.0:9090

otlp:
  enabled: true
  grpc_endpoint: 0.0.0.0:4317

cost_tracking:
  enabled: true
  budget:
    daily_limit_usd: 100

remote_write:
  endpoint: http://prometheus:9090/api/v1/write

启动服务

# 构建
cargo build --release

# 启动
./target/release/prom-agent config/agent_config.yaml

验证

# 健康检查
curl http://localhost:9090/health

# 查看成本
curl http://localhost:9090/api/v1/costs

# 查看预算
curl http://localhost:9090/api/v1/budget

下一步

开源协议

本项目采用 MIT 协议开源,欢迎贡献代码和反馈问题。


相关链接:

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐