AgentOps 是一个专门针对 AI Agent(智能体)系统的可观测性(Observability)、监控(Monitoring)、调试(Debugging)和评估(Evaluation)平台。

简单来说:

如果 DevOps 管服务器,MLOps 管模型,那么 AgentOps 管 AI Agent。

随着 AI Agent 系统越来越复杂,一个任务往往会涉及:

  • 多次 LLM 调用

  • 多个 Tool 调用

  • 多个 Agent 协作

  • 长时间运行的工作流

传统日志系统很难完整记录这些过程,因此出现了 AgentOps 这一类产品。


AgentOps 的核心价值

Agent 运行时通常会经历:

用户请求
    ↓
Agent推理
    ↓
调用工具
    ↓
继续推理
    ↓
调用其他Agent
    ↓
生成结果

如果最终结果异常,需要回答:

  • Agent做了什么?

  • 哪一步出错?

  • 为什么得出这个结论?

  • 消耗了多少 Token?

  • 花费了多少费用?

  • 哪个工具调用失败?

AgentOps 就是为了解决这些问题。


AgentOps 的主要能力

1. Trace(链路追踪)

记录 Agent 的完整执行过程。

例如:

Session
 ├─ LLM Call #1
 ├─ Tool Call #1
 ├─ Tool Call #2
 ├─ LLM Call #2
 └─ Final Output

可查看:

  • 输入内容

  • 输出内容

  • 耗时

  • Token 数量

  • 成本

类似于:

  • Jaeger

  • Zipkin

  • SkyWalking

但面向 AI Agent。


2. Session Replay(执行回放)

可以回看一次 Agent 的完整运行过程。

例如:

Step 1
搜索信息

Step 2
分析结果

Step 3
调用工具

Step 4
生成回答

便于排查:

  • 推理错误

  • 工具错误

  • Prompt问题

  • Agent协作问题


3. Token 与成本统计

统计:

  • Prompt Token

  • Completion Token

  • 总 Token

  • 调用次数

  • API 成本

例如:

GPT-4
调用 1200 次

输入 Token
500万

输出 Token
200万

成本
$320

适用于成本控制和资源规划。


4. Agent 运行监控

监控指标包括:

成功率

成功:980
失败:20

成功率:
98%

响应时间

平均:
3.2 秒

P95:
7.1 秒

Tool 调用情况

工具A
成功率 99%

工具B
成功率 92%

5. 多 Agent 可视化

对于多个 Agent 协作的系统,可以展示调用关系。

例如:

Agent A
 ├─ Agent B
 ├─ Agent C
 └─ Agent D

能够清楚看到:

  • 谁调用谁

  • 调用了几次

  • 花费时间

  • 消耗资源


6. Evaluation(评测)

用于持续评估 Agent 的表现。

常见指标:

  • 正确率

  • 成功率

  • 工具调用成功率

  • 用户满意度

  • 幻觉率(Hallucination Rate)

帮助团队持续优化 Agent。


AgentOps 与 OpenTelemetry 的关系

很多人会问:

有 OpenTelemetry 了,为什么还需要 AgentOps?

OpenTelemetry 关注的是:

服务
接口
数据库
缓存
消息队列

例如:

API耗时
SQL耗时
Redis耗时

而 AgentOps 关注的是:

Prompt
Token
Reasoning
Tool Calling
Agent Workflow

两者并不冲突。

实际上很多 AgentOps 平台底层也会兼容 OpenTelemetry。


主流 AgentOps 产品

目前比较知名的产品包括:

产品 特点
AgentOps 专注 Agent 监控与运维
LangSmith LangChain 官方方案
Langfuse 开源、部署灵活
Phoenix (Arize) 开源,可观测性强
Helicone LLM API 监控
Weights & Biases Weave 评测与追踪能力强

AgentOps 是否是一个独立学科?

目前来看:

AgentOps 更像是一种工程实践和技术领域,而不是独立学科。

类似于:

DevOps
MLOps
DataOps
AIOps

AgentOps 是 AI Agent 时代逐渐形成的一套最佳实践,主要覆盖:

开发
调试
监控
评测
部署
运维
优化

随着 Agent 系统规模扩大,AgentOps 正在成为企业级 AI 系统建设中的重要组成部分。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐