【怎么量化一个 Agent 的性能】?——八维指标、三层评估与生产级仪表盘

写在前面:FutureAGI 在 2026 年的一篇文章中提出了一个尖锐的观点:“Cost-per-success 是 2026 年最重要的 Agent 指标。” 为什么?因为它用一个数字融合了三种失败模式——任务失败(分母下降)、Token 过多(分子上升)、重试过多(双重恶化)。只看完成率会错过成本爆炸,只看 Token 花费会错过"成功但错误"。今天,我们从八维指标体系、三种评估方法、五大基准测试到三层仪表盘架构,彻底拆解"怎么量化一个 Agent 的性能"这个被严重低估的问题。


在这里插入图片描述

📑 文章目录


📊 一、八维指标体系:从"能用"到"可信"

在这里插入图片描述

1.1 为什么"能跑"不等于"好用"?

很多团队评估 Agent 的方式是"试几个例子,看起来还行"——这是远远不够的。一个 Agent 在 Demo 中表现完美,但在生产环境中可能:选错工具、传错参数、幻觉出不存在的信息、花 10 万 Token 完成一个简单任务、遇到错误就崩溃……这些问题只有通过系统化的指标量化才能发现。

Agent 的性能不是单一维度——它是一个多维空间。你需要同时追踪质量、效率、可靠性三个维度的八项核心指标,才能全面评估一个 Agent 的真实表现。

1.2 质量维度:Agent 的"脑子"灵不灵

指标一:任务完成率(Task Completion Rate)。这是最基本的质量指标——Agent 能不能完成用户交给它的任务?计算方式:成功完成的任务数 / 总任务数。但"完成"的定义需要明确:是最终结果正确,还是只是"看起来完成了"?对于客服 Agent,"完成"可能是问题被正确解答;对于代码 Agent,"完成"可能是 PR 通过了 CI 测试。

指标二:工具调用准确率(Tool-Call Accuracy)。Agent 的核心能力是调用工具——但选对工具了吗?传对参数了吗?理解返回结果了吗?工具调用准确率拆分为三个子指标:工具选择准确率(选对了工具)、参数准确率(传对了参数)、结果理解率(正确理解了工具返回)。一个有 5 个工具的 Agent,随机选择只有 20% 准确率——但很多团队从未测量过这个指标。

指标三:幻觉率(Hallucination Rate)。Agent 输出了多少不在检索上下文中的信息?幻觉率的计算需要 LLM-as-Judge 或人工标注——判断输出中的每个事实是否"有据可依"。幻觉率必须与拒绝率成对追踪:幻觉率降到 0% 但拒绝率 50%,说明 Agent 变成了"我不敢回答"——这不是优化,是过度安全调优。

指标四:指令遵循率(Instruction-Following Rate)。Agent 是否遵守了 Prompt 中的显式约束?例如"用 JSON 格式输出"、“不超过 200 字”、“不要使用外部 API”。指令遵循率通常用 LLM-as-Judge 评估——给 Judge 提供指令和输出,判断是否违反了每条约束。

1.3 效率维度:Agent 的"手脚"快不快

指标五:延迟 P99(Latency P99)。平均延迟是骗人的——1% 的请求可能慢 10 倍。P99 延迟(第 99 百分位延迟)才是用户真实感受到的"最差体验"。对于聊天 Agent,P99 应 ≤30s;对于代码 Agent,P99 应 ≤120s;对于后台批处理 Agent,P99 可以更宽松。延迟还可以细分为:TTFT(首 Token 时间)、TTFOT(首输出 Token 时间)、总延迟。

指标六:规划深度比(Planner Depth Ratio)。Agent 完成任务实际走的步数 / 最优步数。如果最优路径是 3 步,Agent 走了 9 步,规划深度比 = 3.0——说明 Agent 在"绕路"。规划深度比 ≤1.5 是健康范围,>2.0 说明规划能力严重不足。这个指标需要标注最优路径——通常由人工或更强的模型提供。

1.4 可靠性维度:Agent 的"抗压"强不强

指标七:失败恢复率(Failure Recovery Rate)。Agent 遇到瞬态错误(API 超时、工具返回 500)后,能恢复继续完成任务的比例。一个健壮的 Agent 应该能识别错误、重试或换策略、最终完成任务。恢复率 ≥70% 是基本要求——低于这个数字说明 Agent 遇到错误就"卡死"。

指标八:单次成功成本(Cost-per-Success)。这是 FutureAGI 认为最核心的指标——总 Token 成本 / 成功完成的任务数。它用一个数字融合了三种失败模式:任务失败(分母下降,成本上升)、Token 过多(分子上升,成本上升)、重试过多(双重恶化)。只看完成率会错过成本爆炸,只看 Token 花费会错过"成功但错误"——单次成功成本强制两者一起报告。

1.5 指标基准线

指标 及格线 优秀线 说明
任务完成率 ≥80% ≥95% 核心质量指标
工具调用准确率 ≥85% ≥95% 选对+传对+理解对
幻觉率 ≤10% ≤5% 与拒绝率成对看
指令遵循率 ≥90% ≥95% 约束必须守
延迟 P99 ≤60s ≤30s 聊天场景
规划深度比 ≤2.0x ≤1.5x vs 最优路径
失败恢复率 ≥50% ≥70% 瞬态错误
单次成功成本 ≤3x ≤2x vs 最优成本

🔬 二、三种评估方法与五大基准测试

在这里插入图片描述

2.1 三种评估方法

启发式评估(Heuristic Metrics)。基于规则的自动评估——精确匹配、正则匹配、JSON Schema 验证、代码执行结果对比。优点是速度快、成本低、可实时运行。缺点是只能评估"表面正确性"——格式对了但语义可能错了。适合日常监控和 CI/CD 门禁。

LLM-as-Judge 评估。用另一个 LLM(通常是 GPT-4 或 Claude)对 Agent 的输出做质量评判。优点是能评估语义正确性、幻觉、指令遵循等深层质量。缺点是成本中等、有评判偏差(Judge 可能偏袒某些风格)、需要校准。适合定期深度评估和离线批量分析。

人工评估(Human Evaluation)。人类专家对 Agent 输出做最终评判。优点是"金标准"——最接近真实用户感受。缺点是成本高、速度慢、不可扩展。适合校准 LLM-as-Judge 的偏差、处理边界案例、建立评估基准线。

最佳实践:启发式做日常监控(100% 覆盖),LLM-as-Judge 做深度评估(10-20% 采样),人工做校准基准(1-5% 采样)。三层评估形成金字塔——底层宽、顶层窄、每层为上层提供校准。

2.2 五大基准测试

SWE-bench。代码 Agent 的"高考"——给定一个真实的 GitHub Issue,Agent 需要定位 Bug、编写修复、通过测试。SWE-bench Verified 是最严格的子集,由人工验证每个 Issue 的可解性。当前 SOTA 约 50-60% 解决率。

WebArena。网页交互 Agent 的基准——Agent 需要在真实网页上完成购物、发帖、搜索信息等任务。评估维度包括:页面导航、表单填写、信息提取、多步操作。当前 SOTA 约 30-40% 完成率。

TAU-bench。客服 Agent 的基准——航空公司和零售场景,Agent 需要查阅政策、修改订单、处理退款。评估维度包括:政策遵循、工具调用、多轮对话。这个基准的独特价值是测试 Agent 的"规则遵循"能力——不是"能不能做",而是"该不该做"。

AgentBench。多维度 Agent 评估——覆盖操作系统、数据库、知识图谱、数字游戏等多个场景。评估推理、规划、工具使用等多种能力。适合做 Agent 的"综合体检"。

BFCL v3。函数调用专项基准——覆盖简单函数调用、并行调用、多轮调用、可组合调用。评估工具选择、参数传递、结果理解。如果你的 Agent 核心能力是工具调用,BFCL 是必测基准。

2.3 选基准的原则

没有"万能基准"——每个基准只测一个侧面。选基准的原则:

  • 你的 Agent 做什么 → 选最接近的基准
  • 没有现成基准 → 自建场景数据集(200-500 条标注数据)
  • 基准分数 ≠ 生产表现 → 基准是起点,不是终点

自建数据集的方法:收集真实用户请求 → 标注预期输出和成功标准 → 定期用新数据补充 → 防止 Agent 过拟合测试集。


🏭 三、三层仪表盘与四大陷阱

在这里插入图片描述

3.1 三层仪表盘架构

生产级 Agent 的评估不是"一个仪表盘",而是"三层仪表盘":

第一层:Trace 追踪层。基于 OpenTelemetry 的 Span 捕获——记录每次 LLM 调用、工具调用、状态转换。实时监控延迟和错误率。这层用 Datadog、Grafana 等传统 APM 工具就能实现。核心指标:延迟 P50/P95/P99、错误率(按类型分组)、Token 消耗、工具调用次数和耗时、缓存命中率。

第二层:Eval 评估层。LLM-as-Judge + 启发式混合评估——定期对采样输出做质量评估。这层需要 LangSmith、FutureAGI、Phoenix 等专业评估平台。核心指标:任务完成率、工具调用准确率、幻觉率、指令遵循率、规划深度比。

第三层:Guardrail 护栏层。网关级实时拦截——在请求到达 Agent 之前和响应返回用户之前做检查。这层用自建网关或 Braintrust 等平台实现。核心指标:拒绝率(该拒/不该拒)、输出格式合规率、敏感信息泄露率、成本超限拦截率。

3.2 三指标可靠性仪表盘(最小可行集)

如果资源有限,至少追踪这三个指标:

单次成功成本。融合完成率 + Token 消耗,一个数字看全貌。如果这个数字突然上升,说明要么完成率下降,要么 Token 消耗增加,要么两者同时恶化。

工具调用准确率。Agent 的"手"灵不灵——选对工具 + 传对参数。这是 Agent 区别于普通 Chatbot 的核心能力,也是最常出问题的环节。

延迟 P99。最差用户体验——1% 最慢请求的延迟。P99 突然上升通常意味着某个工具 API 变慢、某个 Prompt 变长、或缓存命中率下降。

3.3 四大评估陷阱

陷阱一:只看完成率,不看成本。完成率 95% 但每次花 10 万 Token?成本爆炸。单次成功成本才是真相——它同时惩罚"失败"和"昂贵的成功"。

陷阱二:只看平均,不看尾部。平均延迟 5s 但 P99 = 60s?1% 的用户体验极差。平均数掩盖尾部问题——永远追踪 P99。

陷阱三:基准分数 = 生产表现。SWE-bench 80% 但真实 Issue 修复率 40%?基准是简化场景,生产是复杂现实。基准是起点,不是终点——必须自建场景数据集验证。

陷阱四:幻觉和拒绝只看一个。幻觉率降到 0% 但拒绝率 50%?过度安全调优,Agent 变成"我不敢回答"。幻觉率和拒绝率必须成对追踪——两者之间存在权衡曲线,需要找到最佳平衡点。

3.4 评估不是"上线后的事"

很多团队把评估当作"上线后的优化项"——这是根本性的错误。评估应该从 Agent 设计的第一天就嵌入:

  • 定义任务时 → 同时定义成功标准
  • 选择工具时 → 同时定义工具调用评估方式
  • 编写 Prompt 时 → 同时定义指令遵循测试用例
  • 部署上线时 → 同时部署三层仪表盘

“能跑"不等于"可信”——评估是"可信"的基石。一个没有系统化评估的 Agent,就像一个没有仪表盘的飞机——你不知道它什么时候会出问题,直到它真的出问题。


🎁 总结速查卡

Agent 性能量化核心概念

概念 一句话解释
八维指标 质量(完成率/工具准确率/幻觉率/指令遵循)+ 效率(延迟P99/规划深度)+ 可靠性(恢复率/成功成本)
单次成功成本 总 Token 成本 / 成功任务数——融合三种失败模式的核心指标
启发式评估 规则匹配——快、便宜、表面正确性
LLM-as-Judge LLM 评判——语义正确性、中等成本、需校准
人工评估 金标准——最准、最慢、最贵
三层仪表盘 Trace 追踪 + Eval 评估 + Guardrail 护栏
三指标最小集 单次成功成本 + 工具调用准确率 + 延迟 P99

一句话总结

量化 Agent 性能不能只看"完成率"——需要八维指标体系:质量维度(任务完成率/工具调用准确率/幻觉率/指令遵循率)、效率维度(延迟 P99/规划深度比)、可靠性维度(失败恢复率/单次成功成本)。单次成功成本是最核心的指标——它用一个数字融合了任务失败、Token 过多、重试过多三种失败模式。三种评估方法形成金字塔:启发式做日常监控(100% 覆盖),LLM-as-Judge 做深度评估(10-20% 采样),人工做校准基准(1-5% 采样)。五大基准测试各测一个侧面——没有万能基准,只有场景匹配。生产级评估需要三层仪表盘(Trace + Eval + Guardrail),最小可行集是三个指标(单次成功成本 + 工具调用准确率 + 延迟 P99)。评估不是"上线后的事",而是"设计时的事"——“能跑"不等于"可信”。


参考链接

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐