垂直领域AI agent测试

小哲妈

119人浏览 · 2026-05-21 10:57:15

小哲妈 · 2026-05-21 10:57:15 发布

声明：本文有部分内容来自于AI。

我们日常接触的大模型，分为通用大模型，比如豆包、千问这种，还有垂直领域的Agent，比如零犀科技 · 汽车销售Agent，比如蚂蚁阿福医疗Agent。

今天我们主要了解学习的是垂直领域的Agent的测试。

AI agent测试和传统的测试有很大的区别，传统测试是按照输入A输出B进行测试，而Agent有自主规划和非确定性生成，所以测试起来还是复杂得多。

今天先看下AI Agent测试的第一个维度：核心能力测试

看标题就知道，是测试Agent的主要功能是否能正常运行，是否有能力回答用户的提问。

核心能力中的第一条是：意图理解和规划能力。

意思是给Agent一个复杂任务（比如“分析过去三个月销售数据并生成PPT”），看它能不能正确拆解成子任务。

那我们就需要理解一下，什么是复杂任务，什么叫正确拆解成子任务。

首先说一下，什么是复杂任务？从哪里获得这些复杂任务？

传统测试是测试人员根据需求编写案例，但是Agent测试只根据需求编写可能就不够了。

我们可以从下面3个方面获取复杂任务。

路径一：真实用户日志（最准确，但是代价高一些）
如果Agent已经上线或灰度了，直接导出用户真实对话记录，脱敏后按场景分类。比如电商场景，用户真实问的是“我上周买的那个东西怎么还没到，单号SF1234567890，都五天了”，而不是测试题里那种“你好，我想查询我的订单”。前者才能测出Agent的真实水平。

路径二：业务场景还原（推荐，适合新项目）
从需求文档、产品原型、PRD里提取业务场景。比如一个电商数据分析Agent，可以列出：

销售分析：“帮我分析上个月销售情况”
异常预警：“有没有哪个品类退货率异常高？”
客服对话：“我的订单怎么还没到？”
安全拦截：攻击性输入

每个场景再设计2-5条用例，覆盖不同难度。

路径三：合成生成（低成本但有风险）
用大模型批量生成测试数据，速度快、成本低。但容易偏离真实分布，生成出来的问题和真实用户说话方式差距很大，需要人工审核过滤。

再说一下什么是正确拆解成子任务？

当用户说“分析过去三个月销售数据并生成PPT”时，Agent不能直接去调一个叫“分析并生成PPT”的工具——没有这种工具。它必须把这个复杂指令，拆成一系列可执行的、顺序正确的、参数完整的子步骤。

Agent的调用步骤是这样的

步骤1：调用【销售数据查询API】，参数 {时间范围: "2026-02-21 ~ 2026-05-21", 维度: ["销售额", "订单量", "客单价"]}

步骤2：调用【数据分析工具】，参数 {输入: 步骤1的输出, 分析类型: "趋势分析", 对比维度: "月度环比"}

步骤3：调用【图表生成工具】，参数 {输入: 步骤2的输出, 图表类型: ["折线图", "柱状图"], 标题: "近三个月销售趋势"}

步骤4：调用【PPT生成工具】，参数 {输入: 步骤3的输出, 模板: "销售报告模板", 输出格式: "pptx"}

步骤5：调用【文件保存工具】，参数 {文件: 步骤4的输出, 路径: "/用户/报告/"}

在这个拆解子任务的过程中，我们要判断拆解的完整性、顺序性、参数传递正确性、工具调用（就是方法、函数、API之类的）正确性

假设正在测试一个电商数据分析Agent，它有三个工具可用：

query_sales_data(time_range, metrics) — 查销售数据
generate_chart(data, chart_type) — 生成图表
create_ppt(content, template) — 生成PPT

用户输入：帮我分析一下上个月卖得最好的5个商品，做个PPT发给我

期望拆解：

步骤1：query_sales_data(time_range="2026-04-21~2026-05-21", metrics=["商品名称", "销售额"]) 步骤2：generate_chart(data=步骤1的输出, chart_type="bar", top_n=5)

步骤3：create_ppt(content=步骤2的输出, template="销售简报")

最终输出判断评分如下：

完整性：❌ 漏了生成图表步骤（扣分）
顺序性：✅ 先查数据后生成PPT
参数正确性：✅ 时间范围正确
工具匹配度：✅ 工具选对了

所以：每个测试用例，测试人员要提前写出期望的拆解步骤，先定义好“正确路径”。

那一个好的Agent测试案例是什么样的？

一条完整的Agent测试用例至少包含三部分：

用户输入（对应传统测试的输入）：用户会怎么说。比如“帮我分析一下过去三个月每个月的销售额趋势，然后做成PPT发给我”。

期望行为（对应传统测试的输出）：Agent应该怎么拆解任务、调什么工具。比如：

第一步：调销售数据API，获取近三个月数据
第二步：调用数据分析工具，计算月环比增长率
第三步：调用PPT生成工具，把图表和数据塞进去
第四步：调用邮件发送工具，发给用户

评分标准（通过标准）：什么算过、什么算不过。比如：

任务拆解是否完整（有没有漏掉“发邮件”这一步）
工具调用参数是否正确（时间范围、格式对不对）
最终输出是否可用（PPT能不能打开、内容是否准确）
如果结果正确，中间绕道了，还是要扣分的

Agent案例设计技巧

难度梯度：同一个场景设计不同难度的用例

简单：“帮我查一下上个月的总销售额”——单步查询
中等：“分析2025年Q4的销售数据并生成报告”——多步但流程固定
复杂：“评估618大促活动的销售效果”——需要对比活动前后数据，考验规划能力
对抗：“我不太懂数据，你帮我看看哪里有问题”——意图模糊，考验澄清能力

题型配比：一个合格的评测集需要四种题型

正向用例（约50%）：覆盖核心业务流，确保基础功能可用
边界用例（约20%）：意图模糊、缺少关键参数，测试Agent会不会主动澄清
对抗用例（约20%）：故意问脱离知识库的问题，测试拒答能力
安全合规（约10%）：包含偏见、诱导恶意输出的提问

Agent测试各角色人员对测试场景的贡献:

测试人员：负责场景设计、期望行为定义、评分标准制定。这是核心工作，需要懂业务、懂用户。

业务/产品同学：提供真实用户场景、典型话术。他们最了解用户会怎么问。

AI/算法同学：提供技术约束，比如哪些工具可用、参数格式要求。确保测试用例在技术上是可执行的。

大模型辅助：可以用大模型批量生成初版用例，但必须人工审核。直接拿来用大概率会翻车。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

cover

【2026 最新 DBeaver 保姆级教学】：DBeaver零基础超详细图解安装步骤、连接配置、完全卸载以及常用操作

AtomGit开源社区

cover

从文字回复到具象交互：官网 Agent 的交互逻辑重构

AtomGit开源社区

cover

Spring AI Alibaba 1.x 系列【56】SAA Admin 平台功能介绍

AtomGit开源社区

所有评论(0)

查看更多评论

小哲妈

@weixin_43156282

已为社区贡献2条内容