垂直领域AI agent测试
声明:本文有部分内容来自于AI。
我们日常接触的大模型,分为通用大模型,比如豆包 、千问这种,还有垂直领域的Agent,比如零犀科技 · 汽车销售Agent,比如蚂蚁阿福医疗Agent。
今天我们主要了解学习的是垂直领域的Agent的测试。
AI agent测试和传统的测试有很大的区别,传统测试是按照输入A输出B进行测试,而Agent有自主规划和非确定性生成,所以测试起来还是复杂得多。
今天先看下AI Agent测试的第一个维度:核心能力测试
看标题就知道,是测试Agent的主要功能是否能正常运行,是否有能力回答用户的提问。
核心能力中的第一条是:意图理解和规划能力。
意思是给Agent一个复杂任务(比如“分析过去三个月销售数据并生成PPT”),看它能不能正确拆解成子任务。
那我们就需要理解一下,什么是复杂任务,什么叫正确拆解成子任务。
首先说一下,什么是复杂任务?从哪里获得这些复杂任务?
传统测试是测试人员根据需求编写案例,但是Agent测试只根据需求编写可能就不够了。
我们可以从下面3个方面获取复杂任务。
路径一:真实用户日志(最准确,但是代价高一些)
如果Agent已经上线或灰度了,直接导出用户真实对话记录,脱敏后按场景分类。比如电商场景,用户真实问的是“我上周买的那个东西怎么还没到,单号SF1234567890,都五天了”,而不是测试题里那种“你好,我想查询我的订单”。前者才能测出Agent的真实水平。
路径二:业务场景还原(推荐,适合新项目)
从需求文档、产品原型、PRD里提取业务场景。比如一个电商数据分析Agent,可以列出:
- 销售分析:“帮我分析上个月销售情况”
- 异常预警:“有没有哪个品类退货率异常高?”
- 客服对话:“我的订单怎么还没到?”
- 安全拦截:攻击性输入
每个场景再设计2-5条用例,覆盖不同难度。
路径三:合成生成(低成本但有风险)
用大模型批量生成测试数据,速度快、成本低。但容易偏离真实分布,生成出来的问题和真实用户说话方式差距很大,需要人工审核过滤。
再说一下什么是正确拆解成子任务?
当用户说“分析过去三个月销售数据并生成PPT”时,Agent不能直接去调一个叫“分析并生成PPT”的工具——没有这种工具。它必须把这个复杂指令,拆成一系列可执行的、顺序正确的、参数完整的子步骤。
Agent的调用步骤是这样的
步骤1:调用【销售数据查询API】,参数 {时间范围: "2026-02-21 ~ 2026-05-21", 维度: ["销售额", "订单量", "客单价"]}
步骤2:调用【数据分析工具】,参数 {输入: 步骤1的输出, 分析类型: "趋势分析", 对比维度: "月度环比"}
步骤3:调用【图表生成工具】,参数 {输入: 步骤2的输出, 图表类型: ["折线图", "柱状图"], 标题: "近三个月销售趋势"}
步骤4:调用【PPT生成工具】,参数 {输入: 步骤3的输出, 模板: "销售报告模板", 输出格式: "pptx"}
步骤5:调用【文件保存工具】,参数 {文件: 步骤4的输出, 路径: "/用户/报告/"}
在这个拆解子任务的过程中,我们要判断拆解的完整性、顺序性、参数传递正确性、工具调用(就是方法、函数、API之类的)正确性
假设正在测试一个电商数据分析Agent,它有三个工具可用:
query_sales_data(time_range, metrics)— 查销售数据generate_chart(data, chart_type)— 生成图表create_ppt(content, template)— 生成PPT
用户输入:帮我分析一下上个月卖得最好的5个商品,做个PPT发给我
期望拆解:
步骤1:query_sales_data(time_range="2026-04-21~2026-05-21", metrics=["商品名称", "销售额"]) 步骤2:generate_chart(data=步骤1的输出, chart_type="bar", top_n=5)
步骤3:create_ppt(content=步骤2的输出, template="销售简报")
最终输出判断评分如下:
- 完整性:❌ 漏了生成图表步骤(扣分)
- 顺序性:✅ 先查数据后生成PPT
- 参数正确性:✅ 时间范围正确
- 工具匹配度:✅ 工具选对了
所以:每个测试用例,测试人员要提前写出期望的拆解步骤,先定义好“正确路径”。
那一个好的Agent测试案例是什么样的?
一条完整的Agent测试用例至少包含三部分:
用户输入(对应传统测试的输入):用户会怎么说。比如“帮我分析一下过去三个月每个月的销售额趋势,然后做成PPT发给我”。
期望行为(对应传统测试的输出):Agent应该怎么拆解任务、调什么工具。比如:
- 第一步:调销售数据API,获取近三个月数据
- 第二步:调用数据分析工具,计算月环比增长率
- 第三步:调用PPT生成工具,把图表和数据塞进去
- 第四步:调用邮件发送工具,发给用户
评分标准(通过标准):什么算过、什么算不过。比如:
- 任务拆解是否完整(有没有漏掉“发邮件”这一步)
- 工具调用参数是否正确(时间范围、格式对不对)
- 最终输出是否可用(PPT能不能打开、内容是否准确)
- 如果结果正确,中间绕道了,还是要扣分的
Agent案例设计技巧
难度梯度:同一个场景设计不同难度的用例
- 简单:“帮我查一下上个月的总销售额”——单步查询
- 中等:“分析2025年Q4的销售数据并生成报告”——多步但流程固定
- 复杂:“评估618大促活动的销售效果”——需要对比活动前后数据,考验规划能力
- 对抗:“我不太懂数据,你帮我看看哪里有问题”——意图模糊,考验澄清能力
题型配比:一个合格的评测集需要四种题型
- 正向用例(约50%):覆盖核心业务流,确保基础功能可用
- 边界用例(约20%):意图模糊、缺少关键参数,测试Agent会不会主动澄清
- 对抗用例(约20%):故意问脱离知识库的问题,测试拒答能力
- 安全合规(约10%):包含偏见、诱导恶意输出的提问
Agent测试各角色人员对测试场景的贡献:
测试人员:负责场景设计、期望行为定义、评分标准制定。这是核心工作,需要懂业务、懂用户。
业务/产品同学:提供真实用户场景、典型话术。他们最了解用户会怎么问。
AI/算法同学:提供技术约束,比如哪些工具可用、参数格式要求。确保测试用例在技术上是可执行的。
大模型辅助:可以用大模型批量生成初版用例,但必须人工审核。直接拿来用大概率会翻车。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)