AI功能能回答,不代表能上线:AI测试到底在测什么
AI测试到底测什么:从传统测试到不确定性测试
摘要
最近很多团队都在上线 AI 功能,但测试阶段很快会遇到一个核心问题:AI 每次回答都不完全一样,这东西到底该怎么测?
传统测试更关注功能是否按规则执行,AI 测试更关注输出是否可信、稳定、可控,是否真的能支撑业务上线。本文从测试工程师视角,拆解 AI 测试和传统测试的本质差异,梳理 AI 测试的核心质量维度、常见问题类型,以及测试思维该如何切换,适合作为 AI 测试系列的第一篇入门文章。
封面文案
AI功能能回答,
不代表能上线。
写给测试工程师的
AI测试入门第一课
最近很多团队都在上线 AI 功能。
AI 总结、AI 问答、AI 生成测试用例、AI Agent 自动执行任务,看起来都很酷。
但真正到了测试阶段,很多测试同学会马上遇到一个问题:
AI 每次回答都不完全一样,这东西到底该怎么测?
这就是 AI 测试和传统测试最本质的区别。
传统测试里,我们习惯验证的是:
输入一个明确条件,系统返回一个明确结果。
而 AI 测试面对的往往是:
输入是明确的,但输出不一定唯一。
所以,AI 测试不是简单把传统测试方法照搬过来,也不是只看页面有没有返回答案,而是要回答一个更关键的问题:
这个 AI 输出,是否可信、稳定、可控,是否真的可以支撑业务上线?
一、传统测试测的是什么?
先从大家最熟悉的传统测试说起。
在传统软件测试里,大多数场景都符合“确定性逻辑”。
比如一个登录功能。
输入
- 用户名正确
- 密码正确
预期结果
- 登录成功
- 跳转首页
- 返回用户信息
再比如一个审批功能。
输入
- 提交请假申请
- 审批人点击通过
预期结果
- 审批状态变为“已通过”
- 申请人收到通知
- 数据正确落库
这类系统有一个很典型的特点:
规则明确,预期结果明确,判断标准明确。
测试工程师在这里做的事情,本质上是验证:
- 功能是否符合需求
- 逻辑是否正确
- 数据是否正确
- 流程是否完整
- 异常是否可控
所以传统测试天然适合使用这些方法:
- 测试用例
- 断言
- 自动化脚本
- 接口校验
- 数据比对
- Pass / Fail 判断
换句话说,传统测试的核心是:
验证系统是否按既定规则执行。
二、AI 测试为什么不一样?
AI 系统最大的不一样,不是“用了模型”,而是它的输出不再完全确定。
比如你问 AI:
请总结这份需求文档。
你连续问三次,可能会得到三种表达略有不同的回答。
再比如你说:
请根据下面需求生成测试用例。
AI 生成出来的测试点、表述方式、优先级判断,也可能会有变化。
甚至在很多场景里,AI 的输出看起来“像是对的”,但其实可能存在这些问题:
- 遗漏关键点
- 理解偏差
- 逻辑不严谨
- 编造不存在的内容
- 没有严格遵守格式
- 没有真正基于文档回答
这就意味着,AI 测试不能只问:
有没有结果?
而必须继续问:
- 结果是不是可信?
- 结果是不是完整?
- 结果是不是稳定?
- 结果是不是遵守约束?
- 结果能不能被业务真正使用?
所以,AI 测试测的不是“AI 会不会说话”,而是:
AI 输出能不能被信任。
三、AI 测试不是测“聊天框”,而是测“AI系统”
很多人刚接触 AI 测试时,容易有一个误区:
AI 测试不就是问几个问题,看看回答得对不对吗?
这只是最表层。
实际上,一个真实上线的 AI 功能,背后通常不是只有一个模型,而是一整条系统链路。
比如一个“AI 文档问答”功能,背后可能包含:
用户提问
↓
问题预处理
↓
知识库检索
↓
检索结果重排序
↓
大模型生成答案
↓
格式化输出
↓
返回引用来源
再比如一个“AI Agent 自动建任务”功能,背后可能包含:
理解用户意图
↓
读取需求文档
↓
提取关键信息
↓
生成测试用例
↓
调用 Jira API
↓
创建任务
↓
返回执行结果
所以 AI 测试真正要测的,通常是以下几个层面:
- 模型输出质量
- Prompt 约束效果
- 知识库检索准确性
- 工具调用正确性
- 权限与安全边界
- 性能与成本表现
- 异常处理与回退机制
也就是说,AI 测试测的不是一个输入框,而是:
模型 + Prompt + 数据 + 检索 + 工具 + 业务规则 + 安全机制
共同组成的 AI 系统。
四、AI 测试的核心,不是“唯一正确答案”,而是“质量维度”
在传统测试里,我们很习惯写这种预期结果:
- 返回 code = 0
- 页面提示“提交成功”
- 列表展示 10 条数据
- 状态从 A 变成 B
但在 AI 测试里,很多场景没有唯一答案。
例如:
- 请总结这份会议纪要
- 请提炼这个 PRD 的测试重点
- 请根据需求生成测试用例
- 请判断这段周报质量如何
这些任务的结果,通常很难用单一标准判断“唯一正确”。
所以 AI 测试更适合从多个质量维度去评估。
1. 准确性
输出内容是否符合事实、符合原文、符合业务规则。
比如文档里写的是“验证码 5 分钟有效”,AI 却写成“10 分钟有效”,这就是准确性问题。
2. 完整性
是否遗漏核心信息。
比如总结一份需求文档时,只提到了主流程,没有提到异常流程、边界规则、风险点,这就是完整性不足。
3. 相关性
是否真正回答了用户的问题。
用户问的是“退款规则”,AI 却泛泛而谈整个订单流程,这说明相关性不够。
4. 稳定性
相同问题多次提问,结果是否波动过大。
不是要求字字相同,而是要求核心结论、关键点覆盖、格式结构相对稳定。
5. 可控性
是否遵守系统规则、角色约束、输出格式、业务边界。
比如要求输出 JSON,却返回自然语言长文;要求基于文档回答,却开始自由发挥,这都属于可控性问题。
6. 无幻觉
是否编造不存在的信息。
这是 AI 测试里非常关键的一项。
因为 AI 最大的风险之一,不是“不知道”,而是“看起来知道,但其实在编”。
7. 安全性
是否泄露敏感信息,是否能被越权利用,是否会输出不应输出的内容。
8. 可追溯性
尤其在知识库问答场景里,答案是否可以追溯到具体文档来源,引用是否真实可信。
所以 AI 测试的判断方式,不再只是:
Pass / Fail
而更像是:
多维度评估 + 分级判断 + 人工复核
五、AI 测试和传统测试的差异,到底差在哪?
直接看下面这张对比表。
| 对比项 | 传统测试 | AI测试 |
|---|---|---|
| 输出结果 | 通常固定 | 不一定固定 |
| 预期结果 | 明确唯一 | 多数情况不唯一 |
| 判断方式 | Pass / Fail | 评分 + 分级 + 抽检 |
| 测试重点 | 功能逻辑是否正确 | 输出质量是否可信 |
| 主要缺陷 | 逻辑错误、接口错误、UI异常 | 幻觉、遗漏、理解偏差、格式失控 |
| 回归方式 | 自动化断言 | 测试集 + 评分规则 + 样例比对 |
| 风险类型 | 功能不可用 | 看似可用但结果不可靠 |
| 上线门槛 | 功能通过即可 | 还要看准确性、稳定性、安全性 |
这张表背后,其实反映的是测试思维的变化。
传统测试更关注:
系统有没有按规则执行。
AI 测试更关注:
系统在不确定输出下,能不能保持可信和可控。
六、AI 类产品最常见的问题,不是报错,而是“像对,但不真对”
传统系统的问题通常比较显性:
- 页面报错
- 接口超时
- 数据错误
- 状态不一致
而 AI 产品的问题,往往更隐蔽。
因为很多时候它不会报错,甚至回答看起来还挺像那么回事。
但仔细一看,可能存在这些问题。
1. 编造内容
文档里没有提到的规则,AI 自己补出来了。
例如用户问:
文档中退款规则是什么?
实际上文档里根本没有退款规则,但 AI 却给出了一套“看起来合理”的解释。
2. 遗漏关键点
AI 只总结了表面内容,没有提炼真正关键的信息。
比如总结需求文档时,没有提到风控限制、权限边界、异常处理。
3. 理解偏差
AI 把“可选项”理解成“必填项”,把“建议”理解成“必须”。
4. 格式不稳定
有时候按表格输出,有时候按段落输出;有时候字段完整,有时候字段缺失。
5. 多轮失忆
第一轮还记得上下文,第二轮就开始偏题,第三轮已经忘记之前的约束。
6. 不基于事实回答
知识库场景中,用户明明要求基于文档回答,AI 却混入了模型自己的通用知识。
7. 结果不可复现
今天效果很好,Prompt 微调一下,或者模型版本一变,结果质量突然下降。
这也是为什么 AI 测试非常强调:
- 典型问题沉淀
- 回归测试集
- 评分标准
- 缺陷样例库
因为 AI 的问题,很多不是“能不能运行”,而是:
运行了,但质量不稳。
七、AI 测试到底要覆盖哪些对象?
如果从落地角度看,AI 测试通常可以分成四类对象。
1. 模型输出测试
主要验证模型回答本身的质量。
关注点包括:
- 回答是否准确
- 是否完整
- 是否相关
- 是否有幻觉
- 是否遵守格式要求
2. Prompt 测试
主要验证提示词设计是否有效、稳定、抗干扰。
关注点包括:
- 角色约束是否生效
- 输出格式是否稳定
- 业务规则是否被遵守
- 用户干扰时是否失控
- 多轮场景下是否还能保持约束
3. RAG / 知识库测试
主要验证“检索 + 生成”整条链路是否可靠。
关注点包括:
- 文档上传和解析是否正常
- 检索是否召回正确内容
- 排序是否合理
- 答案是否真正基于文档
- 引用是否准确
- 无答案时是否拒绝编造
- 权限是否隔离
4. Agent 测试
主要验证 AI 是否能正确理解任务并完成执行。
关注点包括:
- 意图识别是否准确
- 任务拆解是否合理
- 工具调用是否正确
- 参数传递是否准确
- 执行顺序是否正确
- 工具失败后是否有兜底
- 高风险操作是否需要确认
所以如果有人问:
AI 测试到底测什么?
更准确的回答应该是:
测输出质量,测约束遵守,测链路可靠,测行为边界。
八、为什么很多团队做不好 AI 测试?
原因通常不是“不会用模型”,而是还在用传统思路做 AI 验收。
常见问题包括:
1. 只看功能通没通
页面能提问、能返回内容,就认为没问题。
但真正该问的是:
- 回答是否准确
- 是否遗漏核心信息
- 是否存在编造
- 是否符合业务要求
2. 没有评分标准
测试结论全靠主观感觉。
A 觉得“还行”,B 觉得“不靠谱”,最后没人能说清楚到底哪里有问题。
3. 没有沉淀回归集
每次都靠临时问几个问题,结果版本一变,就无法比较前后质量差异。
4. 只测简单场景
标准样例表现很好,一到复杂业务、多轮对话、长文档、异常输入,问题就出来了。
5. 只测模型,不测系统链路
以为模型效果好,业务效果就一定好。
但实际上很多问题发生在:
- Prompt 设计
- 检索策略
- 权限控制
- 工具调用
- 上下文拼接
- 格式约束
所以 AI 测试要真正做起来,必须从“单点功能验证”升级到“系统质量保障”。
九、测试工程师该如何切换到 AI 测试思维?
对测试工程师来说,最重要的不是一下子学会所有 AI 名词,而是先完成思维切换。
可以重点完成这几个转变。
从“验证唯一结果”转向“评估输出质量”
以前是判断对不对,现在要判断好不好、稳不稳、能不能用。
从“只测功能链路”转向“测结果可信度”
以前功能通了就差不多了,现在还要看输出是否可信。
从“断言式回归”转向“测试集式回归”
以前靠断言字段值,现在更多依赖:
- 标准测试集
- 评分规则
- 典型样例
- 人工抽检
从“页面思维”转向“系统思维”
不能只看前端交互,还要理解背后的:
- Prompt
- 知识库
- 检索
- 工具
- 权限
- 日志
- 模型参数
这个转变一旦完成,很多 AI 测试问题就会看得更清楚。
十、一个简单例子:为什么 AI 测试不能只写 Pass / Fail?
假设有一个功能:
用户上传需求文档,AI 自动生成测试用例。
如果按传统测试思路,可能会写成:
步骤
- 上传文档
- 点击生成
预期结果
- 成功生成测试用例
这个预期太粗了,几乎没有测试价值。
因为就算 AI 输出了一堆内容,也不能证明它真的可用。
更合理的 AI 测试思路应该是继续拆:
要看什么?
- 是否覆盖主流程
- 是否覆盖异常流程
- 是否覆盖边界场景
- 是否字段完整
- 是否符合指定格式
- 是否存在需求外编造
- 是否步骤可执行
- 是否优先级合理
- 多次生成是否稳定
这时候你会发现:
AI 测试真正测的,不是“生成了没有”,而是“生成得怎么样”。
这就是 AI 测试的核心差异。
十一、AI 测试的目标,到底是什么?
AI 测试最终目标,不是证明 AI 很强,也不是为了把每个回答都抠到一字不差。
它真正要解决的是:
如何把不确定的模型输出,变成可以评估、可以复现、可以回归、可以上线的质量体系。
换句话说,AI 测试要帮助团队回答这些问题:
- 这个 AI 功能能不能上线?
- 它的回答是否可信?
- 它会不会乱编?
- 它是否遵守业务规则?
- 它是否存在权限和安全风险?
- 它的质量是否稳定?
- 它出了问题后能不能追踪和回归?
只有这些问题有了答案,AI 功能才不只是“能演示”,而是真正具备上线能力。
十二、小结
AI 测试到底测什么?
可以浓缩成一句话:
传统测试验证系统是否按规则执行,AI 测试验证系统在不确定输出下是否依然可信、稳定、可控。
所以,AI 测试测的并不只是回答内容本身,而是整套 AI 系统的质量表现,包括:
- 输出准确性
- 内容完整性
- 回答相关性
- 结果稳定性
- 规则遵守能力
- 幻觉控制能力
- 权限与安全边界
- 检索和工具链路可靠性
对于测试工程师来说,这不是一套完全陌生的能力,而是在已有测试分析、异常设计、风险识别、质量判断基础上的一次升级。
从“测功能是否可用”,走向“测 AI 是否值得信任”,这就是 AI 测试的第一步。
写在最后
送你一句我觉得很适合作为 AI 测试系列主线的话:
AI功能能回答,不代表能上线。
如果你现在也在做 AI 相关项目,或者正在思考测试工程师怎么转向 AI 测试,欢迎交流。
你们团队现在最头疼的是哪类问题?
- AI 会编造
- 回答不稳定
- Prompt 不好回归
- 知识库检索不准
- Agent 调工具不可控
下一篇预告
下一篇继续写:
Prompt 测试入门:如何验证一个提示词是否稳定可靠
会重点展开这几个问题:
- Prompt 为什么也需要测试?
- 一个 Prompt 到底应该测什么?
- 如何设计 Prompt 测试用例?
- 怎样判断 Prompt 是“能用”还是“稳定可用”?
- Prompt 改了一版之后,怎么做回归?
AI测试系列主线:把不确定的 AI 输出,变成可评估、可回归、可上线的质量体系。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)