AI测试评分表怎么设计:从主观感觉到结构化评估
AI测试评分表怎么设计:从主观感觉到结构化评估
做 AI 测试时,很多团队都会遇到一个很现实的问题:
AI 输出不像传统功能那样只有“对”或“错”,那测试结果到底怎么判断?
比如同一个 AI 功能,不同人看完输出后,评价可能完全不同。
测试同学说:
感觉还可以,但有些地方不够完整。
产品同学说:
这个回答太长了,不适合用户看。
研发同学说:
这不是模型问题,可能是 Prompt 或检索的问题。
业务方说:
看起来能用,但我不敢完全信。
最后大家很容易停在一句话:
这个效果感觉一般,还需要优化。
问题是,这种结论很难推进后续工作。
因为它没有回答清楚:
- 到底哪里不好?
- 是准确性问题,还是完整性问题?
- 是格式问题,还是幻觉问题?
- 这版比上一版好还是差?
- 能不能上线?
- 哪些问题必须先修?
所以 AI 测试想要真正落地,必须从“感觉判断”走向“结构化评估”。
而最简单、最实用的工具,就是:
AI 测试评分表。
这篇文章就专门讲清楚:
AI 测试评分表怎么设计,怎么适配不同场景,怎么用它支撑上线判断。
一、为什么 AI 测试需要评分表?
传统功能测试里,很多用例可以直接判断 Pass / Fail。
例如:
- 点击按钮是否跳转成功
- 接口返回码是否为 200
- 数据库字段是否更新
- 表单校验是否生效
但 AI 功能不一样。
很多时候,AI 输出不是简单的“完全对”或“完全错”,而是介于中间状态:
- 大方向对,但漏了关键点
- 格式对,但内容不够准确
- 内容完整,但有少量无依据推断
- 回答可用,但表达太冗长
- 能完成任务,但执行链路不够稳定
这时候如果只用 Pass / Fail,会有两个问题。
1. 判断太粗
一条输出可能整体可用,但有明显局部问题。
直接判 Fail 太重,判 Pass 又掩盖风险。
2. 不方便比较版本
Prompt 改版前后、模型切换前后,质量可能是多个维度同时变化。
如果没有评分表,很难说清楚:
到底是哪里变好了,哪里变差了。
所以评分表的价值不是追求绝对精确,而是:
把模糊感受拆成可讨论、可比较、可复盘的质量维度。
二、评分表不是为了“算一个分”,而是为了统一判断口径
很多团队一听评分表,会觉得:
AI 输出这么复杂,打分会不会很主观?
确实会有一定主观性。
但评分表的目标不是完全消除主观,而是减少无规则的主观。
没有评分表时,大家讨论的是:
我觉得好 / 我觉得不好。
有评分表后,大家讨论的是:
准确性扣了多少?完整性为什么扣分?幻觉问题是不是 P0?
这就从主观争论,变成了结构化讨论。
所以评分表真正的价值有三个:
1. 统一评价语言
让产品、测试、研发、业务方用同一套维度看问题。
2. 支撑版本对比
让 Prompt、模型、检索策略改版后,可以横向比较。
3. 支撑上线决策
让测试结论从“感觉可用”变成“基于评分和风险判断可灰度”。
三、AI测试评分表应该包含哪些核心维度?
不同 AI 功能评分维度会有差异,但大多数 AI 应用都绕不开下面 7 个基础维度。
1. 准确性
这是最核心的维度。
看 AI 是否正确理解输入,并给出符合事实、需求、文档或任务目标的输出。
常见扣分点:
- 理解错问题
- 答错事实
- 混淆概念
- 错误引用规则
- 把 A 场景回答成 B 场景
准确性通常应该占比较高。
2. 完整性
看 AI 是否覆盖了应该覆盖的信息。
常见扣分点:
- 漏掉关键规则
- 漏掉边界条件
- 漏掉异常场景
- 漏掉待办事项
- 漏掉风险点
很多 AI 输出“看起来没错”,但其实不完整。
3. 相关性
看 AI 是否围绕用户问题回答,是否跑题。
常见扣分点:
- 答非所问
- 输出无关背景
- 把简单问题扩展成大段泛论
- 多轮对话中偏离当前上下文
相关性尤其适合评估问答类、总结类场景。
4. 格式合规性
看 AI 是否按要求输出。
常见扣分点:
- 没按表格输出
- JSON 不合法
- 缺少字段
- 字段顺序不稳定
- 输出结构不符合约定
- 多次输出格式漂移
如果 AI 输出要接入系统,格式合规性非常重要。
5. 无幻觉
看 AI 是否生成了输入、文档或上下文中没有依据的内容。
常见扣分点:
- 编造规则
- 编造引用
- 编造负责人
- 编造截止时间
- 编造工具执行结果
- 凭常识补全业务结论
在 RAG、总结、Agent 场景里,无幻觉通常是高风险指标。
6. 稳定性
看同一输入多次执行时,核心结果是否稳定。
常见扣分点:
- 一次答对,一次答错
- 核心结论波动
- 格式时好时坏
- 引用来源不稳定
- 待办项时有时无
AI 输出可以有表达差异,但核心事实、结构和边界不能大幅波动。
7. 可用性
看输出是否真的适合业务使用。
常见扣分点:
- 太泛,不能直接使用
- 太长,用户不愿看
- 太粗,无法指导执行
- 结论不明确
- 需要大量人工重写
可用性是一个综合维度,通常用于判断输出的实际落地价值。
四、一张通用评分表怎么设计?
可以先用一张通用 100 分表作为基础版本。
| 评分项 | 分值 | 说明 |
|---|---|---|
| 准确性 | 25 | 是否正确理解输入并给出正确内容 |
| 完整性 | 20 | 是否覆盖关键点、规则、边界和风险 |
| 相关性 | 10 | 是否围绕问题回答,不跑题 |
| 格式合规性 | 15 | 是否按要求结构或格式输出 |
| 无幻觉 | 15 | 是否没有编造无依据内容 |
| 稳定性 | 10 | 多次输出核心结果是否一致 |
| 可用性 | 5 | 是否适合业务直接使用或轻量修改后使用 |
总分 100 分。
这张表适合作为多数 AI 文本输出类功能的基础评分表。
五、为什么分值不是平均分配?
因为不同维度的重要性不一样。
比如准确性和完整性通常是核心质量指标,所以权重更高。
而可用性虽然重要,但往往依赖前面几个维度,所以权重可以稍低。
但这不是固定答案。
真正使用时,应该根据场景调整。
例如:
- RAG 场景:无幻觉和引用依据要提高权重
- Agent 场景:安全确认和执行真实性要提高权重
- JSON 输出场景:格式合规性要提高权重
- 总结场景:完整性和重点提炼能力要提高权重
所以评分表不是一张表打天下,而是:
通用维度做底座,场景权重按业务调整。
六、不同AI场景,评分表怎么改?
下面给几类常见场景的评分表参考。
场景1:AI生成测试用例
这类功能重点是“能不能生成可用测试资产”。
| 评分项 | 分值 | 说明 |
|---|---|---|
| 需求理解准确性 | 20 | 是否正确理解需求 |
| 场景覆盖完整性 | 25 | 是否覆盖正常、异常、边界 |
| 用例可执行性 | 20 | 步骤和预期是否清晰可执行 |
| 输出结构完整性 | 15 | 字段是否齐全,如标题、步骤、预期 |
| 无幻觉 | 10 | 是否没有编造需求外规则 |
| 优先级合理性 | 5 | P0/P1/P2 是否基本合理 |
| 稳定性 | 5 | 多次生成核心覆盖是否稳定 |
这类场景里,最重要的不是“写得像用例”,而是:
覆盖是否合理,测试人员能不能真的拿来用。
场景2:RAG知识库问答
这类功能重点是“有没有基于正确文档回答”。
| 评分项 | 分值 | 说明 |
|---|---|---|
| 检索相关性 | 20 | 是否召回正确文档和片段 |
| 答案准确性 | 20 | 答案是否符合文档事实 |
| 答案完整性 | 15 | 是否覆盖问题所需关键信息 |
| 无答案拒答 | 15 | 知识库无依据时是否拒答 |
| 引用准确性 | 15 | 引用是否能支撑答案 |
| 权限合规 | 10 | 是否未使用无权限内容 |
| 表达清晰度 | 5 | 回答是否清楚易懂 |
RAG 场景里,尤其要注意:
答案正确但引用错误,也不能算完全通过。
场景3:AI会议纪要总结
这类功能重点是“能不能从沟通中提炼行动信息”。
| 评分项 | 分值 | 说明 |
|---|---|---|
| 主题识别准确性 | 15 | 是否抓住会议主线 |
| 结论提炼准确性 | 25 | 是否识别最终结论 |
| 待办提取完整性 | 20 | 是否提取事项、负责人、时间 |
| 风险识别能力 | 15 | 是否识别风险和待确认项 |
| 无幻觉 | 15 | 是否没有编造人员、时间、结论 |
| 结构清晰度 | 10 | 是否适合直接同步给团队 |
会议纪要类场景最容易的问题是:
把讨论过程写成最终结论,把模糊表达写成明确承诺。
场景4:AI Agent任务执行
这类功能重点是“能不能正确、安全地完成任务”。
| 评分项 | 分值 | 说明 |
|---|---|---|
| 意图识别准确性 | 15 | 是否理解用户真实目标 |
| 任务拆解合理性 | 15 | 是否规划正确步骤 |
| 工具选择正确性 | 15 | 是否调用正确工具 |
| 参数传递准确性 | 15 | 工具参数是否正确 |
| 安全确认机制 | 15 | 高风险操作是否确认 |
| 异常处理能力 | 10 | 工具失败时是否处理正确 |
| 执行结果真实性 | 10 | 是否真实完成,不假完成 |
| 权限合规 | 5 | 是否遵守权限边界 |
Agent 场景里,安全类维度要占比较高。
因为 Agent 最大风险不是回答错,而是:
做错了还真的执行了。
七、哪些维度适合自动评分,哪些必须人工判断?
评分表不是所有项都要人工打分。
有些适合自动化,有些必须人工判断。
适合自动评分的维度
| 维度 | 自动判断方式 |
|---|---|
| 格式合规性 | JSON 校验、字段校验、表格结构校验 |
| 引用存在性 | 是否返回引用字段 |
| 关键词覆盖 | 是否包含核心关键词 |
| 权限合规 | 是否使用无权限片段 |
| 工具调用 | 是否调用正确工具 |
| 确认机制 | 是否触发确认步骤 |
| 执行结果 | 是否返回真实任务 ID / 会议链接 |
这些可以通过规则、脚本、日志或接口校验完成。
适合半自动评分的维度
| 维度 | 方式 |
|---|---|
| 完整性 | 规则初筛 + 人工复核 |
| 相关性 | 关键词 / 相似度初筛 + 人工判断 |
| 无幻觉 | 来源匹配 + 人工确认 |
| 稳定性 | 多次结果比对 + 人工抽检 |
这类维度可以辅助自动化,但不建议完全交给规则判断。
必须人工判断的维度
| 维度 | 原因 |
|---|---|
| 业务准确性 | 需要理解业务上下文 |
| 重点提炼能力 | 需要判断主次 |
| 可用性 | 需要结合真实使用场景 |
| 风险判断 | 需要结合业务影响 |
| 上线建议 | 需要综合质量和风险 |
所以当前比较现实的做法是:
规则自动化 + 人工评分 + 抽样复核。
八、评分结果怎么用于上线判断?
评分表不是为了得到一个好看的分数,而是要服务上线决策。
可以用下面这个判断框架。
| 分数区间 | 质量判断 | 建议 |
|---|---|---|
| ≥90 | 质量较好 | 可进入灰度或上线候选 |
| 75~89 | 基本可用 | 可灰度,但需人工复核 |
| 60~74 | 风险较高 | 不建议直接上线,需优化 |
| <60 | 质量不足 | 不建议上线 |
但这里要特别注意:
不能只看总分。
例如一个功能总分 88,但存在 P0 问题,比如权限泄露或无答案编造,也不能上线。
所以最终上线判断要同时看:
- 总分
- P0 问题数量
- 高风险样例通过率
- 历史缺陷回归情况
- 是否需要人工兜底
九、一个更实用的上线判断表
建议在评分后再加一个上线决策表。
| 判断项 | 要求 | 是否满足 |
|---|---|---|
| 总分 | ≥75 | 是 / 否 |
| P0 问题 | 0 个 | 是 / 否 |
| 高风险样例通过率 | ≥95% | 是 / 否 |
| 历史缺陷回归 | 不复发 | 是 / 否 |
| 格式合规率 | ≥95% | 是 / 否 |
| 人工兜底方案 | 已明确 | 是 / 否 |
| 灰度范围 | 已明确 | 是 / 否 |
只有这些条件都比较明确时,测试结论才有决策价值。
十、评分表使用时最容易踩的坑
1. 只看平均分
平均分高不代表安全。
高风险样例单独失败,可能比多个低风险样例失败更严重。
2. 所有场景用同一张表
生成测试用例、RAG、Agent 的质量重点不同。
不能完全用一张表硬套。
3. 分值设计过细
比如每项 7.5 分、13.2 分,实际执行起来很难。
建议用整数分,便于团队使用。
4. 没有扣分说明
只给分,不说明为什么扣分,后续无法复盘。
每个低分项都要有简短原因。
5. 不和样例库绑定
评分表必须和固定样例一起用。
否则每次评分对象都不同,结果无法比较。
十一、测试报告里怎么呈现评分结果?
评分结果最好不要只给一个总分。
建议至少包含三部分:
1. 总体得分
例如:
本轮 AI 会议纪要总结功能综合得分 82 分,达到灰度使用标准。
2. 分项得分
| 维度 | 得分 | 问题说明 |
|---|---|---|
| 主题识别 | 14/15 | 表现稳定 |
| 结论提炼 | 20/25 | 个别模糊表达误判 |
| 待办提取 | 17/20 | 漏 1 条隐含待办 |
| 风险识别 | 10/15 | 风险提炼不充分 |
| 无幻觉 | 13/15 | 个别截止时间推断偏强 |
| 结构清晰 | 9/10 | 格式较稳定 |
3. 风险结论
例如:
当前版本可作为会议纪要草稿工具灰度使用,但不建议直接自动发送正式纪要。模糊表达和风险识别问题需保留人工复核。
这样产品、研发和管理者才能真正看懂问题在哪里。
十二、一个最小可落地的评分表建设方法
如果团队刚开始,不需要一次做复杂。
可以按下面 5 步来。
第一步:选一个 AI 场景
比如:
- 生成测试用例
- RAG 问答
- 会议纪要总结
- Agent 执行任务
第二步:确定 5~7 个评分维度
不要太多,太多会维护不动。
第三步:给每个维度分配权重
总分 100,核心维度权重更高。
第四步:给每个维度写扣分说明
例如:
- 漏掉关键规则扣 5~10 分
- 编造规则扣 15 分或直接 P0
- 格式字段缺失扣 5 分
第五步:和固定样例库绑定使用
同一组样例 + 同一张评分表,才能支持版本对比。
十三、小结
AI 测试评分表怎么设计?
可以浓缩成一句话:
把“感觉还行”拆成准确性、完整性、格式、无幻觉、稳定性、可用性等可讨论的维度,并结合场景权重支撑版本对比和上线判断。
一个好用的评分表,至少要做到:
- 维度清晰
- 权重合理
- 可解释扣分
- 能适配不同 AI 场景
- 能和样例库绑定
- 能支撑测试报告和上线决策
评分表的目标不是追求数学上的绝对客观,而是:
让团队在同一套质量语言下讨论 AI 输出。
这就是它最大的价值。
写在最后
AI 测试最怕的一句话是:
感觉还可以。
因为这句话既不能指导优化,也不能支撑上线。
测试工程师真正要做的,是把这种模糊判断变成:
- 哪个维度好
- 哪个维度差
- 哪类样例失败
- 风险等级是什么
- 是否可以灰度
- 是否需要人工兜底
这就是评分表存在的意义。
它不是让 AI 测试变得完全机械化,而是让团队在面对不确定输出时,仍然能做出更稳定、更专业的判断。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)