多模态大模型 + 自动化测试：从截图到结构化用例的系统设计思路

霍格沃兹测试开发学社

31人浏览 · 2026-03-26 12:27:46

霍格沃兹测试开发学社 · 2026-03-26 12:27:46 发布

关注霍格沃兹测试学院公众号，回复「资料」, 领取人工智能测试开发技术合集

当多模态大模型开始具备“看图理解界面”的能力之后，很多人就在想：

如果模型已经能理解页面结构，它能否参与测试用例的生成？

过去，测试用例通常来自：

PRD 文档
原型图
页面实现
流程图
接口文档

而现在，输入可能变成：

页面截图 + 业务上下文 + 测试目标

输出则是：

结构化 JSON 测试用例

问题不在于“能不能生成”。真正值得讨论的是：

这套系统如何设计？
多模态输入如何进入工程链路？
代码如何分层？
它在哪些场景可用，在哪些场景不可用？

一、为什么视觉模型可以进入测试场景

UI 测试本质上依赖“页面理解”。

一个登录页，测试工程师会自然识别：

用户名输入框
密码输入框
登录按钮
第三方登录入口

多模态模型已经具备：

OCR 文本识别
组件识别
页面结构推断
基础交互逻辑理解

因此从技术能力上，它确实可以参与 UI 测试设计。

但能力 ≠ 工程可用。

二、系统整体架构设计

合理架构不应该是：

图片 → 大模型 → 文本用例

而应该是分层结构：

核心思想：

视觉理解与用例生成分离
输出必须结构化
与现有系统通过 API 集成

三、图片到测试用例的工程链路

生成用例至少需要三类输入：

页面截图
业务说明（例如：这是会员登录页）
测试目标（例如：覆盖登录路径）

如果只上传截图而无上下文，模型只能推断“表单结构”，无法推断业务规则。

多模态解析流程

模型首先会：

识别页面文本
识别按钮与输入区域
推断页面结构
分析潜在业务流程

例如登录页面，可能推断：

正常登录流程
空输入校验
错误密码提示
第三方登录跳转

然后进入用例生成阶段。

输出必须结构化

如果输出是自然语言描述，无法自动入库。

推荐强制 JSON：

{
  "title": "",
  "precondition": "",
  "steps": [],
  "expected_result": ""
}

这样可以：

存入数据库
导出为 Excel
对接禅道或其他管理系统

结构化输出，是工程可用的前提。

四、后端代码分层设计

典型前后端分离结构：

project/
 ├── backend/
 │   ├── routes/
 │   ├── services/
 │   ├── models/
 │   ├── utils/
 │   └── ai_service.py
 └── frontend/

核心接口设计

后端应提供：

生成测试用例接口
导出 Excel 接口
文件下载接口

时序逻辑如下：

AI Service 的职责

AI service 不只是调用模型。

它应负责：

Prompt 构造
输出格式约束
错误重试机制
日志记录
流式响应控制

否则系统难以调试。

Excel 导出模块

建议独立封装：

避免把导出逻辑写进模型调用层。

五、多模态模型的能力边界

必须清醒认识：

视觉模型适合：

标准 UI 表单
简单业务流
原型阶段页面
基础功能验证

不适合：

复杂权限体系
高并发场景
数据一致性校验
风险控制逻辑

它能生成 60% 的基础用例。剩余 40% 仍需测试工程师设计。

六、为什么单模型方案不稳定

很多 Demo 直接：

截图 → 一个 Prompt → 输出全部用例

这在小规模测试中可行，但生产中会不稳定。

更合理的结构：

多智能体分工可以：

提高稳定性
提高可控性
降低 hallucination 风险

七、视觉驱动测试的真正价值

它的意义不在于“自动生成所有用例”。

而在于：

快速构建基础用例池
降低重复劳动
辅助需求评审
加速原型阶段测试

当 60% 的标准用例可自动生成时，

测试工程师的角色开始转向：

测试策略设计
边界条件建模
自动化框架搭建
AI 输出质量控制

写在最后

视觉模型进入测试领域，不是概念展示，而是系统工程问题。

真正决定系统能否落地的因素包括：

是否分层设计
是否结构化输出
是否具备日志与可追溯机制
是否可与现有系统集成

模型能力只是起点。架构设计才是关键。

当多模态能力进入测试链路后， “写用例”本身不再是核心竞争力， “设计 AI 流程”才是。

推荐学习

开源AI助理 OpenClaw（龙虾）公开课，手把手带你打造24小时不休的AI打工人。

扫码进群，报名学习。

关于我们

霍格沃兹测试开发学社，隶属于 测吧（北京）科技有限公司，是一个面向软件测试爱好者的技术交流社区。

学社围绕现代软件测试工程体系展开，内容涵盖软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试，以及人工智能测试与 AI 在测试工程中的应用实践。

我们关注测试工程能力的系统化建设，包括 Python 自动化测试、Java 自动化测试、Web 与 App 自动化、持续集成与质量体系建设，同时探索 AI 驱动的测试设计、用例生成、自动化执行与质量分析方法，沉淀可复用、可落地的测试开发工程经验。

在技术社区与工程实践之外，学社还参与测试工程人才培养体系建设，面向高校提供测试实训平台与实践支持，组织开展 “火焰杯” 软件测试相关技术赛事，并探索以能力为导向的人才培养模式，包括高校学员先学习、就业后付款的实践路径。

同时，学社结合真实行业需求，为在职测试工程师与高潜学员提供名企大厂 1v1 私教服务，用于个性化能力提升与工程实践指导。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

迁移科技 Epic Eye Log L 物流专用 3D 智能激光相机：AI+3D视觉重构物流智能化效率

AtomGit开源社区

关于适配手机浏览器 safe-area 几点体会 (Blazor/MauiBlazor/H5)

将 Content 设置为绝对定位，并让其顶部和底部分别与 Header 和 .footer 对齐，这样 .list-container 的高度会自动适配，不会被遮挡。env(safe-area-inset-top) 是一种 CSS 环境变量，用于适配 iPhone 等带有刘海或圆角屏幕的设备的“安全区域”（Safe Area）。出现手机端双滚动条，通常是因为 Body 和内部某个容器（如 .li