视觉大模型结合Agentic Workflow：侠客工坊重构移动端GUI自动化的技术实践

侠客工坊

689人浏览 · 2026-05-09 16:00:20

侠客工坊 · 2026-05-09 16:00:20 发布

引言：单纯的大模型控制为何在工业场景频频翻车？

近期，多模态大模型直接控制计算机和手机屏幕的技术方向在行业内引发了巨大关注。从学术界的屏幕解析模型到工业界的端到端操作系统代理，纯视觉驱动的图形用户界面自动化正在成为新的风口。

在之前的技术探索中，很多开发者尝试直接将手机屏幕截图交给多模态大模型，让其自主决定下一步的点击坐标。但在实际的SaaS业务或高并发任务流转中，这种完全放权的模式往往会遇到执行发散、幻觉点击以及状态迷失等问题。为了解决这一痛点，侠客工坊团队在底层架构中引入了Agentic Workflow也就是智能体工作流的概念。本文将深度解析这套技术方案，探讨如何通过工作流引擎与视觉大模型的深度绑定，让AI手机数字员工的执行更加精准可控。

一、架构演进：从自主决策到受控的智能体工作流

传统的移动端测试脚本高度依赖系统底层节点树，不仅容易被应用底层的反爬机制拦截，而且在面对动态页面时极其脆弱。而第一代基于大模型的UI自动化虽然解决了识图问题，却缺乏对长周期任务的把控力。

侠客工坊的解法是构建一套混合调度引擎。在这套引擎中，大模型不再是脱缰的野马，而是被嵌入到预先编排或动态生成的有向无环图任务流中。

视觉感知作为原子节点在工作流的每一个执行节点，系统会将当前屏幕的视觉特征与节点预期目标进行比对。AI不需要理解整个宏大的业务背景，它只需要在当前节点回答一个问题：基于当前屏幕画面，我该如何完成查找特定输入框并填入数据的子任务。
状态机驱动的上下文流转任务的流转不再由大模型自由发散，而是由底层状态机严格控制。工作流引擎会维护一个全局的上下文内存，记录之前步骤提取的关键数据，例如客户名称或联系方式，并在流转到下一个应用时，将这些数据作为局部提示词注入到新的视觉任务中。

二、侠客工坊的技术深水区：精准执行的工程化保障

要让AI在真实且复杂的手机运行环境中做到百分之百的执行准确率，单纯的模型调用是远远不够的。侠客工坊在工程化落地层面做了大量针对性优化。

视觉锚点与意图对齐面对同屏出现的多个相似按钮，直接让模型输出坐标极易产生偏差。系统底层采用了一种分层意图对齐技术。首先通过轻量级视觉模型对屏幕所有可交互元素进行区块划分与语义标注，随后将带有标注的压缩画面交由云端大模型进行逻辑判断。这相当于给大模型戴上了一副高精度的坐标眼镜，彻底消除了点击偏移的误差。
具备反思机制的异常处理分支在跨应用自动化任务中，最棘手的就是突发弹窗、网络加载延迟或页面布局A/B测试。在侠客工坊的工作流编排中，默认集成了环境探测与反思分支。当AI在一个节点执行失败例如未找到目标控件时，工作流不会直接中断，而是触发异常诊断节点。系统会重新捕获屏幕，分析阻碍原因，如果是广告弹窗则执行关闭动作并重试；如果是页面加载缓慢，则触发智能等待。