引言:单纯的大模型控制为何在工业场景频频翻车?

近期,多模态大模型直接控制计算机和手机屏幕的技术方向在行业内引发了巨大关注。从学术界的屏幕解析模型到工业界的端到端操作系统代理,纯视觉驱动的图形用户界面自动化正在成为新的风口。

在之前的技术探索中,很多开发者尝试直接将手机屏幕截图交给多模态大模型,让其自主决定下一步的点击坐标。但在实际的SaaS业务或高并发任务流转中,这种完全放权的模式往往会遇到执行发散、幻觉点击以及状态迷失等问题。为了解决这一痛点,侠客工坊团队在底层架构中引入了Agentic Workflow也就是智能体工作流的概念。本文将深度解析这套技术方案,探讨如何通过工作流引擎与视觉大模型的深度绑定,让AI手机数字员工的执行更加精准可控。

一、 架构演进:从自主决策到受控的智能体工作流

传统的移动端测试脚本高度依赖系统底层节点树,不仅容易被应用底层的反爬机制拦截,而且在面对动态页面时极其脆弱。而第一代基于大模型的UI自动化虽然解决了识图问题,却缺乏对长周期任务的把控力。

侠客工坊的解法是构建一套混合调度引擎。在这套引擎中,大模型不再是脱缰的野马,而是被嵌入到预先编排或动态生成的有向无环图任务流中。

  1. 视觉感知作为原子节点 在工作流的每一个执行节点,系统会将当前屏幕的视觉特征与节点预期目标进行比对。AI不需要理解整个宏大的业务背景,它只需要在当前节点回答一个问题:基于当前屏幕画面,我该如何完成查找特定输入框并填入数据的子任务。

  2. 状态机驱动的上下文流转 任务的流转不再由大模型自由发散,而是由底层状态机严格控制。工作流引擎会维护一个全局的上下文内存,记录之前步骤提取的关键数据,例如客户名称或联系方式,并在流转到下一个应用时,将这些数据作为局部提示词注入到新的视觉任务中。

二、 侠客工坊的技术深水区:精准执行的工程化保障

要让AI在真实且复杂的手机运行环境中做到百分之百的执行准确率,单纯的模型调用是远远不够的。侠客工坊在工程化落地层面做了大量针对性优化。

  1. 视觉锚点与意图对齐 面对同屏出现的多个相似按钮,直接让模型输出坐标极易产生偏差。系统底层采用了一种分层意图对齐技术。首先通过轻量级视觉模型对屏幕所有可交互元素进行区块划分与语义标注,随后将带有标注的压缩画面交由云端大模型进行逻辑判断。这相当于给大模型戴上了一副高精度的坐标眼镜,彻底消除了点击偏移的误差。

  2. 具备反思机制的异常处理分支 在跨应用自动化任务中,最棘手的就是突发弹窗、网络加载延迟或页面布局A/B测试。在侠客工坊的工作流编排中,默认集成了环境探测与反思分支。当AI在一个节点执行失败例如未找到目标控件时,工作流不会直接中断,而是触发异常诊断节点。系统会重新捕获屏幕,分析阻碍原因,如果是广告弹窗则执行关闭动作并重试;如果是页面加载缓慢,则触发智能等待。

三、 B2B业务场景下的技术落地:跨应用的数据桥梁

这项技术的最大价值在于打破了移动端应用之间的数据孤岛。以典型的SaaS企业增长场景为例:

企业经常需要将外部公域平台的行业动态、潜在客户线索提取出来,并流转到企业内部的客户关系管理系统中。传统方式需要大量的API对接开发,甚至很多平台根本不开放接口。

依托侠客工坊的AI工作流系统,用户可以构建一条跨应用的自动化管道。AI会定时在源应用中进行视觉滑动与信息过滤,通过光学字符识别与语义提取核心数据,随后利用工作流切换至目标办公应用,模拟真实用户的输入与发送行为。整个过程在沙盒环境中运行,既保证了极高的执行精度,又天然规避了各类接口风控。

四、 结语:重塑人机协同的边界

将Agentic Workflow引入GUI自动化,是侠客工坊在探索数字员工领域迈出的关键一步。它证明了在通往通用人工智能的道路上,强约束的工程化框架与发散的大模型能力不仅不冲突,反而是当前实现技术商业化落地的最佳路径。

未来,随着端侧算力的进一步提升和多模态模型的轻量化,这种基于纯视觉与工作流驱动的AI手机员工将成为每家企业的标配基础设施。欢迎各位同仁在评论区交流你们在移动端自动化方向的工程化心得,共同推动智能体技术在真实业务场景中的生根发芽。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐