AI 终于要“伸手干活”了:聊聊 GUI Agent 为什么值得盯紧

最近一段时间,我使用 AI 工具的方式悄悄发生了变化。以前,我习惯在对话框里让 AI 写文案、改邮件、总结长篇文档——这些事它做得越来越顺手,几分钟就能给出一个能用的版本。但我很快发现,真正的瓶颈不在“想”和“写”,而在“做”。比如,我需要登录公司内部系统,填一张资产申请表,上传附件,再点提交。流程本身不复杂,但每个动作都要我来完成:打开浏览器、输入密码、找到菜单、选下拉框、确认……一天重复几次,就变成了纯粹的体力活。

在这里插入图片描述
这时候我就会想:AI 能不能别只跟我聊天,而是直接帮我把这些按钮点完?

也是带着这个念头,我看了 360 的《这也叫 AI》播客,聊的正是 GUI Agent。看完之后我最大的感受是:这个方向终于盯上了那些我们最不想干、但又不得不干的“流程活”。


一、GUI Agent 是什么?简单说:像人一样看屏幕、点按钮

GUI Agent 的全称是 Graphic User Interface Agent,翻译过来就是“图形用户界面智能体”。它的任务很朴素:像人一样“看”屏幕上的按钮、输入框、菜单,然后根据你的目标去点击、输入、提交。

它不要求系统专门为 AI 开放 API 或接口,也不需要提前写好脚本。只要这个界面人能操作,它就有机会学着操作。

在这里插入图片描述

这个定位听起来不够性感——它不会写诗、作画、搞创作。但恰恰是这种“不性感”,让它离真实的办公场景非常近。因为在企业内部,大量系统(ERP、OA、审批后台、资产管理)已经运行了很多年,界面复杂、流程固定、根本没有 API 可以调用。让这些老系统为 AI 改造,成本高也不现实。

GUI Agent 的价值就在这里:它不要求系统主动适配 AI,而是让 AI 去适应已有的界面。 它像一根“保底通道”:有接口就走接口,没有接口就靠视觉和操作兜底。


二、一个让我印象深刻的内部案例:27 步的资产申请流程

播客里嘉宾冷大炜博士来自于360人工智能研究院负责人,由他带领进行360GUI Agent的技术攻克。 他分享了一个研发中内测的案例:

公司里有一个 IT 资产申请流程,嵌在 ERP 系统里,从打开页面到最终提交,一共要经历 27 步:选资产类型、填用途、选成本中心、上传附件、选择审批人……每一步都要手动操作,繁琐但不得不做。

GUI Agent 被派去跑这个流程,结果它真的跑通了。更有意思的是,在另一轮测试中,Agent 一口气自动提交了 600 多个资产申请,直接把审批后台堆满了——后来团队又用 Agent 一键批量驳回。这个场景虽然有点“戏剧性”,但它说明了一件事:当 GUI Agent 能够稳定执行流程后,它带来的不是局部提效,而是整个流程级的自动化。

我听到这里时的第一反应是:这不就是我一直想让它干的事吗?不是每天给我讲宏大概念,而是帮我把那些重复、机械、但又必须完成的流程处理掉——报销、查资料、登记信息、走审批。这些事单独看都不难,但加在一起非常消耗精力,也很容易打断工作节奏。

三、落地难点:通用模型不懂“你家公司的规矩”

当然,GUI Agent 要真正用起来,不是“能看懂界面”就够。它最大的挑战之一,是 通用模型不了解企业内部知识。

一个再聪明的模型,也不可能天然知道某家公司的报销单应该填哪个成本中心、费用类型该选什么、审批链路怎么走。同样的“资产申请”,不同部门的流程可能完全不同。这就是播客里说的 B 端“水土不服”。

360 给出的解法叫做 “样例知识注入” 。换成人话就是:让老员工先演示一遍,新员工照着学。

具体来说,由真人先完整操作一次某个流程(比如报销、资产申请、发邮件)。系统会把这次操作轨迹和关键步骤记录下来,存成一个“样例”。之后,当 AI 再遇到类似的任务时,它可以从知识库里召回相关的样例作为参考,模仿老员工的操作来完成。

播客里举了一个发邮件的例子:一开始没有录制样例时,Agent 反复尝试都没成功;等真人手动演示了一遍操作轨迹后,再让它执行一个相似但不同的任务,它很快就完成了。这个过程比单纯展示“成功案例”更有说服力——它展示的不是一个天生完美的 AI,而是一个能从失败中学会做事的新员工。

这个方案很工程化,也很现实:不需要大规模重新训练模型,成本可控;流程数据可以本地保存,更适合企业的隐私和安全要求。

四、会“吞掉”App 吗?我的判断:工具型会,内容型不会

播客标题里提到了“大模型正在吞掉 App”,这个问题也值得聊一聊。

我的看法是:工具型 App 的入口价值确实会被削弱,但内容和娱乐类 App 不会。

像订票、查物流、比价、点外卖这类任务,用户本质上要的是一个结果,并不关心背后是哪个 App 完成的。如果未来 Agent 能稳定地替我们完成这些操作,那么很多中间步骤(打开 App、搜索、筛选、下单)就会被省掉。用户只需要说一句“帮我订明天去北京的高铁票”,剩下的交给 Agent。

但短视频、直播、游戏、社区互动这些不一样。它们不只是为了完成任务,里面包含大量的体验、情绪和社交因素。Agent 可以帮你打开某个 App,但没法替你“刷”视频、替你“体验”直播间的氛围。所以这类 App 不会轻易被替代。

因此,与其说 GUI Agent 会让 App 消失,不如说它会 重塑流量的分发方式:以前是人主动打开 App 找功能,未来可能是人把需求告诉 Agent,Agent 再去调用或操作背后的服务。App 还在,但用户接触它的方式变了。

五、产品化信号:浏览器插件,7、8 月开放体验

除了技术思路,360 这次释放的产品化信息也值得关注。

根据播客内容,360 GUI Agent 会以 浏览器插件 的形态落地。这个选择很务实——大量企业系统本身就运行在浏览器里,用插件不需要改变用户习惯。隐私方面,它只在当前工作窗口内录屏操作,而不是全局读取屏幕,这对企业用户来说更容易接受。

开放节奏上,360 计划 先 B 后 C:先在集团内部打磨,再逐步开放给外部用户。后台模型也支持自定义,你可以选择自己购买的 API 或模型服务。

目前给出的时间节点是:

  • 6 月底在 360 集团内部开放,预计 7、8 月份在research.360.cn官网对外开放。对于关注 Agent、RPA、企业自动化和 AI 应用落地的开发者来说,这个时间点值得留意。

六、我的实践:让 Agent 去淘宝搜“空调”并排序

为了更直观地感受 GUI Agent 能做什么,我也自己上手试了一下。

我选了一个非常日常的任务:打开淘宝,搜索“空调”,然后把结果按价格从低到高排序。这个任务不复杂,甚至有点普通,但正因为它普通,反而更接近我们每天会遇到的操作场景。

实际用下来,第一感受是:GUI Agent 做的不是“回答问题”,而是真的在替我们操作界面。

它会先打开淘宝页面,找到搜索框,输入“空调”,然后进入搜索结果页。等页面加载完成后,继续识别页面上的排序区域,找到和“价格”相关的选项,并完成从低到高的排序。整个过程不是通过某个后端接口直接拿数据,而是在网页界面里一步一步点出来的。

这让我意识到:很多时候,我们不是缺一个答案,而是缺一个能帮我们把流程走完的助手。像淘宝搜索、排序、筛选,人当然能做,但每次都要自己点、自己看、自己切换条件。单次可能只花几十秒,但如果换成工作里的报表筛选、订单查询、信息录入、审批提交,这类重复动作累积起来就很消耗注意力和时间。

这次实践给我的感触是:GUI Agent 的价值不在于把一个简单任务做得多么惊艳,而在于它开始具备了接手重复流程的可能性。

在个人场景里,它可以帮我们完成搜索、筛选、初步对比;在办公场景里,它对应的就是查询合同、提交报销、导出报表、录入客户信息——这些更高频、更固定的流程。

七、总结:AI 的下一步,是走进界面

如果大模型解决了“AI 能听懂人话”这件事,那么 GUI Agent 开始回答一个更朴素的问题:AI 能不能真正帮人把事办完?

它短期内不会变成万能助手,但很可能最先从那些高频、重复、规则相对固定的办公流程里体现出价值。它不一定要替代人做判断,但可以替人完成大量机械步骤。如果 AI 能把 80% 的重复动作处理掉,人只负责最后的判断和监督,那已经是很大的进步了。

这期播客给我的最终感受是:GUI Agent 不一定是最炫的 AI 方向,但可能是很贴近真实工作的一类方向。它要解决的不是“AI 能不能显得更聪明”,而是 “AI 能不能真正帮人少干点重复活”。这件事听起来朴素,但对很多普通职场人来说,可能比再多一个会聊天的模型更有用。

拆AI共识:大模型正在“吞掉”App?聊透GUI-Agent、流量入口与人机共识|50分钟深度对谈

https://www.bilibili.com/video/BV1nKEw6QEHj

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐