AI 终于要“伸手干活”了：聊聊 GUI Agent 为什么值得盯紧

小宋加油啊

722人浏览 · 2026-06-05 20:22:48

小宋加油啊 · 2026-06-05 20:22:48 发布

AI 终于要“伸手干活”了：聊聊 GUI Agent 为什么值得盯紧

最近一段时间，我使用 AI 工具的方式悄悄发生了变化。以前，我习惯在对话框里让 AI 写文案、改邮件、总结长篇文档——这些事它做得越来越顺手，几分钟就能给出一个能用的版本。但我很快发现，真正的瓶颈不在“想”和“写”，而在“做”。比如，我需要登录公司内部系统，填一张资产申请表，上传附件，再点提交。流程本身不复杂，但每个动作都要我来完成：打开浏览器、输入密码、找到菜单、选下拉框、确认……一天重复几次，就变成了纯粹的体力活。

在这里插入图片描述
这时候我就会想：AI 能不能别只跟我聊天，而是直接帮我把这些按钮点完？

也是带着这个念头，我看了 360 的《这也叫 AI》播客，聊的正是 GUI Agent。看完之后我最大的感受是：这个方向终于盯上了那些我们最不想干、但又不得不干的“流程活”。

一、GUI Agent 是什么？简单说：像人一样看屏幕、点按钮

GUI Agent 的全称是 Graphic User Interface Agent，翻译过来就是“图形用户界面智能体”。它的任务很朴素：像人一样“看”屏幕上的按钮、输入框、菜单，然后根据你的目标去点击、输入、提交。

它不要求系统专门为 AI 开放 API 或接口，也不需要提前写好脚本。只要这个界面人能操作，它就有机会学着操作。

在这里插入图片描述

这个定位听起来不够性感——它不会写诗、作画、搞创作。但恰恰是这种“不性感”，让它离真实的办公场景非常近。因为在企业内部，大量系统（ERP、OA、审批后台、资产管理）已经运行了很多年，界面复杂、流程固定、根本没有 API 可以调用。让这些老系统为 AI 改造，成本高也不现实。

GUI Agent 的价值就在这里：它不要求系统主动适配 AI，而是让 AI 去适应已有的界面。它像一根“保底通道”：有接口就走接口，没有接口就靠视觉和操作兜底。

二、一个让我印象深刻的内部案例：27 步的资产申请流程

播客里嘉宾冷大炜博士来自于360人工智能研究院负责人，由他带领进行360GUI Agent的技术攻克。他分享了一个研发中内测的案例：

公司里有一个 IT 资产申请流程，嵌在 ERP 系统里，从打开页面到最终提交，一共要经历 27 步：选资产类型、填用途、选成本中心、上传附件、选择审批人……每一步都要手动操作，繁琐但不得不做。

GUI Agent 被派去跑这个流程，结果它真的跑通了。更有意思的是，在另一轮测试中，Agent 一口气自动提交了 600 多个资产申请，直接把审批后台堆满了——后来团队又用 Agent 一键批量驳回。这个场景虽然有点“戏剧性”，但它说明了一件事：当 GUI Agent 能够稳定执行流程后，它带来的不是局部提效，而是整个流程级的自动化。

我听到这里时的第一反应是：这不就是我一直想让它干的事吗？不是每天给我讲宏大概念，而是帮我把那些重复、机械、但又必须完成的流程处理掉——报销、查资料、登记信息、走审批。这些事单独看都不难，但加在一起非常消耗精力，也很容易打断工作节奏。

三、落地难点：通用模型不懂“你家公司的规矩”

当然，GUI Agent 要真正用起来，不是“能看懂界面”就够。它最大的挑战之一，是通用模型不了解企业内部知识。

一个再聪明的模型，也不可能天然知道某家公司的报销单应该填哪个成本中心、费用类型该选什么、审批链路怎么走。同样的“资产申请”，不同部门的流程可能完全不同。这就是播客里说的 B 端“水土不服”。

360 给出的解法叫做 “样例知识注入” 。换成人话就是：让老员工先演示一遍，新员工照着学。

具体来说，由真人先完整操作一次某个流程（比如报销、资产申请、发邮件）。系统会把这次操作轨迹和关键步骤记录下来，存成一个“样例”。之后，当 AI 再遇到类似的任务时，它可以从知识库里召回相关的样例作为参考，模仿老员工的操作来完成。

播客里举了一个发邮件的例子：一开始没有录制样例时，Agent 反复尝试都没成功；等真人手动演示了一遍操作轨迹后，再让它执行一个相似但不同的任务，它很快就完成了。这个过程比单纯展示“成功案例”更有说服力——它展示的不是一个天生完美的 AI，而是一个能从失败中学会做事的新员工。

这个方案很工程化，也很现实：不需要大规模重新训练模型，成本可控；流程数据可以本地保存，更适合企业的隐私和安全要求。

四、会“吞掉”App 吗？我的判断：工具型会，内容型不会

播客标题里提到了“大模型正在吞掉 App”，这个问题也值得聊一聊。

我的看法是：工具型 App 的入口价值确实会被削弱，但内容和娱乐类 App 不会。

像订票、查物流、比价、点外卖这类任务，用户本质上要的是一个结果，并不关心背后是哪个 App 完成的。如果未来 Agent 能稳定地替我们完成这些操作，那么很多中间步骤（打开 App、搜索、筛选、下单）就会被省掉。用户只需要说一句“帮我订明天去北京的高铁票”，剩下的交给 Agent。

但短视频、直播、游戏、社区互动这些不一样。它们不只是为了完成任务，里面包含大量的体验、情绪和社交因素。Agent 可以帮你打开某个 App，但没法替你“刷”视频、替你“体验”直播间的氛围。所以这类 App 不会轻易被替代。

因此，与其说 GUI Agent 会让 App 消失，不如说它会重塑流量的分发方式：以前是人主动打开 App 找功能，未来可能是人把需求告诉 Agent，Agent 再去调用或操作背后的服务。App 还在，但用户接触它的方式变了。

五、产品化信号：浏览器插件，7、8 月开放体验

除了技术思路，360 这次释放的产品化信息也值得关注。

根据播客内容，360 GUI Agent 会以浏览器插件的形态落地。这个选择很务实——大量企业系统本身就运行在浏览器里，用插件不需要改变用户习惯。隐私方面，它只在当前工作窗口内录屏操作，而不是全局读取屏幕，这对企业用户来说更容易接受。

开放节奏上，360 计划先 B 后 C：先在集团内部打磨，再逐步开放给外部用户。后台模型也支持自定义，你可以选择自己购买的 API 或模型服务。

目前给出的时间节点是：

6 月底在 360 集团内部开放，预计 7、8 月份在research.360.cn官网对外开放。对于关注 Agent、RPA、企业自动化和 AI 应用落地的开发者来说，这个时间点值得留意。

六、我的实践：让 Agent 去淘宝搜“空调”并排序

为了更直观地感受 GUI Agent 能做什么，我也自己上手试了一下。

我选了一个非常日常的任务：打开淘宝，搜索“空调”，然后把结果按价格从低到高排序。这个任务不复杂，甚至有点普通，但正因为它普通，反而更接近我们每天会遇到的操作场景。

实际用下来，第一感受是：GUI Agent 做的不是“回答问题”，而是真的在替我们操作界面。

它会先打开淘宝页面，找到搜索框，输入“空调”，然后进入搜索结果页。等页面加载完成后，继续识别页面上的排序区域，找到和“价格”相关的选项，并完成从低到高的排序。整个过程不是通过某个后端接口直接拿数据，而是在网页界面里一步一步点出来的。

这让我意识到：很多时候，我们不是缺一个答案，而是缺一个能帮我们把流程走完的助手。像淘宝搜索、排序、筛选，人当然能做，但每次都要自己点、自己看、自己切换条件。单次可能只花几十秒，但如果换成工作里的报表筛选、订单查询、信息录入、审批提交，这类重复动作累积起来就很消耗注意力和时间。

这次实践给我的感触是：GUI Agent 的价值不在于把一个简单任务做得多么惊艳，而在于它开始具备了接手重复流程的可能性。

在个人场景里，它可以帮我们完成搜索、筛选、初步对比；在办公场景里，它对应的就是查询合同、提交报销、导出报表、录入客户信息——这些更高频、更固定的流程。

七、总结：AI 的下一步，是走进界面

如果大模型解决了“AI 能听懂人话”这件事，那么 GUI Agent 开始回答一个更朴素的问题：AI 能不能真正帮人把事办完？

它短期内不会变成万能助手，但很可能最先从那些高频、重复、规则相对固定的办公流程里体现出价值。它不一定要替代人做判断，但可以替人完成大量机械步骤。如果 AI 能把 80% 的重复动作处理掉，人只负责最后的判断和监督，那已经是很大的进步了。

这期播客给我的最终感受是：GUI Agent 不一定是最炫的 AI 方向，但可能是很贴近真实工作的一类方向。它要解决的不是“AI 能不能显得更聪明”，而是 “AI 能不能真正帮人少干点重复活”。这件事听起来朴素，但对很多普通职场人来说，可能比再多一个会聊天的模型更有用。

拆AI共识：大模型正在“吞掉”App？聊透GUI-Agent、流量入口与人机共识｜50分钟深度对谈

https://www.bilibili.com/video/BV1nKEw6QEHj

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AtomGit 即将亮相 WAIC 2026｜来赴一场属于开发者的 AI Coding Party

AtomGit开源社区

G-Star 精选开源项目推荐｜第二十期

AtomGit开源社区

AtomGit AI Meetup 上海站开启报名！

AtomGit开源社区

所有评论(0)

查看更多评论

小宋加油啊

@qq_45560230

已为社区贡献3条内容

AI 终于要“伸手干活”了：聊聊 GUI Agent 为什么值得盯紧

小宋加油啊

AI 终于要“伸手干活”了：聊聊 GUI Agent 为什么值得盯紧

一、GUI Agent 是什么？简单说：像人一样看屏幕、点按钮

二、一个让我印象深刻的内部案例：27 步的资产申请流程

三、落地难点：通用模型不懂“你家公司的规矩”

四、会“吞掉”App 吗？我的判断：工具型会，内容型不会

五、产品化信号：浏览器插件，7、8 月开放体验

六、我的实践：让 Agent 去淘宝搜“空调”并排序

七、总结：AI 的下一步，是走进界面

所有评论(0)

温馨提示：您尚未绑定手机号

小宋加油啊