看完 360《这也叫AI》后,我对 GUI Agent 有了一个更接地气的理解
这两年大家聊 AI,很多时候都在聊大模型、Agent、MCP、工作流、Coding Agent。说实话,这些概念听多了以后,有时候反而会有点“虚”:好像每个东西都很强,但真正落到日常工作里,很多时候还是我自己在浏览器里来回切页面、复制粘贴、填表、查资料、提交申请。
所以这次看 360《这也叫AI》这期播客时,我对里面讨论的 GUI Agent 还挺有共鸣的。它不像一些看起来很“炫”的 AI 产品,动不动就写诗、画图、生成视频,而是更像一个专门帮人干杂活的“数字同事”:它能看懂浏览器或桌面上的图形界面,然后像人一样去点击、输入、跳转、提交,最终帮用户把一个具体任务跑完。
本期播客的嘉宾是冷大炜博士,讨论的主题是 GUI Agent、App 入口、企业办公自动化,以及 AI 如何真正从“回答问题”走向“完成任务”。下图为360集团《这也叫AI》的科技播客。
一、我为什么会对 GUI Agent 感兴趣?
我自己平时使用 AI 的频率不算低。写文章、查资料、整理代码、做实验报告、总结文献,这些任务我都会用大模型辅助。但用得越多,越能感觉到一个问题:AI 很会“说”,但很多时候还不太会“动手”。
比如我经常会遇到这种场景:
- 打开一个网站,查找某个文档或资料;
- 在不同页面之间反复跳转;
- 把一段内容复制到另一个平台;
- 根据要求填写表单;
- 检查页面里某个状态是否已经更新;
- 重复提交一些格式类似但内容不同的信息。
这些事情单独看都不难,但特别消耗注意力。更麻烦的是,它们往往不值得专门写一个脚本,也不一定有稳定 API 可以调用。最后就变成了:明明 AI 已经能帮我写出一段很完整的分析,但真正到了网页操作这一步,还是我自己在那儿点点点。
这也是我看完这期播客后最直接的感受:GUI Agent 的价值,不在于它看起来有多科幻,而在于它能不能把这些“不难但烦”的事接过去。
二、GUI Agent 到底是什么?
1. GUI Agent 基本工作流程
播客里对 GUI Agent 的解释很直观:它可以识别浏览器或桌面界面,并帮助用户自动完成任务。
这里的重点是 GUI,也就是 Graphical User Interface,图形用户界面。我们平时看到的网页、按钮、输入框、菜单、弹窗,本质上都是 GUI。传统自动化很多时候依赖 API、脚本、接口、规则,而 GUI Agent 更接近人的操作方式:先“看”屏幕,再“理解”任务,然后规划步骤,最后执行点击、输入、提交等动作。
GUI Agent 基本工作流程如下(从“看见界面”到“完成任务”):
这个逻辑其实很像我们自己操作电脑。比如我要在某个系统里提交一个申请,我会先看页面上有哪些按钮、输入框在哪里、下一步应该点什么。GUI Agent 做的事情也是类似的,只不过它把“看界面”和“点界面”这件事交给模型和自动化执行器去完成。
这也是 GUI Agent 和普通聊天机器人最大的区别:聊天机器人主要停留在“告诉我怎么做”,而 GUI Agent 更进一步,目标是“直接帮我做”。
2. GUI Agent 和其他 Agent 有什么不一样?
这一部分是我觉得播客里讲得比较清楚的地方。现在很多 Agent 系统会依赖 API、MCP、Skill 或者插件。简单说,就是系统需要提前给 AI 准备好工具。比如你要让 AI 查订单,那就给它一个查订单接口;你要让 AI 操作某个业务系统,那就给它设计一个专门的 Skill。
这种方式当然很高效,但问题也很明显:前提是系统愿意、也有能力为 AI 做适配。可现实里很多系统并不是这样的。尤其是企业内部系统,可能年代比较久,接口不统一,权限复杂,甚至根本没有可用 API。这个时候,如果还要求每个系统都先给 AI 开接口,落地成本就会很高。
GUI Agent 的路线不太一样,它与接口 Skill/MCP 路线的区别如下图所示。它不强求系统为 AI 做适配,而是直接走人类已经熟悉的路径:人能看见、能点击、能操作的地方,Agent 就尝试通过视觉方式去模仿。
我个人理解,这两条路线不是非此即彼。有 API 的时候,当然优先走 API,因为更稳定、更快;没有 API 或者改造成本太高的时候,GUI Agent 就成了一个很重要的“保底方案”。
这也是我对 GUI Agent 的一个核心判断:它不一定是所有场景下最优雅的方案,但它可能是很多真实场景里最容易落地的方案。
三、360 的核心解法:不是重新训练一个大模型,而是给 AI 找个“老员工”
播客里我印象比较深的一点,是360人工智能研究院冷大炜博士提到的 B 端落地难题。
很多人以为 GUI Agent 只要看得懂界面,就能直接在企业里跑起来。但实际情况并没有这么简单。企业内部系统往往有很多隐性规则,比如报销要选哪个科目、审批要走哪条路径、某个字段该填什么格式、什么情况需要补充说明。这些知识不是通用大模型天然知道的。
更麻烦的是,企业数据往往不能随便外传,也不一定适合拿去训练大模型。于是就出现了一个问题: 通用模型能力很强,但不懂企业内部业务;企业内部知识很关键,但又很难直接拿去训练模型。
360 在播客中提到的核心解法,我觉得可以概括为一句话:不一定要训练大模型,而是通过“样例知识注入”,让 AI 学会参考过去成功的操作经验。
这个思路很像“老员工带新员工”。
比如一个报销流程,以前由熟悉业务的人完整演示一遍,系统把这次演示过程记录下来,形成一个标准样例。之后 AI 再执行类似任务时,就可以从知识库里召回相关样例,把它作为上下文参考,然后照着相似流程去做。
我觉得这个方案很务实。因为它没有一上来就说“我要训练一个专属大模型”,而是承认企业落地中的现实约束:成本、数据安全、系统复杂度、业务规则变化。对于很多中小企业来说,真正可接受的方案往往不是最理想化的技术路线,而是成本可控、能本地化、能逐步积累经验的工程方案。
这一点也是我看完后觉得比较“接地气”的地方。
四、GUI Agent 会不会“吞掉”App?
播客标题里提到“大模型正在吞掉 App”,这是一个很有传播性的说法。但看完整期之后,我觉得里面其实没有简单地鼓吹“App 要消失了”,而是更理性地讨论了入口变化。
我的理解是,GUI Agent 可能会削弱一部分工具型 App 的入口价值。比如点外卖、订票、查物流、填表、发起申请,这些任务的核心是完成一个动作。用户并不一定在乎打开哪个 App,只在乎结果。如果未来 Agent 能直接帮用户完成这些任务,那用户确实可能不再主动进入某些工具型 App。
但内容型、娱乐型、社交型 App 不太一样。比如刷视频、看直播、玩游戏、社区互动、虚拟陪伴,这些场景本身就是体验,用户不是只想要一个结果,而是想停留在过程中。GUI Agent 很难替代这种“消费时间”和“情绪陪伴”的需求。
所以我更愿意把 GUI Agent 理解成:它吞掉的不是 App 本身,而是 App 里那些流程化、工具化、重复性的功能。这也意味着,未来软件的竞争可能会从“谁拥有 App 入口”逐渐变成“谁能被 Agent 更好地调用,谁能在 Agent 时代保留用户关系”。这个变化不会一夜发生,但方向已经值得关注。
五、产品化预告:浏览器插件形态,先 B 后 C
这期播客最后也提到了 360 GUI Agent 的产品化计划,这部分对开发者来说比较值得关注。
根据播客内容,360 GUI Agent 计划以浏览器插件的形式落地。这个形态我觉得比较合理,因为大量办公和信息处理任务本来就发生在浏览器里。相比直接接管整个电脑,浏览器插件也更容易控制边界。
播客中还提到几个关键信息:
- 产品会先在 360 集团内部开放和打磨;
- 后续再面向 C 端开放体验;
- 插件只在当前工作窗口内录屏操作,尽量降低隐私风险;
- 用户可以自定义后台模型,选择自己购买或配置的 API;
- 后续可关注 360 人工智能研究院官网:research.360.cn(360 GUI Agent 相关产品后续通过这个官方网址进入并关注其未来发展)。
我觉得“只在当前工作窗口内录屏操作”这个设计很关键。GUI Agent 最大的能力来自“看屏幕”,但最大的隐私风险也来自“看屏幕”。如果没有清晰的边界,用户很难放心让它操作。所以未来这类产品能不能被接受,不只取决于模型能力,也取决于权限控制、数据隔离、操作可追溯和用户确认机制。
六、案例与实践:播客里的两个案例与我的实践感受
这期播客里有两个案例很有画面感。
第一个是内部 ERP 系统里申请 IT 资产的流程。这个任务有 27 步操作,听起来就已经有点让人头大了。实际工作中,这类流程往往不是难在某一步,而是难在步骤多、页面多、字段多,一不小心就漏填或点错。播客中提到,模型自动驱动浏览器跑通了这套流程,这说明 GUI Agent 已经不只是做简单点击,而是能处理一定长度的企业流程。
第二个是自动提交和处理 600 多个资产申请。这个案例更有意思,因为它不是单次任务,而是批量任务。对于企业办公来说,批量重复任务才是最典型的提效场景。一个人处理 10 个审批可能还能忍,处理 600 个就很痛苦了。如果 GUI Agent 能把这类重复动作稳定接过去,价值就非常明显。
我自己平时也会遇到类似的“小流程”。比如申请报销时(如下图),需要搜索差旅报销说明、填写申请信息、提交报销申请,在多个不同页面不断等待、反复操作;找资料时,可能要在多个网站之间来回切换;写博客时,要打开参考链接、整理标题、复制部分信息、再回到编辑器里组织内容。严格来说,这些事情都能手动做,但它们会打断思路。尤其是写东西的时候,一旦从“思考内容”切到“机械操作”,很容易把原来的思路弄断。
所以我对 GUI Agent 的期待不是它立刻替我完成所有复杂工作,而是先把这些高频、重复、低创造性的操作接过去。人继续负责判断、表达和创意,Agent 负责跑流程、点页面和搬运信息。这个分工我觉得更合理。
七、看完播客后的一个判断:GUI Agent 不性感,但很重要
这期播客给我的最大感受是,GUI Agent 不是那种第一眼特别惊艳的技术。它不像文生视频那样容易展示,也不像 Coding Agent 那样能直接吸引程序员付费。它做的很多事情甚至有点“脏活累活”:填表、审批、查询、跳转、提交。
但也正因为如此,它可能离真实生产力更近。很多技术真正产生价值,不是因为它看起来多酷,而是因为它能把人从大量重复操作中解放出来。GUI Agent 的定位很像数字世界里的“软件机器人”:
它不一定替代人的思考,但可以替代一部分机械执行。从这个角度看,我觉得 360 选择从 B 端办公场景切入是比较合理的。因为企业内部有大量固定流程,也有大量重复任务,只要成功率和稳定性达到可用水平,提效价值就会非常直接。
当然,GUI Agent 现在也还有明显挑战,比如速度、稳定性、对页面变化的适应能力、错误恢复能力、隐私安全、企业知识注入等。但这期播客让我觉得,它已经不是一个停留在概念里的方向,而是正在进入工程化落地阶段。
结语:普通人应该怎么面对 GUI Agent?
如果你和我一样,不是专门做 GUI Agent 研发,只是一个普通 AI 使用者或开发者,我觉得可以先从三件事开始:
第一,先把大模型用熟。很多 Agent 的效果,本质上仍然依赖你能不能给出清晰任务、完整上下文和有效反馈。提示词工程不是玄学,它其实是在训练自己把任务说清楚。
第二,找到自己的高频重复场景。不要为了用 Agent 而用 Agent。先观察自己每天最烦、最重复、最机械的操作是什么。只要这个任务路径相对固定,就有可能成为 GUI Agent 的合适场景。
第三,保持期待,但不要神化。GUI Agent 很有潜力,但它不是魔法。它未来可能会改变软件入口,也可能改变企业办公自动化的方式,但在当前阶段,我们仍然需要关注它的成功率、边界和安全性。
看完这期 360《这也叫AI》,我最大的收获不是“GUI Agent 会立刻改变一切”,而是更具体地理解了它为什么值得做:因为数字世界里还有大量没有 API、没有自动化接口、但人每天都在重复操作的界面。而 GUI Agent 正是试图把这些界面连接起来,让 AI 从“会回答”走向“会执行”。这件事不一定性感,但确实很有用。
拆AI共识:大模型正在“吞掉”App?聊透GUI-Agent、流量入口与人机共识|50分钟深度对谈https://www.bilibili.com/video/BV1nKEw6QEHj
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)