看完 360《这也叫AI》后，我对 GUI Agent 有了一个更接地气的理解

半亩花海

10240人浏览 · 2026-06-08 19:19:08

半亩花海 · 2026-06-08 19:19:08 发布

这两年大家聊 AI，很多时候都在聊大模型、Agent、MCP、工作流、Coding Agent。说实话，这些概念听多了以后，有时候反而会有点“虚”：好像每个东西都很强，但真正落到日常工作里，很多时候还是我自己在浏览器里来回切页面、复制粘贴、填表、查资料、提交申请。

所以这次看 360《这也叫AI》这期播客时，我对里面讨论的 GUI Agent 还挺有共鸣的。它不像一些看起来很“炫”的 AI 产品，动不动就写诗、画图、生成视频，而是更像一个专门帮人干杂活的“数字同事”：它能看懂浏览器或桌面上的图形界面，然后像人一样去点击、输入、跳转、提交，最终帮用户把一个具体任务跑完。

本期播客的嘉宾是冷大炜博士，讨论的主题是 GUI Agent、App 入口、企业办公自动化，以及 AI 如何真正从“回答问题”走向“完成任务”。下图为360集团《这也叫AI》的科技播客。

一、我为什么会对 GUI Agent 感兴趣？

我自己平时使用 AI 的频率不算低。写文章、查资料、整理代码、做实验报告、总结文献，这些任务我都会用大模型辅助。但用得越多，越能感觉到一个问题：AI 很会“说”，但很多时候还不太会“动手”。

比如我经常会遇到这种场景：

打开一个网站，查找某个文档或资料；
在不同页面之间反复跳转；
把一段内容复制到另一个平台；
根据要求填写表单；
检查页面里某个状态是否已经更新；
重复提交一些格式类似但内容不同的信息。

这些事情单独看都不难，但特别消耗注意力。更麻烦的是，它们往往不值得专门写一个脚本，也不一定有稳定 API 可以调用。最后就变成了：明明 AI 已经能帮我写出一段很完整的分析，但真正到了网页操作这一步，还是我自己在那儿点点点。

这也是我看完这期播客后最直接的感受：GUI Agent 的价值，不在于它看起来有多科幻，而在于它能不能把这些“不难但烦”的事接过去。

二、GUI Agent 到底是什么？

1. GUI Agent 基本工作流程

播客里对 GUI Agent 的解释很直观：它可以识别浏览器或桌面界面，并帮助用户自动完成任务。

这里的重点是 GUI，也就是 Graphical User Interface，图形用户界面。我们平时看到的网页、按钮、输入框、菜单、弹窗，本质上都是 GUI。传统自动化很多时候依赖 API、脚本、接口、规则，而 GUI Agent 更接近人的操作方式：先“看”屏幕，再“理解”任务，然后规划步骤，最后执行点击、输入、提交等动作。

GUI Agent 基本工作流程如下（从“看见界面”到“完成任务”）：

这个逻辑其实很像我们自己操作电脑。比如我要在某个系统里提交一个申请，我会先看页面上有哪些按钮、输入框在哪里、下一步应该点什么。GUI Agent 做的事情也是类似的，只不过它把“看界面”和“点界面”这件事交给模型和自动化执行器去完成。

这也是 GUI Agent 和普通聊天机器人最大的区别：聊天机器人主要停留在“告诉我怎么做”，而 GUI Agent 更进一步，目标是“直接帮我做”。

2. GUI Agent 和其他 Agent 有什么不一样？

这一部分是我觉得播客里讲得比较清楚的地方。现在很多 Agent 系统会依赖 API、MCP、Skill 或者插件。简单说，就是系统需要提前给 AI 准备好工具。比如你要让 AI 查订单，那就给它一个查订单接口；你要让 AI 操作某个业务系统，那就给它设计一个专门的 Skill。

这种方式当然很高效，但问题也很明显：前提是系统愿意、也有能力为 AI 做适配。可现实里很多系统并不是这样的。尤其是企业内部系统，可能年代比较久，接口不统一，权限复杂，甚至根本没有可用 API。这个时候，如果还要求每个系统都先给 AI 开接口，落地成本就会很高。

GUI Agent 的路线不太一样，它与接口 Skill/MCP 路线的区别如下图所示。它不强求系统为 AI 做适配，而是直接走人类已经熟悉的路径：人能看见、能点击、能操作的地方，Agent 就尝试通过视觉方式去模仿。

我个人理解，这两条路线不是非此即彼。有 API 的时候，当然优先走 API，因为更稳定、更快；没有 API 或者改造成本太高的时候，GUI Agent 就成了一个很重要的“保底方案”。

这也是我对 GUI Agent 的一个核心判断：它不一定是所有场景下最优雅的方案，但它可能是很多真实场景里最容易落地的方案。

三、360 的核心解法：不是重新训练一个大模型，而是给 AI 找个“老员工”

播客里我印象比较深的一点，是360人工智能研究院冷大炜博士提到的 B 端落地难题。

很多人以为 GUI Agent 只要看得懂界面，就能直接在企业里跑起来。但实际情况并没有这么简单。企业内部系统往往有很多隐性规则，比如报销要选哪个科目、审批要走哪条路径、某个字段该填什么格式、什么情况需要补充说明。这些知识不是通用大模型天然知道的。

更麻烦的是，企业数据往往不能随便外传，也不一定适合拿去训练大模型。于是就出现了一个问题：通用模型能力很强，但不懂企业内部业务；企业内部知识很关键，但又很难直接拿去训练模型。

360 在播客中提到的核心解法，我觉得可以概括为一句话：不一定要训练大模型，而是通过“样例知识注入”，让 AI 学会参考过去成功的操作经验。

这个思路很像“老员工带新员工”。

比如一个报销流程，以前由熟悉业务的人完整演示一遍，系统把这次演示过程记录下来，形成一个标准样例。之后 AI 再执行类似任务时，就可以从知识库里召回相关样例，把它作为上下文参考，然后照着相似流程去做。

我觉得这个方案很务实。因为它没有一上来就说“我要训练一个专属大模型”，而是承认企业落地中的现实约束：成本、数据安全、系统复杂度、业务规则变化。对于很多中小企业来说，真正可接受的方案往往不是最理想化的技术路线，而是成本可控、能本地化、能逐步积累经验的工程方案。

这一点也是我看完后觉得比较“接地气”的地方。

四、GUI Agent 会不会“吞掉”App？

播客标题里提到“大模型正在吞掉 App”，这是一个很有传播性的说法。但看完整期之后，我觉得里面其实没有简单地鼓吹“App 要消失了”，而是更理性地讨论了入口变化。

我的理解是，GUI Agent 可能会削弱一部分工具型 App 的入口价值。比如点外卖、订票、查物流、填表、发起申请，这些任务的核心是完成一个动作。用户并不一定在乎打开哪个 App，只在乎结果。如果未来 Agent 能直接帮用户完成这些任务，那用户确实可能不再主动进入某些工具型 App。

但内容型、娱乐型、社交型 App 不太一样。比如刷视频、看直播、玩游戏、社区互动、虚拟陪伴，这些场景本身就是体验，用户不是只想要一个结果，而是想停留在过程中。GUI Agent 很难替代这种“消费时间”和“情绪陪伴”的需求。

所以我更愿意把 GUI Agent 理解成：它吞掉的不是 App 本身，而是 App 里那些流程化、工具化、重复性的功能。这也意味着，未来软件的竞争可能会从“谁拥有 App 入口”逐渐变成“谁能被 Agent 更好地调用，谁能在 Agent 时代保留用户关系”。这个变化不会一夜发生，但方向已经值得关注。

五、产品化预告：浏览器插件形态，先 B 后 C

这期播客最后也提到了 360 GUI Agent 的产品化计划，这部分对开发者来说比较值得关注。

根据播客内容，360 GUI Agent 计划以浏览器插件的形式落地。这个形态我觉得比较合理，因为大量办公和信息处理任务本来就发生在浏览器里。相比直接接管整个电脑，浏览器插件也更容易控制边界。

播客中还提到几个关键信息：

产品会先在 360 集团内部开放和打磨；
后续再面向 C 端开放体验；
插件只在当前工作窗口内录屏操作，尽量降低隐私风险；
用户可以自定义后台模型，选择自己购买或配置的 API；
后续可关注 360 人工智能研究院官网：research.360.cn（360 GUI Agent 相关产品后续通过这个官方网址进入并关注其未来发展）。

我觉得“只在当前工作窗口内录屏操作”这个设计很关键。GUI Agent 最大的能力来自“看屏幕”，但最大的隐私风险也来自“看屏幕”。如果没有清晰的边界，用户很难放心让它操作。所以未来这类产品能不能被接受，不只取决于模型能力，也取决于权限控制、数据隔离、操作可追溯和用户确认机制。

六、案例与实践：播客里的两个案例与我的实践感受

这期播客里有两个案例很有画面感。

第一个是内部 ERP 系统里申请 IT 资产的流程。这个任务有 27 步操作，听起来就已经有点让人头大了。实际工作中，这类流程往往不是难在某一步，而是难在步骤多、页面多、字段多，一不小心就漏填或点错。播客中提到，模型自动驱动浏览器跑通了这套流程，这说明 GUI Agent 已经不只是做简单点击，而是能处理一定长度的企业流程。

第二个是自动提交和处理 600 多个资产申请。这个案例更有意思，因为它不是单次任务，而是批量任务。对于企业办公来说，批量重复任务才是最典型的提效场景。一个人处理 10 个审批可能还能忍，处理 600 个就很痛苦了。如果 GUI Agent 能把这类重复动作稳定接过去，价值就非常明显。

我自己平时也会遇到类似的“小流程”。比如申请报销时（如下图），需要搜索差旅报销说明、填写申请信息、提交报销申请，在多个不同页面不断等待、反复操作；找资料时，可能要在多个网站之间来回切换；写博客时，要打开参考链接、整理标题、复制部分信息、再回到编辑器里组织内容。严格来说，这些事情都能手动做，但它们会打断思路。尤其是写东西的时候，一旦从“思考内容”切到“机械操作”，很容易把原来的思路弄断。

所以我对 GUI Agent 的期待不是它立刻替我完成所有复杂工作，而是先把这些高频、重复、低创造性的操作接过去。人继续负责判断、表达和创意，Agent 负责跑流程、点页面和搬运信息。这个分工我觉得更合理。

七、看完播客后的一个判断：GUI Agent 不性感，但很重要

这期播客给我的最大感受是，GUI Agent 不是那种第一眼特别惊艳的技术。它不像文生视频那样容易展示，也不像 Coding Agent 那样能直接吸引程序员付费。它做的很多事情甚至有点“脏活累活”：填表、审批、查询、跳转、提交。

但也正因为如此，它可能离真实生产力更近。很多技术真正产生价值，不是因为它看起来多酷，而是因为它能把人从大量重复操作中解放出来。GUI Agent 的定位很像数字世界里的“软件机器人”：

它不一定替代人的思考，但可以替代一部分机械执行。从这个角度看，我觉得 360 选择从 B 端办公场景切入是比较合理的。因为企业内部有大量固定流程，也有大量重复任务，只要成功率和稳定性达到可用水平，提效价值就会非常直接。

当然，GUI Agent 现在也还有明显挑战，比如速度、稳定性、对页面变化的适应能力、错误恢复能力、隐私安全、企业知识注入等。但这期播客让我觉得，它已经不是一个停留在概念里的方向，而是正在进入工程化落地阶段。

结语：普通人应该怎么面对 GUI Agent？

如果你和我一样，不是专门做 GUI Agent 研发，只是一个普通 AI 使用者或开发者，我觉得可以先从三件事开始：

第一，先把大模型用熟。很多 Agent 的效果，本质上仍然依赖你能不能给出清晰任务、完整上下文和有效反馈。提示词工程不是玄学，它其实是在训练自己把任务说清楚。

第二，找到自己的高频重复场景。不要为了用 Agent 而用 Agent。先观察自己每天最烦、最重复、最机械的操作是什么。只要这个任务路径相对固定，就有可能成为 GUI Agent 的合适场景。

第三，保持期待，但不要神化。GUI Agent 很有潜力，但它不是魔法。它未来可能会改变软件入口，也可能改变企业办公自动化的方式，但在当前阶段，我们仍然需要关注它的成功率、边界和安全性。

看完这期 360《这也叫AI》，我最大的收获不是“GUI Agent 会立刻改变一切”，而是更具体地理解了它为什么值得做：因为数字世界里还有大量没有 API、没有自动化接口、但人每天都在重复操作的界面。而 GUI Agent 正是试图把这些界面连接起来，让 AI 从“会回答”走向“会执行”。这件事不一定性感，但确实很有用。

拆AI共识：大模型正在“吞掉”App？聊透GUI-Agent、流量入口与人机共识｜50分钟深度对谈https://www.bilibili.com/video/BV1nKEw6QEHj

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐