AI终于不只会聊天了：从360 GUI Agent看智能体怎么进入真实工作流

Token_w

377人浏览 · 2026-06-08 17:54:56

Token_w · 2026-06-08 17:54:56 发布

AI终于不只会聊天了：从360 GUI Agent看智能体怎么进入真实工作流

过去一年，我对 AI 的使用习惯变化挺明显。

一开始，我更多是让它帮我写东西、改表达、总结资料。后来慢慢开始让它做更复杂的任务，比如拆解需求、整理表格、生成方案。但用久了以后也会发现一个很现实的问题：AI 在聊天框里确实很聪明，可一旦事情要落到某个系统里，它就停住了。

比如我要提交一个申请、查一个内部文档、处理一批审批，AI 可以告诉我步骤，也可以帮我准备文字，但最后打开网页、找到入口、填写字段、上传附件、点击提交，还是得我自己来。

所以看完 360 这期关于 GUI Agent 的播客后，我最大的感受是：AI 真正进入工作流，难点不是“会不会回答”，而是“能不能上手操作”。

在这里插入图片描述

图示：360集团《这也叫AI》科技播客

GUI Agent 讲的就是这件事。

什么是 GUI Agent：不是更会聊天，而是更会操作界面

现在提到 Agent，很多人会想到 Manus、OpenClaw 这类产品。它们的核心思路通常是给 AI 配工具，比如 API、MCP、Skill，让 AI 通过这些接口完成任务。

这条路线当然很强。只要系统提供了合适的接口，AI 调用起来就快、准、稳定。但问题是，真实世界里并不是所有系统都准备好了接口。尤其在企业环境里，很多 ERP、审批系统、财务系统、老后台，可能没有开放 API，或者接口不完整，甚至系统本身已经运行很多年，很难为了 AI 重新改造。

GUI Agent 走的是另一条路。

它不要求系统主动适配 AI，而是让 AI 像人一样看屏幕、理解界面、移动鼠标、点击按钮、输入内容。换句话说，它不是等别人把工具递到手里，而是直接学习人怎么使用现有界面。

如果把 Manus、OpenClaw 这类 Agent 比作一套“外挂工具箱”，那 GUI Agent 更像一个有眼睛、有手的新员工。只要人能看见、能点击、能操作的界面，它就有机会模仿人完成任务。

在这里插入图片描述

这也是 GUI Agent 最特别的地方。它不一定最炫，也不一定最像科幻电影里的 AI，但它解决的是非常现实的问题：当一个系统没有 API 时，AI 还能不能把活干完？

所以，GUI Agent 不一定是最高效的路线，却可能是最有“保底价值”的路线。有 API 就走 API，没有 API，就靠视觉识别和界面操作把流程跑起来。

为什么 GUI Agent 在企业里很关键

GUI Agent 的价值，在企业办公场景里会特别明显。

因为企业里有大量工作并不复杂，但很消耗人。比如填报销、申请权限、提交 IT 资产、处理审批、录入后台数据、查找指定文档。每个动作拆开看都很简单，但组合起来就变成了很长的流程。

更麻烦的是，这些流程往往还散落在不同系统里。有的在浏览器里，有的在内部平台里，有的页面设计并不友好，有的还需要反复确认信息。

我自己平时也经常遇到这种情况：不是不会做，而是不想重复做。比如把一批信息从文档整理到表格，再去后台逐条录入；或者按照固定规则检查页面配置。做第一遍还能接受，做第十遍就开始烦，做第五十遍就很容易出错。

这类任务恰好是 GUI Agent 的用武之地。

它不像生成式 AI 那样负责“创作”，也不像代码 Agent 那样主要面向开发任务。它更像数字世界里的执行者，负责把那些低创造力、高重复度、规则明确的流程接过去。

从这个角度看，GUI Agent 并不是一个“更会聊天的 AI”，而是 AI 进入真实办公场景的手和脚。

但要让这双“手和脚”真的在企业里跑起来，光会识别按钮还不够。更难的是，它得懂业务。

360的核心解法：给 AI 找个“老员工”带路

GUI Agent 真正落地并不容易。

最大的难点不是识别按钮，而是理解业务。

一个通用模型再聪明，也不可能天然知道一家公司的内部报销制度、审批规则、资产申请路径。它可能看得懂“提交”按钮，也能识别输入框，但它不一定知道这个字段该填什么、这一步为什么要选这个部门、什么时候应该继续、什么时候应该暂停。

这就是 360 在播客中提到的核心问题：通用模型在企业内部业务里会“水土不服”。

360 给出的解法很有工程感，也比较现实：不直接训练大模型，而是做“样例知识注入”。

简单说，就是先让人演示一遍流程。比如一个老员工完整操作一次报销流程，或者演示一次 IT 设备申请流程。系统把这次操作记录下来，沉淀成标准样例，放进知识库里。等 AI 以后遇到类似任务时，再通过上下文工程召回最相关的样例，让它参考这个样例完成操作。

这个思路特别像新人入职。

新员工刚来时，你不会指望他看一眼公司系统就全懂。通常是老同事坐在旁边带一遍：入口在哪、先填什么、哪些字段不能漏、最后点哪个按钮。带过一遍以后，新员工才知道这家公司具体怎么干活。

360 的“样例知识注入”，本质上就是把这个“老员工带路”的过程产品化。

在这里插入图片描述

我觉得这个方法的现实意义挺大。

一方面，它不要求企业花很高成本去训练专属模型。对很多公司来说，微调模型成本高、周期长，还涉及数据安全问题。但如果通过样例和知识库来补充业务知识，落地门槛会低很多。

另一方面，它更适合企业内部的敏感场景。很多流程涉及财务、人事、审批权限，企业不一定愿意把数据拿去训练模型。样例本地化、按需召回，会更符合真实业务里的安全边界。

这也是我觉得 360 这套方案可信的地方。它没有把 GUI Agent 说成万能工具，而是承认模型不懂企业内部知识，然后用一个可控的工程方法去补齐。

案例：申请 IT 设备这类流程，正是 GUI Agent 的用武之地

如果一个员工要申请 IT 设备，通常不是简单点一下“提交”就结束了。它可能要先打开内部系统，找到 IT 资产或设备申请入口，再选择设备类型，填写申请原因、使用人、部门、数量、用途说明，然后继续走审批流程。

任务从自然语言开始。用户只需要说明“申请一台 13 寸苹果笔记本”，GUI Agent 就开始读取页面，并规划下一步操作。

在这里插入图片描述

接下来，Agent 需要在系统里找到正确入口。它会进入“新建事项”，搜索 IT 资产/耗材申请单，再进入具体业务流程。

Agent 在“新建事项”中搜索 IT 资产/耗材申请单，说明它需要先找到正确入口，再进入具体业务流程。

这一步其实很关键。很多企业系统的问题不在于某个按钮多难点，而是入口藏得深、菜单层级多、页面之间跳转复杂。人用久了会形成肌肉记忆，但新员工第一次操作时往往也要问同事。GUI Agent 要真正落地，也必须能处理这种“先找入口、再办事”的场景。

进入申请单之后，任务开始变得更具体。它不只是点按钮，还要识别表格、下拉框、必填字段和提示信息。比如设备类别要选 IT 电子设备，资产设备名称要选择具体设备，需求明细和申请原因也要按业务要求填写。

在这里插入图片描述

进入申请单后，Agent 需要识别表格、下拉选项、必填输入框等页面元素，并判断当前步骤应该填写什么。

如果中途字段漏填、选项不对、页面跳转失败，流程就可能卡住。这类任务单看每一步都不难，但完整跑下来很碎，也很考验稳定性。对人来说，它是一件“会做但不想反复做”的事；对 GUI Agent 来说，它正好可以展示自己是否真的能理解页面、连续执行、处理长链路流程。

在这里插入图片描述

在多步操作后，Agent 已完成设备类别、资产名称、用途、需求明细、申请原因等字段填写，体现了长链路流程执行能力。

在这里插入图片描述

播客里还提到一个很有画面感的研发瞬间：360 团队曾在内部 ERP 系统上跑通一个 IT 资产申请流程，整个流程高达 27 步。这个例子让我印象挺深，因为它不是“打开网页点一下”这种简单演示，而是真正贴近企业内部流程。

更有意思的是，测试过程中 Agent 还自动提交了 600 多个资产申请，把审批后台堆满了。后来团队又实现了一键驳回这些申请。这个场景听起来有点戏剧化，但它说明 GUI Agent 已经开始接近真实办公场景里的批量处理需求。

在这里插入图片描述

企业里很多工作，本来就是这样：重复、批量、规则明确，但人做起来很累。GUI Agent 如果能稳定处理这一类任务，价值会非常具体。

自己的使用感受：它解决的是“我会，但我不想重复做”的事

我对 GUI Agent 最直接的期待，不是让它替我做复杂决策，而是替我处理那些重复动作。

比如查找指定文档。AI 可以帮我理解关键词，但如果它能自己打开文档系统，按作者、标题、内容线索去搜索，再把结果整理出来，那就更接近真正的助手。

再比如审批处理。很多审批并不需要复杂判断，只是按照规则看字段是否完整、材料是否齐全、金额是否在范围内。人当然能做，但一直做会很消耗注意力。

还有后台录入、信息核对、表格搬运、权限申请这些任务，也都是类似逻辑。它们不是特别难，却会不断打断人的工作节奏。

这也是我为什么觉得 GUI Agent 有现实意义。它解决的不是“人不会做”的问题，而是“人不想把时间耗在这些重复操作上”的问题。

当然，这里也不能过度乐观。GUI Agent 真要大规模使用，还需要解决很多问题。比如页面变化后能不能适应，遇到异常弹窗怎么办，执行速度够不够快，误操作怎么回滚，权限和隐私边界怎么管。

但至少方向是清楚的：AI 不能永远停在聊天框里。它必须进入真实系统，面对真实流程，处理真实的不完美界面。

产品预告：浏览器插件、先B后C、模型可自定义

这期播客最后也提到了 360 GUI Agent 的产品化计划。

按照目前的预告，360 的 GUI Agent 会先以浏览器插件的形式落地。这个形态很合理，因为大量企业办公系统本来就在浏览器里完成，插件可以比较自然地覆盖这些网页端流程。

隐私方面，它只在当前工作窗口内录屏操作，而不是全局抓取用户屏幕。这一点很重要。GUI Agent 要理解界面，就不可避免需要“看屏幕”，但它能看哪里、记录什么、数据怎么处理，都会影响企业用户的信任。

开放节奏上，360 会先 B 后 C，先在集团内部打磨，之后再逐步开放给外部用户体验。根据播客信息，产品计划在 6 月底于 360 集团内部开放，预计 7、8 月份在 360 人工智能研究院官网research.360.cn对外开放。

另外一个对开发者比较友好的点是：用户可以自定义后台模型，选择自己购买的 API。这意味着它不是完全绑定某一个模型，而更像一个 GUI Agent 执行框架。不同企业可以根据自己的成本、安全和效果需求，选择合适的模型能力。

这对后续生态发展会很关键。因为 GUI Agent 最终拼的不只是单个模型能力，还包括视觉理解、任务规划、样例知识、操作执行、安全控制等一整套工程能力。

结尾：GUI Agent 可能不是最炫的 AI，但会是最常用的 AI

看完这期播客，我对 GUI Agent 的判断是：它不一定是最炫的 AI 方向，但可能是最容易进入日常工作的方向之一。

它不像内容生成那样立刻给人惊艳感，也不像代码 Agent 那样自带技术光环。它做的是点按钮、填表格、跑审批、查后台这些很普通的事。

但办公室里的效率，恰恰经常浪费在这些普通的事上。

未来的 Agent 世界，大概率不会只有一种技术路线。有 API 的地方，就让 AI 走 API；有 MCP、Skill 的地方，就让 AI 调工具；没有接口、系统太老、只能靠人眼操作的地方，就让 GUI Agent 做保底执行。

所以我不觉得 GUI Agent 会吞噬一切，但它很可能会成为 AI 落地真实工作流是不可缺少的一环。

如果说过去的 AI 更像一个坐在聊天框里的聪明顾问，那 GUI Agent 就是那个终于站起来、开始替你点鼠标的新同事。它可能不够浪漫，但足够实用。而很多时候，实用才是技术真正进入日常的开始。

拆AI共识：大模型正在“吞掉”App？聊透GUI-Agent、流量入口与人机共识｜50分钟深度对谈：https://www.bilibili.com/video/BV1nKEw6QEHj。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

海外动态代理行业彻底换代，AI 数据时代新标准已到来

AtomGit开源社区

全球首个！京东全栈开源JoyAI-VL-Interaction，让大模型从“一问一答”走向“边看边说”

AtomGit开源社区

2026年论文写作AI哪个好用？7款工具实测对比，轻松拿捏

AtomGit开源社区

所有评论(0)

查看更多评论

Token_w

@weixin_61587867

已为社区贡献9条内容

AI终于不只会聊天了：从360 GUI Agent看智能体怎么进入真实工作流

Token_w

AI终于不只会聊天了：从360 GUI Agent看智能体怎么进入真实工作流

什么是 GUI Agent：不是更会聊天，而是更会操作界面

为什么 GUI Agent 在企业里很关键

360的核心解法：给 AI 找个“老员工”带路

案例：申请 IT 设备这类流程，正是 GUI Agent 的用武之地

自己的使用感受：它解决的是“我会，但我不想重复做”的事

产品预告：浏览器插件、先B后C、模型可自定义

结尾：GUI Agent 可能不是最炫的 AI，但会是最常用的 AI

所有评论(0)

温馨提示：您尚未绑定手机号

Token_w