AI终于不只会聊天了:从360 GUI Agent看智能体怎么进入真实工作流
AI终于不只会聊天了:从360 GUI Agent看智能体怎么进入真实工作流
过去一年,我对 AI 的使用习惯变化挺明显。
一开始,我更多是让它帮我写东西、改表达、总结资料。后来慢慢开始让它做更复杂的任务,比如拆解需求、整理表格、生成方案。但用久了以后也会发现一个很现实的问题:AI 在聊天框里确实很聪明,可一旦事情要落到某个系统里,它就停住了。
比如我要提交一个申请、查一个内部文档、处理一批审批,AI 可以告诉我步骤,也可以帮我准备文字,但最后打开网页、找到入口、填写字段、上传附件、点击提交,还是得我自己来。
所以看完 360 这期关于 GUI Agent 的播客后,我最大的感受是:AI 真正进入工作流,难点不是“会不会回答”,而是“能不能上手操作”。

图示:360集团《这也叫AI》科技播客
GUI Agent 讲的就是这件事。
什么是 GUI Agent:不是更会聊天,而是更会操作界面
现在提到 Agent,很多人会想到 Manus、OpenClaw 这类产品。它们的核心思路通常是给 AI 配工具,比如 API、MCP、Skill,让 AI 通过这些接口完成任务。
这条路线当然很强。只要系统提供了合适的接口,AI 调用起来就快、准、稳定。但问题是,真实世界里并不是所有系统都准备好了接口。尤其在企业环境里,很多 ERP、审批系统、财务系统、老后台,可能没有开放 API,或者接口不完整,甚至系统本身已经运行很多年,很难为了 AI 重新改造。
GUI Agent 走的是另一条路。
它不要求系统主动适配 AI,而是让 AI 像人一样看屏幕、理解界面、移动鼠标、点击按钮、输入内容。换句话说,它不是等别人把工具递到手里,而是直接学习人怎么使用现有界面。
如果把 Manus、OpenClaw 这类 Agent 比作一套“外挂工具箱”,那 GUI Agent 更像一个有眼睛、有手的新员工。只要人能看见、能点击、能操作的界面,它就有机会模仿人完成任务。

这也是 GUI Agent 最特别的地方。它不一定最炫,也不一定最像科幻电影里的 AI,但它解决的是非常现实的问题:当一个系统没有 API 时,AI 还能不能把活干完?
所以,GUI Agent 不一定是最高效的路线,却可能是最有“保底价值”的路线。有 API 就走 API,没有 API,就靠视觉识别和界面操作把流程跑起来。
为什么 GUI Agent 在企业里很关键
GUI Agent 的价值,在企业办公场景里会特别明显。
因为企业里有大量工作并不复杂,但很消耗人。比如填报销、申请权限、提交 IT 资产、处理审批、录入后台数据、查找指定文档。每个动作拆开看都很简单,但组合起来就变成了很长的流程。
更麻烦的是,这些流程往往还散落在不同系统里。有的在浏览器里,有的在内部平台里,有的页面设计并不友好,有的还需要反复确认信息。
我自己平时也经常遇到这种情况:不是不会做,而是不想重复做。比如把一批信息从文档整理到表格,再去后台逐条录入;或者按照固定规则检查页面配置。做第一遍还能接受,做第十遍就开始烦,做第五十遍就很容易出错。
这类任务恰好是 GUI Agent 的用武之地。
它不像生成式 AI 那样负责“创作”,也不像代码 Agent 那样主要面向开发任务。它更像数字世界里的执行者,负责把那些低创造力、高重复度、规则明确的流程接过去。
从这个角度看,GUI Agent 并不是一个“更会聊天的 AI”,而是 AI 进入真实办公场景的手和脚。
但要让这双“手和脚”真的在企业里跑起来,光会识别按钮还不够。更难的是,它得懂业务。
360的核心解法:给 AI 找个“老员工”带路
GUI Agent 真正落地并不容易。
最大的难点不是识别按钮,而是理解业务。
一个通用模型再聪明,也不可能天然知道一家公司的内部报销制度、审批规则、资产申请路径。它可能看得懂“提交”按钮,也能识别输入框,但它不一定知道这个字段该填什么、这一步为什么要选这个部门、什么时候应该继续、什么时候应该暂停。
这就是 360 在播客中提到的核心问题:通用模型在企业内部业务里会“水土不服”。
360 给出的解法很有工程感,也比较现实:不直接训练大模型,而是做“样例知识注入”。
简单说,就是先让人演示一遍流程。比如一个老员工完整操作一次报销流程,或者演示一次 IT 设备申请流程。系统把这次操作记录下来,沉淀成标准样例,放进知识库里。等 AI 以后遇到类似任务时,再通过上下文工程召回最相关的样例,让它参考这个样例完成操作。
这个思路特别像新人入职。
新员工刚来时,你不会指望他看一眼公司系统就全懂。通常是老同事坐在旁边带一遍:入口在哪、先填什么、哪些字段不能漏、最后点哪个按钮。带过一遍以后,新员工才知道这家公司具体怎么干活。
360 的“样例知识注入”,本质上就是把这个“老员工带路”的过程产品化。

我觉得这个方法的现实意义挺大。
一方面,它不要求企业花很高成本去训练专属模型。对很多公司来说,微调模型成本高、周期长,还涉及数据安全问题。但如果通过样例和知识库来补充业务知识,落地门槛会低很多。
另一方面,它更适合企业内部的敏感场景。很多流程涉及财务、人事、审批权限,企业不一定愿意把数据拿去训练模型。样例本地化、按需召回,会更符合真实业务里的安全边界。
这也是我觉得 360 这套方案可信的地方。它没有把 GUI Agent 说成万能工具,而是承认模型不懂企业内部知识,然后用一个可控的工程方法去补齐。
案例:申请 IT 设备这类流程,正是 GUI Agent 的用武之地
如果一个员工要申请 IT 设备,通常不是简单点一下“提交”就结束了。它可能要先打开内部系统,找到 IT 资产或设备申请入口,再选择设备类型,填写申请原因、使用人、部门、数量、用途说明,然后继续走审批流程。
任务从自然语言开始。用户只需要说明“申请一台 13 寸苹果笔记本”,GUI Agent 就开始读取页面,并规划下一步操作。

接下来,Agent 需要在系统里找到正确入口。它会进入“新建事项”,搜索 IT 资产/耗材申请单,再进入具体业务流程。
Agent 在“新建事项”中搜索 IT 资产/耗材申请单,说明它需要先找到正确入口,再进入具体业务流程。
这一步其实很关键。很多企业系统的问题不在于某个按钮多难点,而是入口藏得深、菜单层级多、页面之间跳转复杂。人用久了会形成肌肉记忆,但新员工第一次操作时往往也要问同事。GUI Agent 要真正落地,也必须能处理这种“先找入口、再办事”的场景。
进入申请单之后,任务开始变得更具体。它不只是点按钮,还要识别表格、下拉框、必填字段和提示信息。比如设备类别要选 IT 电子设备,资产设备名称要选择具体设备,需求明细和申请原因也要按业务要求填写。

进入申请单后,Agent 需要识别表格、下拉选项、必填输入框等页面元素,并判断当前步骤应该填写什么。
如果中途字段漏填、选项不对、页面跳转失败,流程就可能卡住。这类任务单看每一步都不难,但完整跑下来很碎,也很考验稳定性。对人来说,它是一件“会做但不想反复做”的事;对 GUI Agent 来说,它正好可以展示自己是否真的能理解页面、连续执行、处理长链路流程。

在多步操作后,Agent 已完成设备类别、资产名称、用途、需求明细、申请原因等字段填写,体现了长链路流程执行能力。

播客里还提到一个很有画面感的研发瞬间:360 团队曾在内部 ERP 系统上跑通一个 IT 资产申请流程,整个流程高达 27 步。这个例子让我印象挺深,因为它不是“打开网页点一下”这种简单演示,而是真正贴近企业内部流程。
更有意思的是,测试过程中 Agent 还自动提交了 600 多个资产申请,把审批后台堆满了。后来团队又实现了一键驳回这些申请。这个场景听起来有点戏剧化,但它说明 GUI Agent 已经开始接近真实办公场景里的批量处理需求。

企业里很多工作,本来就是这样:重复、批量、规则明确,但人做起来很累。GUI Agent 如果能稳定处理这一类任务,价值会非常具体。
自己的使用感受:它解决的是“我会,但我不想重复做”的事
我对 GUI Agent 最直接的期待,不是让它替我做复杂决策,而是替我处理那些重复动作。
比如查找指定文档。AI 可以帮我理解关键词,但如果它能自己打开文档系统,按作者、标题、内容线索去搜索,再把结果整理出来,那就更接近真正的助手。
再比如审批处理。很多审批并不需要复杂判断,只是按照规则看字段是否完整、材料是否齐全、金额是否在范围内。人当然能做,但一直做会很消耗注意力。
还有后台录入、信息核对、表格搬运、权限申请这些任务,也都是类似逻辑。它们不是特别难,却会不断打断人的工作节奏。
这也是我为什么觉得 GUI Agent 有现实意义。它解决的不是“人不会做”的问题,而是“人不想把时间耗在这些重复操作上”的问题。
当然,这里也不能过度乐观。GUI Agent 真要大规模使用,还需要解决很多问题。比如页面变化后能不能适应,遇到异常弹窗怎么办,执行速度够不够快,误操作怎么回滚,权限和隐私边界怎么管。
但至少方向是清楚的:AI 不能永远停在聊天框里。它必须进入真实系统,面对真实流程,处理真实的不完美界面。
产品预告:浏览器插件、先B后C、模型可自定义
这期播客最后也提到了 360 GUI Agent 的产品化计划。
按照目前的预告,360 的 GUI Agent 会先以浏览器插件的形式落地。这个形态很合理,因为大量企业办公系统本来就在浏览器里完成,插件可以比较自然地覆盖这些网页端流程。
隐私方面,它只在当前工作窗口内录屏操作,而不是全局抓取用户屏幕。这一点很重要。GUI Agent 要理解界面,就不可避免需要“看屏幕”,但它能看哪里、记录什么、数据怎么处理,都会影响企业用户的信任。
开放节奏上,360 会先 B 后 C,先在集团内部打磨,之后再逐步开放给外部用户体验。根据播客信息,产品计划在 6 月底于 360 集团内部开放,预计 7、8 月份在 360 人工智能研究院官网research.360.cn对外开放。
另外一个对开发者比较友好的点是:用户可以自定义后台模型,选择自己购买的 API。这意味着它不是完全绑定某一个模型,而更像一个 GUI Agent 执行框架。不同企业可以根据自己的成本、安全和效果需求,选择合适的模型能力。
这对后续生态发展会很关键。因为 GUI Agent 最终拼的不只是单个模型能力,还包括视觉理解、任务规划、样例知识、操作执行、安全控制等一整套工程能力。
结尾:GUI Agent 可能不是最炫的 AI,但会是最常用的 AI
看完这期播客,我对 GUI Agent 的判断是:它不一定是最炫的 AI 方向,但可能是最容易进入日常工作的方向之一。
它不像内容生成那样立刻给人惊艳感,也不像代码 Agent 那样自带技术光环。它做的是点按钮、填表格、跑审批、查后台这些很普通的事。
但办公室里的效率,恰恰经常浪费在这些普通的事上。
未来的 Agent 世界,大概率不会只有一种技术路线。有 API 的地方,就让 AI 走 API;有 MCP、Skill 的地方,就让 AI 调工具;没有接口、系统太老、只能靠人眼操作的地方,就让 GUI Agent 做保底执行。
所以我不觉得 GUI Agent 会吞噬一切,但它很可能会成为 AI 落地真实工作流是不可缺少的一环。
如果说过去的 AI 更像一个坐在聊天框里的聪明顾问,那 GUI Agent 就是那个终于站起来、开始替你点鼠标的新同事。它可能不够浪漫,但足够实用。而很多时候,实用才是技术真正进入日常的开始。
拆AI共识:大模型正在“吞掉”App?聊透GUI-Agent、流量入口与人机共识|50分钟深度对谈:https://www.bilibili.com/video/BV1nKEw6QEHj。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)