拒绝空谈AGI,聊聊干“脏活累活”的GUI Agent:看360新播客有感,兼谈大模型落地的最后一公里

在这里插入图片描述

最近科技圈里的Agent概念简直卷上了天。从全网刷屏的Manus,到各种开源的OpenClaw、Claude Code,每个产品出来都在宣称要“颠覆软件生态”、“消灭传统APP”。作为一个每天被各种需求和琐碎业务淹没的互联网打工人,起初我也跟着兴奋了一阵,但热情退去后,回到现实工作里依然充满绝望:

打开公司那套十几年前开发的、连个标准API都没有的陈旧ERP系统,或者去填写那个极其反人类的内网报销表单时,那些能写诗、会画画、能在干净的沙箱里写代码的高大上Agent全抓瞎了。企业内部高耸的数据壁垒和复杂的业务流程,成了通用大模型无法逾越的鸿沟。

直到我看了360人工智能研究院负责人冷大炜博士最新的播客视频,整个人有种被点醒的感觉。这期播客没有去“尬吹”那些不切实际的宏大叙事,而是站在一个理性AI从业者的视角,把目光投向了一个极具保底价值、专门干“脏活累活”的方向——GUI Agent(图形用户界面智能体)


一、 路线之争:为什么说GUI Agent是未来数字世界的“保底执行者”?

在这里插入图片描述

播客里冷大炜博士用非常直白的话语,帮我们理清了当前Agent领域的两条核心技术路线分歧:

  • 路径一:“主动性适配”的API驱动类Agent(如Manus、OpenClaw等)。 这类路线需要目标系统为AI“主动适配”,提供专门的API、MCP(模型上下文协议)或者Skill接口。这就像是在为AI专门定制一套专用的现代化工具,它功能强大,但极度依赖系统底层的开放程度和别人的开发进度。
  • 路径二:“原生模仿”的GUI Agent。 这一路径的核心在于**“不依赖于系统对它主动适配”**。它就像是一个长了眼睛、会用双手操作电脑的“数字新员工”。它的核心是纯视觉方案,只要人类员工能看懂的界面、能点击的按钮,它就能通过识别、理解、规划去模仿操作。

从行业趋势和背景来看,API驱动固然是最高效的理想状态,但现实的数字世界是极其割裂的。全球有无数的中小企业、政府机构甚至大型集团,内部充斥着大量缺乏维护、没有API接口的遗留系统。想要为了AI把这些系统全部重构,成本高到不可想象。

因此,GUI Agent提供了一条最接近人类原生行为的、无需系统改造的终极保底方案。它虽然看起来不像能写诗作画那样“性感”,但它是未来Agent世界里不可或缺的“手”和“脚”,专门用来打通自动化落地的“最后一公里”。


二、 现场Demo拆解:从“翻车”到“丝滑泛化”,AI是如何学会做业务的?

在这里插入图片描述

看这期播客时,最吸引我的是关于**“未录制样例前执行失败 -> 人工录制轨迹 -> 录制样例后再次执行成功”**的完整闭环流程。这一段生动地展示了GUI Agent是如何真正具备“泛化”和落地能力的:

  1. 第一阶段:零样本执行的“水土不服”(执行失败)。 由于大模型根本不知道360公司内部特定的缩写、审批层级和特殊的下拉菜单选择逻辑,它只能像个无头苍蝇一样在界面上乱点,或者因为理解错了一个内部业务词汇而直接卡死、报错,导致任务执行失败
  2. 第二阶段:老员工现场教做人(人工录制轨迹)。 面对失败,团队没有去苦逼地重新训练大模型,而是开启了一个极其轻量化的“录制”功能。
  3. 第三阶段:触类旁通的智能泛化(相似任务成功完成)。 最精彩的地方来了。录制完样例后,给AI布置了一个相似但绝对不同的新任务。此时的GUI Agent并没有死板地去机械重复鼠标坐标,而是通过上下文工程召回了刚刚录制的样例作为参考。它看懂了样例的“意图”,识别出新界面上不同的表单选项,智能地完成了文本输入和跨长链条的点击,最终成功完成了任务

视频里还披露了360在研发过程中的两个“Aha Moment(顿悟时刻)”,听得让人直起鸡皮疙瘩:一个是他们在内部ERP系统上,自动跑通了一个高达27步的标准IT资产申请长流程;另一个是在测试时,Agent由于效率太高,一口气自动提交了600多个资产申请,直接把审批后台给堆满了,直到团队开发出“一键自动驳回”功能时,才意识到这个产品的提效潜力有多恐怖。


三、 360的核心解法:“给AI找个‘老员工’带路”

在这里插入图片描述

通用模型不懂企业内部知识,这是所有B端AI落地最核心的痛点。比如,大模型再聪明,也绝不可能预知某家特定公司的具体报销制度和审批流向。

面对这个难题,行业普遍的做法是去微调(Fine-tuning)私有化大模型,但动辄几十万上百万的算力成本、漫长的训练周期以及敏感的数据隐私问题,让绝大多数中小企业望而却步。

播客中详细介绍了360的独家工程化解法——“样例知识注入”

这套解法的核心理念非常朴素且高明:我们不训练、不微调大模型,而是直接给AI找个“老员工”带路

  • 具体路径: 把企业内部复杂的任务流程(如报销、SSC审批)由人工实际操作演示一遍,系统将这次演示的视觉轨迹和操作逻辑记录为标准样例,并存入本地知识库。
  • 执行机制: 当AI未来执行类似任务时,通过上下文工程(Context Engineering)在本地自动召回最相关的样例进行实时参考。大模型只需要负责“照葫芦画瓢”的推理识别,而不需要记住知识。

站在开发者的角度来看,这是一种极其务实且聪明的工程化手段。它不仅成本完全可控,而且能够做到数据完全本地化,完美切中了千千万万无法投入巨资定制模型的中小企业的刚需。


四、 结合日常的活人碎碎念:提问和审美,才是我们最后的护城河

看完这期视频,再结合我平时用AI的血泪史,最大的感受就是:别再去狂啃网上那些几万字、看似高大上的“Prompt万能秘籍”了。 以前为了让大模型帮我干点活,我天天在聊天框里给它加各种设定:“假定你是世界顶级财务专家,现在有一张表……”结果只要表格稍微变个格式,AI立马开始胡言乱语。看了360的Demo我才明白,未来的交互不应该是卷文字Prompt,而是卷**“交互轨迹”**。我直接做一遍给AI看,比我写一万字提示词都管用。

当GUI Agent作为数字世界的软件机器人,在几秒钟内就能不知倦怠地帮你填完几百张报表、走完几十步审批流程时,我们作为“活人”的价值到底在哪里?

未来的职场人,角色会越来越像一个“总监”或者“产品经理”。那些机械的、重复的、纯体力的信息搬运工作,GUI Agent会全盘接管。而我们最核心的资产,将变成准确定义问题的提问能力,以及对AI输出结果进行把关的业务审美与评判能力

关于行业内盛行的“APP消失论”,冷大炜博士在播客中也给出了非常理性的拆解:那些纯粹功能性的、工具类的APP(如单纯的点外卖、打车入口)流量确实会被GUI Agent无情越过和吞噬;但内容和娱乐属性的APP(如短视频、虚拟陪伴等)依然会繁荣。它吞噬的是功能,而不是整个软件生态。


五、 产品动作预告:属于开发者的福利来了

对于各位CSDN的开发者和技术爱好者来说,这期播客不仅带来了认知上的刷新,还带来了一个非常明确的“产品钩子”:

  1. 产品形态: 360的GUI Agent未来将以浏览器插件的形式轻量化落地。它极其克制,仅在当前工作窗口内录屏操作,绝不窥探用户其他隐私,从底层打消了企业和个人的隐私焦虑。
  2. 模型灵活: 该工具支持用户自定义后台模型。你可以自由接入自己购买或习惯使用的任何主流大模型API,把选择权完全交还给开发者。
  3. 落地时间表:
    6月底:率先在360集团内部开放进行高强度打磨。
    7、8月份:预计正式在官网直接 research.360.cn 对外开放体验。

如果你也受够了每天在各种遗留系统里做机械重复的点击,受够了被高筑的业务壁垒折磨,不妨届时去官网申请测试,亲自体验一下这个纯视觉保底的“软件机器人”到底能帮我们省下多少摸鱼的时间。


本期精彩播客视频传送门:
点击观看360老周播客:聊透GUI Agent与大模型落地的最后一公里

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐