拒绝空谈AGI，聊聊干“脏活累活”的GUI-Agent：看360新播客有感，兼谈大模型落地的最后一公里

zzztutu

387人浏览 · 2026-06-08 12:24:10

zzztutu · 2026-06-08 12:24:10 发布

拒绝空谈AGI，聊聊干“脏活累活”的GUI Agent：看360新播客有感，兼谈大模型落地的最后一公里

在这里插入图片描述

最近科技圈里的Agent概念简直卷上了天。从全网刷屏的Manus，到各种开源的OpenClaw、Claude Code，每个产品出来都在宣称要“颠覆软件生态”、“消灭传统APP”。作为一个每天被各种需求和琐碎业务淹没的互联网打工人，起初我也跟着兴奋了一阵，但热情退去后，回到现实工作里依然充满绝望：

打开公司那套十几年前开发的、连个标准API都没有的陈旧ERP系统，或者去填写那个极其反人类的内网报销表单时，那些能写诗、会画画、能在干净的沙箱里写代码的高大上Agent全抓瞎了。企业内部高耸的数据壁垒和复杂的业务流程，成了通用大模型无法逾越的鸿沟。

直到我看了360人工智能研究院负责人冷大炜博士最新的播客视频，整个人有种被点醒的感觉。这期播客没有去“尬吹”那些不切实际的宏大叙事，而是站在一个理性AI从业者的视角，把目光投向了一个极具保底价值、专门干“脏活累活”的方向——GUI Agent（图形用户界面智能体）。

一、路线之争：为什么说GUI Agent是未来数字世界的“保底执行者”？

在这里插入图片描述

播客里冷大炜博士用非常直白的话语，帮我们理清了当前Agent领域的两条核心技术路线分歧：

路径一：“主动性适配”的API驱动类Agent（如Manus、OpenClaw等）。 这类路线需要目标系统为AI“主动适配”，提供专门的API、MCP（模型上下文协议）或者Skill接口。这就像是在为AI专门定制一套专用的现代化工具，它功能强大，但极度依赖系统底层的开放程度和别人的开发进度。
路径二：“原生模仿”的GUI Agent。 这一路径的核心在于**“不依赖于系统对它主动适配”**。它就像是一个长了眼睛、会用双手操作电脑的“数字新员工”。它的核心是纯视觉方案，只要人类员工能看懂的界面、能点击的按钮，它就能通过识别、理解、规划去模仿操作。

从行业趋势和背景来看，API驱动固然是最高效的理想状态，但现实的数字世界是极其割裂的。全球有无数的中小企业、政府机构甚至大型集团，内部充斥着大量缺乏维护、没有API接口的遗留系统。想要为了AI把这些系统全部重构，成本高到不可想象。

因此，GUI Agent提供了一条最接近人类原生行为的、无需系统改造的终极保底方案。它虽然看起来不像能写诗作画那样“性感”，但它是未来Agent世界里不可或缺的“手”和“脚”，专门用来打通自动化落地的“最后一公里”。

二、现场Demo拆解：从“翻车”到“丝滑泛化”，AI是如何学会做业务的？

在这里插入图片描述

看这期播客时，最吸引我的是关于**“未录制样例前执行失败 -> 人工录制轨迹 -> 录制样例后再次执行成功”**的完整闭环流程。这一段生动地展示了GUI Agent是如何真正具备“泛化”和落地能力的：

第一阶段：零样本执行的“水土不服”（执行失败）。 由于大模型根本不知道360公司内部特定的缩写、审批层级和特殊的下拉菜单选择逻辑，它只能像个无头苍蝇一样在界面上乱点，或者因为理解错了一个内部业务词汇而直接卡死、报错，导致任务执行失败。
第二阶段：老员工现场教做人（人工录制轨迹）。 面对失败，团队没有去苦逼地重新训练大模型，而是开启了一个极其轻量化的“录制”功能。
第三阶段：触类旁通的智能泛化（相似任务成功完成）。 最精彩的地方来了。录制完样例后，给AI布置了一个相似但绝对不同的新任务。此时的GUI Agent并没有死板地去机械重复鼠标坐标，而是通过上下文工程召回了刚刚录制的样例作为参考。它看懂了样例的“意图”，识别出新界面上不同的表单选项，智能地完成了文本输入和跨长链条的点击，最终成功完成了任务。

视频里还披露了360在研发过程中的两个“Aha Moment（顿悟时刻）”，听得让人直起鸡皮疙瘩：一个是他们在内部ERP系统上，自动跑通了一个高达27步的标准IT资产申请长流程；另一个是在测试时，Agent由于效率太高，一口气自动提交了600多个资产申请，直接把审批后台给堆满了，直到团队开发出“一键自动驳回”功能时，才意识到这个产品的提效潜力有多恐怖。

三、 360的核心解法：“给AI找个‘老员工’带路”

在这里插入图片描述

通用模型不懂企业内部知识，这是所有B端AI落地最核心的痛点。比如，大模型再聪明，也绝不可能预知某家特定公司的具体报销制度和审批流向。

面对这个难题，行业普遍的做法是去微调（Fine-tuning）私有化大模型，但动辄几十万上百万的算力成本、漫长的训练周期以及敏感的数据隐私问题，让绝大多数中小企业望而却步。

播客中详细介绍了360的独家工程化解法——“样例知识注入”。

这套解法的核心理念非常朴素且高明：我们不训练、不微调大模型，而是直接给AI找个“老员工”带路。

具体路径： 把企业内部复杂的任务流程（如报销、SSC审批）由人工实际操作演示一遍，系统将这次演示的视觉轨迹和操作逻辑记录为标准样例，并存入本地知识库。
执行机制： 当AI未来执行类似任务时，通过上下文工程（Context Engineering）在本地自动召回最相关的样例进行实时参考。大模型只需要负责“照葫芦画瓢”的推理识别，而不需要记住知识。

站在开发者的角度来看，这是一种极其务实且聪明的工程化手段。它不仅成本完全可控，而且能够做到数据完全本地化，完美切中了千千万万无法投入巨资定制模型的中小企业的刚需。

四、结合日常的活人碎碎念：提问和审美，才是我们最后的护城河

看完这期视频，再结合我平时用AI的血泪史，最大的感受就是：别再去狂啃网上那些几万字、看似高大上的“Prompt万能秘籍”了。 以前为了让大模型帮我干点活，我天天在聊天框里给它加各种设定：“假定你是世界顶级财务专家，现在有一张表……”结果只要表格稍微变个格式，AI立马开始胡言乱语。看了360的Demo我才明白，未来的交互不应该是卷文字Prompt，而是卷**“交互轨迹”**。我直接做一遍给AI看，比我写一万字提示词都管用。

当GUI Agent作为数字世界的软件机器人，在几秒钟内就能不知倦怠地帮你填完几百张报表、走完几十步审批流程时，我们作为“活人”的价值到底在哪里？

未来的职场人，角色会越来越像一个“总监”或者“产品经理”。那些机械的、重复的、纯体力的信息搬运工作，GUI Agent会全盘接管。而我们最核心的资产，将变成准确定义问题的提问能力，以及对AI输出结果进行把关的业务审美与评判能力。

关于行业内盛行的“APP消失论”，冷大炜博士在播客中也给出了非常理性的拆解：那些纯粹功能性的、工具类的APP（如单纯的点外卖、打车入口）流量确实会被GUI Agent无情越过和吞噬；但内容和娱乐属性的APP（如短视频、虚拟陪伴等）依然会繁荣。它吞噬的是功能，而不是整个软件生态。

五、产品动作预告：属于开发者的福利来了

对于各位CSDN的开发者和技术爱好者来说，这期播客不仅带来了认知上的刷新，还带来了一个非常明确的“产品钩子”：

产品形态： 360的GUI Agent未来将以浏览器插件的形式轻量化落地。它极其克制，仅在当前工作窗口内录屏操作，绝不窥探用户其他隐私，从底层打消了企业和个人的隐私焦虑。
模型灵活： 该工具支持用户自定义后台模型。你可以自由接入自己购买或习惯使用的任何主流大模型API，把选择权完全交还给开发者。
落地时间表：
6月底：率先在360集团内部开放进行高强度打磨。
7、8月份：预计正式在官网直接 research.360.cn 对外开放体验。

如果你也受够了每天在各种遗留系统里做机械重复的点击，受够了被高筑的业务壁垒折磨，不妨届时去官网申请测试，亲自体验一下这个纯视觉保底的“软件机器人”到底能帮我们省下多少摸鱼的时间。

本期精彩播客视频传送门：
点击观看360老周播客：聊透GUI Agent与大模型落地的最后一公里

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐