今天这4条AI新闻有点猛:龙虾学会玩手机,Slack也开始塞Agent了

今天这波新闻我看下来,最大的感受就一句:AI 不满足于回答问题了,它开始抢流程入口。

有的在抢手机操作入口,有的在抢机器人闭环,有的在抢用户调研,还有的直接往办公聊天框里塞 Agent。比起单纯刷榜,我更愿意看这种新闻。

今日重点图


我先给这 4 条新闻排了个优先级

逻辑很简单:闭环能力、落地距离、开发者可借鉴性 三个维度各 10 分。

1| topics = {
2|   "ClawGUI":     {"loop": 9, "delivery": 8, "dev_value": 9},
3|   "ABot":        {"loop": 10, "delivery": 6, "dev_value": 8},
4|   "Listen Labs": {"loop": 8, "delivery": 9, "dev_value": 7},
5|   "Slackbot":    {"loop": 7, "delivery": 9, "dev_value": 8},
6| }
7| for name, score in topics.items():
8|     print(name, sum(score.values()))

输出是:

ClawGUI 26
ABot 24
Listen Labs 24
Slackbot 24

这几乎就是今天的风向:大家拼的不是谁最会答题,而是谁最能把事情接住。


1)ClawGUI:GUI Agent 终于不再是“三段式手工作坊”了

量子位那篇《教龙虾玩手机》标题有点整活,但内容不水。浙大 ZJU-REAL 团队做的 ClawGUI,最关键的不是新模型,而是把 训练、评测、真机部署 这三件事接到了一起。

过去很多 GUI Agent 项目都有个老毛病:训练是一套环境,评测是另一套 benchmark,真要上手机又要重写一层。看起来很强,落地时就开始散架。

模块 作用 值得看的点
ClawGUI-RL 在线强化学习训练 虚拟 Android 和物理手机接口统一
ClawGUI-Eval 标准化评测 Infer → Judge → Metric 三段式流程
OpenClaw-GUI 真机部署 Android / 鸿蒙 / iOS 都给了路径

文中的几个数字我觉得可以记一下:ClawGUI-2B 在 MobileWorld 上做到 17.1 SR,对比基线 11.1;评测覆盖 6 个 benchmark、11+ 模型;官方 claim 是 48 个基准格子复现了 46 个,复现率 95.8%

这条新闻真正值钱的地方在于:它在补 GUI Agent 的工程闭环,而不是只刷一个单点分数。 奖励设计也很工程化——结果奖励给 0/1,再加 PRM 逐步奖励,专门对付手机操作这种长链路任务。

当然,真机训练的坑不会因为论文好看就消失。登录态、动态 UI、权限弹窗这些问题一个都不会少。所以我的判断是:ClawGUI 很值得跟,但还没到闭眼进生产的程度。


2)高德 ABot:地图厂这次不是做导航,是在做机器人的长期记忆

第二条我觉得比表面更有料。高德这次发的 ABot,不是只抛一个模型,而是想把 数据层、模型层、执行层 一起转成飞轮。

它的结构大概是这样:

  • ABot-World:世界模型层
  • ABot-N / ABot-M:导航与操作基座模型
  • ABot-Claw:执行与应用层

报道里有几个很猛的 claim:比如 ABot-World 用 14B DiT 架构;数据侧有 万级 3D 场景、百万级推理数据、千万级训练轨迹;整套 ABot 系列在 15 项权威基准 上拿到 SOTA。还有个我特别在意的概念——Map as Memory。也就是说,地图不只是底图,而是给机器人共享状态、上下文和长期记忆的一层外部脑子。

这玩意儿为什么值得看?因为它提醒了一个经常被忽略的事实:做具身智能,不一定只有模型公司有优势,握着空间数据的人也很危险。 一旦地图、场景、反馈和执行全接起来,机器人就不只是“会走路”,而是开始拥有持续迭代的系统能力。

不过我还是建议谨慎看待“全球首个”“全面领先”这类表述。厂商发布最爱这么写,真正要下结论,还得看后续能不能给出更完整的第三方复现和分数表。高德这条路线最大的门槛,恰恰也是它的护城河:地图和时空数据资产不是普通团队想补就能补出来的。

顺着这个话题说一句,做多模型、多智能体接入的团队,最后常常不是卡在能力,而是卡在协议和接入层。像 Right Codes 这类 AI Agent API 中转平台,对企业开发就挺现实:不同模型统一接,省得自己到处补适配。推荐码按规矩拆开留:4119e212,地址是 h t t p s : / / w w w . r i g h t . c o d e s / r e g i s t e r ? a f f = 4 1 1 9 e 2 1 2


3)Listen Labs:AI 现在连用户访谈也想一口气包掉

第三条来自英文源。VentureBeat 报道 Listen Labs 完成 6900 万美元融资,而公司公开材料给出的说法是:最新一轮之后,累计融资达到 1 亿美元

它做的事情很直接:招募用户、做 AI 主持访谈、整理洞察、生成报告和 deck。这已经不是“AI 帮你润色文案”了,而是在吃掉一条完整的研究流程。

官方给的数字挺夸张:

  • 上线 9 个月,年化收入增长 15 倍
  • 已访谈 100 万+ 用户
  • 支持 100+ 语言
  • 参与者网络 3000 万+

如果这些数字后面还能继续站住,那它对产品团队的冲击会很直接。传统用户研究最耗时间的,往往不是分析本身,而是招募、排期、执行、整理。AI 一旦把这几段都吃进去,产品验证周期会被压得非常短。

但这条新闻最值得警惕的地方也在这儿:访谈自动化,不等于洞察自动化。 样本偏差、问题设计、追问质量、文化语境,这些问题不会因为页面更漂亮就消失。报告生成得越快,团队越容易对“看起来很完整的答案”产生过度信任。

还有个现实问题——一旦业务批量跑起来,成本和接入复杂度会突然变烦。像 PackyAPI 这种聚合平台,一个 key 调 Claude、GPT、Gemini,做原型和多模型 AB test 会省心不少。推荐码是 cuiL,地址我拆开写在这:h t t p s : / / w w w . p a c k y a p i . c o m / r e g i s t e r ? a f f = c u i L


4)Salesforce 新 Slackbot:以后办公室里最忙的同事,可能就是那个聊天框

第四条我觉得很多人会低估。Salesforce 把新版 Slackbot 推成“你在工作里的个人 Agent”,本质上是在把 Slack 重新焊成 Agentforce 360 的入口层

这和以前企业助手最大的不同,是它不想让你再多开一个 AI 页面,而是直接把能力塞进员工天天待着的地方:聊天、频道、任务、会议、权限上下文,全在一个壳里。

官方给的能力包括查答案、整理工作、生成内容、安排会议、执行动作。真正重要的点不在“会不会总结”,而在 能不能基于企业权限和工作流去真的动手

我个人很认这条产品路线。因为接下来企业 AI 打的就是这仗:谁能成为员工默认打开的 Agent 入口。 微软有 Teams + Copilot,谷歌有 Workspace + Gemini,Salesforce 现在就是在抢 Slack 这个入口位。

对开发者来说,这条新闻也很现实:以后企业应用如果没有权限模型、检索接口、动作接口,接 Agent 会越来越难。只会做一个“会聊天的机器人”,真的不太够用了。


还有两条小项目,我觉得开发者可以顺手盯一下

Freebuff2API:把免费模型包成 OpenAI API,这思路太接地气了

GitHub 上的 Quorinex/Freebuff2API 现在大概 324 stars。它本质上是个 OpenAI 兼容代理,把 Freebuff / Codebuff 的接口包成 /v1/chat/completions 这种大家熟悉的格式。开发者为什么会喜欢?因为几乎不用改已有 SDK 和脚本,就能直接接进去。

我觉得这类项目会持续有人做。原因很简单:大家不是先问模型多先进,而是先问能不能接、多少钱、要不要重写代码。 风险也摆在那儿——它强依赖上游接口和 token 轮换,稳定性、合规性都别太乐观。

agents-md:AI 编码终于开始讲纪律了

另一个是 TheRealSeanDonahoe/agents-md,大概 172 stars。它不是传统代码库,而是一份丢在仓库根目录的 AGENTS.md 模板,专门拿来约束编码 Agent 的行为。

这东西一点不花哨,但很实用。因为很多团队现在的真实痛点不是模型不会写,而是它爱乱猜、爱顺手重构、爱说“做完了”却没验证。把行为规则沉到仓库里,反而是更工程化的一步。


我最后的判断

把今天这 4 条新闻拼起来看,层次其实很清楚:

  • ClawGUI 在抢设备与 GUI 操作入口
  • ABot 在抢世界模型和具身闭环
  • Listen Labs 在抢用户研究流程
  • Slackbot 在抢办公室工作台入口

这说明一件事:AI 的竞争正在从“谁最聪明”切到“谁最能接活”。

我也挺看重国产生态后面的补位空间。像智谱 BigModel 最近在推理、代码、智能体接入上追得很快,尤其是 API 兼容这件事,对开发者非常关键。邀请码照旧拆开留一下:P4su9wiQcAGFznwtHQz+ubC/k7jQAKmT1mpEiZXXnFw=,完整地址是 h t t p s : / / w w w . b i g m o d e l . c n / i n v i t e ? i c o d e = P 4 s u 9 w i Q c A G F z n w t H Q z % 2 B u b C % 2 F k 7 j Q A K m T 1 m p E i Z X X n F w % 3 D

说实话,比起又来一个榜单新王,我更关心这些“开始接活”的系统能走多远。真要改行业,最后靠的不是炫技,而是谁能把流程接住、把脏活累活干完。


消息源

  • QbitAI:ClawGUI GUI Agent 全流程报道
  • QbitAI:高德 ABot 全栈具身体系报道
  • VentureBeat / Listen Labs 官方材料:Listen Labs 融资与产品数据
  • Salesforce 官方公告 / VentureBeat:新版 Slackbot Agent 能力
  • GitHub:Quorinex/Freebuff2API、TheRealSeanDonahoe/agents-md

标签: AI,开源,Agent,GUI智能体,具身智能,Slackbot,用户研究

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐