今天这4条AI新闻有点猛：龙虾学会玩手机，Slack也开始塞Agent了

YXHPY

453人浏览 · 2026-04-20 09:38:29

YXHPY · 2026-04-20 09:38:29 发布

今天这4条AI新闻有点猛：龙虾学会玩手机，Slack也开始塞Agent了

今天这波新闻我看下来，最大的感受就一句：AI 不满足于回答问题了，它开始抢流程入口。

有的在抢手机操作入口，有的在抢机器人闭环，有的在抢用户调研，还有的直接往办公聊天框里塞 Agent。比起单纯刷榜，我更愿意看这种新闻。

今日重点图

我先给这 4 条新闻排了个优先级

逻辑很简单：闭环能力、落地距离、开发者可借鉴性 三个维度各 10 分。

1| topics = {
2|   "ClawGUI":     {"loop": 9, "delivery": 8, "dev_value": 9},
3|   "ABot":        {"loop": 10, "delivery": 6, "dev_value": 8},
4|   "Listen Labs": {"loop": 8, "delivery": 9, "dev_value": 7},
5|   "Slackbot":    {"loop": 7, "delivery": 9, "dev_value": 8},
6| }
7| for name, score in topics.items():
8|     print(name, sum(score.values()))

输出是：

ClawGUI 26
ABot 24
Listen Labs 24
Slackbot 24

这几乎就是今天的风向：大家拼的不是谁最会答题，而是谁最能把事情接住。

1）ClawGUI：GUI Agent 终于不再是“三段式手工作坊”了

量子位那篇《教龙虾玩手机》标题有点整活，但内容不水。浙大 ZJU-REAL 团队做的 ClawGUI，最关键的不是新模型，而是把 训练、评测、真机部署 这三件事接到了一起。

过去很多 GUI Agent 项目都有个老毛病：训练是一套环境，评测是另一套 benchmark，真要上手机又要重写一层。看起来很强，落地时就开始散架。

模块	作用	值得看的点
ClawGUI-RL	在线强化学习训练	虚拟 Android 和物理手机接口统一
ClawGUI-Eval	标准化评测	Infer → Judge → Metric 三段式流程
OpenClaw-GUI	真机部署	Android / 鸿蒙 / iOS 都给了路径

文中的几个数字我觉得可以记一下：ClawGUI-2B 在 MobileWorld 上做到 17.1 SR，对比基线 11.1；评测覆盖 6 个 benchmark、11+ 模型；官方 claim 是 48 个基准格子复现了 46 个，复现率 95.8%。

这条新闻真正值钱的地方在于：它在补 GUI Agent 的工程闭环，而不是只刷一个单点分数。 奖励设计也很工程化——结果奖励给 0/1，再加 PRM 逐步奖励，专门对付手机操作这种长链路任务。

当然，真机训练的坑不会因为论文好看就消失。登录态、动态 UI、权限弹窗这些问题一个都不会少。所以我的判断是：ClawGUI 很值得跟，但还没到闭眼进生产的程度。

2）高德 ABot：地图厂这次不是做导航，是在做机器人的长期记忆

第二条我觉得比表面更有料。高德这次发的 ABot，不是只抛一个模型，而是想把 数据层、模型层、执行层 一起转成飞轮。

它的结构大概是这样：

ABot-World：世界模型层
ABot-N / ABot-M：导航与操作基座模型
ABot-Claw：执行与应用层

报道里有几个很猛的 claim：比如 ABot-World 用 14B DiT 架构；数据侧有 万级 3D 场景、百万级推理数据、千万级训练轨迹；整套 ABot 系列在 15 项权威基准 上拿到 SOTA。还有个我特别在意的概念——Map as Memory。也就是说，地图不只是底图，而是给机器人共享状态、上下文和长期记忆的一层外部脑子。

这玩意儿为什么值得看？因为它提醒了一个经常被忽略的事实：做具身智能，不一定只有模型公司有优势，握着空间数据的人也很危险。 一旦地图、场景、反馈和执行全接起来，机器人就不只是“会走路”，而是开始拥有持续迭代的系统能力。

不过我还是建议谨慎看待“全球首个”“全面领先”这类表述。厂商发布最爱这么写，真正要下结论，还得看后续能不能给出更完整的第三方复现和分数表。高德这条路线最大的门槛，恰恰也是它的护城河：地图和时空数据资产不是普通团队想补就能补出来的。

顺着这个话题说一句，做多模型、多智能体接入的团队，最后常常不是卡在能力，而是卡在协议和接入层。像 Right Codes 这类 AI Agent API 中转平台，对企业开发就挺现实：不同模型统一接，省得自己到处补适配。推荐码按规矩拆开留：4119e212，地址是 h t t p s : / / w w w . r i g h t . c o d e s / r e g i s t e r ? a f f = 4 1 1 9 e 2 1 2

3）Listen Labs：AI 现在连用户访谈也想一口气包掉

第三条来自英文源。VentureBeat 报道 Listen Labs 完成 6900 万美元融资，而公司公开材料给出的说法是：最新一轮之后，累计融资达到 1 亿美元。

它做的事情很直接：招募用户、做 AI 主持访谈、整理洞察、生成报告和 deck。这已经不是“AI 帮你润色文案”了，而是在吃掉一条完整的研究流程。

官方给的数字挺夸张：

上线 9 个月，年化收入增长 15 倍
已访谈 100 万+ 用户
支持 100+ 语言
参与者网络 3000 万+

如果这些数字后面还能继续站住，那它对产品团队的冲击会很直接。传统用户研究最耗时间的，往往不是分析本身，而是招募、排期、执行、整理。AI 一旦把这几段都吃进去，产品验证周期会被压得非常短。

但这条新闻最值得警惕的地方也在这儿：访谈自动化，不等于洞察自动化。 样本偏差、问题设计、追问质量、文化语境，这些问题不会因为页面更漂亮就消失。报告生成得越快，团队越容易对“看起来很完整的答案”产生过度信任。

还有个现实问题——一旦业务批量跑起来，成本和接入复杂度会突然变烦。像 PackyAPI 这种聚合平台，一个 key 调 Claude、GPT、Gemini，做原型和多模型 AB test 会省心不少。推荐码是 cuiL，地址我拆开写在这：h t t p s : / / w w w . p a c k y a p i . c o m / r e g i s t e r ? a f f = c u i L

4）Salesforce 新 Slackbot：以后办公室里最忙的同事，可能就是那个聊天框

第四条我觉得很多人会低估。Salesforce 把新版 Slackbot 推成“你在工作里的个人 Agent”，本质上是在把 Slack 重新焊成 Agentforce 360 的入口层。

这和以前企业助手最大的不同，是它不想让你再多开一个 AI 页面，而是直接把能力塞进员工天天待着的地方：聊天、频道、任务、会议、权限上下文，全在一个壳里。

官方给的能力包括查答案、整理工作、生成内容、安排会议、执行动作。真正重要的点不在“会不会总结”，而在 能不能基于企业权限和工作流去真的动手。

我个人很认这条产品路线。因为接下来企业 AI 打的就是这仗：谁能成为员工默认打开的 Agent 入口。 微软有 Teams + Copilot，谷歌有 Workspace + Gemini，Salesforce 现在就是在抢 Slack 这个入口位。

对开发者来说，这条新闻也很现实：以后企业应用如果没有权限模型、检索接口、动作接口，接 Agent 会越来越难。只会做一个“会聊天的机器人”，真的不太够用了。

还有两条小项目，我觉得开发者可以顺手盯一下

Freebuff2API：把免费模型包成 OpenAI API，这思路太接地气了

GitHub 上的 Quorinex/Freebuff2API 现在大概 324 stars。它本质上是个 OpenAI 兼容代理，把 Freebuff / Codebuff 的接口包成 /v1/chat/completions 这种大家熟悉的格式。开发者为什么会喜欢？因为几乎不用改已有 SDK 和脚本，就能直接接进去。

我觉得这类项目会持续有人做。原因很简单：大家不是先问模型多先进，而是先问能不能接、多少钱、要不要重写代码。 风险也摆在那儿——它强依赖上游接口和 token 轮换，稳定性、合规性都别太乐观。

agents-md：AI 编码终于开始讲纪律了

另一个是 TheRealSeanDonahoe/agents-md，大概 172 stars。它不是传统代码库，而是一份丢在仓库根目录的 AGENTS.md 模板，专门拿来约束编码 Agent 的行为。

这东西一点不花哨，但很实用。因为很多团队现在的真实痛点不是模型不会写，而是它爱乱猜、爱顺手重构、爱说“做完了”却没验证。把行为规则沉到仓库里，反而是更工程化的一步。

我最后的判断

把今天这 4 条新闻拼起来看，层次其实很清楚：

ClawGUI 在抢设备与 GUI 操作入口
ABot 在抢世界模型和具身闭环
Listen Labs 在抢用户研究流程
Slackbot 在抢办公室工作台入口

这说明一件事：AI 的竞争正在从“谁最聪明”切到“谁最能接活”。

我也挺看重国产生态后面的补位空间。像智谱 BigModel 最近在推理、代码、智能体接入上追得很快，尤其是 API 兼容这件事，对开发者非常关键。邀请码照旧拆开留一下：P4su9wiQcAGFznwtHQz+ubC/k7jQAKmT1mpEiZXXnFw=，完整地址是 h t t p s : / / w w w . b i g m o d e l . c n / i n v i t e ? i c o d e = P 4 s u 9 w i Q c A G F z n w t H Q z % 2 B u b C % 2 F k 7 j Q A K m T 1 m p E i Z X X n F w % 3 D

说实话，比起又来一个榜单新王，我更关心这些“开始接活”的系统能走多远。真要改行业，最后靠的不是炫技，而是谁能把流程接住、把脏活累活干完。