对当下 AI 泡沫的一点思考

莫尔索_

48人浏览 · 2026-04-14 10:03:52

莫尔索_ · 2026-04-14 10:03:52 发布

昨天那篇文章「Anthropic 发布 Claude Cowork：通用 Agent 的第 4 次尝试会成功吗」，针对末尾展望的部分，我分享到交流群里后，有很多人说我在「做梦」，那我这篇文章就站在 2026 年初这个节点，聊聊对当下 AI 泡沫的一点思考。

AI 泡沫是否存在

所谓泡沫，国内与海外（确切地说是美国）的参照系截然不同。海外更多表现为估值泡沫，即预期极高但与现实存在差距。或许是因为美国软件市场规模巨大，当 AI 编码能力提升后，市场对生产力指数级增长的预期被疯狂透支——试图从钻木取火直接跨越到火箭上天，但这些预期最终能否兑现，仍存在不确定性。

反观国内，行业更多面临的是交付信用泡沫。面对 B 端用户时，能力宣传过度却难以实际落地。随着狼来了的次数增多，一旦用户不再相信 AI 的实际效用，泡沫便会破灭，进而导致整个行业的信用体系崩塌。

导致这种差异的本质原因在于模型能力的差距，国内模型的智能水平与海外顶尖模型之间确实存在代差；尽管在各类榜单上差距看似微弱，但在实际业务场景中，能力的差距依然非常显著。

而限制模型能力提升的直接因素则来自硬件，在现场实录：腾讯姚顺雨、Qwen 林俊旸、智谱唐杰的 AGI-Next 圆桌对话中，林俊旸老师的几段话令我印象深刻。这些话听起来有些心酸，却极其现实，同时也让我备受振奋。

林：理论上这个场合是不可以泼冷水的，但如果从概率上来说，我可能想说一下我感受到的中国和美国的差异，比如说美国的蒜粒可能整体比我们大 1-2 个数量级，但我看到不管是 OpenAI 还是什么，他们大量的算力投入到的是下一代的 Research 当中去，我们今天相对来说捉襟见肘，光交付可能就已经占据了我们绝大部分的算力，这会是一个比较大的差异，这可能是历史以来就有的问题，创新是发生在有钱的人手里还是穷人手里？穷人不是没有机会，我们觉得这些富哥真的很浪费卡，他们训了这么多东西，可能训了很多也没什么用，但今天穷的话，比如今天所谓的算法 Infra 联合优化的事情，如果你真的很富，就没有什么动力去做这个事情。
主持人：三年到五年后，最领先的那个大模型公司，是一家中国公司的概率？
林：我觉得是 20%吧，20%已经非常乐观了，因为真的有很多历史积淀的原因在这里。
主持人：我再问一个问题，比如说中国的模型跟美国的模型差距，有的地方在追上来，有的地方他们的算力在拉大，你内心中 Gap 变大的恐惧感强吗？
林俊旸：今天你干这一行就不能恐惧，必须得有非常强的心态，对于我们来说，能干这一行就非常不错了，能做大模型这件事情已经非常幸运了。我觉得还是看你的初心是什么，刚才顺雨提到一个点，你的模型不一定在 C 端里那么强。我可能转换成另外一个角度去思考这个问题，我们的模型为人类社会带来了什么样的价值，只要我相信我这个东西能够为人类社会带来充分的价值，能够帮助人类，就算不是最强的，我也愿意接受。

乐观者永远前行，悲观者永远正确

「将会做到」（Will Do）与「永远做不到」（Never Can Do）代表了两种截然不同的心态。一岁的小孩不会解二元一次方程，但属于「Will Do」；而一岁的猴子同样不会，却属于「Never Can Do」。后者的心态还会被冠以务实或注重落地之名，但我觉得大家一定要极力避免这种心态，不要轻视 AI 发展的速度，产品设计要更激进一点，我觉得自己整个 2025 年就过于关注在 B 端的落地，对应的也更关注输出稳定性、幻觉等，缺乏一些更激进的 AI 能力探索，反而是在 2024 年做了很多让人兴奋的尝试。

在讨论 AI 领域的问题时，结论的差异往往源于讨论者各自身处的趋势线——在获得正反馈后，不断强化原有的判断。任何对技术路径的预测，最终能否被验证，取决于落地能力以及关键问题在整体方案中所占的权重。孤立地评判一种趋势的对错是不够客观的，必须代入具体的上下文与应用场景，判断才具有参考价值并能有所收获。

在这样一个面向未来、缺乏标准答案且快速变化的市场中，核心竞争力在于敢想敢干并最终落地。Manus 在这方面无疑是所有从业者的榜样，而我在这方面做得还不够。

更激进地挖掘 AI 能力

这是我 2026 年的重心，具体体现在两个维度：首先，将此前表现不尽如人意的案例提升至可交付水准；其次，利用 Agent 工程突破当前模型的能力边界。

在具体落地层面，第一点是「AI 软件生成」：不应仅局限于生成若干美观的页面，而应实现前端、数据库、支付、登录注册、管理后台的全套稳定生成。同时，支持通过对话或勾选进行局部重构，而非每次推倒重来。第二点是沙箱（Sandbox）中的长程任务：构建能够 7×24 小时在线、稳定支撑任务执行的云端 Agent。

评估 AI 的实际工作能力

无论尝试多么激进，其目标最终必须回归到服务于人、服务于实际场景，而非停留于单纯的炫技。

例如 METR，它特别关注 AI 独立完成长程软件任务的能力（即在无人类干预下完成完整软件任务的时长）。METR 的核心衡量标准是「50% 任务时长界限」（Time Horizon）——指 AI 在某类任务中能以 50% 成功率完成的最长任务时间（小时级）。该时长越长，意味着 AI 越接近「自主工程师」的水平。

而在非软件场景中，吴恩达（Andrew Ng）老师定义的「Turing-AGI 测试」具有极佳的参考价值。

A Turing-AGI Test is a multi-day, task-oriented evaluation where the subject — either an AI system or a skilled human — is given access to a real computer with internet and standard productivity software, and must independently complete a predefined set of work tasks with ongoing feedback. Success is judged on autonomy, quality, adaptability, and productivity relative to human professionals.