对当下 AI 泡沫的一点思考
昨天那篇文章「Anthropic 发布 Claude Cowork:通用 Agent 的第 4 次尝试会成功吗」,针对末尾展望的部分,我分享到交流群里后,有很多人说我在「做梦」,那我这篇文章就站在 2026 年初这个节点,聊聊对当下 AI 泡沫的一点思考。
AI 泡沫是否存在
所谓泡沫,国内与海外(确切地说是美国)的参照系截然不同。海外更多表现为估值泡沫,即预期极高但与现实存在差距。或许是因为美国软件市场规模巨大,当 AI 编码能力提升后,市场对生产力指数级增长的预期被疯狂透支——试图从钻木取火直接跨越到火箭上天,但这些预期最终能否兑现,仍存在不确定性。
反观国内,行业更多面临的是交付信用泡沫。面对 B 端用户时,能力宣传过度却难以实际落地。随着狼来了的次数增多,一旦用户不再相信 AI 的实际效用,泡沫便会破灭,进而导致整个行业的信用体系崩塌。
导致这种差异的本质原因在于模型能力的差距,国内模型的智能水平与海外顶尖模型之间确实存在代差;尽管在各类榜单上差距看似微弱,但在实际业务场景中,能力的差距依然非常显著。
而限制模型能力提升的直接因素则来自硬件,在现场实录:腾讯姚顺雨、Qwen 林俊旸、智谱唐杰的 AGI-Next 圆桌对话中,林俊旸老师的几段话令我印象深刻。这些话听起来有些心酸,却极其现实,同时也让我备受振奋。
林:理论上这个场合是不可以泼冷水的,但如果从概率上来说,我可能想说一下我感受到的中国和美国的差异,比如说美国的蒜粒可能整体比我们大 1-2 个数量级,但我看到不管是 OpenAI 还是什么,他们大量的算力投入到的是下一代的 Research 当中去,我们今天相对来说捉襟见肘,光交付可能就已经占据了我们绝大部分的算力,这会是一个比较大的差异,这可能是历史以来就有的问题,创新是发生在有钱的人手里还是穷人手里?穷人不是没有机会,我们觉得这些富哥真的很浪费卡,他们训了这么多东西,可能训了很多也没什么用,但今天穷的话,比如今天所谓的算法 Infra 联合优化的事情,如果你真的很富,就没有什么动力去做这个事情。
主持人:三年到五年后,最领先的那个大模型公司,是一家中国公司的概率?
林:我觉得是 20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。
主持人:我再问一个问题,比如说中国的模型跟美国的模型差距,有的地方在追上来,有的地方他们的算力在拉大,你内心中 Gap 变大的恐惧感强吗?
林俊旸:今天你干这一行就不能恐惧,必须得有非常强的心态,对于我们来说,能干这一行就非常不错了,能做大模型这件事情已经非常幸运了。我觉得还是看你的初心是什么,刚才顺雨提到一个点,你的模型不一定在 C 端里那么强。我可能转换成另外一个角度去思考这个问题,我们的模型为人类社会带来了什么样的价值,只要我相信我这个东西能够为人类社会带来充分的价值,能够帮助人类,就算不是最强的,我也愿意接受。
乐观者永远前行,悲观者永远正确
「将会做到」(Will Do)与「永远做不到」(Never Can Do)代表了两种截然不同的心态。一岁的小孩不会解二元一次方程,但属于「Will Do」;而一岁的猴子同样不会,却属于「Never Can Do」。后者的心态还会被冠以务实或注重落地之名,但我觉得大家一定要极力避免这种心态,不要轻视 AI 发展的速度,产品设计要更激进一点,我觉得自己整个 2025 年就过于关注在 B 端的落地,对应的也更关注输出稳定性、幻觉等,缺乏一些更激进的 AI 能力探索,反而是在 2024 年做了很多让人兴奋的尝试。
- 开发自己的 ChatGPT 代码解释器插件
- 基于 DeepSeek-V2 开发编码 Agent
- 基于智谱 GLM-4-9B 和 SiliconCloud 云服务快速构建一个编码 Agent
- 借助 GPT-4 Vision 可将任何网站的屏幕截图/网址转换为代码
在讨论 AI 领域的问题时,结论的差异往往源于讨论者各自身处的趋势线——在获得正反馈后,不断强化原有的判断。任何对技术路径的预测,最终能否被验证,取决于落地能力以及关键问题在整体方案中所占的权重。孤立地评判一种趋势的对错是不够客观的,必须代入具体的上下文与应用场景,判断才具有参考价值并能有所收获。
在这样一个面向未来、缺乏标准答案且快速变化的市场中,核心竞争力在于敢想敢干并最终落地。Manus 在这方面无疑是所有从业者的榜样,而我在这方面做得还不够。
更激进地挖掘 AI 能力
这是我 2026 年的重心,具体体现在两个维度:首先,将此前表现不尽如人意的案例提升至可交付水准;其次,利用 Agent 工程突破当前模型的能力边界。
在具体落地层面,第一点是「AI 软件生成」:不应仅局限于生成若干美观的页面,而应实现前端、数据库、支付、登录注册、管理后台的全套稳定生成。同时,支持通过对话或勾选进行局部重构,而非每次推倒重来。第二点是沙箱(Sandbox)中的长程任务:构建能够 7×24 小时在线、稳定支撑任务执行的云端 Agent。
评估 AI 的实际工作能力
无论尝试多么激进,其目标最终必须回归到服务于人、服务于实际场景,而非停留于单纯的炫技。
例如 METR,它特别关注 AI 独立完成长程软件任务的能力(即在无人类干预下完成完整软件任务的时长)。METR 的核心衡量标准是「50% 任务时长界限」(Time Horizon)——指 AI 在某类任务中能以 50% 成功率完成的最长任务时间(小时级)。该时长越长,意味着 AI 越接近「自主工程师」的水平。
而在非软件场景中,吴恩达(Andrew Ng)老师定义的「Turing-AGI 测试」具有极佳的参考价值。
A Turing-AGI Test is a multi-day, task-oriented evaluation where the subject — either an AI system or a skilled human — is given access to a real computer with internet and standard productivity software, and must independently complete a predefined set of work tasks with ongoing feedback. Success is judged on autonomy, quality, adaptability, and productivity relative to human professionals.
Turing-AGI 测试
Turing-AGI 测试旨在评估系统(人类或 AI)在真实工作场景中长期自主完成复杂任务的能力。
- 多日连续执行:非瞬时问答或单次测试。
- 真实工具调用:使用互联网及各类实际办公工具(浏览器、远程会议软件等)。
- 综合素质考核:评估产出质量、独立解决问题的能力以及基于反馈循环的学习能力。
- 对标人类表现:在相同环境下与人类远程工作者进行对比。
案例:客户支持
以评估 AI 高质量完成客户支持任务为例:在模拟客服系统中处理客户诉求,并根据 KPI 持续优化支持流程。
- 培训期(第一天)
- 学习内部手册与知识库(PDF/网页)。
- 听取团队 Zoom 会议录音或观看直播。
- 练习使用内部 CRM 系统检索信息。
- 执行期(第二、三天)
- 处理 50–100 条未读客户邮件。
- 按照优先级自动分配并回复。
- 接收实时反馈(如客户评分、主管修订建议)。
评估指标:
- 解决率与平均响应时间。
- 客户满意度评分。
- 学习效率(对比第一天与第二天的表现提升)。
写在最后
再次强调,在这样一个面向未来、没有标准答案且快速变化的市场下,真正重要的是敢想敢干并能最终落地,共勉!
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)