封面图

上周,8 个大模型打了一场实时编程大战。

结果出来的时候,我愣了一下。

Kimi K2 拿了第一,GPT-5.5 第三,Claude Opus 4.7 排第五。

然后有人翻出一个数字,说 Kimi K2 的训练成本,460 万美元。

GPT-4 的训练成本,业内普遍估计在 1 亿美元以上。

我第一反应是,这不可能吧。


先说说杨植麟这个人

你如果不太关注大模型圈,可能对这个名字不太熟。

92 年的,清华计算机系本科第一,CMU 博士。他以前在 Google Brain 和 Meta 做研究,后来出来创业,做了月之暗面(Moonshot AI),Kimi 就是他们家的。

他有一个身份可能更值得注意,Transformer-XL 和 XLNet 的共同作者。这两个东西你可能没听过名字,但你现在用的所有大语言模型,底层架构多多少少都跟它们有关系。

最近他在 GTC 2026 上做了一场演讲,39 分钟,把 Kimi K2.5 的整个技术路线全部摊开讲了。

怎么说呢,这种完整的技术分享在中国 AI 创始人里是很少见的。没有发布会那种口号,就是一个工程师坐在台上,这个地方我们选了这个方案,那个地方我们踩了一个坑,后来怎么解决的。

我看完最大的感触不是技术多牛,而是他把黑箱打开了。


460 万是真的吗

坦率的讲,这个数字月之暗面官方没有确认过。

他们在 Reddit AMA 里专门回应过这件事,大意是,训练成本很难精确量化,因为很大一部分投入是研发和算法实验,不是单纯的算力费用。

我觉得这个说法挺实在的。

但即便真实成本翻几倍,在大模型动辄烧几亿美元的今天,这个量级差距依然很大。重点不是争论 460 万这个精确数字,而是他用明显更少的资源做出了能打赢的模型。

这到底是怎么做到的?

我拆了几个关键点。


MoE 架构,只叫需要的人来开会

K2 用的是 MoE(混合专家)架构。模型总参数量万亿级别,但每次推理只激活 320 亿参数。

你想想看,这就像你有一个 100 人的专家团队,但每次只需要 3 个人来开会。团队能力很强,但会议室只需要 3 把椅子。

MoE 不是他们发明的,Google、Mistral 都在用。但怎么把 MoE 用好,怎么设计专家的分工和激活策略,这里面全是工程细节。杨植麟在 GTC 演讲里花了不少篇幅讲这块,能看出来下了真功夫。

MuonClip,把优化器重新造了一遍

这个比较技术,但核心就一句话,

他们团队自己研发了 MuonClip 优化器。不是从零开始,是基于 Muon 优化器改进的,专门解决了大规模训练中的稳定性问题。Token 效率做到了传统 AdamW 的两倍。

什么意思呢,同样是喂 100 条数据进去训练,MuonClip 能让模型学到更多东西。

我自己也还在摸索大模型的技术细节,但杨植麟在演讲里讲这部分的时候,你能感受到他的自信,这不是碰巧试出来的,是反复实验之后的确定性结果。

Agent 集群,一个人变一个团队

K2.5 引入了一个叫 Agent Swarm 的东西,智能体集群。

以前的大模型是「一个大脑在思考」,现在变成「一群小脑袋在协作」。模型自动把复杂任务拆开,创建多个子智能体并行处理。

为了防止某个子任务卡住整个流程,他们还设计了一套并行强化学习的奖励函数,鼓励模型学会真正的并行,而不是表面上并行实际上还在排队。

这块我觉得对做内容的人特别有启发,后面单独聊。

Attention Residuals,残差连接重新设计

这个是杨植麟在 GTC 上着重讲的一个底层创新。

传统的残差连接就是「上一层的输出加到当前层」,简单粗暴。他们重新设计了这个机制,让每一层可以选择性地关注所有历史层,而不是只看上一层。

这个改进获得了 Karpathy 的公开认可。Karpathy 是谁你应该知道,前 Tesla AI 总监,现 OpenAI 的人,他说好,那确实是好。


这件事不只是又赢了一次比赛

你可能觉得,编程比赛赢了 GPT-5.5,也就是个 benchmark 的事。

但如果你关注过去两年大模型行业的叙事,你会发现一个趋势在悄悄翻转。

过去两年,行业的主流逻辑是,谁有更多 GPU,谁有更多数据,谁有更多钱,谁就能赢。这个逻辑在 GPT-3 到 GPT-4 的时代是成立的。

但 2026 年开始,事情变了。

月之暗面用可能不到 1 亿人民币的成本,训出了能打赢 GPT-5.5 的模型。DeepSeek 之前也用极低成本做到了类似的事。越来越多的案例在证明一件事,大模型竞赛正在从「资源战」变成「效率战」。

这话听着有点刺耳,但我想说的是,这对大部分做 AI 的人来说,是个好消息。

因为你不需要成为下一个 OpenAI。你需要成为最聪明的那一个。


我怎么看这件事

说实话,写到这里我一直在犹豫一件事,要不要过度神话这个结果。

编程比赛赢了不代表全面碾压,Kimi K2 在很多任务上未必比 GPT-5.5 强。而且 460 万这个数字本身就有争议,月之暗面的其他隐性投入没法算进去。

但我还是决定写这篇文章。

原因很简单。杨植麟做了一件在中国 AI 圈很少有人做的事。他打开了黑箱。把架构选型、优化器选择、训练策略全部讲清楚。你可以质疑 460 万这个数字,但你没法质疑这个态度。

我始终坚信,认真是最大的竞争力。

不是资源多,不是口号响,而是你愿不愿意把一件事做到极致,愿不愿意把自己是怎么做的坦诚地讲出来。

很多小伙伴可能觉得,这种技术文章跟自己没关系。但我觉得恰恰相反。你如果在做自媒体、在做内容、在用 AI 工具,杨植麟的这个思路是通用的,不是比谁资源多,而是比谁更聪明、更真诚、更愿意下笨功夫。


那段演讲值不值得看

值。

就是 Kimi AI 官方 YouTube 频道发的那场 GTC 2026 完整演讲,标题叫「How We Scaled Kimi K2.5」,39 分钟,276K 播放量。

🎬 点击直达 YouTube

但有个前提,你得有一点大模型的基础知识,不然前 10 分钟可能会有点懵。如果你对 MoE、注意力机制这些概念不太熟,建议先看看 Transformer 的入门科普,再来看这段演讲,体验会好很多。

建议找个完整的时间段看,别碎片化地刷,浪费了。


首发于「晨启AI」,关注前沿 AI 工具与深度解读。

你如果也在做 AI 内容,或者对大模型技术感兴趣,可以关注我。不保证每天更新,但保证每篇都是自己真正想写的。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐