460 万 vs 1 亿,这仗怎么赢的

上周,8 个大模型打了一场实时编程大战。
结果出来的时候,我愣了一下。
Kimi K2 拿了第一,GPT-5.5 第三,Claude Opus 4.7 排第五。
然后有人翻出一个数字,说 Kimi K2 的训练成本,460 万美元。
GPT-4 的训练成本,业内普遍估计在 1 亿美元以上。
我第一反应是,这不可能吧。
先说说杨植麟这个人
你如果不太关注大模型圈,可能对这个名字不太熟。
92 年的,清华计算机系本科第一,CMU 博士。他以前在 Google Brain 和 Meta 做研究,后来出来创业,做了月之暗面(Moonshot AI),Kimi 就是他们家的。
他有一个身份可能更值得注意,Transformer-XL 和 XLNet 的共同作者。这两个东西你可能没听过名字,但你现在用的所有大语言模型,底层架构多多少少都跟它们有关系。
最近他在 GTC 2026 上做了一场演讲,39 分钟,把 Kimi K2.5 的整个技术路线全部摊开讲了。
怎么说呢,这种完整的技术分享在中国 AI 创始人里是很少见的。没有发布会那种口号,就是一个工程师坐在台上,这个地方我们选了这个方案,那个地方我们踩了一个坑,后来怎么解决的。
我看完最大的感触不是技术多牛,而是他把黑箱打开了。
460 万是真的吗
坦率的讲,这个数字月之暗面官方没有确认过。
他们在 Reddit AMA 里专门回应过这件事,大意是,训练成本很难精确量化,因为很大一部分投入是研发和算法实验,不是单纯的算力费用。
我觉得这个说法挺实在的。
但即便真实成本翻几倍,在大模型动辄烧几亿美元的今天,这个量级差距依然很大。重点不是争论 460 万这个精确数字,而是他用明显更少的资源做出了能打赢的模型。
这到底是怎么做到的?
我拆了几个关键点。
MoE 架构,只叫需要的人来开会
K2 用的是 MoE(混合专家)架构。模型总参数量万亿级别,但每次推理只激活 320 亿参数。
你想想看,这就像你有一个 100 人的专家团队,但每次只需要 3 个人来开会。团队能力很强,但会议室只需要 3 把椅子。
MoE 不是他们发明的,Google、Mistral 都在用。但怎么把 MoE 用好,怎么设计专家的分工和激活策略,这里面全是工程细节。杨植麟在 GTC 演讲里花了不少篇幅讲这块,能看出来下了真功夫。
MuonClip,把优化器重新造了一遍
这个比较技术,但核心就一句话,
他们团队自己研发了 MuonClip 优化器。不是从零开始,是基于 Muon 优化器改进的,专门解决了大规模训练中的稳定性问题。Token 效率做到了传统 AdamW 的两倍。
什么意思呢,同样是喂 100 条数据进去训练,MuonClip 能让模型学到更多东西。
我自己也还在摸索大模型的技术细节,但杨植麟在演讲里讲这部分的时候,你能感受到他的自信,这不是碰巧试出来的,是反复实验之后的确定性结果。
Agent 集群,一个人变一个团队
K2.5 引入了一个叫 Agent Swarm 的东西,智能体集群。
以前的大模型是「一个大脑在思考」,现在变成「一群小脑袋在协作」。模型自动把复杂任务拆开,创建多个子智能体并行处理。
为了防止某个子任务卡住整个流程,他们还设计了一套并行强化学习的奖励函数,鼓励模型学会真正的并行,而不是表面上并行实际上还在排队。
这块我觉得对做内容的人特别有启发,后面单独聊。
Attention Residuals,残差连接重新设计
这个是杨植麟在 GTC 上着重讲的一个底层创新。
传统的残差连接就是「上一层的输出加到当前层」,简单粗暴。他们重新设计了这个机制,让每一层可以选择性地关注所有历史层,而不是只看上一层。
这个改进获得了 Karpathy 的公开认可。Karpathy 是谁你应该知道,前 Tesla AI 总监,现 OpenAI 的人,他说好,那确实是好。
这件事不只是又赢了一次比赛
你可能觉得,编程比赛赢了 GPT-5.5,也就是个 benchmark 的事。
但如果你关注过去两年大模型行业的叙事,你会发现一个趋势在悄悄翻转。
过去两年,行业的主流逻辑是,谁有更多 GPU,谁有更多数据,谁有更多钱,谁就能赢。这个逻辑在 GPT-3 到 GPT-4 的时代是成立的。
但 2026 年开始,事情变了。
月之暗面用可能不到 1 亿人民币的成本,训出了能打赢 GPT-5.5 的模型。DeepSeek 之前也用极低成本做到了类似的事。越来越多的案例在证明一件事,大模型竞赛正在从「资源战」变成「效率战」。
这话听着有点刺耳,但我想说的是,这对大部分做 AI 的人来说,是个好消息。
因为你不需要成为下一个 OpenAI。你需要成为最聪明的那一个。
我怎么看这件事
说实话,写到这里我一直在犹豫一件事,要不要过度神话这个结果。
编程比赛赢了不代表全面碾压,Kimi K2 在很多任务上未必比 GPT-5.5 强。而且 460 万这个数字本身就有争议,月之暗面的其他隐性投入没法算进去。
但我还是决定写这篇文章。
原因很简单。杨植麟做了一件在中国 AI 圈很少有人做的事。他打开了黑箱。把架构选型、优化器选择、训练策略全部讲清楚。你可以质疑 460 万这个数字,但你没法质疑这个态度。
我始终坚信,认真是最大的竞争力。
不是资源多,不是口号响,而是你愿不愿意把一件事做到极致,愿不愿意把自己是怎么做的坦诚地讲出来。
很多小伙伴可能觉得,这种技术文章跟自己没关系。但我觉得恰恰相反。你如果在做自媒体、在做内容、在用 AI 工具,杨植麟的这个思路是通用的,不是比谁资源多,而是比谁更聪明、更真诚、更愿意下笨功夫。
那段演讲值不值得看
值。
就是 Kimi AI 官方 YouTube 频道发的那场 GTC 2026 完整演讲,标题叫「How We Scaled Kimi K2.5」,39 分钟,276K 播放量。
但有个前提,你得有一点大模型的基础知识,不然前 10 分钟可能会有点懵。如果你对 MoE、注意力机制这些概念不太熟,建议先看看 Transformer 的入门科普,再来看这段演讲,体验会好很多。
建议找个完整的时间段看,别碎片化地刷,浪费了。
首发于「晨启AI」,关注前沿 AI 工具与深度解读。
你如果也在做 AI 内容,或者对大模型技术感兴趣,可以关注我。不保证每天更新,但保证每篇都是自己真正想写的。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)