460 万 vs 1 亿，这仗怎么赢的

晨启AI

246人浏览 · 2026-05-14 17:54:40

晨启AI · 2026-05-14 17:54:40 发布

封面图

上周，8 个大模型打了一场实时编程大战。

结果出来的时候，我愣了一下。

Kimi K2 拿了第一，GPT-5.5 第三，Claude Opus 4.7 排第五。

然后有人翻出一个数字，说 Kimi K2 的训练成本，460 万美元。

GPT-4 的训练成本，业内普遍估计在 1 亿美元以上。

我第一反应是，这不可能吧。

先说说杨植麟这个人

你如果不太关注大模型圈，可能对这个名字不太熟。

92 年的，清华计算机系本科第一，CMU 博士。他以前在 Google Brain 和 Meta 做研究，后来出来创业，做了月之暗面（Moonshot AI），Kimi 就是他们家的。

他有一个身份可能更值得注意，Transformer-XL 和 XLNet 的共同作者。这两个东西你可能没听过名字，但你现在用的所有大语言模型，底层架构多多少少都跟它们有关系。

最近他在 GTC 2026 上做了一场演讲，39 分钟，把 Kimi K2.5 的整个技术路线全部摊开讲了。

怎么说呢，这种完整的技术分享在中国 AI 创始人里是很少见的。没有发布会那种口号，就是一个工程师坐在台上，这个地方我们选了这个方案，那个地方我们踩了一个坑，后来怎么解决的。

我看完最大的感触不是技术多牛，而是他把黑箱打开了。

460 万是真的吗

坦率的讲，这个数字月之暗面官方没有确认过。

他们在 Reddit AMA 里专门回应过这件事，大意是，训练成本很难精确量化，因为很大一部分投入是研发和算法实验，不是单纯的算力费用。

我觉得这个说法挺实在的。

但即便真实成本翻几倍，在大模型动辄烧几亿美元的今天，这个量级差距依然很大。重点不是争论 460 万这个精确数字，而是他用明显更少的资源做出了能打赢的模型。

这到底是怎么做到的？

我拆了几个关键点。

MoE 架构，只叫需要的人来开会

K2 用的是 MoE（混合专家）架构。模型总参数量万亿级别，但每次推理只激活 320 亿参数。

你想想看，这就像你有一个 100 人的专家团队，但每次只需要 3 个人来开会。团队能力很强，但会议室只需要 3 把椅子。

MoE 不是他们发明的，Google、Mistral 都在用。但怎么把 MoE 用好，怎么设计专家的分工和激活策略，这里面全是工程细节。杨植麟在 GTC 演讲里花了不少篇幅讲这块，能看出来下了真功夫。

MuonClip，把优化器重新造了一遍

这个比较技术，但核心就一句话，

他们团队自己研发了 MuonClip 优化器。不是从零开始，是基于 Muon 优化器改进的，专门解决了大规模训练中的稳定性问题。Token 效率做到了传统 AdamW 的两倍。

什么意思呢，同样是喂 100 条数据进去训练，MuonClip 能让模型学到更多东西。

我自己也还在摸索大模型的技术细节，但杨植麟在演讲里讲这部分的时候，你能感受到他的自信，这不是碰巧试出来的，是反复实验之后的确定性结果。

Agent 集群，一个人变一个团队

K2.5 引入了一个叫 Agent Swarm 的东西，智能体集群。

以前的大模型是「一个大脑在思考」，现在变成「一群小脑袋在协作」。模型自动把复杂任务拆开，创建多个子智能体并行处理。

为了防止某个子任务卡住整个流程，他们还设计了一套并行强化学习的奖励函数，鼓励模型学会真正的并行，而不是表面上并行实际上还在排队。

这块我觉得对做内容的人特别有启发，后面单独聊。

Attention Residuals，残差连接重新设计

这个是杨植麟在 GTC 上着重讲的一个底层创新。

传统的残差连接就是「上一层的输出加到当前层」，简单粗暴。他们重新设计了这个机制，让每一层可以选择性地关注所有历史层，而不是只看上一层。

这个改进获得了 Karpathy 的公开认可。Karpathy 是谁你应该知道，前 Tesla AI 总监，现 OpenAI 的人，他说好，那确实是好。

这件事不只是又赢了一次比赛

你可能觉得，编程比赛赢了 GPT-5.5，也就是个 benchmark 的事。

但如果你关注过去两年大模型行业的叙事，你会发现一个趋势在悄悄翻转。

过去两年，行业的主流逻辑是，谁有更多 GPU，谁有更多数据，谁有更多钱，谁就能赢。这个逻辑在 GPT-3 到 GPT-4 的时代是成立的。

但 2026 年开始，事情变了。

月之暗面用可能不到 1 亿人民币的成本，训出了能打赢 GPT-5.5 的模型。DeepSeek 之前也用极低成本做到了类似的事。越来越多的案例在证明一件事，大模型竞赛正在从「资源战」变成「效率战」。

这话听着有点刺耳，但我想说的是，这对大部分做 AI 的人来说，是个好消息。

因为你不需要成为下一个 OpenAI。你需要成为最聪明的那一个。

我怎么看这件事

说实话，写到这里我一直在犹豫一件事，要不要过度神话这个结果。

编程比赛赢了不代表全面碾压，Kimi K2 在很多任务上未必比 GPT-5.5 强。而且 460 万这个数字本身就有争议，月之暗面的其他隐性投入没法算进去。

但我还是决定写这篇文章。

原因很简单。杨植麟做了一件在中国 AI 圈很少有人做的事。他打开了黑箱。把架构选型、优化器选择、训练策略全部讲清楚。你可以质疑 460 万这个数字，但你没法质疑这个态度。

我始终坚信，认真是最大的竞争力。

不是资源多，不是口号响，而是你愿不愿意把一件事做到极致，愿不愿意把自己是怎么做的坦诚地讲出来。

很多小伙伴可能觉得，这种技术文章跟自己没关系。但我觉得恰恰相反。你如果在做自媒体、在做内容、在用 AI 工具，杨植麟的这个思路是通用的，不是比谁资源多，而是比谁更聪明、更真诚、更愿意下笨功夫。

那段演讲值不值得看

值。

就是 Kimi AI 官方 YouTube 频道发的那场 GTC 2026 完整演讲，标题叫「How We Scaled Kimi K2.5」，39 分钟，276K 播放量。

🎬 点击直达 YouTube

但有个前提，你得有一点大模型的基础知识，不然前 10 分钟可能会有点懵。如果你对 MoE、注意力机制这些概念不太熟，建议先看看 Transformer 的入门科普，再来看这段演讲，体验会好很多。

建议找个完整的时间段看，别碎片化地刷，浪费了。

首发于「晨启AI」，关注前沿 AI 工具与深度解读。

你如果也在做 AI 内容，或者对大模型技术感兴趣，可以关注我。不保证每天更新，但保证每篇都是自己真正想写的。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

扣子（Coze）漫画视频生成完整解析

扣子漫画视频是的流水线式自动生成，从文字主题到完整成片，全程由 LLM、图像、视频、语音模型协同完成，本质是把传统漫剧制作的全部自动化。下面从完整解析。

AtomGit开源社区

智能的底层规律——从数据到算法的必然进化趋势

先抛出两个现象的结论，短视频的兴起完美契合了数据极致压缩的趋势。意识是数据的极致压缩与演化。如果我们将“数据”理解为原始的经验、刺激或记录，而“算法”理解为可执行、可泛化的规则或模型，那么从生物进化和AI发展的双重视角来看，——但这里的“必然”需要放在适应性系统与信息压缩的规律下来理解。

AtomGit开源社区

技术选型观察__数字孪生应用构建：零代码工具与专业开发套件的适配边界

AtomGit开源社区

所有评论(0)

查看更多评论

晨启AI

@qq_38423105

已为社区贡献6条内容

460 万 vs 1 亿，这仗怎么赢的

晨启AI

先说说杨植麟这个人

460 万是真的吗

MoE 架构，只叫需要的人来开会

MuonClip，把优化器重新造了一遍

Agent 集群，一个人变一个团队

Attention Residuals，残差连接重新设计

这件事不只是又赢了一次比赛

我怎么看这件事

那段演讲值不值得看

所有评论(0)

温馨提示：您尚未绑定手机号

晨启AI