DeepSeek V1 到 V4 完整技术路线:每一代到底解决了什么问题?

这篇文章的目标,是用工程视角把 DeepSeek 的技术路线讲明白,而不是把一堆论文名和版本号按时间顺序重新复述一遍。

很多人第一次看到 DeepSeek,会有一种错觉:

怎么突然就冒出来一个又强、又快、又便宜、还开源的大模型?

如果只看最终结果,确实容易觉得它像“突然爆发”。但如果把路线拉长,你会发现 DeepSeek 的演进逻辑其实很稳定:

  • V1 先补理论地基,重新研究 Scaling Law(规模扩展规律)
  • 然后围绕两个最现实的问题下手:显存不够计算太贵
  • 接着把这些方法真正落到超大模型训练里,做出 V3
  • 再往上补推理能力、训练稳定性、长上下文能力,最后汇总到 V4

一句话概括:

DeepSeek V4 不是横空出世,而是从 V1 开始,沿着“理论验证 -> 显存优化 -> 工程落地 -> 推理突破 -> 稳定性增强 -> 长上下文优化”一路迭代出来的。

先看整条路线的总览图:

+------------------+----------------------+------------------------------+
| 阶段             | 关键技术/版本        | 主要解决的问题               |
+------------------+----------------------+------------------------------+
| 第一阶段         | V1                   | 重新研究 Scaling Law(规模扩展规律),补地基 |
| 成本优化一       | DeepSeek MoE(混合专家) | FFN(前馈神经网络)太贵,显存和计算压力大 |
| 成本优化二       | MLA / V2             | KV Cache(历史 K/V 向量缓存)太大,注意力太贵 |
| 工程落地         | V3                   | 把优化真正堆成超大模型       |
| 推理能力突破     | R1                   | 不只会续写,还要学会推理     |
| 稳定性增强       | MHC(带流形约束的超连接) | 模型更大后训练容易不稳定  |
| 长上下文优化     | DSA / CSA / HCA(长上下文三种优化方案) | 上下文变长后注意力成本过高 |
| 总装版本         | V4                   | 汇总前面积累,形成完整体系   |
+------------------+----------------------+------------------------------+

0. 先看结论:DeepSeek 这条路线到底特别在哪

如果只保留最重要的三点,我会这样总结:

  • 它不是先赌“更大的模型”,而是先研究“怎样把模型做大这件事变得更可控”
  • 它的很多创新都围绕一个共同目标:减少显存占用、降低单位计算成本、保持模型效果
  • 它不是只做架构小修小补,后面还把训练范式、残差连接、长上下文处理都补上了

所以 DeepSeek 的路线,不太像“做一个更大的 GPT”,而更像:

先把规律摸清
-> 再把最贵的地方做便宜
-> 再把大模型真正稳定训出来
-> 再补推理和长上下文
-> 最终把前面的积累收束成 V4

这也是为什么很多人会觉得它“突然很强”,但工程上看其实是一条非常典型的长期主义路线。


1. 先补最少背景:Transformer 里最容易出瓶颈的地方在哪

要理解 DeepSeek 在干什么,先得知道大模型最基本的工作流。

对一个典型的 Decoder-only Transformer 来说,生成下一个 token,大致会经历这几步:

  1. 文本先变成向量,也就是 Embedding(把文本变成向量表示)
  2. 经过 MHA(Multi-Head Attention,多头注意力),让每个 token 看见上下文
  3. 再经过 FFN(Feed-Forward Network,前馈神经网络),做更强的非线性变换
  4. 这套处理流程会重复很多层,最后模型会在整个词表里给候选词打分,选出最可能的下一个 token

如果只从工程瓶颈看,Transformer 里最值得盯住的地方通常有四个:

组件 主要作用 常见瓶颈
Attention(注意力机制) 建模上下文关系 长上下文时计算量大,KV Cache 很占显存
FFN(前馈神经网络) 提供主要参数容量和非线性表达 参数特别多,显存和计算都贵
残差连接(把输入也一起带到下一层,避免信息越传越丢) 让深层网络更好训练 规模更大时,训练稳定性会变差
训练范式 决定模型学到什么能力 推理能力不一定能靠传统 SFT(监督微调)解决

DeepSeek 后面的很多创新,基本都能映射到这张表里。

你甚至可以把整条路线粗暴理解成:

V1: 先研究“怎么训才划算”
V2: 解决 FFN 和 Attention 太贵的问题
V3: 把这些优化真正堆成超大模型
R1: 解决“模型会不会推理”
后续: 解决“训得稳不稳”“上下文能不能更长”
V4: 把前面积木拼起来

2. V1:DeepSeek 为什么先研究 Scaling Law,而不是先堆模型

很多团队一上来做大模型,会先想两件事:

  • 模型能不能更大
  • 数据能不能更多

DeepSeek 这条路线的起点不太一样。团队最开始没有急着直接改 Transformer 结构,也没有先冲一个更大的模型出来,而是先去重新研究 Scaling Law(规模扩展规律)。

2.1 Scaling Law 是什么

你可以把 Scaling Law 理解成一句非常朴素的话:

模型变大、数据变多、算力增加,性能通常会继续提升,但提升幅度和训练配置之间有规律。

问题在于,很多早期结论更像“大方向正确”,但对工程实践还不够。

因为真实训练时你不只关心:

  • 参数量多大
  • 数据量多少

你还得关心:

  • batch size 怎么设
  • 学习率怎么调
  • 算力预算怎么配
  • 数据和训练步数怎么平衡

2.2 DeepSeek 在 V1 阶段做了什么

V1 阶段的重点可以概括为:

  • 重新验证和细化 Scaling Law
  • 研究超参数、数据、算力之间的关系
  • 顺手训出最早一代模型,也就是 DeepSeek LM / V1

2.3 这一步为什么重要

因为它解决的不是“模型够不够强”,而是“后面怎么继续做强”。

换句话说,V1 更像在回答:

如果我们后面要做更大的模型,
哪些钱值得花,
哪些配置会浪费算力,
怎样的训练组合更有效?

这一步看起来没有 V3、R1 那么炸裂,但它决定了后面很多路线不是瞎试,而是有理论支点的。


3. 通往 V2 的第一块拼图:DeepSeek MoE(Mixture of Experts,混合专家)先解决 FFN 太贵的问题

如果你把 Transformer 拆开看,FFN 往往是参数大户。

这意味着一个现实问题:

模型一大,FFN 的权重就会非常占显存,也会让每一步计算变贵。

3.1 标准 Dense(稠密)模型的问题

在普通稠密模型里,每个 token 都要把这套大网络几乎完整跑一遍。

这有个直接后果:

  • 总参数越大,每一步实际参与计算的参数也越多
  • 显存压力和计算开销都会跟着上来

3.2 MoE 的基本想法

MoE 是 Mixture of Experts,中文通常叫“混合专家”。

它的核心不是“把模型变小”,而是:

让模型的总参数可以很大,但每个 token 不必激活全部参数。

可以把它类比成公司分工:

  • Dense:所有需求都进同一个超级大部门
  • MoE:拆成很多专家小组,再用路由器决定这次叫哪几个组处理

3.3 DeepSeek MoE 做了什么改良

DeepSeek 的做法不是简单照搬传统 MoE,而是做了两点增强:

  • 把专家切得更细,粒度更小
  • 增加一类“共享专家”,让所有 token 都能走到这部分公共能力

你不用死记这个结构细节,但要记住它想解决的问题:

既想要 MoE 的低激活成本,又不想让专家分工过于极端。

3.4 为什么这一步重要

因为它瞄准的是 FFN 这块大头。

说得更直白一点:

  • 总参数可以继续做大
  • 但单次前向推理/训练时,真正激活的参数可以少很多

这正是后面 DeepSeek 在“便宜”和“快”上被反复讨论的关键基础之一。


4. 通往 V2 的第二块拼图:MLA(Multi-head Latent Attention,多头潜在注意力)继续解决 Attention 的显存问题

如果说 MoE 主要是在给 FFN 降本,那么 MLA 针对的就是 Attention(注意力机制)里的另一块显存大头:KV Cache(历史 K/V 向量缓存)。

4.1 为什么 KV Cache 会成为瓶颈

在多头注意力里,为了加速生成,模型通常会缓存过去 token 的 KV 向量。

上下文越长,缓存就越大。

这就是为什么很多模型一旦上下文拉长,显存和吞吐都会迅速变差。

4.2 传统优化为什么还不够

过去已经有一些思路,比如:

  • MQA(Multi-Query Attention,多查询注意力):多个头共享一组 KV
  • GQA(Grouped-Query Attention,分组查询注意力):按组共享 KV

这些方法确实能省显存,但代价是共享得比较“粗”,可能损失表达能力。

4.3 MLA 的直觉

MLA 的核心思路可以概括为:

先把 KV 压缩成更紧凑的潜在表示,用的时候再还原出来。

它利用的是一个很重要的现实:

KV 信息里存在冗余,不一定需要原封不动全部存着。

4.4 为什么 MLA 很关键

因为它碰到的是大模型里另一个最贵的问题:

  • 模型参数多只是一个维度
  • 真正跑长上下文时,KV Cache 也会把系统拖得很重

所以当 DeepSeek 把 MoE + MLA 组合起来时,意义就出来了:

MoE 让 FFN 这边更省
MLA 让 Attention / KV Cache 这边更省
两边一起做,才有机会把更大的模型训出来

放在一起看,这两项技术共同构成了 DeepSeek V2 的关键支撑。


5. V3:前面积木终于拼成了一个真正有全球竞争力的大模型

聊到这里,你会发现 V1、MoE、MLA 都更像“底层准备”。

那什么时候 DeepSeek 开始真正让全球开源社区大规模注意到?

就是 V3

5.1 V3 的意义,不只是“参数大”

DeepSeek V3 有一个特别容易传播的数据点:

  • 总参数量 671B
  • MoE 每一步真正参与计算的参数约 37B

这个数字为什么重要?

因为它非常直观地说明了 MoE 路线的价值:

  • 你可以拥有一个总参数非常大的模型
  • 但每一步真正动起来、真正参与计算的参数并没有那么夸张

5.2 V3 的真正含义

V3 真正值得看的,不是“671B” 这几个字本身,而是它证明了:

  • 前面的理论和架构优化不是实验室玩具
  • 它们真的可以落到超大模型训练上
  • 而且训练过程还能保持稳定,性能不至于被优化手段拖垮

也就是说,V3 是一个很关键的分水岭:

从“我们有一些不错的技巧”,走到“我们真的把这些技巧堆成了一个一线模型”。


6. R1:DeepSeek 的下一步,不是继续省钱,而是直接补推理能力

很多人理解 DeepSeek,只看到“便宜”和“开源”。

但真正把它推到更高关注度的,是 R1 这条线。

6.1 为什么 R1 很关键

到了 V3 阶段,模型的基础能力和训练效率已经很强了,但还有一个更难的问题:

模型会不会推理?

这里的“推理”不是简单续写几句话,而是:

  • 会不会分步骤思考
  • 会不会在长问题里做中间判断
  • 会不会在发现前面错了之后修正自己

6.2 传统做法是什么

一种常见思路是 SFT(Supervised Fine-Tuning,监督微调):

  • 先给模型看很多“正确推理示范”
  • 再让它去模仿这些步骤

这当然有效,但它有一个隐含假设:

推理能力主要来自“老师先把步骤写给你看”。

6.3 DeepSeek R1 的激进点

DeepSeek 在这一步做了一个更激进的选择:

  • 不先依赖传统 SFT 讲标准答案
  • 而是直接用强化学习,让模型自己探索推理过程
  • 结果对了就奖励,结果错了就惩罚

这件事的震撼点在于:

它把“推理能力”从一种人工灌输的流程,变成了一种可能通过优化目标自然涌现出来的能力。

6.4 为什么大家会反复提到 aha moment

训练到一定阶段,模型会出现一种很像“中途反思”的现象:

  • 先给出一个方向
  • 再发现前面不对
  • 然后主动改写结论

这类现象常被描述为 aha moment,也就是一种“突然反应过来、开始自我修正”的时刻。

无论你是否把这个词看得很神秘,它至少说明了一件事:

模型开始不只是顺着文本往下补,而是在优化过程中学会了更像“推理轨迹”的行为。

6.5 R1 为什么会引爆关注

因为它让外界看到,DeepSeek 不只是在做架构省钱题,也在挑战一个更核心的问题:

推理能力到底该怎么训出来?

这也是为什么很多人会觉得,R1 的影响力甚至超过前面一串架构优化的总和。


7. MHC(带流形约束的超连接):当模型越来越大,光能训还不够,还要训得稳

模型一旦继续做大,另一个问题会越来越突出:训练稳定性

这时,问题不再是“有没有更强结构”,而是:

结构更强之后,数值会不会失控?

7.1 传统残差连接为什么不一定够

标准残差连接很简单:

输出 = 输入 + 子层输出

它的优点是稳、简单、好训。

但缺点也明显:

  • 连接方式很固定
  • 能保留的信息形式有限

7.2 更激进的连接方式,为什么又容易炸

可以把 HC 超连接理解成一种更激进的残差路径设计,本质是让残差路径有更强的可学习能力。

但这类方法如果对可学习矩阵不加约束,就可能出现一个问题:

矩阵连乘后数值越来越大,最后把训练推向不稳定,甚至梯度爆炸。

7.3 MHC 在做什么

DeepSeek 的改法,可以粗暴理解成一句话:

不是不要更强的连接方式,而是给它加上约束,让它在训练中别失控。

这里的关键约束来自流形约束,因此这套方法被称为 MHC

7.4 这一步的价值

它的价值不在于“读起来很酷”,而在于特别工程化:

  • 模型更大
  • 结构更复杂
  • 训练更深

那么稳定性就不是锦上添花,而是能不能把实验做完、能不能把能力堆上去的前提。


8. 长上下文优化:DSA、CSA、HCA 在补 DeepSeek 的下一块短板

当模型基础能力、推理能力、训练稳定性都越来越强之后,下一个现实问题就会冒出来:

上下文一长,注意力成本还是太高。

8.1 传统滑动窗口为什么不够优雅

一个常见思路是滑动窗口:

  • 只看最近一段 token
  • 更远的上下文直接忽略

它当然省算力,但很粗暴。

因为很多真正重要的信息,恰恰可能在更远的位置。

8.2 DeepSeek 这几种方案分别在干什么

可以把它们粗暴翻译成三类思路:

方案 直觉理解 它想解决什么
DSA(动态选择相关历史信息) 动态挑重点历史 token 别死守固定窗口
CSA(压缩历史信息表示) 把远处历史压缩成更紧凑表示 别让所有历史都原样参与计算
HCA(长短距离分层处理) 近处保细节,远处做压缩 在效果和成本之间做更精细折中

你会发现,这三种方案和前面的 MLA 其实气质一致:

不是简单砍掉信息,而是更聪明地保留重要信息。

8.3 它们和 V4 的关系

放到版本节奏里看:

  • DSA 被放入 V3.2
  • CSAHCA 被放入最新的 V4

这说明到了 V4,DeepSeek 优化的重点已经不是单一模块,而是在继续补一整条大模型系统链路。


9. 回头看 V4:它并不是一个“单点创新”,而是前面所有积累的总和

如果你看到这里,再回头看 V4,就不太会把它理解成“某一篇新论文突然带来的跨越”。

更合理的理解应该是:

V1   -> 先把训练规律摸清
MoE  -> 先让 FFN 这块别那么贵
MLA  -> 再让 Attention / KV Cache 更省
V3   -> 把这些优化真正堆成一线模型
R1   -> 再补推理能力
MHC  -> 再补大规模训练稳定性
V3.2/V4 -> 再补长上下文效率

所以 V4 更像一个“总装版本”。

它继承的不是单个点状突破,而是一整套连续的工程判断:

  • 哪些地方最贵
  • 哪些地方最不稳
  • 哪些能力最值得后补
  • 哪些优化必须先打地基再往上堆

这也是本文最想传达的主结论:

DeepSeek 的厉害,不只是某个版本突然强,而是它在几代演进里一直围绕同一条主线做积累。


10. 把整条路线压缩成一张图

如果你想用一张图记住全文,可以记这个版本:

+-------------------+----------------------------------------------+
| 阶段              | 核心任务                                     |
+-------------------+----------------------------------------------+
| V1                | 重新研究 Scaling Law,补训练规律地基         |
| DeepSeek MoE      | 降低 FFN 的激活成本,缓解显存和计算压力      |
| MLA / V2          | 压缩 KV 表示,降低 Attention 显存压力        |
| V3                | 把前面技术真正堆成超大模型并稳定落地         |
| R1                | 用强化学习直接训练推理能力                   |
| MHC               | 提升更复杂连接结构下的大规模训练稳定性       |
| DSA / CSA / HCA   | 优化长上下文注意力计算                       |
| V4                | 汇总前面积累,形成更完整的大模型能力体系     |
+-------------------+----------------------------------------------+

11. 这条路线对工程同学最值得学的,不是术语,而是方法

读完这条路线,最有价值的收获其实不一定是记住每个缩写。

更值得学的是它背后的方法感:

11.1 先找系统里的“大头成本”

DeepSeek 没有平均用力,而是先盯住几个最贵的位置:

  • FFN 太贵
  • KV Cache 太占显存
  • 大模型训练不够稳
  • 长上下文成本太高

这很像成熟工程团队做性能优化:

不是每个模块都抠 5%,而是先盯住真正吃资源的地方。

11.2 先打地基,再冲结果

V1 到 V3 的路线说明了一点:

很多最终看起来像“结果”的东西,前面其实是长期的地基投入。

如果没有前面对训练规律、MoE、MLA 的积累,后面的 V3 很难站住。

11.3 不把“能力问题”只理解成架构问题

R1 这一步特别值得注意。

因为它说明:

  • 有些能力,不一定靠改模型结构解决
  • 也可能靠训练目标、优化方式、奖励机制去解决

这是一种非常典型的系统视角。


12. 最后一句话:为什么 DeepSeek V4 值得看

因为它让很多人第一次清楚看到:

一个一线大模型,不一定非得靠“无上限烧钱”才能出来。

它也可以走另一条路:

  • 先把规律研究清楚
  • 再把最贵的模块做便宜
  • 再把系统做稳
  • 再把推理和长上下文补齐

从这个角度看,DeepSeek V4 最值得看的地方,不只是“它有多强”,而是:

它展示了一条更像工程团队会走出来的大模型演进路径。

如果你把这篇文章读完只记住一句话,我希望是这句:

V4 只是你来时路的总和。


附:读完你应该能回答的 6 个问题

  • DeepSeek V1 在做什么:重新研究和细化 Scaling Law,为后续训练路线打地基。
  • DeepSeek 为什么要做 MoE:因为 FFN 太贵,希望总参数能继续做大,但每一步真正参与计算的参数别那么夸张。
  • MLA 在解决什么:KV Cache 显存太大,希望压缩注意力中的历史表示。
  • V3 为什么重要:因为它证明前面的优化不是实验室技巧,而是真的能堆成一线大模型。
  • R1 为什么关键:因为它把焦点从“模型能不能更省”推到“模型会不会真正推理”。
  • V4 应该怎么理解:不是单点奇迹,而是前面几代技术积累的系统性收束。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐