deepseek 系列模型演进
·
DeepSeek 系列模型演进路线
时间边界:截至 2026-04-09
写作口径:只采用官方 arXiv 论文/技术报告、deepseek-ai官方仓库 README/技术报告、官方模型卡。
参考对象:Qwen 系列那篇博客只借结构,不借事实。
说明:无独立论文的中间版本如DeepSeek-V2.5、DeepSeek-V3-0324、DeepSeek-R1-0528不单列,只在相邻章节作为过渡补注;DeepSeek-V3.2-Exp、DeepSeek-GRM、DeepEP、DualPipe、FlashMLA、DeepGEMM、3FS归入附录“支撑技术补注”。
1. 总览时间线
| 发布时间 | 论文/报告 | 模型家族 | 模态 | 总参数 / 激活参数 | 上下文 | 核心机制 | 后训练方式 | 代表 benchmark / 结论 | 相对前代一句话增量 |
|---|---|---|---|---|---|---|---|---|---|
| 2024-01-05 | DeepSeek LLM | 主线通用 LLM | 文本 | 7B / 67B 稠密 | 4K | 2T 中英双语预训练、从 7B 直接扩到 67B | SFT + DPO(Chat) | 67B Chat:HumanEval 73.8、GSM8K 84.1;67B Base 多项超过 LLaMA2-70B | DeepSeek 正式建立通用大模型底座 |
| 2024-01-11 | DeepSeekMoE | 主线通用 LLM | 文本 | 16.4B 总参;激活规模论文未统一披露 | 4K | 细粒度 expert segmentation + shared expert isolation | SFT(Chat) | 16B 以约 40% 计算量达到或接近 7B dense / LLaMA2-7B | 把“规模扩张”从 dense 转向 MoE |
| 2024-01-25 | DeepSeek-Coder | 代码线 | 文本/代码 | 1.3B / 6.7B / 33B | 16K | 项目级代码语料、跨文件依赖排序、FIM | Instruct | 33B 在 HumanEval/MBPP/DS-1000 领先开源代码模型;7B 接近 CodeLlama-34B | DeepSeek 第一次把“领域强化”做成独立分支 |
| 2024-02-05 | DeepSeekMath | 数学线 | 文本/数学 | 7B | 4K | 120B 数学语料、从 Coder 基座继续预训练、GRPO | Instruct + RL | MATH 51.7,Self-consistency@64 达 60.9 | DeepSeek 首次把 RL 做成可复用能力放大器 |
| 2024-03-08 | DeepSeek-VL | 多模态理解线 | 图文 | 1.3B / 7B | 4K | hybrid vision encoder,1024×1024 压到 576 视觉 token | taxonomy-based SFT | 同尺寸上 real-world VL 任务 SOTA/competitive,保住语言能力 | 多模态从“看图答题”转向“真实场景理解” |
| 2024-05-07 | DeepSeek-V2 | 主线通用 LLM | 文本 | 236B / 21B | 128K | MLA + DeepSeekMoE + device-limited routing + token dropping | SFT + GRPO RL | 相比 DeepSeek 67B:训练成本 -42.5%,KV cache -93.3%,生成吞吐 5.76x | 主线第一次实现“强性能 + 低 KV + 长上下文”统一 |
| 2024-05-23 | DeepSeek-Prover | 证明线 | 文本/形式化证明 | 7B | 论文未把上下文作为主卖点 | 8M synthetic Lean4 proofs,formalization + proof generation pipeline | SFT | miniF2F-test 52.0%(64 samples 累积),FIMO 5/148 | 从数学习题走向 formal theorem proving |
| 2024-06-17 | DeepSeek-Coder-V2 | 代码线 | 文本/代码 | 16B / 2.4B;236B / 21B | 128K | 基于 DeepSeek-V2 中间 checkpoint 再训 6T token | Instruct | HumanEval 90.2、MBPP+ 76.2、LiveCodeBench 43.4 | 代码分支完成从 dense 到 MoE、从 16K 到 128K 的代际升级 |
| 2024-08-15 | DeepSeek-Prover-V1.5 | 证明线 | 文本/形式化证明 | 7B | 采样证明上限 2048 token(论文显式给采样设置) | RLPAF + RMaxTS + 改良 formal dataset | SFT + RL | miniF2F-test 63.5%,ProofNet 25.3% | 从单次 whole-proof 生成升级到搜索式证明 |
| 2024-10-17 | Janus | 统一多模态线 | 图文生成/理解 | 1.3B | 4K | decoupled visual encoding,统一 transformer | unified pretraining + SFT | 1.3B 上 MMBench 69.4、SEED 63.7、POPE 87.0,同时保留生成能力 | DeepSeek 第一次统一“理解 + 生成”多模态范式 |
| 2024-11-12 | JanusFlow | 统一多模态线 | 图文生成/理解 | 1.3B | 4K | 在统一框架中融合 rectified flow + AR + 表征对齐 | unified pretraining + SFT | 在统一模型中把生成质量进一步拉高,并维持理解能力 | Janus 从纯 AR 统一模型,迈向 AR+flow 混合统一模型 |
| 2024-12-13 | DeepSeek-VL2 | 多模态理解线 | 图文 | repo 口径:3.37B/1.0B、16.1B/2.4B、27.5B/4.2B;论文摘要口径为 1.0B/2.8B/4.5B | 4K | dynamic tiling + MLA + DeepSeekMoE | improved VL data + alignment | 文档/OCR/chart/grounding 全面增强,激活参数效率领先同类开源 VLM | DeepSeek-VL 走向 MoE 化和高分辨率泛化 |
| 2024-12-27 | DeepSeek-V3 | 主线通用 LLM | 文本 | 671B / 37B | 128K | aux-loss-free load balancing + MTP + FP8 + DualPipe | SFT + RL | MMLU 88.5、MMLU-Pro 75.9、GPQA 59.1、LiveCodeBench 40.5、AIME 39.2 | 主线进入“世界级开源第一梯队” |
| 2025-01-22 | DeepSeek-R1 | 主线 reasoning | 文本 | 671B / 37B | 128K | R1-Zero 纯 RL,R1 两段 SFT + 两段 RL,长 CoT reasoning | RL-heavy | AIME 2024 79.8、MATH-500 97.3、ArenaHard 92.3 | 主线从“会做题”变成“会长链条推理” |
| 2025-01-29 | Janus-Pro | 统一多模态线 | 图文生成/理解 | 1B / 7B | 4K | 在 Janus 上做数据扩容、训练优化、模型放大 | unified pretraining + SFT | Janus-Pro-7B:MMBench 79.2、GQA 72.1、MMMU 41.0、GenEval 0.80 | Janus 系列第一次在理解和生成两侧同时显著跃升 |
| 2025-04-30 | DeepSeek-Prover-V2 | 证明线 | 文本/形式化证明 | 7B / 671B | 7B 版扩展到 32K;671B 基于 V3-Base | recursive subgoal decomposition + V3 cold-start reasoning + RL | SFT + RL | miniF2F-test 88.9%,PutnamBench 49/658 | 证明线从“证明生成”进化到“分解子目标 + 合成证明” |
| 2025-06-02 | Janus-Pro-R1 | 统一多模态线 | 图文生成/理解 | 论文重点展示 1B 级主体 | 论文未把上下文作为主卖点 | 把 genuine CoT 和 GRPO 引入视觉生成 | SFT + RL | 文本生成、图像编辑、图像语义评估三条线同时增强 | 多模态开始显式吸收 R1 式 RL 思想 |
| 2025-10-21 | DeepSeek-OCR | OCR / 文档线 | 图文 | DeepEncoder≈380M + DeepSeek3B-MoE-A570M 解码器;激活约 570M | 以压缩率/视觉 token 为主口径 | optical 2D compression + DeepEncoder | 无独立 SFT 阶段 | OmniDocBench 上以 100 视觉 token 超过 GOT-OCR2.0;单 A100-40G 可 200k+ 页/天 | DeepSeek 新开一条“文档压缩式 OCR”路线 |
| 2025-11-27 | DeepSeekMath-V2 | 数学线 | 文本/数学证明 | 基于 DeepSeek-V3.2-Exp-Base | 128K | self-verifiable math reasoning,verifier-generator 协同 | GRPO | IMO 2025/CMO 2024 达 gold-level;Putnam 2024 118/120 | 数学线从“答案监督”转向“证明可验证性监督” |
| 2025-12-02 | DeepSeek-V3.2 | 主线通用 LLM + agent | 文本 | 论文未统一重报总/激活参数;官方推理配置仍属 671B 级主干 | 128K | DSA + scalable RL + large-scale agentic task synthesis | mixed RL;post-training compute > pretraining 的 10% | DeepSeek-V3.2 在 agent 场景大幅追近前沿闭源模型;Speciale 在 IMO/IOI 达 gold-level | 主线从“reasoning model”继续走向“agentic generalist” |
| 2026-01-28 | DeepSeek-OCR 2 | OCR / 文档线 | 图文 | 论文未统一披露总参数;编码压缩器仍为 80M 级,升级到 DeepEncoder V2 | 训练时 8K seq;推理以动态分辨率为主 | visual causal flow,按语义重排视觉 token | 无独立 SFT 阶段 | OmniDocBench 等复杂布局任务进一步提升 | OCR 线开始尝试“视觉因果流 + 2D reasoning” |
2. 主线演进:从 Dense 基座到 Agentic Generalist
2.1 DeepSeek LLM(2024-01-05)
提出背景
- 2023 年底的开源主线仍以 LLaMA/LLaMA2 为代表,但中文、代码、数学、推理综合性不够强,且开源社区对 scaling law 的结论并不统一。
- DeepSeek 的第一篇主线论文不是直接拼参数,而是先回答“开源配置下 7B 和 67B 是否还能继续 scale”。
上一代/上一篇的瓶颈
- DeepSeek 自己还没有公开上一代,因此这篇论文的“前代”本质上是开源 dense LLM 的共同瓶颈:数据规模不够大、中文覆盖不足、代码和数学能力弱、Chat 对齐效果受限。
核心改进
- 做了 7B 和 67B 两个常用开源规模的 scaling law 研究,并据此确定训练策略。
- 构建了 2T token 的中英文混合预训练语料。
- 在 Base 之后做 SFT + DPO,推出 Chat 版本,而不是只做单阶段 instruction tuning。
架构细节
- 仍然是 LLaMA-style decoder-only 架构。
- 7B 使用 MHA;67B 使用 GQA。
- 上下文长度 4K。
数据与训练细节
- 预训练数据规模:2T token。
- 语言:英语 + 中文。
- 67B 训练 batch size 4608,learning rate 3.2e-4;7B 为 batch size 2304,learning rate 4.2e-4。
- 学习率采用 multi-step schedule,在 1.6T token 与 1.8T token 处做衰减。
后训练细节
- Base 之后做 SFT 与 DPO,生成 7B/67B Chat。
- 这意味着 DeepSeek 早期就采用了“先学基础语言建模,再做偏好对齐”的两阶段路线。
关键实验
- 67B Base 在多个 benchmark 上超过 LLaMA2-70B:MMLU 71.3、GSM8K 63.4、HumanEval 42.7、BBH 68.7、CMMLU 70.8。
- 67B Chat:MMLU 71.1、GSM8K 84.1、HumanEval 73.8、BBH 71.7。
- 论文与官方 README 明确强调 67B Chat 在中文开放式评测中超过 GPT-3.5;这点解释了后续 DeepSeek 一直把“中英双语 + 代码/数学”作为差异化基线。
关键消融/机制验证
- 论文主消融不是单层组件 ablation,而是 scaling law 与数据配比研究。
- 官方 README 还专门展示了“+20M 中文选择题”会显著抬高 MMLU/C-Eval/CMMLU,但作者最终没有把这类数据并入正式训练,因为会造成 benchmark overfit。这个取舍很关键:DeepSeek 从第一篇开始就比较强调“不要为了刷榜污染训练分布”。
效率/成本实验
- 论文没有像 V2/V3 那样把训练 GPU 小时当成主结果,但给出了 7B/67B 的推理显存配置:7B 可单卡 A100-40G,67B 需要 8×A100-40G。
局限性
- 仍是 dense 架构,扩大到更大参数规模时训练和推理成本会急剧上涨。
- 4K 上下文明显不足。
- reasoning 仍主要靠基础语言能力和 SFT/DPO,对“长链条推理”没有专门机制。
与前代差距
- 对 DeepSeek 自身而言,这就是起点;对开源同代 dense 模型而言,67B 已经在中文、数学、代码上建立了更强基线。
与同期外部模型差距
- 相比 LLaMA2-70B:在多项知识、数学、代码评测上领先。
- 相比 GPT-3.5:中文开放式体验更强,但总体综合能力和 agent/tool use 还不是同一时代问题。
来源
2.2 DeepSeekMoE(2024-01-11)
提出背景
- Dense 路线已经证明有效,但一旦继续 scale,成本会快速失控。
- 传统 GShard 式 MoE 虽然能省计算,但存在两个老问题:expert 不够专、多个 expert 学重复知识。
上一代瓶颈
- DeepSeek LLM 是 dense;更强性能意味着更高训练/推理成本。
- 传统 top-k MoE expert 粒度粗,难以形成真正的 expert specialization。
核心改进
- 提出两条 DeepSeekMoE 设计原则:
fine-grained expert segmentation:把 expert 切得更细,在相同计算预算下激活更多更小的 expert 组合。shared experts isolation:把公共知识放进共享 expert,减少 routed expert 之间的冗余。
架构细节
- 基于 Transformer decoder,在 FFN 位置做 MoE。
- 对传统
N个 expert 激活K个的思路,改成把 expert 细分到mN个,再激活mK个。 - 共享 expert 始终激活,routed expert 负责更稀疏、更专门的知识。
数据与训练细节
- 从 2B 验证起步,随后扩到 16B,再初步扩到 145B。
- 16B 配置使用 4K 上下文,batch 中总 token 18M。
后训练细节
- 论文和 README 都提供了 16B Base + Chat;Chat 采用与 dense 7B/同代模型一致的 SFT 设定,强调公平比较。
关键实验
- 2B 级实验:DeepSeekMoE 2B 可以达到 GShard 2.9B 的效果,而后者 expert 参数和计算约高 1.5 倍。
- 16B 级实验:DeepSeekMoE 16B 以约 40% 计算量达到与 DeepSeek 7B dense 可比甚至更优的效果。
- 官方 README 明确写到:DeepSeekMoE 16B 在 Open LLM Leaderboard 上显著超过相似激活参数模型,并接近 LLaMA2-7B,而后者激活参数约为其 2.5 倍。
- 145B 初步扩展:与 DeepSeek 67B 表现可比,但只用 28.5%(甚至可能 18.2%)计算量,这是论文里非常关键的“规模化可行性”证据。
关键消融
- 论文专门做了 fine-grained segmentation 与 shared experts isolation 的 ablation。
- 结论很明确:
- 只加 routed expert 数量但不做 shared expert 隔离,不足以解决知识冗余。
- 共享 expert 可以稳定吸收通用知识,把 routed expert 从“重复学公因子”中解放出来。
效率/成本实验
- 相比 dense 7B,用更低计算量达到相近能力,是论文最核心的效率结论。
- 这篇论文虽然还没有 V2 的 MLA,但已经把“以更低激活计算换更高总参数”的主线定下来了。
局限性
- 还没有解决 KV cache 和长上下文问题。
- 还需要进一步处理路由负载均衡和跨设备通信问题。
与前代差距
- 从 dense 思路切到 MoE,是 DeepSeek 主线第一次真正的架构跃迁。
与同期外部模型差距
- 对比 GShard:同等/更低计算下更强。
- 对比 LLaMA2-7B:16B MoE 以更低激活计算达到相当表现。
来源
- 论文:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
- 官方仓库:deepseek-ai/DeepSeek-MoE
2.3 代际差分:DeepSeek LLM -> DeepSeekMoE
| 维度 | DeepSeek LLM | DeepSeekMoE | 代际变化 |
|---|---|---|---|
| 架构变化 | dense decoder | MoE decoder | 从全激活 FFN 改为稀疏激活 expert |
| 注意力/路由变化 | 标准 MHA/GQA | expert routing | 重点从 attention 转到 MoE specialization |
| 参数与激活参数 | 7B/67B dense | 16.4B total,激活更低 | 开始追求“大总参 + 小激活” |
| 训练 token | 2T | 同一主线语料体系内继续验证 | 数据不是主改动,架构是主改动 |
| 上下文变化 | 4K | 4K | 长上下文尚未解决 |
| 后训练变化 | SFT + DPO | SFT(Chat) | 后训练变化不大,重点在底层架构 |
| 成本/吞吐 | dense 成本较高 | 以约 40% 计算达到相近能力 | 主线第一次显著降算力成本 |
| 主要 benchmark 提升 | 打平/超过 LLaMA2-70B | 打平/超过 dense 7B、GShard | MoE 证明“更便宜也能更强” |
| 仍未解决的问题 | 训练/推理成本、长上下文 | KV cache、路由均衡、跨机通信 | 为 V2 的 MLA 与系统优化埋下伏笔 |
2.4 DeepSeek-V2(2024-05-07)
提出背景
- DeepSeekMoE 解决了“总参数可扩展”的问题,但还没有解决 attention 侧的推理内存瓶颈。
- 主线需要同时解决三件事:更强性能、更低训练成本、更高推理吞吐,以及长上下文。
上一代瓶颈
- MoE 降低了 FFN 计算,但 attention 的 KV cache 仍很重。
- 路由需要更稳定的设备级约束与负载控制。
- 主线 benchmark 相对 LLaMA3/Qwen 新一代模型还不够领先。
核心改进
- 引入
MLA (Multi-head Latent Attention):把 KV cache 压缩进 latent vector,并配合 decoupled RoPE。 - 把
DeepSeekMoE推到 236B total / 21B activated。 - 引入 device-limited routing、辅助损失做负载均衡、token dropping 策略。
- 预训练 token 规模提高到 8.1T,并把上下文扩展到 128K。
架构细节
- 236B 总参数,每 token 只激活 21B。
- MLA 通过低秩 key-value 联合压缩显著缩小 KV cache。
- decoupled RoPE 解决压缩后位置编码与表达能力的冲突。
- 设备受限路由让 expert dispatch 更适合大规模集群训练。
数据与训练细节
- 预训练数据:8.1T 高质量多源 corpus。
- 长上下文:先预训练,再做两阶段 context extension 到 128K。
- 论文附录给出
DeepSeek-V2-Lite,说明其机制可缩放到更小模型。
后训练/RL 细节
- 收集 1.5M 会话用于 SFT。
- RL 阶段跟随 DeepSeekMath 使用
GRPO,而不是重 critic 的 PPO。 - 这一步非常关键:V2 把 Math 线里已经验证过的 GRPO 正式迁回主线。
关键实验
- 相比 DeepSeek 67B dense:
- 训练成本降低 42.5%。
- KV cache 降低 93.3%。
- 最大生成吞吐提高 5.76 倍。
- Base benchmark:MMLU 78.5,CMMLU 84.0,HumanEval 48.8。
- Chat/RL benchmark:LiveCodeBench 32.5,AlpacaEval 2.0 length-controlled win rate 38.9,MT-Bench 8.97,AlignBench 7.91。
关键消融
- MLA vs MHA/GQA/MQA:论文附录专门比较,结论是 MLA 在接近极低 KV cache 的同时,比传统降 KV 方法更稳,性能损失更小。
- DeepSeekMoE routing / load balance:device-limited routing + auxiliary loss 是大规模稳定训练的重要前提。
- 数据去偏:论文附录还单独讨论了 pretraining data debiasing 对数学和代码评测的影响。
效率/成本实验
- 这是 DeepSeek 第一篇把“性能、训练成本、推理效率”三者同时量化出来的主线论文。
- 对后续 V3 来说,V2 最大贡献不是单一 benchmark,而是把
MLA + MoE + 128K的工程闭环跑通。
局限性
- 负载均衡还依赖 auxiliary loss。
- reasoning 还不是长 CoT 范式,AIME 等深推理任务还未爆发。
与前代差距
- 相比 DeepSeekMoE:把 MoE 从“可行架构”推进到“强、长上下文、可部署”的主线系统。
与同期外部模型差距
- 相比 LLaMA3 70B / Mixtral 8x22B:中文和综合效率显著占优。
- 相比同期闭源模型:主线能力接近但尚未完全进入 frontier closed-source 档位。
来源
- 论文:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- 官方仓库:deepseek-ai/DeepSeek-V2
2.5 DeepSeek-V3(2024-12-27)
提出背景
- V2 已解决“MoE + MLA + 128K”的架构问题,但要冲击顶级闭源模型,还差三块:
- 更大规模 MoE 的负载均衡;
- 更低成本的大规模训练;
- 更强的数学/代码/reasoning 泛化。
上一代瓶颈
- V2 的辅助损失负载均衡在更大规模上可能带来性能折损。
- 单 token 训练目标对代码/数学这类结构化生成还有提升空间。
- BF16 级训练成本仍然很高。
核心改进
- 保留 MLA 和 DeepSeekMoE,但进一步升级为:
auxiliary-loss-free load balancing;MTP (Multi-Token Prediction)训练目标;FP8大规模稳定训练;DualPipe实现算通重叠;- 更高效的跨节点 all-to-all 通信。
架构细节
- 671B 总参数,37B activated。
- Hugging Face 发布口径总权重大小 685B,其中 671B 主模型 + 14B MTP module。
- 继续支持 128K,上下文采用两阶段扩展:先到 32K,再到 128K。
数据与训练细节
- 预训练 token:14.8T。
- H800 GPU 小时:预训练 2.664M,context extension 119K,post-training 5K,总计 2.788M。
- 论文强调整个训练过程“没有出现不可恢复 loss spike,也没有做 rollback”,这对 671B/FP8/MoE 组合非常关键。
后训练/RL 细节
- 继续沿用 SFT + RL。
- RL 仍采用 GRPO。
- Post-training 数据引入 expert model 生成器机制:不同领域 expert 先生成更高质量数据,再汇总给最终模型。
关键实验
- Base 模型:
- MMLU 88.5
- MMLU-Pro 75.9
- GPQA Diamond 59.1
- GSM8K 89.3
- MATH 61.6
- HumanEval 65.2
- MBPP 75.4
- LiveCodeBench-Base 19.4
- Chat/open-ended:Arena-Hard 超过 86% win rate(相对 GPT-4-0314 基线),AlpacaEval 2.0 长度控制胜率显著提升。
关键消融
MTP ablation:论文单独做 4.5.1,结论是 MTP 对整体 benchmark 尤其数学/代码有明确收益,而且还能复用为 speculative decoding。aux-loss-free balancing ablation:证明取消辅助损失后,在大模型上能兼顾 load balance 和性能。batch-wise vs sequence-wise load balance:说明负载平衡策略的粒度设计也会影响最终质量。- 附录还比较了 FP8 与 BF16,说明 FP8 在超大模型上不仅可用,而且能稳定训练。
效率/成本实验
- 总训练成本 2.788M H800 GPU hours;若按 H800 租用价格 2 美元/小时估算,论文表格给出的总训练成本约 5.576M 美元。
- 在开源模型里,V3 把“前沿能力”第一次压进可解释的成本框架中,这也是其影响行业的一大原因。
局限性
- 虽然非 reasoning 模式已经很强,但对真正长 CoT reasoning 仍有明显提升空间。
- agent/tool use 还不是主角。
与前代差距
- 相比 V2:
- 参数从 236B/21B 提到 671B/37B;
- 训练 token 从 8.1T 提到 14.8T;
- 从“高效 MoE”走到“前沿级 open model”;
- 新增 MTP、aux-loss-free、FP8/DualPipe 等系统级创新。
与同期外部模型差距
- 论文直接对比中,V3 已能与 GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72B、Llama-3.1-405B 等同台竞争。
- 在 code/math/open-source base model 领域,V3 已经进入第一梯队;但在长推理与 agent 维度,还未到 R1 / V3.2 那个阶段。
来源
2.6 代际差分:DeepSeek-V2 -> DeepSeek-V3
| 维度 | DeepSeek-V2 | DeepSeek-V3 | 代际变化 |
|---|---|---|---|
| 架构变化 | MLA + DeepSeekMoE | MLA + DeepSeekMoE + MTP + aux-loss-free | 从“架构闭环”升级到“架构 + 训练目标 + 系统联合优化” |
| 注意力/路由变化 | MLA、device-limited routing、aux loss | MLA 保留,路由转向 auxiliary-loss-free | 负载均衡从显式 loss 约束升级为更少副作用的策略 |
| 参数与激活参数变化 | 236B / 21B | 671B / 37B | 主干规模进一步扩大 |
| 训练 token 变化 | 8.1T | 14.8T | 训练数据继续扩展 |
| 上下文变化 | 128K | 128K | 长上下文能力保留并更稳定 |
| 后训练变化 | SFT + GRPO RL | SFT + RL + expert data generator | 后训练数据生产更系统化 |
| 成本/吞吐变化 | 相比 67B 训练成本 -42.5%,吞吐 5.76x | 总训练 2.788M H800 GPU hours,FP8 稳定训练 | 进入超大规模成本工程化阶段 |
| 主要 benchmark 提升 | MMLU 78.5、HumanEval 48.8、AIME 未形成优势 | MMLU 88.5、HumanEval 65.2、AIME 39.2 | 综合能力全面抬升,数学/代码明显增强 |
| 仍未解决的问题 | frontier reasoning 不强 | agent / extreme long CoT 仍待强化 | 为 R1、V3.2 铺路 |
2.7 DeepSeek-R1(2025-01-22)
提出背景
- V3 已经非常强,但“会答”不等于“会想”。
- OpenAI o1 把行业焦点转向 long reasoning;DeepSeek 需要证明:不依赖人工 CoT 标注,单靠 RL 能否催生 reasoning。
上一代瓶颈
- V3 的 reasoning 还主要来自预训练 + SFT/RL 的综合能力,不是专门的 long CoT model。
- 没有一个清晰的“reasoning-first”训练范式。
核心改进
- 提出
DeepSeek-R1-Zero:不做 SFT 冷启动,直接在 V3-Base 上做大规模 RL。 - 观察到 pure RL 能自然涌现 self-reflection、verification、动态策略调整等行为。
- 为解决 R1-Zero 的可读性差、语言混杂、重复等问题,再提出
DeepSeek-R1:两段 SFT + 两段 RL 的正式 pipeline。
架构细节
- R1 和 R1-Zero 都基于 DeepSeek-V3-Base,仍是 671B total / 37B activated,128K context。
- 论文重点不在改主干架构,而在后训练范式。
数据与训练细节
- R1-Zero 完全绕过常规 SFT,直接用 rule-based reward 对数学、代码、逻辑推理任务做 RL。
- rollout 初期最大长度 32,768 token,8.2k step 之后提升到 65,536 token。
- 对每个问题采样 16 个输出,用 GRPO 更新。
后训练/RL 细节
- R1 正式流程:
- 第一段 SFT:冷启动 reasoning seeds;
- 第一段 RL:强化 reasoning pattern;
- 第二段 SFT:融合一般能力与格式、可读性、安全等;
- 第二段 RL:同时兼顾 reasoning 与 human preference。
- 论文还把 R1 生成的数据蒸馏到 Qwen/Llama dense 模型,形成 R1-Distill 系列。
关键实验
- 主模型:
- AIME 2024 pass@1:79.8
- MATH-500:97.3
- MMLU:90.8
- GPQA Diamond:71.5
- LiveCodeBench:65.9
- ArenaHard:92.3
- CNMO 2024:78.8
- 训练过程实验:
- R1-Zero 在 RL 过程中 AIME 准确率持续上升;
- 平均 response length 同时显著增长,说明模型学会了“用更多思考换更高准确率”。
- 蒸馏实验:
- R1-Distill-Qwen-32B 在 AIME 2024 pass@1 上达到 72.6;
- R1-Distill-Llama-70B 在 GPQA、LiveCodeBench 等上都很强。
关键消融
- 论文最重要的“消融”实际上是阶段对比:R1-Zero -> 冷启动 SFT -> Dev 阶段 -> 最终 R1。
- 结论:
- 纯 RL 足以催生 reasoning;
- 但想要可读、稳定、适配多场景,仍需要适度 SFT 冷启动与后续 alignment。
- 语言一致性奖励的 ablation 显示:更好的人类可读性会带来轻微 reasoning trade-off,这是 R1 系列一个真实存在的张力。
效率/成本实验
- 主论文正文没有像 V3 一样把 GPU 小时做成 headline,但多处强调:GRPO 避免了 critic,reasoning 训练比 PPO 更省资源。
- Distillation 也是“把大模型 reasoning 迁移给更小 dense 模型”的另一种成本优化。
局限性
- reasoning token 很长,推理成本高。
- reasoning model 在某些 NLG 评价型任务上不一定比 non-reasoning 模型强。
- 语言一致性、安全偏好、极长推理稳定性存在 trade-off。
与前代差距
- 相比 V3,R1 最大变化不是 base 能力,而是 reasoning 训练范式完全独立出来。
- 主线至此形成了三阶段:
dense -> efficient MoE -> reasoning-first RL。
与同期外部模型差距
- 对比 o1:论文和官方发布都把 R1 放在 reasoning 前沿开源位阶;蒸馏模型在若干 benchmark 上接近甚至超过 o1-mini。
- 对比 GPT-4o / Claude-3.5:R1 在深推理、数学、代码竞赛类任务上优势明显,但并不意味着所有非 reasoning 场景都领先。
来源
- 论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- 官方仓库:deepseek-ai/DeepSeek-R1
2.8 代际差分:DeepSeek-V3 -> DeepSeek-R1
| 维度 | DeepSeek-V3 | DeepSeek-R1 | 代际变化 |
|---|---|---|---|
| 架构变化 | 671B MoE + MLA + MTP | 同一 V3 主干 | 架构几乎不变,后训练范式剧变 |
| 注意力/路由变化 | MLA + aux-loss-free | 沿用 V3 | 重点不再是主干结构 |
| 参数与激活参数变化 | 671B / 37B | 671B / 37B | 主干规模保持 |
| 训练 token 变化 | 14.8T pretrain | 主要增加 post-training RL compute | 预训练不是主变量,post-training 才是 |
| 上下文变化 | 128K | 128K;rollout 长度最高 65,536 | reasoning 真实使用长输出 |
| 后训练变化 | SFT + RL | R1-Zero 纯 RL;R1 两段 SFT + 两段 RL | 代际主变量是 RL recipe |
| 成本/吞吐变化 | 训练成本已压低 | 推理 token 成本显著上升 | reasoning 换来精度,也带来更长思考成本 |
| 主要 benchmark 提升 | AIME 39.2、LiveCodeBench 40.5 | AIME 79.8、LiveCodeBench 65.9、GPQA 71.5 | 深推理、竞赛代码、科研问答全面抬升 |
| 仍未解决的问题 | reasoning 不够强 | 推理过长、可读性/效率 trade-off | 为 V3.2 的 agent 化和效率再优化埋伏笔 |
2.9 DeepSeek-V3.2(2025-12-02)
提出背景
- R1 证明了 RL 可以催生 reasoning,但仍存在两个新瓶颈:
- 长上下文推理与 agent 场景的计算效率;
- reasoning 与 tool use 之间的泛化鸿沟。
- V3.2 的定位不是简单“R1+1”,而是把 DeepSeek 主线改造成能做 reasoning、agent、长上下文的通用体。
上一代瓶颈
- R1 token 效率低,长 CoT 成本高。
- 搜索、代码代理、浏览代理等任务上,开源模型和闭源 frontier 仍有明显差距。
- 常规 dense attention 在超长上下文和 agent 任务里越来越贵。
核心改进
DSA (DeepSeek Sparse Attention):在 MLA 框架下做稀疏注意力,用 lightning indexer + fine-grained token selection 选择 key-value 项。Scalable RL:把 post-training compute 明确抬到 pretraining 成本的 10% 以上。Large-scale agentic task synthesis:构造 1800+ 环境、85K 复杂 prompt 的合成 agent 数据。- reasoning、agent、alignment 合并进同一个 mixed RL 阶段。
架构细节
- 论文从
DeepSeek-V3.1-Terminus(已扩到 128K)继续预训练得到 V3.2。 - 论文没有在摘要中重新统一披露总参数/激活参数;官方
DeepSeek-V3.2-Exp仓库推理配置仍为config_671B_v3.2.json,说明工程主干延续 V3 级别规模。 - DSA 在 MLA 之上实例化,为了兼容 continued pretraining 与 kernel 共享,基于 MLA 的 MQA 模式实现。
数据与训练细节
- 先 continued pretraining,再 post-training。
- RL 数据覆盖六大专门域:数学、编程、一般逻辑推理、一般 agent、agentic coding、agentic search。
- 论文专门加入数学证明数据与 DeepSeekMath-V2 的 reward 方法,说明 V3.2 已经开始把分支成果回灌主线。
后训练/RL 细节
- 继续使用 GRPO,但把 scaling recipe 做得更稳定:
- 修正 KL 估计器偏差,提升稳定收敛;
- reasoning / agent / alignment 不再拆成完全割裂的阶段;
- 对 reasoning/agent 任务加入 outcome reward、length penalty、language consistency reward;
- 对 general tasks 使用 generative reward model。
- 论文还做了 synthetic agent RL 的 generalization study,证明 RL 不是只会记训练环境。
关键实验
- 通用/推理(官方 DeepSeek-V3.2):
- MMLU-Pro 85.0
- GPQA Diamond 82.4
- HLE text-only 25.1
- LiveCodeBench(Pass@1-COT) 83.3
- AIME 2025 93.1
- HMMT Feb 2025 92.5
- Codeforces 2386
- Agent:
- Terminal Bench 2.0:46.4(thinking mode;non-thinking 为 37.1)
- SWE Verified:73.1
- SWE Multilingual:70.2
- BrowseComp:51.4 / 67.6(带 context management)
- BrowseCompZh:65.0
- τ2-Bench:80.3
- MCP-Universe:45.9
- 高算力变体
DeepSeek-V3.2-Speciale:- 论文摘要明确称其超过 GPT-5,并与 Gemini-3.0-Pro 处于同一 reasoning 档位;
- 在 IMO 2025、IOI 2025、ICPC WF 2025 等达到 gold-level 水平。
关键消融
DSA ablation:核心问题是 sparse attention 是否掉点。DeepSeek-V3.2-Exp作为中间实验版,基本在公开 benchmark 上与 V3.1-Terminus 打平,证明 DSA 不会明显牺牲质量。Synthetic agent tasks ablation:论文第 4.3 节专门验证 synthetic tasks 是否足够难、是否能泛化到真实环境,结论是有效。BrowseComp compute expansion:论文图 6 证明 context management 对 test-time compute scaling 非常关键。
效率/成本实验
- 论文明确把 post-training compute 提到 pretraining 成本的 10% 以上,这是 V3/R1 都没有这么强烈表述的。
- DSA 的目标就是压长上下文训练和推理复杂度;
DeepSeek-V3.2-ExpREADME 也强调其长上下文效率显著提升、输出质量几乎不变。 - 同时,论文也坦承
Speciale的 token efficiency 仍落后于 Gemini-3.0-Pro,所以官方版 V3.2 对 token 长度做了更严格约束,以换取更优部署性。
局限性
- reasoning 与 agent 性能提升依赖更大的 post-training compute 预算,开源社区复制门槛更高。
Speciale级别的极限能力与正式发布版之间仍有 token efficiency trade-off。- 稀疏注意力的工程实现需要更复杂 kernel 支持,社区正确复现门槛高于 MLA。
与前代差距
- 相比 R1,V3.2 不是单纯“更会思考”,而是把 reasoning、tool use、search、coding agent 融合到统一主线。
- 主线至此完成从
general LLM -> efficient MoE LLM -> reasoning model -> agentic generalist的四段演化。
与同期外部模型差距
- 对比 GPT-5 / Gemini-3.0-Pro / Claude-4.5:V3.2 仍不是所有维度都领先,但 agent 场景已显著缩小差距;Speciale 在顶级数学/编程竞赛上已经进入同一层级。
- 对比 Kimi-K2 / MiniMax 等中文强模型:V3.2 在 reasoning + agent 综合维度更均衡。
过渡版本补注:DeepSeek-V3.2-Exp
- 官方仓库说明:
DeepSeek-V3.2-Exp是从V3.1-Terminus过渡到下一代架构的实验版本,核心目的是验证DeepSeek Sparse Attention。 - 官方公开对照:
- MMLU-Pro:85.0 -> 85.0
- AIME 2025:88.4 -> 89.3
- Codeforces:2046 -> 2121
- BrowseComp:38.5 -> 40.1
- BrowseComp-zh:45.0 -> 47.9
说明 sparse attention 在几乎不伤质量的前提下,已经开始带来长上下文效率与 agent 表现收益。
来源
- 论文:DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
- 中间实验仓库:deepseek-ai/DeepSeek-V3.2-Exp
2.10 代际差分:DeepSeek-R1 -> DeepSeek-V3.2
| 维度 | DeepSeek-R1 | DeepSeek-V3.2 | 代际变化 |
|---|---|---|---|
| 架构变化 | V3 主干 + reasoning RL | V3 级主干 + DSA + scalable RL + agent synthesis | 主线开始显式改 attention 与 agent 数据引擎 |
| 注意力/路由变化 | 继承 V3 MLA/MoE | MLA 上叠加 DSA | 从 dense-ish long attention 走向 sparse attention |
| 参数与激活参数变化 | 671B / 37B | 论文未重报,工程仍属 671B 级主干 | 参数规模不是主变量,效率和 post-training 才是 |
| 训练 token 变化 | 主要增加 reasoning RL | continued pretraining + 更大 post-training 预算 | 后训练计算进一步前置 |
| 上下文变化 | 128K + 长 CoT | 128K + 稀疏长上下文 + context management | 长上下文真正服务于 agent/搜索 |
| 后训练变化 | 2SFT + 2RL,围绕 reasoning | mixed RL,统一 reasoning/agent/alignment | 后训练目标更统一、更 generalist |
| 成本/吞吐变化 | reasoning token 很长,效率弱 | DSA 降复杂度,正式版约束 token 长度换部署效率 | 从“更强推理”转向“更可落地的强推理 + 强 agent” |
| 主要 benchmark 提升 | AIME 79.8、LiveCodeBench 65.9 | AIME 2025 93.1、LiveCodeBench 83.3、BrowseComp 67.6* | reasoning 更强,同时 agent 能力显著起飞 |
| 仍未解决的问题 | token 效率差 | Speciale 级别 token efficiency 仍弱于 Gemini-3.0-Pro | 推理效率仍是 frontier challenge |
3. 分支演进
3.1 代码线:DeepSeek-Coder -> DeepSeek-Coder-V2
DeepSeek-Coder(2024-01-25)
- 提出背景:通用 LLM 会写代码,但训练语料仍以自然语言为主,跨文件依赖、仓库级上下文、局部补全与中间填空等真实编程形态没有被系统建模。
- 上一代/上一篇的瓶颈:
DeepSeek LLM证明了通用基座可行,但它不是代码专门模型,既没有面向 repository 结构的数据组织,也没有专门为 infilling 和长代码阅读设计的目标函数。 - 核心改进:
- 2T token 代码预训练,87% 为代码、13% 为自然语言;
- 以项目级数据组织训练样本,而不是只切独立函数;
- 把上下文从 4K 扩到 16K;
- 引入 Fill-in-the-Middle(FIM)目标,兼顾左到右补全和中间插补。
- 架构细节:提供 1.3B、6.7B、33B 三个 dense 尺寸;论文主打统一架构、不同规模共享训练 recipe。
- 数据与训练细节:
- 第一阶段用 1.8T token 在 4K 窗口训练;
- 第二阶段追加 200B token,把上下文扩到 16K;
- 论文强调代码仓库级去重、文件依赖排序和中英文技术文本混合,以免模型只会短函数补全。
- 后训练或 RL 细节:发布
Base和Instruct两类模型;后训练以 instruction tuning 为主,论文与 README 都没有把独立 RL 设为核心贡献。 - 关键实验:
- 33B 在 HumanEval、HumanEval Multilingual、MBPP、DS-1000 等代码 benchmark 上全面领先同代开源;
- README 明确给出相对 CodeLlama-34B 的增幅:HumanEval Python +7.9、HumanEval Multilingual +9.3、MBPP +10.8、DS-1000 +5.9;
- 7B 级模型已接近甚至逼近更大规模的 CodeLlama-34B。
- 关键消融:
- 论文单独验证 FIM 能显著提升 infilling;
- 对 FIM 比例和训练混合方式做 ablation,结论是纯自回归不足以覆盖真实编程编辑场景;
- 项目级语料组织优于只拼接独立代码片段。
- 效率/成本实验:
- 论文没有像主线 V2/V3 那样给出系统级 GPU 小时表;
- 但结果本身说明“更好的代码数据组织 + FIM + 16K”比单纯堆更大 dense 参数更有效,7B/33B 都拿到了高参数效率。
- 局限性:仍是 dense;虽然能覆盖更长代码上下文,但和后来的 code agent、工具调用、仓库级修复流程还不在一个范式上。
- 与前代差距:这是 DeepSeek 第一次把“领域强化”做成独立家族,标志着通用基座开始向专业线外溢。
- 与同期外部模型差距:在多个代码 benchmark 上可正面硬碰 CodeLlama 系列,局部指标能追平或超过闭源老一代编码模型;但离真正多步软件工程 agent 仍明显落后。
- 来源:论文 DeepSeek-Coder,仓库 DeepSeek-Coder
DeepSeek-Coder-V2(2024-06-17)
- 提出背景:
DeepSeek-Coder已证明代码专模路线成立,但 dense 结构在多语言、多文件仓库、超长上下文和复杂工程问题上继续 scale,成本会迅速失控。 - 上一代/上一篇的瓶颈:V1 的 16K 和 dense 架构对真实软件仓库仍偏短,且代码能力和通用 reasoning 之间还是分离的,无法像主线 V2 那样同时吸收 MoE、MLA 和 128K 长上下文红利。
- 核心改进:
- 从
DeepSeek-V2中间 checkpoint 继续追加 6T token 代码与通用语料; - 把代码线迁移到 MoE;
- 支持语言从 86 扩到 338;
- 上下文从 16K 扩到 128K。
- 从
- 架构细节:
- Lite:16B total / 2.4B activated;
- Full:236B total / 21B activated;
- 主干继承 V2 的 MLA 与 DeepSeekMoE 设计,使超长代码阅读时 KV 压力可控。
- 数据与训练细节:
- 基于主线 V2 中间检查点继续预训练,而不是从零训练代码 MoE;
- 额外再训 6T token,覆盖更大规模代码、多语言与跨文件场景;
- 代码线同时保留 FIM、completion、仓库级样本组织和长上下文评测。
- 后训练或 RL 细节:主要发布
Base与Instruct;后训练强调 coding instruction 与 benchmark 对齐,论文没有把独立 RL 设为主卖点。 - 关键实验:
- HumanEval 90.2;MBPP+ 76.2;LiveCodeBench 43.4;USACO 12.1;
- RepoBench(Java/Python) 与 HumanEval FIM 显著增强,说明跨文件和 infilling 两种能力同时提升;
- 数学能力同步上升:GSM8K 94.9、MATH 75.7、AIME 2024 4/30、Math Odyssey 53.7。
- 关键消融:
- 跨文件 completion 与 FIM 结果证明“更长上下文 + 代码专训 + MoE”是叠加增益,而不是彼此替代;
- NIAH 显示 128K 下长上下文检索仍稳定;
- 论文也强调 Lite 与 Full 版本的参数效率差异,说明激活参数而非总参数更能解释真实部署效果。
- 效率/成本实验:
- 236B 总参只激活 21B,把 V2 主线的计算效率红利迁入代码线;
- Lite 版以 2.4B 激活参数保留较强实用性,说明 MoE 让代码模型的“部署可用性”明显好于同级 dense。
- 局限性:距离真实软件工程 agent 仍有明显 gap;它强在编码与长上下文,不等于已经解决调试、工具调用、环境交互、任务规划。
- 与前代差距:从“强代码基座”进化为“强代码 + 强数学 + 128K 长上下文 + MoE”的复合代码模型。
- 与同期外部模型差距:在多项代码 benchmark 上已经进入可与 GPT-4-Turbo、Claude 3 Opus、Qwen2.5-Coder 等强基线同台比较的区间,但交互式工程代理仍不是它的主战场。
- 来源:论文 DeepSeek-Coder-V2,仓库 DeepSeek-Coder-V2
代码线阶段总结
Coder解决的是“代码基座怎么做”;Coder-V2解决的是“如何把主线 MoE/长上下文能力迁进代码”。- 代码线对主线的最大反哺有两点:
- 为 V3/V3.2 的 coding benchmark 和 code agent 打底;
- 证明 MoE 不仅适合通用语言,也适合高结构化代码分布。
3.2 数学线:DeepSeekMath -> DeepSeekMath-V2
DeepSeekMath(2024-02-05)
- 提出背景:数学能力不是“多加一点通用数据”就会自然长出来的,需要专门语料、专门后训练,以及能承受长推理链的 RL。
- 上一代/上一篇的瓶颈:
DeepSeek-Coder拥有一定符号推理和代码能力,但没有专门的数学语料建设,也没有把 RL 明确做成数学能力增强器。 - 核心改进:
- 从
DeepSeek-Coder-Base-v1.57B 出发,而不是从纯通用 LLM 再训; - 通过 fastText + Common Crawl 迭代检索,构建 120B 数学 token 语料;
- 提出
GRPO,去掉 PPO 中昂贵的 critic 网络。
- 从
- 架构细节:主干仍是 7B dense 数学专模;论文真正的新东西不在结构,而在数学语料构建与 RL 算法。
- 数据与训练细节:
- 数学网页语料通过多轮检索、过滤、域扩张和规则清洗构建;
- 论文明确比较网页数学语料、arXiv、代码-数学混合等来源;
- 最终形成可覆盖竞赛题、教程、问答和符号推导的 120B token 数学语料。
- 后训练或 RL 细节:
- 发布 Base、Instruct、RL 三类模型;
- RL 训练采用 GRPO,以组内相对回报替代独立 critic;
- 这篇论文实际上奠定了后来
V2、R1、Math-V2、Janus-Pro-R1的 RL 方法论基础。
- 关键实验:
- MATH 51.7;64-sample self-consistency 达 60.9;
- Base 7B 在 GSM8K 64.2、MATH 36.2,已经超过 Minerva 540B;
- RL 后相对 Instruct:GSM8K 82.9 -> 88.2,MATH 46.8 -> 51.7,CMATH 84.6 -> 88.8。
- 关键消融:
- 论文对不同数学语料来源做 corpus ablation,结论是大规模高质量网页数学语料比单纯追加 arXiv 更有效;
- 同时统一比较 SFT、RFT、DPO、PPO、GRPO,说明 GRPO 在计算成本和效果之间更平衡。
- 效率/成本实验:
- GRPO 去掉 critic,是这篇论文最关键的效率结论;
- 论文并未像主线 V2/V3 那样给出完整 GPU 小时表,但它明确论证了 GRPO 比 PPO 更省显存和训练复杂度。
- 局限性:主要还是 final-answer math;它能提升算题,但还没有进入 theorem proving、自验证和长证明修复。
- 与前代差距:把 DeepSeek 的“代码/符号”能力推进到真正的数学专门化阶段,并第一次把 RL 明确写进主能力链条。
- 与同期外部模型差距:在 7B 级别上达到极高数学参数效率,能对 Minerva 540B 形成反超;但绝对上限仍未达到后来的 o1/R1 式长推理范式。
- 来源:论文 DeepSeekMath,仓库 DeepSeek-Math
DeepSeekMath-V2(2025-11-27)
- 提出背景:只奖励最终答案会遇到两大硬伤:答案对不代表推理对;而 theorem proving 这类任务甚至没有单一 final answer 可直接打分。
- 上一代/上一篇的瓶颈:
DeepSeekMath把数学 RL 做起来了,但奖励仍以 final answer 为核心,不能稳定监督长证明、错误定位和 proof 修复。 - 核心改进:
- 引入 verifier-generator 双体制;
- 用 verifier 评估 proof 的完整性、严谨性和错误位置;
- generator 在 verifier 奖励下学会先发现证明漏洞,再修复;
- 随着 generator 变强,再扩大 verification compute 自动制造更难训练信号。
- 架构细节:基座为
DeepSeek-V3.2-Exp-Base;论文把重点放在“可验证数学推理训练框架”,而不是另造一套全新 backbone。 - 数据与训练细节:
- 训练数据不再只是题目-答案对,而是题目、证明草稿、验证反馈、修复结果等多阶段轨迹;
- 论文围绕 IMO/CMO/Putnam 级别题目构建高难数学推理与证明数据;
- 训练过程显式利用 test-time verification compute 反哺训练样本质量。
- 后训练或 RL 细节:
- 使用 verifier-guided RL 与自验证轨迹优化;
- 奖励不再只看最终是否命中答案,而是看整个证明过程是否能被 verifier 接受;
- 这使它与
R1的长 CoT 路线在数学场景发生合流。
- 关键实验:
- IMO 2025、CMO 2024 达 gold-level;
- Putnam 2024 118/120;
- 在 IMO-ProofBench 和竞赛证明集上,随着 test-time verification compute 增加,proof quality 继续上升。
- 关键消融:
- 论文比较 verifier 打分、best-of-N、顺序迭代修复等策略;
- 结论是“自验证 + 更长上下文 + 更大验证计算”明显优于单次生成;
- verifier 的错误定位能力是系统能否稳定学习 proof repair 的关键。
- 效率/成本实验:
- 论文强调 verification compute 本身是一种可扩展资源,可以在不直接放大生成模型参数的情况下继续提分;
- 但也明确承认这条路线把部分成本从训练前移到了训练和推理阶段的验证计算。
- 局限性:
- 超长 proof 仍会撞到 128K 上下文上限;
- 高质量 verifier 本身就是困难问题,验证器错误会直接污染训练信号。
- 与前代差距:从“答题数学”升级到“证明数学”,这是数学线最实质的一次范式跃迁。
- 与同期外部模型差距:在竞赛级证明上进入极前沿区间,并开始从“答案强”转向“证明过程也强”;但这类结果高度依赖专门 verifier,泛化到开放域数学仍需更多证据。
- 来源:论文 DeepSeekMath-V2,仓库 DeepSeek-Math-V2
数学线阶段总结
DeepSeekMath解决的是“数学数据 + 数学 RL”;DeepSeekMath-V2解决的是“数学 reasoning 如何自证正确”。- GRPO 从这条线出生,最终反哺了 V2、V3、R1、V3.2、Janus-Pro-R1。
3.3 证明线:DeepSeek-Prover -> DeepSeek-Prover-V1.5 -> DeepSeek-Prover-V2
DeepSeek-Prover(2024-05-23)
- 提出背景:形式化证明真正稀缺的不是模型结构,而是 Lean4 训练数据。自然语言数学题到形式化定理、再到可检查 proof,中间存在巨大的数据断层。
- 上一代/上一篇的瓶颈:
DeepSeekMath已能做较强数学推理,但它面向的是自然语言题解,不是 proof assistant 环境,缺少可执行、可检验、可回放的形式化轨迹。 - 核心改进:自动把自然语言竞赛题 formalize 为 Lean4 statement,再生成 proofs,形成约 8M synthetic Lean4 proof data。
- 架构细节:基座为
DeepSeekMath-Base7B;创新重点不在 backbone,而在大规模 autoformalization + proof synthesis pipeline。 - 数据与训练细节:
- 数据管线分为题目 formalization、Lean statement 构造、proof generation 和过滤;
- 论文强调数据规模远大于传统专家手工 formalization;
- synthetic dataset 覆盖 miniF2F、竞赛题和更广的数学问题分布。
- 后训练或 RL 细节:这代主要是 SFT 路线,重点是先把可用 proof data 做出来;论文没有把 RL 作为主要贡献。
- 关键实验:
- miniF2F-test 52.0%(64 次采样累计);
- miniF2F-valid 60.2%;
- FIMO 5/148,而论文报告 GPT-4 为 0。
- 关键消融:
- 大规模 autoformalization 明显优于传统 expert iteration 小数据路线;
- 论文也验证了 proof data 规模增长会直接提升 miniF2F 解题率。
- 效率/成本实验:
- 论文没有给出独立系统成本表;
- 但核心效率结论很明确:自动生成 proof data 比纯人工 formalization 更可扩展,否则证明线无法进入可训练区间。
- 局限性:仍是 single-pass whole-proof generation,搜索能力有限;模型规模也仍停留在 7B,复杂定理容易在中途卡住。
- 与前代差距:把数学线从“自然语言解题”推进到“可被 Lean4 检验的形式化证明”。
- 与同期外部模型差距:在 formal theorem proving 上对很多通用 LLM 形成明显优势,但整体仍处在 proof search 早期阶段,与后来的搜索式和分解式证明系统差距很大。
- 来源:论文 DeepSeek-Prover
DeepSeek-Prover-V1.5(2024-08-15)
- 提出背景:有了 proof data 之后,证明能力的瓶颈转向“怎样利用 proof assistant 的反馈做真正闭环训练”,而不是只做一次性 imitation。
- 上一代/上一篇的瓶颈:
DeepSeek-Prover基本还是 single-pass whole-proof generation。只靠 SFT,模型很难在卡住时回退、换路径或利用 Lean 的报错信号继续探索。 - 核心改进:
- 在 Prover-V1 synthetic dataset 上进一步强化;
- 引入
RLPAF(proof assistant feedback 强化学习); - 引入
RMaxTS,把蒙特卡洛树搜索引入 theorem proving。
- 架构细节:仍以 7B 级模型为核心;系统升级主要发生在训练与搜索算法层,而不是 backbone 重构。
- 数据与训练细节:
- 继续使用 V1 合成 proof 数据;
- 采样与搜索过程中把 Lean 反馈显式回灌进策略优化;
- 论文给出采样上限和搜索设置,说明证明质量高度依赖 test-time search budget。
- 后训练或 RL 细节:
RLPAF是这代的核心;- 通过 proof assistant 可执行反馈构造奖励,避免只依赖人工标注;
RMaxTS进一步把探索和 exploitation 统一到搜索框架里。
- 关键实验:
- miniF2F-test 63.5%;
- ProofNet 25.3%;
- 相对 V1 在 formal benchmark 上取得稳定增益。
- 关键消融:
- 论文做了大规模算法 ablation,证明 RL + tree search + CoT prompting 可以叠加;
RMaxTS的 intrinsic reward 设计对探索多样 proof path 极其关键。
- 效率/成本实验:
- 论文没有用 GPU 小时表呈现,但它清楚展示了一个事实:证明能力不只靠更大模型,而是靠搜索和反馈闭环;
- 代价是 test-time compute 变重,这也是后续 V2 需要递归分解的原因。
- 局限性:依然是 7B 级;复杂高阶定理仍然困难,而且 whole-proof search 一旦分支爆炸,推理成本会迅速上升。
- 与前代差距:从“有 proof data 的 SFT 模型”升级成“能利用 proof assistant 反馈和搜索做探索”的证明系统。
- 与同期外部模型差距:相较多数只做单次生成的 LLM 证明器已明显更强,但对非常难的 formal math,搜索效率和策略深度仍不够。
- 来源:论文 DeepSeek-Prover-V1.5,仓库 DeepSeek-Prover-V1.5
DeepSeek-Prover-V2(2025-04-30)
- 提出背景:证明难题的真正难点不只是“搜索”,而是 whole-proof search 太容易爆炸。必须先把大定理拆成可训练、可验证、可组合的子目标。
- 上一代/上一篇的瓶颈:
Prover-V1.5已有搜索和 RL,但仍常在整证明空间中直接搜索,难题一上来就 combinatorial explosion,反馈虽有用但粒度仍太粗。 - 核心改进:
- 用
DeepSeek-V3递归分解 theorem 成 subgoals; - 用较小 prover 逐个证明各 subgoal,再把子证明与自然语言 CoT 合成冷启动数据;
- 在此基础上继续 RL,统一 informal reasoning 与 formal proof construction。
- 用
- 架构细节:
- 7B 与 671B 两个版本;
- 671B 基于
DeepSeek-V3-Base,7B 基于Prover-V1.5-Base; - 7B 版上下文扩展到 32K。
- 数据与训练细节:
- 训练数据不再只是题目与完整 proof,而是题目、subgoal tree、各子证明及其组合轨迹;
- 论文同时发布
ProverBench,覆盖 325 个 formalized 问题,含 AIME 2024/2025 与教材题; - 冷启动数据通过“大模型拆题 + 小模型证明 + 轨迹合成”得到。
- 后训练或 RL 细节:
- 先利用递归分解生成高质量 cold-start reasoning / proof 数据;
- 再继续 RL,强化 subgoal decomposition 与 proof construction 的闭环;
- 这条路线本质上把
R1式长推理搬进 formal proving。
- 关键实验:
- miniF2F-test 88.9%;
- PutnamBench 49/658;
- 新基准 ProverBench 用来证明模型已经不只会 miniF2F。
- 关键消融:
- 重点不再是“有没有 proof data”,而是“subgoal decomposition 是否提升可解性”;
- 结果说明递归分解是从高难问题走向可训练 proof chain 的关键;
- 论文也强调更强基座模型对冷启动分解质量有显著影响。
- 效率/成本实验:
- 递归分解把部分难度从一次性 whole-proof search 转为分层求解,显著提高高难题可解性;
- 代价是系统更复杂,而且强依赖更高质量的大模型来生成分解。
- 局限性:
- 依赖更强主线模型生成高质量冷启动分解;
- 真正大规模 formal math 仍远未饱和,Putnam 级问题依旧很难。
- 与前代差距:从“搜索式证明”进化到“分解子目标 + 合成完整证明”的层级化证明系统。
- 与同期外部模型差距:在 formal benchmark 上进入极强区间,但这种优势高度依赖 DeepSeek 主线 reasoning 能力与 proof-specific 管线协同,不代表开放域推理已完全同级领先。
- 来源:论文 DeepSeek-Prover-V2,仓库 DeepSeek-Prover-V2
证明线阶段总结
Prover:解决“数据从哪里来”。Prover-V1.5:解决“如何把 proof assistant feedback 和搜索引进来”。Prover-V2:解决“如何把高层数学 reasoning 分解成可证明子目标”。- 这条线和
Math-V2一起,把 DeepSeek 从“算题”推向“证明”。
3.4 多模态理解线:DeepSeek-VL -> DeepSeek-VL2
DeepSeek-VL(2024-03-08)
- 提出背景:真实用户多模态输入并不只是自然图片,而是网页截图、PDF、OCR、表格、图表、教材等高文本密度材料。
- 上一代/上一篇的瓶颈:DeepSeek 主线此前还没有系统化的视觉语言分支,现成开源 VLM 也大多偏向自然图片问答,对真实文档和屏幕场景适应性较弱。
- 核心改进:
- 数据显式覆盖真实场景而不是只刷自然图像 benchmark;
- 根据用户场景构建 taxonomy SFT;
- 采用 hybrid vision encoder,把 1024×1024 图像压到 576 视觉 token;
- joint VL pretraining 从一开始就要求尽量不伤语言模型原有能力。
- 架构细节:提供 1.3B 与 7B 两档;视觉端为 hybrid encoder,语言端仍是标准 LLM 主干,重点在高效视觉压缩与真实场景对齐。
- 数据与训练细节:
- 训练流程分为 projector warmup、joint pretraining、SFT;
- 数据同时覆盖网页、OCR、图表、教材、图像问答等类别;
- 论文强调 SFT taxonomy 是把“真实使用场景”映射成可训练任务集合的关键。
- 后训练或 RL 细节:后训练以 taxonomy-based SFT 为主;论文没有把 RL 作为贡献点。
- 关键实验:
- 同尺寸上达到 real-world VL 任务 SOTA/competitive;
- 7B 在 GSM8K 63.0、MBPP 35.2,说明它不是“只会看图”的模型;
- 数学逻辑上超过同代开源模型,但仍显著落后 GPT-4V(MathVista 36.1 vs 47.8)。
- 关键消融:
- 分阶段训练(projector warmup -> joint pretraining -> SFT)有效;
- 论文提到最终策略让训练效率提升约 20%;
- 真实场景数据覆盖优于只堆自然图像预训练。
- 效率/成本实验:
- 576 视觉 token 压缩是它最关键的效率点;
- 论文没有给独立系统成本表,但“高分辨率输入 + 受控视觉 token 数”本身就是部署可行性的证明。
- 局限性:规模仍偏小;更高分辨率、极端长文档、多图推理和统一理解/生成都还没解决。
- 与前代差距:DeepSeek 首次把多模态从附加能力变成正式分支,并把重点放在真实场景理解,而不是只刷图像问答榜单。
- 与同期外部模型差距:相较同代开源模型具有更强真实场景适应性,但和 GPT-4V 这类顶级闭源模型仍有明显差距,尤其在复杂数学视觉推理上。
- 来源:论文 DeepSeek-VL,仓库 DeepSeek-VL
DeepSeek-VL2(2024-12-13)
- 提出背景:
DeepSeek-VL证明了真实场景 VLM 的价值,但固定 1024×1024 输入和 dense 语言端在高分辨率文档、多尺度图像、极端长宽比输入上都会遇到瓶颈。 - 上一代/上一篇的瓶颈:V1 的视觉编码仍偏固定分辨率,语言端也没有吸收主线
MLA + MoE的效率红利,导致高分辨率任务和大模型扩展都受限。 - 核心改进:
- 引入 dynamic tiling vision encoding,适应高分辨率与极端长宽比;
- 语言端切到
DeepSeekMoE + MLA; - 数据与对齐策略全面升级。
- 架构细节:
- repo 部署口径:Tiny 3.37B total / 1.0B activated;Small 16.1B / 2.4B;Full 27.5B / 4.2B;
- 论文摘要口径写作 1.0B / 2.8B / 4.5B activated,与 README 有轻微差异,阅读时必须区分版本口径;
- 核心结构是“动态视觉切块 + MLA + MoE 语言端”。
- 数据与训练细节:
- 多模态数据覆盖文档、OCR、图表、通用问答与多图场景;
- dynamic tiling 让训练样本不必强制缩放到统一视觉尺度;
- 语言端与主线共享更多 backbone 技术,从而继承 MoE 参数效率。
- 后训练或 RL 细节:主要是 improved VL alignment;论文没有把独立 RL 列为主贡献。
- 关键实验:
- 在 DocVQA、ChartQA、InfoVQA、TextVQA、OCRBench、MMMU、MathVista、MMBench 等任务上整体领先同激活规模开源模型;
- 论文图 1 用激活参数对比平均性能,强调参数效率优势;
- 这说明它不是简单靠更大总参获胜,而是靠更优激活效率与视觉编码方式。
- 关键消融:
- dynamic tiling 是从 DeepSeek-VL 固定 1024² 约束走出来的关键;
- MLA + MoE 让大模型 inference throughput 更可控;
- 论文也间接证明“激活参数”比“总参数”更能解释其真实表现。
- 效率/成本实验:
- 相比 dense VLM,MoE 语言端显著改善了部署成本;
- dynamic tiling 避免了无意义地把超宽/超长图统一拉伸到固定分辨率,从输入侧降低冗余计算。
- 局限性:虽然已经 MoE 化,但仍主要面向理解,不是统一理解/生成模型;极端复杂 agentic vision 任务也不是它的主战场。
- 与前代差距:从“真实场景理解 VLM”升级为“支持高分辨率、多尺度、MoE 语言端的参数高效 VLM”。
- 与同期外部模型差距:在开源理解型 VLM 中很强,但路线选择上与 Janus 系列分工明确,没有去正面竞争统一生成模型,也尚未全面追平顶级闭源全能多模态系统。
- 来源:论文 DeepSeek-VL2,仓库 DeepSeek-VL2
理解线阶段总结
DeepSeek-VL的关键词是 真实场景数据;DeepSeek-VL2的关键词是 高分辨率泛化 + MoE 化语言端。- 这条线最终和 Janus 系列分道而行:一个专注理解,一个追求理解/生成统一。
3.5 统一多模态线:Janus -> JanusFlow -> Janus-Pro -> Janus-Pro-R1
Janus(2024-10-17)
- 提出背景:统一多模态模型如果让理解和生成共享同一视觉编码器,往往会出现一头强、一头弱,两种目标互相牵制。
- 上一代/上一篇的瓶颈:
DeepSeek-VL和DeepSeek-VL2专注理解,不解决统一生成;而许多统一模型又因为共享视觉表示,理解与生成都被妥协。 - 核心改进:把 visual encoding 解耦成理解和生成两条路径,但仍用单一 transformer 主干统一处理。
- 架构细节:1.3B 级统一多模态模型;关键不是放大主干,而是 decoupled visual encoders + shared transformer backbone。
- 数据与训练细节:
- 训练同时覆盖理解任务与生成任务;
- 视觉理解与视觉生成采用不同编码路径,避免表征冲突;
- 统一框架使模型能在同一参数空间内兼顾两类任务。
- 后训练或 RL 细节:以 unified pretraining + SFT 为主;尚未引入 R1 式 RL。
- 关键实验:
- 1.3B 模型在 MMBench 69.4、SEED 63.7、POPE 87.0;
- 生成侧在 GenEval 也有竞争力;
- 论文强调其不仅超过既有 unified models,还能匹敌部分 task-specific 模型。
- 关键消融:
- 共享视觉编码器会显著伤多模态理解;
- decoupling 是 Janus 成立的前提;
- 这说明统一主干不等于统一视觉表征。
- 效率/成本实验:
- 论文没有用大规模系统成本表叙述;
- 但其关键效率结论是:通过解耦视觉编码,可以在不扩大太多参数的前提下兼顾理解和生成。
- 局限性:模型规模仅 1.3B,短 prompt 图像生成稳定性仍有限,复杂编辑和长链多模态推理尚弱。
- 与前代差距:DeepSeek 第一次把“统一多模态理解 + 生成”做成清晰架构路线,而不是只在理解 VLM 上修修补补。
- 与同期外部模型差距:对统一多模态开源路线有明显推进,但绝对生成质量和复杂理解能力仍未达到顶级闭源模型水平。
- 来源:论文 Janus,仓库 Janus
JanusFlow(2024-11-12)
- 提出背景:
Janus证明了解耦视觉编码是对的,但生成侧若仍完全依赖离散 token 自回归,图像质量和连续建模能力仍然受限。 - 上一代/上一篇的瓶颈:Janus 已解决统一框架中的表征冲突,却没有解决“生成范式仍偏 AR,难以逼近更强连续生成模型”的问题。
- 核心改进:在 Janus 的统一框架里引入 rectified flow,让图像生成不再只依赖离散 token 自回归。
- 架构细节:
- 保留 decoupled encoders;
- 在 unified training 中做 representation alignment;
- 理解侧继续自回归,生成侧引入 flow objective。
- 数据与训练细节:
- 训练同时对齐 AR 理解目标与 flow 生成目标;
- representation alignment 用于减少理解表示与生成表示分裂;
- 论文强调 unified framework 并不排斥混合生成范式。
- 后训练或 RL 细节:仍以统一预训练和监督对齐为主;未引入 RL。
- 关键实验:论文指出 JanusFlow 在统一模型上显著超过既有 unified baselines,并在理解和生成两边都接近甚至超过 task-specific 模型。
- 关键消融:
- representation alignment 对生成 FID 和理解分数都重要;
- 混合 AR + flow 目标优于只保留单一生成范式。
- 效率/成本实验:
- 论文没有独立给出完整训练成本;
- 但其实际意义在于说明无需拆成两套模型,也能把更强生成目标并入统一框架。
- 局限性:仍是 1.3B;多轮交互、复杂编辑和推理式生成还不是重点。
- 与前代差距:从“统一架构成立”推进到“统一架构内部也能容纳更强连续生成范式”。
- 与同期外部模型差距:在 unified 路线上比不少开源基线更先进,但与专门大规模 diffusion/flow 生成系统相比仍有质量差距。
- 来源:论文 JanusFlow
Janus-Pro(2025-01-29)
- 提出背景:Janus/JanusFlow 已证明统一路线可行,但 1.3B 级规模仍限制了理解与生成上限,数据质量和训练细节也还有放大空间。
- 上一代/上一篇的瓶颈:JanusFlow 解决了生成范式问题,却没有从数据、模型规模和训练稳定性上把统一模型推到更高上限。
- 核心改进:
- 优化训练策略;
- 扩大训练数据;
- 把模型规模从 Janus 的 1B 级扩到 7B。
- 架构细节:提供 1B/7B 版本;主架构仍延续 Janus 路线,但把数据与规模放大作为主要增益来源。
- 数据与训练细节:
- 更大规模图文理解与生成联合数据;
- 论文特别强调合成数据对文生图学习稳定性的重要作用;
- 训练 recipe 也更强调指令跟随和生成稳定性。
- 后训练或 RL 细节:仍以 unified pretraining + SFT 为主;尚未系统引入 reasoning-style RL。
- 关键实验:
- Janus-Pro-7B:POPE 87.4、MME-Perception 1567.1、MMBench 79.2、GQA 72.1、MMMU 41.0、MM-Vet 50.0;
- GenEval 0.80,较 Janus 的生成稳定性和指令跟随明显改善。
- 关键消融:
- 合成数据让文本到图像训练收敛更快、结果更稳;
- 相比 Janus,短 prompt 图像生成质量和稳定性显著提升;
- 这说明统一模型的瓶颈不只是结构,还包括训练数据与规模。
- 效率/成本实验:
- 论文未披露主线那种系统级 GPU 成本表;
- 但模型放大到 7B 后仍维持统一架构,说明 Janus 路线具备继续 scale 的现实可行性。
- 局限性:还没有把 reasoning-style RL 系统引入视觉生成,多步自反思和编辑闭环能力有限。
- 与前代差距:这是 Janus 系列第一次在理解和生成两侧同时实现显著跃升,而不只是局部修补。
- 与同期外部模型差距:已进入强开源统一多模态模型区间,但和最强闭源生成/理解系统相比仍有上限差距。
- 来源:论文 Janus-Pro
Janus-Pro-R1(2025-06-02)
- 提出背景:即便到了 Janus-Pro,理解和生成仍更像两个并排模块,而不是通过推理过程真正协作。
- 上一代/上一篇的瓶颈:Janus-Pro 规模更大、数据更强,但生成端仍以监督学习为主,没有把 R1 式“先模仿、再 RL、自发反思”的能力迁进视觉生成。
- 核心改进:
- 让 visual comprehension 与 generation 通过真正的 token-level CoT 协作;
- 先通过 SFT 教模型“会模仿视觉生成推理”;
- 再用 GRPO 做 RL,让模型在没有 ground-truth image 的情况下自发学会反思和重绘。
- 架构细节:论文重点展示 1B 级主体;架构不追求大改 backbone,而是把 reasoning-style 训练机制引入统一多模态系统。
- 数据与训练细节:
- 构造涵盖文生图、图像编辑、图像语义评估的多任务训练数据;
- 训练目标不仅看最终图像,还看中间 reasoning / critique / regeneration 轨迹;
- 这使模型首次显式学习“看图-评图-改图”的闭环。
- 后训练或 RL 细节:
- 先 SFT,再 GRPO;
- 奖励来自图像质量、语义一致性和编辑目标达成情况;
- 这是多模态线对
R1思想的直接吸收。
- 关键实验:
- 零样本文生图、图像编辑、图像语义评估三方面都超过 Janus-Pro 和多类 baseline;
- PIE-Bench 图像编辑中,Janus-Pro-R1-Edit 相比 Janus-Pro-Edit 在结构距离、PSNR、MSE 等指标上整体更优。
- 关键消融:
- 只做文本到图像 SFT 或只做评价/重生成子任务都不够,多个子任务协同训练最有效;
- RL 能让模型从“模仿式 CoT”走向“真实 reasoning”。
- 效率/成本实验:
- 论文没有给出与主线同量级的系统成本表;
- 但它明确表明,多模态 RL 会引入额外采样与评估成本,这也是 1B 级实验优先公开的现实原因。
- 局限性:论文自己承认 1B 模型上出现
Aha moment已不容易,说明视觉 CoT 的可扩展性仍强依赖更大参数规模与更高质量奖励。 - 与前代差距:从“统一理解/生成模型”升级到“理解和生成通过推理过程协作的统一模型”。
- 与同期外部模型差距:在开源统一多模态 RL 路线中很前沿,但大规模视觉 agent 能力和复杂场景稳健性仍需更强基座支持。
- 来源:论文 Janus-Pro-R1
统一多模态线阶段总结
Janus解决“统一模型为什么总是两头不讨好”。JanusFlow解决“统一模型生成端怎样引入更强连续生成范式”。Janus-Pro解决“数据、策略、规模不足导致的质量上限”。Janus-Pro-R1解决“理解和生成如何真正通过 reasoning 协作”。
3.6 OCR / 文档线:DeepSeek-OCR -> DeepSeek-OCR 2
DeepSeek-OCR(2025-10-21)
- 提出背景:长文本上下文在 LLM 里太贵,文档/OCR 场景真正稀缺的是“如何用更少 token 读更多文字”,而不是把每个字符都原样喂进 LLM。
- 上一代/上一篇的瓶颈:
DeepSeek-VL2虽然擅长文档理解,但并没有把“视觉 token 压缩率”当成一等公民优化目标,长文档成本依旧高。 - 核心改进:
- 提出
DeepEncoder做高分辨率低激活压缩; - 解码端使用
DeepSeek3B-MoE-A570M; - 系统研究“文本 token / 视觉 token 压缩比”与 OCR 精度的关系。
- 提出
- 架构细节:
DeepEncoder约 380M 参数(80M SAM-base + 300M CLIP-large 串联);- 解码器是 3B MoE,推理时激活约 570M 参数,6/64 routed experts + 2 shared experts;
- 路线重点是 optical 2D compression,而不是通用聊天型多模态对齐。
- 数据与训练细节:
- 训练围绕大规模文档页和 OCR 任务进行;
- 论文强调单卡 A100-40G 可生成 200k+ 页/天训练数据,说明其数据生产线本身就是系统贡献;
- 模型没有走重 SFT 聊天路线,而是直接瞄准文档解析效率。
- 后训练或 RL 细节:无独立 RL;论文明确没有把 SFT 作为主阶段,因此它更偏任务型 OCR 解析器。
- 关键实验:
- 压缩比 < 10x 时 OCR precision 可达 97%;
- 压缩比 20x 时仍约 60%;
- OmniDocBench 上用 100 视觉 token 超过 GOT-OCR2.0(256 token/page);
- 用少于 800 vision tokens 超过 MinerU2.0(平均 6000+ token/page)。
- 关键消融:
- 论文图 1(a) 系统展示视觉 token 数与 OCR 精度关系,这是最重要的机制实验;
- 结果证明“更强压缩”与“可接受 OCR 精度”之间存在明确 trade-off 曲线;
- 无 SFT 设计也间接证明它不是以聊天泛化为主目标。
- 效率/成本实验:
- 单 A100-40G 可生成 200k+ 页/天训练数据;
- 在少 token 条件下超过 GOT-OCR2.0 与 MinerU2.0,是这条线最硬的成本/吞吐证据。
- 局限性:
- 更像“光学压缩研究原型 + 高实用值 OCR”,不是通用多模态助手;
- 布局顺序仍主要依赖固定视觉扫描方式。
- 与前代差距:新开一条完全不同于 VLM 的文档路线,把“压缩率”提到与“精度”同等重要的位置。
- 与同期外部模型差距:在文档 token 效率上非常激进,甚至反超部分现有 OCR 系统;但能力边界集中在文档解析,并不等于综合视觉智能全面领先。
- 来源:论文 DeepSeek-OCR,仓库 DeepSeek-OCR
DeepSeek-OCR 2(2026-01-28)
- 提出背景:传统 VLM 总按 raster-scan 固定顺序喂视觉 token,这和人类读复杂文档时“按语义逻辑跳读”的方式不一致。
- 上一代/上一篇的瓶颈:
DeepSeek-OCR已经证明压缩有效,但读取顺序仍偏固定扫描;一旦遇到复杂布局、表格、公式、跨栏结构,顺序建模会成为新瓶颈。 - 核心改进:
- 提出
DeepEncoder V2; - 用 LLM-style vision encoder 替代 OCR 1 里的 CLIP 模块;
- 引入
visual causal flow,在送入 LLM 前先按语义重排视觉 token。
- 提出
- 架构细节:
- 保留 80M 级图像压缩器;
- 训练时 sequence packing 到 8K;
- README 支持动态分辨率
(0-6)×768×768 + 1×1024×1024。
- 数据与训练细节:
- 训练更加面向复杂文档布局、表格、公式和阅读顺序理解;
- 视觉 token 在进入主干前经过基于语义的重排,而不是固定光栅顺序;
- 论文把这视作迈向 genuine 2D reasoning 的结构性尝试。
- 后训练或 RL 细节:无独立 RL;重点仍在视觉编码与 token flow 机制,不在聊天式后训练。
- 关键实验:
- 论文主打 OmniDocBench、复杂布局顺序、表格/公式场景整体提升;
- README 明确指出推理速度与 OCR 1 大致同级,但精度更高。
- 关键消融:
- 论文专门有
Improvement Headroom和Practical Readiness部分; - 重点是验证 token reorder 对布局理解是否真有增益,而不是只看单纯 OCR 精度;
- 这说明它的贡献是“读取机制变化”,不是简单换更大编码器。
- 论文专门有
- 效率/成本实验:
- 在推理速度与 OCR 1 近似的条件下继续提精度,是 OCR 2 最重要的成本结论;
- 说明视觉因果流并没有把系统推向不可部署的复杂度。
- 局限性:
- 论文把它定位成“探索 genuine 2D reasoning 的新架构”,说明仍处在研究前沿;
- 真正的跨页长文档规划、通用文档 agent 还没有完整解决。
- 与前代差距:从“压得更省”走向“压完以后更会读”,即从压缩问题推进到读取顺序与 2D reasoning 问题。
- 与同期外部模型差距:在复杂文档读取机制上路线非常新,但这类优势更像研究前沿领先,而不是所有 OCR 业务面都已无条件碾压。
- 来源:论文 DeepSeek-OCR 2,仓库 DeepSeek-OCR-2
OCR 线阶段总结
OCR解决“能不能把长文本压到更少视觉 token 再读出来”;OCR 2解决“压完以后,能不能按更像人类的语义顺序去读”。- 这是 DeepSeek 分支里最像“新感知范式实验”的一条线。
4. 横向总对比
4.1 主线总代际表
| 代际 | 主问题 | 关键技术 | 参数规模 | 训练数据/计算 | 最核心实验结果 | 仍未解决的问题 |
|---|---|---|---|---|---|---|
| DeepSeek LLM | 开源 dense 基座是否还能 scale | 2T bilingual corpus, SFT+DPO | 7B / 67B dense | 2T token | 67B Chat 在代码/数学/中文上建立强基线 | 成本高、4K 短上下文、reasoning 不够强 |
| DeepSeekMoE | 如何降低 scale 成本 | fine-grained expert + shared experts | 16B/145B 级验证 | 同主线语料体系 | 16B 以约 40% 计算达到 dense 7B 级 | KV cache、负载均衡、长上下文 |
| DeepSeek-V2 | 如何同时做强性能、低成本、长上下文 | MLA + DeepSeekMoE + 128K | 236B / 21B | 8.1T token | 相比 67B 训练成本 -42.5%、KV -93.3%、吞吐 5.76x | frontier reasoning 仍弱 |
| DeepSeek-V3 | 如何进入前沿开源第一梯队 | aux-loss-free、MTP、FP8、DualPipe | 671B / 37B | 14.8T + 2.788M H800 h | MMLU 88.5、AIME 39.2、LiveCodeBench 40.5 | agent / long CoT 仍待强化 |
| DeepSeek-R1 | 能否用 RL 催生 reasoning | R1-Zero, 2SFT+2RL, GRPO | 671B / 37B | 大规模 RL compute | AIME 79.8、MATH-500 97.3、ArenaHard 92.3 | token 成本高、agent 不强 |
| DeepSeek-V3.2 | 如何把 reasoning 变成 agentic generalist | DSA + scalable RL + agent synthesis | V3 级主干 | post-train cost > pretrain 10% | LiveCodeBench 83.3、BrowseComp 67.6*、AIME 2025 93.1 | token efficiency 仍是 frontier challenge |
4.2 代码 / 数学 / 证明分支对比表
| 分支节点 | 主要目标 | 关键技术 | 代表结果 | 相比上一代的实质增量 |
|---|---|---|---|---|
| DeepSeek-Coder | 代码基座 | 项目级语料、FIM、16K | 33B 领先开源代码模型 | 代码从通用能力变成专门能力 |
| DeepSeek-Coder-V2 | 长上下文代码与多语言 | V2 checkpoint + 6T continue pretrain + MoE + 128K | HumanEval 90.2,LiveCodeBench 43.4 | 代码线完成 MoE 化与 128K 化 |
| DeepSeekMath | 数学 reasoning | 120B 数学语料 + GRPO | MATH 51.7 | 首次给 DeepSeek 主系引入 GRPO |
| DeepSeekMath-V2 | 自验证数学证明 | verifier-generator + self-verification | IMO/CMO gold-level,Putnam 118/120 | 从 final answer reward 走向 proof reward |
| DeepSeek-Prover | 形式化证明数据生成 | 8M synthetic Lean4 proofs | miniF2F-test 52.0 | 证明线起点 |
| DeepSeek-Prover-V1.5 | 证明搜索 | RLPAF + RMaxTS | miniF2F-test 63.5,ProofNet 25.3 | 从单次生成走向搜索式证明 |
| DeepSeek-Prover-V2 | 子目标分解证明 | recursive subgoal decomposition + RL | miniF2F-test 88.9 | 证明线达到世界级开源水平 |
4.3 多模态 / OCR 分支对比表
| 分支节点 | 任务定位 | 关键技术 | 代表结果 | 相比上一代的实质增量 |
|---|---|---|---|---|
| DeepSeek-VL | 真实场景多模态理解 | hybrid vision encoder + taxonomy SFT | 同尺寸 real-world VL SOTA/competitive | 从自然图像走向截图/PDF/OCR/图表 |
| DeepSeek-VL2 | 高分辨率 MoE VLM | dynamic tiling + MLA + MoE | Doc/OCR/chart/grounding 全线提升 | 语言端 MoE 化,高分辨率适应增强 |
| Janus | 统一理解 + 生成 | decoupled visual encoding | 1.3B 上 unified model SOTA | 统一多模态范式起点 |
| JanusFlow | 统一理解 + 更强生成 | rectified flow + representation alignment | 理解/生成同时提升 | 从纯 AR 统一模型升级为 AR+flow |
| Janus-Pro | 统一多模态大幅放大 | 更优训练、更大数据、7B 规模 | MMBench 79.2,GenEval 0.80 | 从 1B 探路升到可用 7B |
| Janus-Pro-R1 | 视觉生成 reasoning | genuine CoT + GRPO | 文生图/编辑/语义评估同步增强 | 把 R1 思想迁入多模态 |
| DeepSeek-OCR | 文档压缩式 OCR | DeepEncoder + 3B MoE decoder | 100 vision token 超 GOT-OCR2.0 | 开辟独立 OCR 研究线 |
| DeepSeek-OCR 2 | 视觉因果流 OCR | DeepEncoder V2 + semantic token reorder | 复杂布局进一步提升 | 从“压缩”升级到“按语义重排读取” |
4.4 同期外部 SOTA 对比表(只保留每代最关键外部参照)
| DeepSeek 代际 | 官方主要对照 | 结论 |
|---|---|---|
| DeepSeek LLM 67B | LLaMA2-70B、GPT-3.5 | 多项基础 benchmark 超 LLaMA2-70B;中文开放式体验超过 GPT-3.5 |
| DeepSeek-V2 | LLaMA3-70B、Mixtral 8x22B | 中文、长上下文效率、训练/推理成本优势明显 |
| DeepSeek-V3 | GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72B、Llama-3.1-405B | 进入前沿开源第一梯队,部分 code/math 指标可与闭源竞品同台 |
| DeepSeek-R1 | OpenAI o1 / o1-mini | 在 reasoning 维度建立开源最强档位,蒸馏模型对 o1-mini 形成强压力 |
| DeepSeek-V3.2 | GPT-5、Gemini-3.0-Pro、Claude-4.5 | 正式版在 agent 场景大幅追近闭源前沿;Speciale 在顶级竞赛上达到甚至超过部分闭源前沿表现 |
5. 结论
5.1 DeepSeek 的总技术主线是什么
- 第一阶段:先把 dense 基座做扎实。
DeepSeek LLM解决的是数据规模、双语能力和代码/数学底座。 - 第二阶段:把主线迁到高效 MoE。
DeepSeekMoE -> V2 -> V3解决的是总参数扩展、KV cache、长上下文、负载均衡和低成本训练。 - 第三阶段:把 RL 变成核心增长杠杆。
DeepSeekMath发明并验证GRPO,R1把它推成 reasoning 主线,V3.2再把 RL 扩到 agent 场景。 - 第四阶段:分支线反哺主线。 数学、证明、代码、多模态、OCR 都不是孤立实验,而是在不断把各自成熟的训练 recipe 回流给主线。
5.2 最关键的几次范式跃迁是什么
- Dense -> MoE:从
DeepSeek LLM到DeepSeekMoE/V2,解决了“再 scale 会不会贵到不可用”的问题。 - Dense attention -> MLA / sparse attention:
V2用 MLA 解决 KV cache,V3.2用 DSA 继续解决长上下文效率。 - SFT/DPO 对齐 -> RL 主导 reasoning:
DeepSeekMath的 GRPO 是转折点,R1把它扩成全主线 reasoning 范式。 - Reasoning model -> Agentic generalist:
V3.2不再只卷考试题,而是把 reasoning、search、coding、browser、tool use 统一进一个可扩展 post-training 体系。 - 答案奖励 -> 证明/自验证奖励:
Math-V2和Prover-V2代表 DeepSeek 开始触及“答案正确不等于推理正确”这个更深层问题。
5.3 截至 2026-04-09 仍然存在的明显短板
- token efficiency 仍是主线最大矛盾:R1 和 V3.2 的 reasoning/agent 能力都很强,但长 CoT 推理成本仍高,论文自己也承认
V3.2-Speciale的 token efficiency 仍弱于 Gemini-3.0-Pro。 - 极高端能力越来越依赖 post-training compute:V3.2 已经明确把后训练预算抬到 pretraining 的 10% 以上,说明“预训练一次定终身”的时代已经过去了。
- 多模态统一尚未完全收敛:Janus 系列在走“统一理解+生成”,VL/OCR 线在走“强理解/强压缩”,两条路线仍并行,说明统一最优范式还没定型。
- 证明与自验证仍远未饱和:Math-V2 和 Prover-V2 虽然很强,但它们反而证明了“final-answer reward 只是入门”,真正困难的是长证明、自验证、开放问题验证。
6. 术语表
| 术语 | 含义 | 在 DeepSeek 系列中的作用 |
|---|---|---|
| MLA | Multi-head Latent Attention | 先在 V2 引入,压缩 KV cache,是 V2/V3/V3.2 主干效率核心 |
| DeepSeekMoE | DeepSeek 的 MoE 架构 | 从 MoE 论文开始,主打 fine-grained experts + shared experts |
| Shared Experts | 始终激活的共享 expert | 吸收通用知识,减少 routed expert 冗余 |
| Device-Limited Routing | 设备约束路由 | V2 用来降低跨设备通信与负载失衡 |
| Auxiliary-Loss-Free Balancing | 无辅助损失负载均衡 | V3 为大规模 MoE 提供更少副作用的负载均衡 |
| MTP | Multi-Token Prediction | V3 引入,提高 math/code 性能,也可用于 speculative decoding |
| GRPO | Group Relative Policy Optimization | DeepSeekMath 提出,后续 V2/V3/R1/V3.2/Janus-Pro-R1 全部复用 |
| RLPAF | Reinforcement Learning from Proof Assistant Feedback | Prover-V1.5 用于 theorem proving |
| RMaxTS | 一种面向证明搜索的 MCTS 变体 | Prover-V1.5 引入,用 intrinsic reward 探索证明树 |
| DSA | DeepSeek Sparse Attention | V3.2 的长上下文高效注意力机制 |
| Context Management | 测试时管理上下文与执行轨迹的策略 | V3.2 在 BrowseComp 等 agent benchmark 上的重要增益来源 |
| Self-Verification | 模型先检查自己推理/证明是否可靠 | Math-V2 的核心范式 |
| Visual Causal Flow | 按语义逻辑重排视觉 token | OCR 2 的核心创新 |
7. 支撑技术补注
7.1 GRPO 是 DeepSeek 全系后训练的关键支点
- 首次系统提出:
DeepSeekMath。 - 主线迁移:
DeepSeek-V2把 GRPO 引回通用主线;DeepSeek-V3继续沿用;DeepSeek-R1用它催生 reasoning;DeepSeek-V3.2用它做 mixed RL;Janus-Pro-R1把它迁到视觉生成。 - 核心价值:去掉 critic,显著降低 RL 资源开销,让大模型 RL 更可扩展。
7.2 DeepSeek-V3 / V3.2 的系统工程并不只是“模型论文附属品”
DualPipe:围绕 computation-communication overlap 设计的训练流水线,是 V3 大规模训练能把利用率提上去的重要基础。DeepEP:面向 expert parallel 的高效通信库,服务于大规模 MoE 训练/推理。DeepGEMM:FP8 GEMM 核心算子库,对 V3/V3.2 的低精度推理和后续 sparse attention 内核生态很关键。FlashMLA:MLA/DSA 高性能 kernel 支撑。3FS:面向大规模训练/推理的数据访问系统组件,属于 DeepSeek 开源基础设施栈的一部分。
7.3 DeepSeek-V3.2-Exp 是 DSA 的公开验证场
- 这不是正式世代替换,而是“把 sparse attention 从论文想法拉到工程可运行”的实验节点。
- 官方对照已经显示:在大多数公开 benchmark 上与
V3.1-Terminus基本打平,说明 DSA 的主要价值首先是 效率红利不是质量退化。
7.4 DeepSeek-GRM 是 V3.2 时代引入更一般 reward 的信号
- 论文《Inference-Time Scaling for Generalist Reward Modeling》提出了 generative reward modeling、SPCT、自适应原则生成与 critique,以及 inference-time scaling 的 generalist reward 思路。
- 虽然它不属于主家族命名模型,但它代表 DeepSeek 在“可验证 reward”之外,开始系统研究更一般的 reward 建模,这与 V3.2 的 generative reward model 路线是同向的。
8. 参考资料(官方)
8.1 主线
- DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
- DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
- DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- DeepSeek-V3 Technical Report
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
- deepseek-ai/DeepSeek-LLM
- deepseek-ai/DeepSeek-MoE
- deepseek-ai/DeepSeek-V2
- deepseek-ai/DeepSeek-V3
- deepseek-ai/DeepSeek-R1
- deepseek-ai/DeepSeek-V3.2-Exp
8.2 代码 / 数学 / 证明
- DeepSeek-Coder: When the Large Language Model Meets Programming – The Rise of Code Intelligence
- DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
- DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
- DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data
- DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search
- DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition
- deepseek-ai/DeepSeek-Coder
- deepseek-ai/DeepSeek-Coder-V2
- deepseek-ai/DeepSeek-Math
- deepseek-ai/DeepSeek-Math-V2
- deepseek-ai/DeepSeek-Prover-V1.5
- deepseek-ai/DeepSeek-Prover-V2
8.3 多模态 / OCR
- DeepSeek-VL: Towards Real-World Vision-Language Understanding
- DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
- Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
- JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation
- Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
- Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning
- DeepSeek-OCR: Contexts Optical Compression
- DeepSeek-OCR 2: Visual Causal Flow
- deepseek-ai/DeepSeek-VL
- deepseek-ai/DeepSeek-VL2
- deepseek-ai/Janus
- deepseek-ai/DeepSeek-OCR
- deepseek-ai/DeepSeek-OCR-2
8.4 支撑技术
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)