DeepSeek-V4 这次最值得关注的地方,不是单纯把参数规模继续堆大,而是把大模型正在遇到的一个核心瓶颈摆到了台前:当推理模型越来越依赖 test-time scaling,当智能体任务、长文档分析、跨文件代码理解都需要超长上下文时,传统 Attention 的计算和 KV Cache 成本已经变成主要限制。 DeepSeek-V4 的目标,就是让百万 token 上下文从“理论支持”变成“工程上可以日常使用”。报告中给出的两个预览模型分别是 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash:前者总参数约 1.6T、每 token 激活 49B;后者总参数 284B、每 token 激活 13B,二者都支持 100 万 token 上下文。

一、先看结论:V4 的核心突破是什么?

一句话概括:DeepSeek-V4 是一次围绕“长上下文效率”的系统级重构。

过去很多模型也宣称支持长上下文,但长上下文的成本主要卡在两件事上。第一是 Attention 计算量,尤其在长序列下,普通全量注意力会随上下文长度急剧膨胀。第二是 KV Cache,模型每生成一个 token,都要保留历史 token 的 key/value 表示,百万 token 下显存压力非常大。DeepSeek-V4 用混合注意力架构 CSA + HCA,把历史上下文压缩成更少的 KV 条目,再通过稀疏选择或重压缩稠密注意力来降低计算量;同时配合 FP8/FP4 低精度存储与计算,让 KV Cache 和推理 FLOPs 都大幅下降。报告称,在 100 万 token 场景下,DeepSeek-V4-Pro 的单 token 推理 FLOPs 只有 DeepSeek-V3.2 的 27%,KV Cache 只有 10%;V4-Flash 则进一步降到 10% FLOPs 和 7% KV Cache。

这意味着 V4 的技术路线不是“我能塞进 100 万 token”,而是“我能在 100 万 token 下比较经济地继续推理、检索和思考”。这对长程智能体、代码仓库级分析、多论文综述、复杂企业文档处理都很关键。

二、模型家族:Pro 追求上限,Flash 追求性价比

DeepSeek-V4 系列至少包含两个核心版本。DeepSeek-V4-Pro 是能力上限版本,61 层 Transformer,隐藏维度 7168,总参数 1.6T,每 token 激活 49B;DeepSeek-V4-Flash 是高效率版本,43 层 Transformer,隐藏维度 4096,总参数 284B,每 token 激活 13B。二者都采用 MoE 架构,但只激活一小部分专家,因此总参数很大,实际每 token 计算量相对可控。表 1 中也把 V4-Pro-Base、V4-Flash-Base 与 V3.2-Base 做了统一评测对比,其中 V4-Pro-Base 被报告描述为 DeepSeek 系列中目前最强基础模型,而 V4-Flash-Base 在更小激活参数下超过 V3.2-Base 的多数指标。

Pro 和 Flash 的定位差异很明显:Pro 适合高难推理、复杂智能体、深度代码与长文档任务;Flash 更适合大规模部署、低成本调用,以及在给足思考预算时完成性价比较高的推理任务。报告也明确提到,Flash 在知识类评测中由于参数规模较小会落后于 Pro,但在推理任务上如果给更大的 thinking budget,可以接近更大模型的表现。

三、第一大技术点:CSA + HCA 混合注意力,让百万 token 不再全量硬算

DeepSeek-V4 最关键的架构创新是 Hybrid Attention,也就是把两类注意力交错使用:Compressed Sparse Attention,简称 CSA;Heavily Compressed Attention,简称 HCA。报告中 Figure 2 给出了整体架构:注意力层使用 CSA/HCA,前馈层使用 DeepSeekMoE,并用 mHC 加强传统残差连接。

CSA 可以理解为“先压缩,再稀疏检索”。它不是让每个 query token 去看所有历史 token,而是先把每 m 个 token 的 KV 压缩成一个条目,然后用一个轻量的 Lightning Indexer 对压缩后的 KV 块打分,只选 top-k 个最相关的压缩 KV 条目参与核心注意力。DeepSeek-V4-Flash 的 CSA 压缩率 m=4,top-k=512;DeepSeek-V4-Pro 的 CSA 同样 m=4,但 top-k=1024。这样一来,远距离历史不再以原始 token 粒度全部参与计算,而是先变成“块级记忆”,再按需检索。

HCA 则更激进,可以理解为“重压缩后的全局摘要注意力”。它把每 m′ 个 token 压成一个 KV 条目,并且 m′ 远大于 m;在 V4 的配置中,HCA 的压缩率 m′=128。HCA 不做稀疏 top-k,而是在重压缩后的短序列上做稠密注意力。它牺牲了一部分细粒度信息,换来非常便宜的全局覆盖。

为什么要 CSA 和 HCA 混用?因为单靠 CSA,模型能精准检索远处相关片段,但全局背景可能不够平滑;单靠 HCA,模型能便宜地看到全局,但细节会被压缩。混合后,CSA 负责“从百万 token 中找关键证据”,HCA 负责“维持全局语义场”。同时,二者都额外加入滑动窗口注意力分支,让最近的 nwin=128 个 token 以未压缩形式参与注意力,弥补局部细节损失。

这就是 V4 长上下文能力的核心:远处信息压缩,关键远处信息稀疏选取,近处信息保留原始粒度。

四、第二大技术点:mHC,把残差连接从“一条路”变成“稳定的多路混合”

除了注意力,V4 还引入了 Manifold-Constrained Hyper-Connections,简称 mHC。传统 Transformer 的残差连接可以理解为每层都有一条“主干高速路”,让信息跨层传递。Hyper-Connections 的想法是把残差流扩展成多条并行残差流,给模型更多跨层组合方式。但普通 HC 容易在深层堆叠时带来数值不稳定。

mHC 的做法是给残差映射矩阵加约束:把它限制在“双随机矩阵”的流形上,也就是每行每列都归一、元素非负。这样做的效果是让残差变换保持非扩张,报告中指出这可以把残差映射的谱范数约束在 1 以内,从而提高前向传播和反向传播的稳定性。具体实现上,V4 用 Sinkhorn-Knopp 迭代把原始矩阵投影到双随机矩阵集合,迭代次数 tmax=20;输入和输出映射也用 Sigmoid 保证非负和有界。

直观来说,mHC 的价值是:模型越深、越大,信息在层间传递越容易爆炸或衰减;mHC 相当于给跨层信息混合加了一个稳定器。 这也是 V4 能训练 1.6T MoE 模型的重要基础之一。

五、第三大技术点:Muon 优化器,不只是调学习率,而是调“更新方向”

V4 另一个关键变化是引入 Muon 优化器。传统 AdamW 更像是对每个参数做自适应缩放,而 Muon 更关注矩阵参数更新方向的结构性。报告中描述,DeepSeek-V4 对大多数模块使用 Muon,对 embedding、prediction head、RMSNorm 权重,以及 mHC 的部分静态偏置和门控参数仍保留 AdamW。Muon 内部使用 Nesterov trick,并通过 Hybrid Newton-Schulz 迭代近似正交化更新矩阵,再对更新的 RMS 进行缩放,以复用 AdamW 的部分超参经验。

这件事的重要性在于,大模型训练不只是“算得快”,还要“别崩”。V4 报告专门提到训练万亿参数 MoE 会遇到稳定性挑战,简单 rollback 不能根治 loss spike,因此除了 Muon,还引入了 SwiGLU clamping,把 SwiGLU 的线性分量限制在 [-10, 10],gate 分量上界限制为 10,用来消除 outlier 并稳定训练。

六、第四大技术点:MoE 没变成负担,靠专家并行和通信计算重叠撑住

DeepSeek-V4 延续了 DeepSeekMoE:细粒度 routed experts 加 shared experts。相比 V3,V4 把路由 affinity 的激活函数从 Sigmoid 改成 Sqrt(Softplus),继续使用 auxiliary-loss-free 的负载均衡策略,并额外加入轻量 sequence-wise balance loss,避免单条序列内部专家负载极端不均。同时,前几层不再使用普通 dense FFN,而是用带 Hash routing 的 MoE 层。

MoE 的难点是专家并行会产生大量跨卡通信。V4 的工程方案是把 Dispatch、Linear-1、激活、Linear-2、Combine 等阶段做细粒度流水化,把专家拆成多个 wave,只要某个 wave 的通信完成,就立刻开始计算,不必等全部专家通信结束。报告称,这种细粒度 EP 方案在 NVIDIA GPU 和华为 Ascend NPU 上都做了验证,相比强 non-fused baseline,通用推理负载可达 1.50–1.73 倍加速,在 RL rollout 和高速 agent serving 等延迟敏感场景最高可达 1.96 倍。

这说明 V4 的 MoE 不是只靠模型结构,而是强依赖训练与推理系统。没有通信计算重叠、kernel fusion、低精度和缓存管理,1.6T MoE 的实际服务成本很难压下来。

七、第五大技术点:FP4 QAT 和异构 KV Cache,都是为了让长上下文服务能落地

DeepSeek-V4 在低精度上走得很激进。报告说,它把 FP4 量化感知训练用于两个地方:一是 MoE expert weights,因为专家权重是显存大户;二是 CSA indexer 的 QK path,因为长上下文下 indexer 的 QK 激活会被缓存、加载和乘法计算,低精度能直接降低长上下文检索成本。此外,V4 还把 index scores 从 FP32 量化到 BF16,让 top-k selector 获得 2 倍加速,同时保持 99.7% 的 KV entry recall。

KV Cache 管理也被重新设计。传统 PagedAttention 假设各层 KV 结构比较统一,但 V4 的 CSA、HCA、SWA 会产生不同大小、不同更新规则、不同淘汰策略的缓存。报告中的 Figure 6 把 KV Cache 分成两类:一类是 CSA/HCA 的 classical KV cache;另一类是 state cache,用来保存滑动窗口 KV 和尚未压缩完成的 token 状态。

这背后有一个重要判断:百万 token 上下文不是只改模型结构就能解决,推理系统的数据结构也要重写。 否则,模型理论上省了 FLOPs,服务端还是会被缓存碎片、对齐要求、前缀复用和状态恢复拖垮。

八、训练:不是直接上 1M,而是逐级拉长上下文

V4 的预训练语料超过 32T tokens,覆盖数学、代码、网页、长文档、多语言和其他高质量数据。报告中特别强调了长文档数据,包括科学论文、技术报告等,并且过滤批量自动生成和模板化网页内容,以降低模型塌缩风险。Tokenizer 仍保持 128K 词表,并继承 token-splitting 和 FIM 策略,同时在预训练中使用 sample-level attention masking。

训练过程也不是一开始就喂 100 万 token。V4 从 4K 序列长度开始,逐渐扩展到 16K、64K,最后到 1M。Flash 训练 32T tokens,最大 batch size 75.5M tokens;Pro 训练 33T tokens,最大 batch size 94.4M tokens。稀疏注意力也不是一开始就启用,而是在先经过 dense attention warmup 后,于 64K 长度阶段引入,并先短暂 warmup CSA 的 lightning indexer,再进入长期稀疏训练。

这个训练节奏很关键:百万上下文模型不是简单把 context window 拉大,而是需要让模型逐步适应“从短上下文语言建模”到“长上下文压缩、检索、推理”的分布变化。

九、后训练:从“多个专家”到“一个统一模型”,关键是 OPD

DeepSeek-V4 的后训练分两步。第一步是 specialist training,也就是针对数学、代码、agent、指令跟随等不同领域分别训练专家模型:先用高质量领域数据做 SFT,再用 GRPO 做强化学习。第二步是 On-Policy Distillation,简称 OPD,把多个领域专家的能力蒸馏进一个统一模型。报告明确说,V4 相比 V3.2 的关键方法替换,是把 mixed RL 阶段整体替换成 OPD。

OPD 的核心是让学生模型在自己采样出来的轨迹上,去对齐多个 teacher expert 的完整 logits 分布。它优化的是反向 KL:学生策略相对于专家策略的 KL。报告中特别强调,他们没有采用更省资源但方差更高的 token-level KL 估计,而是做 full-vocabulary logit distillation,因为完整 logits 分布能带来更稳定的梯度和更忠实的教师知识迁移。此阶段使用了十多个覆盖不同领域的 teacher models 来蒸馏一个学生模型。

直观来说,V4 不再试图把所有能力都通过一次混合 RL 硬塞进模型,而是先让不同专家分别做到强,再用 on-policy 的方式把它们的行为合并到一个统一参数空间里。这样可以减少传统权重合并或混合 RL 容易出现的能力互相干扰。

十、评测结果:长上下文、推理和中文办公是重点亮点

按照报告总结,DeepSeek-V4-Pro-Max 在知识、推理、agent 和长上下文任务上都显著推进了开放模型水平。知识方面,它在 SimpleQA、Chinese-SimpleQA 上超过领先开源模型,在 MMLU-Pro、HLE、GPQA 等教育知识评测上相对开源模型有小幅领先,但在部分知识评测上仍落后 Gemini-3.1-Pro。推理方面,V4-Pro-Max 通过增加 reasoning tokens 超过 GPT-5.2 和 Gemini-3.0-Pro,但仍略低于 GPT-5.4 和 Gemini-3.1-Pro;Flash-Max 则在更低成本下接近 GPT-5.2 和 Gemini-3.0-Pro。

代码和形式化数学也很强。报告称 DeepSeek-V4-Pro-Max 在 Codeforces leaderboard 中排名人类候选第 23;在形式化数学任务中,V4 在实用和 frontier 两种设置下都有很高表现,Putnam-200 Pass@8 中 V4-Flash-Max 得到 81.00,而在 Putnam-2025 的高计算设置下 DeepSeek-V4 达到 120/120。

长上下文方面,V4 的强项很清楚,但也不是没有衰减。MRCR 8-needle 任务显示,检索性能在 128K 内比较稳定,超过 128K 后开始下降,但到 1M token 时仍保持较强水平;报告还称 V4-Pro 在 MRCR 上超过 Gemini-3.1-Pro,但低于 Claude Opus 4.6,在更接近真实场景的 CorpusQA 上也优于 Gemini-3.1-Pro。

真实任务方面,中文写作和白领任务是 V4 报告中特别强调的应用场景。功能性中文写作中,DeepSeek-V4-Pro 相对 Gemini-3.1-Pro 的整体胜率为 62.7% 对 34.1%;创意写作中,V4-Pro 在指令跟随维度胜率 60.0%,写作质量胜率 77.5%。但在最复杂约束或多轮中文写作任务上,Claude Opus 4.5 仍以 52.0% 对 45.9% 领先。

在 30 个高级中文专业任务组成的 white-collar task 中,DeepSeek-V4-Pro-Max 相对 Opus-4.6-Max 的整体非输率为 63%,主要优势在任务完成度和内容质量;但报告也承认,它在严格格式约束、长文压缩成短摘要、PPT 视觉排版美观度方面仍有提升空间。

十一、怎么看 V4 的意义?

DeepSeek-V4 的意义不只是“又一个更强开源模型”。它更像是一个信号:下一阶段大模型竞争,会从单次回答能力,转向长程上下文、长程推理、长程工具调用和低成本持续思考能力。

V4 的技术路线可以总结成三层。第一层是架构:用 CSA/HCA 让百万 token 的注意力不再不可承受,用 mHC 稳定超大模型层间传递,用 MoE 维持参数规模与计算成本的平衡。第二层是训练:用 Muon、SwiGLU clamping、逐级拉长上下文、稀疏注意力 warmup 保证大模型能训稳。第三层是系统:用 FP4 QAT、异构 KV Cache、专家并行通信计算重叠、TileLang kernel 和 OPD rollout 基础设施,让这些架构创新真正能跑起来。

它的限制也同样清楚。第一,百万 token 不是无损记忆,MRCR 曲线已经显示 128K 之后检索性能会下降。第二,V4 在部分知识、复杂 agent、最高端闭源模型对比上仍未全面领先。第三,它的很多收益高度依赖底层 kernel、缓存布局、低精度训练和服务系统,普通开发者很难只靠模型权重复现完整效率。第四,在中文办公场景中,它强在任务完成和长文生成,但在格式精细控制、极端摘要压缩和视觉排版上仍有短板。

最终看,DeepSeek-V4 的主线不是“更大”,而是“更长、更省、更能持续思考”。如果说 V3/R1 时代证明了开源模型可以在推理能力上追近闭源前沿,那么 V4 更像是在证明:开放模型也可以把百万 token 上下文、长程智能体和 test-time scaling 做成一套可运行的系统工程。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐