Deepseek-V4 技术报告

我们提出了DeepSeek-V4系列的一个预览版本，包括两个强大的混合专家（MoE）语言模型——具有1.6万亿参数（激活490亿）的DeepSeek-V4-Pro和具有2840亿参数（激活130亿）的DeepSeek-V4-Flash——两者均支持一百万token的上下文长度。DeepSeek-V4系列在架构和优化方面引入了若干关键升级：（1）一种混合注意力架构，结合了压缩稀疏注意力（CSA）和重度压缩注意力（HCA）以提高长上下文效率；（2）流形约束超连接（mHC），增强了传统的残差连接；（3）以及Muon优化器，用于更快的收敛和更高的训练稳定性。我们在超过32T多样化且高质量的token上对这两个模型进行预训练，随后进行全面的后训练流程，以解锁并进一步增强它们的能力。DeepSeek-V4-Pro-Max，即DeepSeek-V4-Pro的最大推理努力模式，重新定义了开放模型的最先进水平，在核心任务上超越了其前代模型。同时，DeepSeek-V4系列在长上下文场景中具有极高的效率。在一百万token上下文设置下，与DeepSeek-V3.2相比，DeepSeek-V4-Pro仅需27%的单token推理FLOPs和10%的KV缓存。这使我们能够常规性地支持一百万token的上下文，从而使长时程任务和进一步的测试时扩展更加可行。模型检查点可在https://huggingface.co/collections/deepseek-ai/deepseek-v4获取。

图1：左图：DeepSeek-V4-Pro-Max及其对标模型的基准性能。右图：DeepSeek-V4系列与DeepSeek-V3.2的推理FLOPs和KV缓存大小。

1. Introduction（引言）

推理模型（DeepSeek-AI, 2025; OpenAI, 2024c）的出现建立了测试时扩展的新范式，为大型语言模型（LLMs）带来了显著的性能提升。然而,这种扩展范式从根本上受到传统注意力机制（Vaswani et al., 2017）二次计算复杂度的制约，这为超长上下文和推理过程带来了难以承受的瓶颈。与此同时，长周期场景和任务——从复杂的智能体工作流到大规模跨文档分析——的出现，也使得对超长上下文的高效支持成为未来进步的关键。尽管近期的开源努力（Bai et al., 2025a; DeepSeek-AI, 2024; MiniMax, 2025; Qwen, 2025）提升了通用能力，但在处理超长序列方面的这一核心架构低效问题，依然是关键的障碍，限制了测试时扩展的进一步收益，并阻碍了对长周期场景和任务的更深探索。

为了突破超长上下文中的效率障碍，我们开发了DeepSeek-V4系列，包括预览版的DeepSeek-V4-Pro（拥有1.6T参数，49B激活参数）和DeepSeek-V4-Flash（拥有284B参数，13B激活参数）。通过架构创新，DeepSeek-V4系列在处理超长序列的计算效率上实现了巨大飞跃。这一突破使得能够高效支持一百万字标记的上下文长度成为可能，为下一代大型语言模型开启了百万长度上下文的新纪元。我们相信，我们高效处理超长序列的能力解锁了测试时扩展的下一个前沿领域，为更深层次的长周期任务研究铺平了道路，并奠定了探索在线学习等未来范式所必需的基础。

与DeepSeek-V3架构（DeepSeek-AI, 2024）相比，DeepSeek-V4系列保留了DeepSeekMoE框架（Dai et al., 2024）和多标记预测（MTP）策略，同时在架构和优化方面引入了若干关键创新。为提升长上下文效率，我们设计了一种混合注意力机制，结合了压缩稀疏注意力（CSA）和重度压缩注意力（HCA）。CSA沿序列维度压缩键值缓存，然后执行DeepSeek稀疏注意力（DSA）（DeepSeek-AI, 2025），而HCA则对键值缓存应用更激进的压缩，但保持密集注意力。为加强建模能力，我们采用了增强传统残差连接的流形约束超连接（mHC）（Xie et al., 2026）。此外，我们将Muon（Jordan et al., 2024; Liu et al., 2025）优化器引入DeepSeek-V4系列的训练，以实现更快的收敛和改进的训练稳定性。

为实现DeepSeek-V4系列的高效训练和推理以及富有成效的开发，我们引入了几项基础设施优化。首先，我们为MoE模块设计并实现了一个单一的融合内核，可以完全重叠计算、通信和内存访问。其次，我们采用TileLang（Wang et al., 2026），一种领域特定语言（DSL），以平衡开发效率和运行时效率。第三，我们提供高效的批量不变和确定性内核库，以确保训练和推理过程中的位级别可重现性。第四，我们将FP4量化感知训练引入MoE专家权重和索引器QK路径，以减少内存和计算。第五，对于训练框架，我们扩展了自动微分框架，加入了张量级检查点，以实现细粒度的重计算控制；我们还通过Muon优化器的混合ZeRO策略、通过重计算和融合内核实现的低成本mHC实施方案，以及用于管理压缩注意力的两阶段上下文并行，来提升训练效率。最后，对于推理框架，我们设计了一种异构键值缓存结构，并辅以磁盘存储策略，以实现高效的共享前缀复用。

通过采用混合CSA和HCA，以及计算和存储上的精度优化，与DeepSeek-V3.2相比，DeepSeek-V4系列实现了显著更低的推理FLOPs和大幅减少的键值缓存大小，尤其是在长上下文设置下。图1的右侧部分展示了DeepSeek-V3.2和DeepSeek-V4系列预估的单标记推理FLOPs和累积键值缓存大小。在1百万标记上下文的场景下，即使是拥有更大激活参数量的DeepSeek-V4-Pro，其单标记FLOPs（以等效FP8 FLOPs衡量）也仅为DeepSeek-V3.2的27%，键值缓存大小仅为其10%。此外，DeepSeek-V4-Flash以其较少的激活参数量，进一步推动了效率的提升：在1百万标记上下文设置下，与DeepSeek-V3.2相比，它仅实现10%的单标记FLOPs和7%的键值缓存大小。另外，对于DeepSeek-V4系列，路由专家参数采用FP4精度。虽然FP4 × FP8操作的峰值FLOPs在现有硬件上目前与FP8 × FP8相同，但理论上它们可以在未来的硬件上实现1/3倍的高效，这将进一步增强DeepSeek-V4系列的效率。

在预训练期间，我们分别对DeepSeek-V4-Flash在32万亿词元（Token）上和对DeepSeek-V4-Pro在33万亿词元上进行了训练。预训练之后，这两个模型能够原生且高效地支持1百万长度的上下文。在我们的内部评估中，DeepSeek-V4-Flash-Base以其更高参数效率的设计，已在大多数基准测试中超越了DeepSeek-V3.2-Base。DeepSeek-V4-Pro-Base进一步扩大了这一优势，在DeepSeek基础模型中树立了新的性能标准，在推理、编码、长上下文和世界知识任务中实现了全面优势。

DeepSeek-V4系列的后训练管道采用两阶段范式：独立培养领域特定专家，然后通过同策略蒸馏（Lu and Lab, 2025）进行统一的模型整合。首先，对于每个目标领域——如数学、编码、智能体和指令遵循——独立训练一个单独的专家模型。基础模型首先在高质量的、特定领域的数据上进行有监督微调（SFT），以建立基础能力。随后，应用强化学习（RL），使用分组相对策略优化（GRPO）（DeepSeek-AI, 2025），通过根据特定成功标准定制的奖励模型来指导，进一步优化模型的领域对齐行为。这个阶段产生了一组多样化的专门化专家，每个专家在各自的领域都表现出色。最后，为了整合这些不同的能力，通过同策略蒸馏来训练一个统一的模型，其中统一模型充当学生，学习优化与教师模型之间的反向KL损失。

核心评估结果概要

知识（Knowledge）：在广泛的世界知识评估中，DeepSeek-V4-Pro-Max（DeepSeek-V4-Pro的最大推理努力模式）在SimpleQA（OpenAI, 2024d）和Chinese-SimpleQA（He et al., 2024）基准测试上显著优于领先的开源模型。关于教育知识——通过MMLU-Pro（Wang et al., 2024b）、HLE（Phan et al., 2025）和GPQA（Rein et al., 2023）评估——DeepSeek-V4-Pro-Max相比其开源对手显示出微弱领先。DeepSeek-V4-Pro-Max显著缩小了与领先的闭源模型Gemini-3.1-Pro的差距，尽管在这些基于知识的评估中仍落后于它。
推理（Reasoning）： 通过推理词元的扩展，DeepSeek-V4-Pro-Max在标准推理基准测试上展现出相较于GPT-5.2和Gemini-3.0-Pro的卓越性能。尽管如此，其性能略逊于GPT-5.4和Gemini-3.1-Pro，表明其发展轨迹落后于最先进的前沿模型约3到6个月。此外，DeepSeek-V4-Flash-Max取得了与GPT-5.2和Gemini-3.0-Pro相当的性能，使其成为处理复杂推理任务的高成本效益架构。
智能体（Agent）： 在公开基准测试上，DeepSeek-V4-Pro-Max与领先的开源模型（如Kimi-K2.6和GLM-5.1）不相上下，但略逊于前沿闭源模型。在我们的内部评估中，DeepSeek-V4-Pro-Max优于Claude Sonnet 4.5，并接近Opus 4.5的水平。
长上下文（Long-Context）： DeepSeek-V4-Pro-Max在1百万词元上下文窗口的合成和真实用例上提供了强大的结果，在学术基准测试上甚至超越了Gemini-3.1-Pro。
DeepSeek-V4-Pro 对比 DeepSeek-V4-Flash： DeepSeek-V4-Flash-Max由于参数量较小，在知识评估中表现出较低的性能。然而，当分配到更大的思考预算时，它在推理任务上取得了相当的结果。在智能体评估中，虽然DeepSeek-V4-Flash-Max在几个基准测试上与DeepSeek-V4-Pro-Max的性能相匹配，但在更复杂、高难度的任务上仍然落后于其较大的同类模型。

2. Architecture（架构）

总体而言，DeepSeek-V4系列保留了Transformer（Vaswani et al., 2017）架构和多标记预测（MTP）模块（DeepSeek-AI, 2024; Gloeckle et al., 2024），同时引入了针对DeepSeek-V3的几项关键升级：（1）首先，我们引入了流形约束超连接（mHC）（Xie et al., 2026）来增强传统的残差连接；（2）其次，我们设计了一种混合注意力架构，通过压缩稀疏注意力和重度压缩注意力极大地提高了长上下文效率。（3）第三，我们采用Muon（Jordan et al., 2024; Liu et al., 2025）作为优化器。对于专家混合（MoE）组件，我们仍然采用DeepSeekMoE（Dai et al., 2024）架构，仅对DeepSeek-V3做了微小的调整。多标记预测（MTP）（DeepSeek-AI, 2024; Gloeckle et al., 2024; Li et al., 2024; Qi et al., 2020）配置与DeepSeek-V3中的保持一致。所有其他未指明的细节均遵循DeepSeek-V3（DeepSeek-AI, 2024）中建立的设置。图2展示了DeepSeek-V4的整体架构，其细节描述如下。

图2：DeepSeek-V4系列的整体架构。我们对注意力层使用混合CSA（压缩稀疏注意力）和HCA（重度压缩注意力），对前馈层使用DeepSeekMoE，并使用mHC增强传统的残差连接。

2.1. 承袭自DeepSeek-V3的设计（Designs Inherited from DeepSeek-V3）

专家混合（Mixture-of-Experts，MoE）。 与之前的DeepSeek系列模型（DeepSeek-AI, 2024; DeepSeek-AI, 2024）一样，DeepSeek-V4系列也采用DeepSeekMoE范式（Dai et al., 2024）用于前馈网络（FFNs），该范式设置了细粒度的路由专家和共享专家。与DeepSeek-V3不同的是，我们将计算亲和力得分的激活函数从Sigmoid(⋅)改为Sqrt(Softplus(⋅))。对于负载均衡，我们也采用无辅助损失策略（DeepSeek-AI, 2024; Wang et al., 2024a），并辅以一个轻微的序列级平衡损失，以防止单个序列内的极端不平衡。对于DeepSeek-V4，我们移除了对路由目标节点数量的限制，并仔细重新设计了并行策略以保持训练效率。此外，与DeepSeek-V3相比，我们将前几个Transformer块中的密集FFN层替换为采用Hash路由（Roller et al., 2021）的MoE层。Hash路由策略根据输入词元ID，依照预定义的哈希函数确定每个词元的目标专家。

多标记预测（Multi-Token Prediction）。与DeepSeek-V3一样，DeepSeek-V4系列也设置了MTP模块和目标。鉴于MTP策略已在DeepSeek-V3中得到验证，我们为DeepSeek-V4系列采用相同的策略，不做修改。

2.2. 流形约束超连接（Manifold-Constrained Hyper-Connections）

如图2所示，DeepSeek-V4系列采用了流形约束超连接（mHC）（Xie et al., 2026）来增强相邻Transformer块之间的传统残差连接。与朴素的超连接（HC）（Zhu et al., 2025）相比，mHC的核心思想是将残差映射约束在特定的流形上，从而增强跨层信号传播的稳定性，同时保持模型的表达能力。本小节简要介绍标准的HC，并描述我们如何设计mHC以实现稳定训练。

标准超连接（Standard Hyper-Connections）。标准HC将残差流的宽度扩展了 $n_{\mathrm{hc}}$ 倍。具体来说，残差流的形状从 $\mathbb{R}^d$ 扩展为 $\mathbb{R}^{n_{\mathrm{hc}}\times d}$ ，其中d是实际层输入的隐藏尺寸。设 $X_{l} = [\mathbf{x}_{l,1},\ldots ;\mathbf{x}_{l,n_{\mathrm{hc}}}]^{T}\in \mathbb{R}^{n_{\mathrm{hc}}\times d}$ 为第 $l$ 层之前的残差状态。HC引入了三个线性映射：一个输入映射 $A_{l}\in \mathbb{R}^{1\times n_{\mathrm{hc}}}$ ，一个残差变换 $B_{l}\in \mathbb{R}^{n_{\mathrm{hc}}\times n_{\mathrm{hc}}}$ ，以及一个输出映射 $C_{l}\in\mathbb{R}^{n_{\mathrm{hc}}\times 1}$ 。然后，残差状态的更新公式为：

$X_{l + 1} = B_{l}X_{l} + C_{l}\mathcal{F}_{l}(A_{l}X_{l}), \quad (1)$

其中 $\mathcal{F}_{l}$ 表示第 $l$ 层（例如，一个MoE层），其输入和输出形状均为 $\mathbb{R}^d$ 。请注意，实际的层输入 $A_{l}X_{l}\in \mathbb{R}^{d}$ 也是d维的，因此扩展的残差宽度不会影响内部层的设计。HC将残差宽度与实际隐藏尺寸解耦，提供了一个以最小计算开销实现互补扩展的轴，因为 $n_{\mathrm{hc}}$ 通常远小于隐藏尺寸d。然而，尽管HC已展现出提升模型性能的潜力，我们发现当堆叠多层时，训练会频繁出现数值不稳定性，这阻碍了HC的扩展。

流形约束残差映射（Manifold-Constrained Residual Mapping）。 mHC的核心创新在于将残差映射矩阵 $B_{l}$ 约束在双随机矩阵（伯克霍夫多胞体）流形 $\mathcal{M}$ 上，从而增强跨层信号传播的稳定性：

$B_{l}\in \mathcal{M} := \{M\in \mathbb{R}^{n\times n}\mid M\mathbf{1}_{n} = \mathbf{1}_{n},\mathbf{1}_{n}^{T}M = \mathbf{1}_{n}^{T},M\geqslant 0\} . \quad (2)$

此约束确保映射矩阵的谱范数 $\| B_{l}\|_{2}$ 被限制在1以内，因此残差变换是非扩张的，这增加了前向传播和反向传播过程中的数值稳定性。此外，集合 $\mathcal{M}$ 在乘法下封闭，这保证了在mHC深层堆叠场景下的稳定性。另外，输入变换 $A_{l}$ 和输出变换 $C_{l}$ 也通过Sigmoid函数被约束为非负且有界，以避免信号抵消的风险。

动态参数化（Dynamic Parameterization）。 三个线性映射的参数是动态生成的，它们被分解为动态（输入依赖）组件和静态（输入无关）组件。给定输入 $X_{l}\in \mathbb{R}^{n_{\mathrm{hc}}\times d}$ ，它首先被展平并归一化： $\hat{X}_{l} = \mathrm{RMSNorm}(\mathrm{vec}(X_{l}))\in \mathbb{R}^{1\times n_{\mathrm{hc}}d}$ 。然后，我们遵循传统的HC来生成无约束的原始参数 $\tilde{A}_{l}\in \mathbb{R}^{1\times n_{\mathrm{hc}}}$ ， $\tilde{B}_{l}\in \mathbb{R}^{n_{\mathrm{hc}}\times n_{\mathrm{hc}}}$ 和 $\tilde{C}_{l}\in \mathbb{R}^{n_{\mathrm{hc}}\times 1}$ ：

$\begin{array}{rl} & {\tilde{A}_{l} = \alpha_{l}^{\mathrm{pre}}\cdot (\hat{X}_{l}W_{l}^{\mathrm{pre}}) + S_{l}^{\mathrm{pre}},}\\ & {\tilde{B}_{l} = \alpha_{l}^{\mathrm{res}}\cdot \mathrm{Mat} (\hat{X}_{l}W_{l}^{\mathrm{res}}) + S_{l}^{\mathrm{res}},}\\ & {\tilde{C}_{l} = \alpha_{l}^{\mathrm{post}}\cdot (\hat{X}_{l}W_{l}^{\mathrm{post}})^{T} + S_{l}^{\mathrm{post}},} \end{array} \quad (3-5)$

其中 $W_{l}^{\mathrm{pre}},W_{l}^{\mathrm{post}}\in \mathbb{R}^{n_{\mathrm{hc}}d\times n_{\mathrm{hc}}}$ 和 $W_{l}^{\mathrm{res}}\in \mathbb{R}^{n_{\mathrm{hc}}d\times n_{\mathrm{hc}}^{2}}$ 是用于生成动态组件的可学习参数；Mat(⋅)将一个大小为 $1\times n_{\mathrm{hc}}^{2}$ 的向量重塑为一个大小为 $n_{\mathrm{hc}}\times n_{\mathrm{hc}}$ 的矩阵； $S_{l}^{\mathrm{pre}}\in \mathbb{R}^{1\times n_{\mathrm{hc}}}$ ， $S_{l}^{\mathrm{post}}\in \mathbb{R}^{n_{\mathrm{hc}}\times 1}$ 和 $S_{l}^{\mathrm{res}}\in \mathbb{R}^{n_{\mathrm{hc}}\times n_{\mathrm{hc}}}$ 是可学习的静态偏置；而 $\alpha_{l}^{\mathrm{pre}},\alpha_{l}^{\mathrm{res}},\alpha_{l}^{\mathrm{post}}\in \mathbb{R}$ 是可学习的门控因子，初始化为较小的值。

应用参数约束（Applying Parameter Constraints）。在获得了无约束的原始参数 $\tilde{A}_{l},\tilde{B}_{l},\tilde{C}_{l}$ 之后，我们对它们应用前面描述的约束以增强数值稳定性。具体来说，对于输入和输出映射，我们采用Sigmoid函数σ(⋅)来确保它们的非负性和有界性：

$\begin{array}{r}A_{l} = \sigma (\tilde{A}_{l}),\\ C_{l} = 2\sigma (\tilde{C}_{l}). \end{array} \quad (6-7)$

至于残差映射 $\tilde{B}_{l}$ ，我们将其投影到双随机矩阵流形 $\mathcal{M}$ 上。这是通过Sinkhorn-Knopp算法实现的，该算法首先对 $\tilde{B}_{l}$ 应用指数函数以确保正值，得到 $M^{(0)} = \exp (\tilde{B}_{l})$ ，然后迭代执行列和行归一化：

$M^{(t)} = \mathcal{T}_{r}(\mathcal{T}_{c}(M^{(t - 1)})), \quad (8)$

其中 $\mathcal{T}_{r}$ 和 $\mathcal{T}_{c}$ 分别表示行归一化和列归一化。此迭代收敛于一个受约束的双随机矩阵 $B_{l} = M^{(t_{\mathrm{max}})}$ 。我们选择 $t_{\mathrm{max}} = 20$ 作为实际使用的值。

2.3. 结合CSA和HCA的混合注意力（Hybrid Attention with CSA and HCA）

随着上下文长度达到极端规模，注意力机制成为模型中的主要计算瓶颈。对于DeepSeek-V4，我们设计了两种高效的注意力架构——压缩稀疏注意力（CSA）和重度压缩注意力（HCA）——并采用它们交错的混合配置，这极大降低了长文本场景下注意力的计算成本。CSA融合了压缩和稀疏注意力策略：它首先将每m个词元的键-值（KV）缓存压缩为一个条目，然后应用DeepSeek稀疏注意力（DSA）（DeepSeek-AI, 2025），其中每个查询词元只关注k个压缩后的KV条目。HCA旨在通过将每m′个（≫m）词元的KV缓存整合为一个条目来实现极致压缩。CSA和HCA的混合架构显著提升了DeepSeek-V4系列的长上下文效率，使得百万词元上下文在实践中成为可能。本小节描述了我们混合注意力架构的核心技术，并且我们也提供了一个开源实现（https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/tree/main/inference）来明确地说明更多细节。

图3：CSA的核心架构。它将KV条目的数量压缩至 $\frac{1}{m}$ 倍，然后应用DeepSeek稀疏注意力进行进一步加速。此外，一小组滑动窗口KV条目与选定的压缩KV条目结合，以增强局部细粒度依赖关系。

2.3.1. 压缩稀疏注意力（Compressed Sparse Attention）

CSA的核心架构如图3所示，它首先将每m个词元的KV缓存压缩为一个条目，然后应用DeepSeek稀疏注意力进行进一步加速。

压缩键-值条目（Compressed Key-Value Entries）。 令 $H \in \mathbb{R}^{n \times d}$ 为输入隐藏状态序列，其中n是序列长度，d是隐藏尺寸。CSA首先计算两个系列的KV条目 $C^a, C^b \in \mathbb{R}^{n \times c}$ 及其对应的压缩权重 $Z^a, Z^b \in \mathbb{R}^{n \times c}$ ，其中c是头维度：

$\begin{array}{rcl}{C^a = H\cdot W^{aKV},} & {C^b = H\cdot W^{bKV},}\\ {Z^a = H\cdot W^{aZ},} & {Z^b = H\cdot W^{bZ},} \end{array} \quad (9-10)$

其中 $W^{aKV},W^{bKV},W^{aZ},W^{bZ}\in \mathbb{R}^{d\times c}$ 是可训练参数。接下来， $C^a$ 和 $C^b$ 中每m个KV条目将根据其压缩权重和可学习的偏置 $B^a,B^b\in \mathbb{R}^{m\times c}$ 被压缩为一个条目，产生 $C^{\mathrm{Comp}}\in \mathbb{R}^{\frac{n}{m}\times c}$ 。每个压缩条目 $C_i^{\mathrm{Comp}}\in \mathbb{R}^c$ 通过下式计算：

$\begin{array}{r l} & {[S_{m i:m(i + 1) - 1}^{a},S_{m(i - 1):m i - 1}^{b}] = \mathrm{Softmax}_{\mathrm{row}}(\{Z_{m i:m(i + 1) - 1}^{a} + B^{a};Z_{m(i - 1):m i - 1}^{b} + B^{b}\}),}\\ & {\qquad C_{i}^{\mathrm{Comp}} = \sum_{j = m i}^{m(i + 1) - 1}S_{j}^{a}\odot C_{j}^{a} + \sum_{j = m(i - 1)}^{m i - 1}S_{j}^{b}\odot C_{j}^{b},} \end{array} \quad (11-12)$

其中⊙表示哈达玛积；Softmaxrow(⋅)表示沿行维度的softmax操作，它对来自 $Z^a$ 和 $Z^b$ 的总共2m个元素进行归一化。当 $i = 0$ 时， $Z_{m(i - 1):m i - 1}^{b}$ 用负无穷填充， $C_{m(i - 1):m i - 1}^{b}$ 用零填充。注意，每个 $C_i^{\mathrm{Comp}}$ 由2m个KV条目派生而来，但用于 $C_i^{\mathrm{Comp}}$ 的 $C^b$ 索引和用于 $C_{i - 1}^{\mathrm{Comp}}$ 的 $C^a$ 索引是重叠的。因此，CSA实际上将序列长度压缩至 $\frac{1}{m}$ 倍。

用于稀疏选择的闪电索引器（Lightning Indexer for Sparse Selection）。在获得压缩后的KV条目 $C^{\mathrm{Comp}}$ 之后，CSA应用DSA策略为核心注意力选择top-k个压缩KV条目。首先，CSA执行与 $C^{\mathrm{Comp}}$ 相同的压缩操作以获得压缩索引器键 $K^{\mathrm{Comp}}\in \mathbb{R}^{\frac{n}{m}\times c^I}$ ，其中 $c^I$ 是索引器头维度。然后，对于一个查询词元 t，我们以低秩方式生成索引器查询 $\{\mathbf{q}_{t,1}^{I};\mathbf{q}_{t,2}^{I};\dots;\mathbf{q}_{t,n_{h}^{I}}^{I}\}$ ：

$\begin{array}{r}\mathbf{c}_t^Q = \mathbf{h}_t\cdot W^{DQ},\\ \mathbf{q}_t^I;\mathbf{q}_{t,2}^I;\dots;\mathbf{q}_{t,n_h^I}^I = \mathbf{q}_t^I = \mathbf{c}_t^Q\cdot W^{IUQ}, \end{array} \quad (13-14)$

其中 $\mathbf{h}_t\in \mathbb{R}^d$ 是查询词元tt的输入隐藏状态； $\mathbf{c}_t^Q\in \mathbb{R}^{d_c}$ 是查询的压缩潜在向量； $d_c$ 表示查询压缩维度； $n_h^I$ 表示索引器查询头的数量； $W^{DQ}\in \mathbb{R}^{d\times d_c}$ 和 $W^{IUQ}\in \mathbb{R}^{d_c\times c^l n_h^I}$ 分别是索引器查询的下投影和上投影矩阵。接下来，查询词元 t 与前面的压缩块 s（ $s< \mathrm{Floor}(\frac{t}{m})$ ）之间的索引得分 $I_{t,s}\in \mathbb{R}$ 通过下式计算：

$\begin{array}{r l} & {[w_{t,1}^{I};w_{t,2}^{I};\dots ;w_{t,n_{h}^{I}}^{I}] = \mathbf{w}_{t}^{I} = \mathbf{h}_{t}\cdot W^{w},}\\ & {\qquad I_{t,s} = \sum_{h = 1}^{n_{h}^{I}}w_{t,h}^{I}\cdot \mathrm{ReLU}\left(\mathbf{q}_{t,h}^{I}\cdot K_{s}^{\mathrm{Comp}}\right),} \end{array} \quad (15-16)$

其中 $W^{w}\in \mathbb{R}^{d\times n_h^I}$ 是一个可学习矩阵； $w_{t,h}^{I}\in \mathbb{R}$ 是第h个索引器头的权重。对于一个查询词元 t，给定其索引得分 $I_{t,s}$ ，我们采用top-k选择器选择性地保留一个压缩KV条目子集 $C_t^{\mathrm{SprsComp}}$ 用于后续的核心注意力：

$C_t^{\mathrm{SprsComp}} = \left\{C_s^{\mathrm{Comp}}\mid I_{t,s}\in \mathrm{Top - k}(I_{t,s})\right\} . \quad (17)$

共享键-值MQA（Shared Key-Value MQA）。在选择了稀疏KV条目之后，CSA以多查询注意力（MQA）（Shazeer, 2019）的方式执行核心注意力，其中 $C_{t}^{\mathrm{SprsComp}}$ 中的每个压缩KV条目同时作为注意力键和值。具体来说，对于一个查询词元 t，我们首先生成注意力查询 $\{\mathbf{q}_{t,1}; \mathbf{q}_{t,2}; \dots ; \mathbf{q}_{t,n_h}\}$ ，生成方式为从压缩潜在向量 $\mathbf{c}_t^Q$ ：

$[\mathbf{q}_{t,1}; \mathbf{q}_{t,2}; \dots ; \mathbf{q}_{t,n_h}] = \mathbf{q}_t = \mathbf{c}_t^Q \cdot W^{UQ}, \quad (18)$

其中 $n_h$ 表示查询头的数量； $W^{UQ} \in \mathbb{R}^{d_c \times cn_h}$ 是查询的上投影矩阵。注意，潜在查询向量 $\mathbf{c}_t^Q$ 与索引器查询共享。接下来，我们对 $\mathbf{q}_{t,i}$ 和 $C_{t}^{\mathrm{SprsComp}}$ 执行MQA：

$\mathbf{o}_{t,i} = \mathrm{CoreAttn}\left(\mathbf{q}_{\mathrm{query}} = \mathbf{q}_{t,i},\mathbf{key} = C_{t}^{\mathrm{SprsComp}},\mathbf{value} = C_{t}^{\mathrm{SprsComp}}\right), \quad (19)$

其中 $\mathbf{o}_{t,i} \in \mathbb{R}^c$ 是第 t 个词元第 i 个头的核心注意力输出；CoreAttn(·)表示核心注意力操作。

分组输出投影（Grouped Output Projection）。 在DeepSeek-V4的配置中， $cn_h$ 非常大。因此，直接将核心注意力操作的输出 $[\mathbf{o}_{t,1}; \mathbf{o}_{t,2}; \dots ; \mathbf{o}_{t,n_h}] = \mathbf{o}_t \in \mathbb{R}^{cn_h}$ 投影到一个 d 维的隐藏状态会带来沉重的计算负担。为减轻这一成本，我们设计了一种分组输出投影策略。具体来说，我们首先将 $n_h$ 个输出分成 g 组，然后对于每组输出 $\mathbf{o}_{t,i}^G \in \mathbb{R}^{c \frac{n_h}{g}}$ ，我们将其投影到一个 $d_g$ 维的中间输出 $\mathbf{o}_{t,i}^{G'} \in \mathbb{R}^{d_g}$ ，其中 $d_g < c \frac{n_h}{g}$ 。最后，我们将中间输出 $[\mathbf{o}_{t,1}^{G'};\mathbf{o}_{t,2}^{G'};\dots ;\mathbf{o}_{t,g}^{G'}] \in \mathbb{R}^{d_g g}$ 投影到最终的注意力输出 $\hat{\mathbf{o}}_t \in \mathbb{R}^d$ 。

2.3.2. 重度压缩注意力（Heavily Compressed Attention）

HCA的核心架构如图4所示，它以更重度的方式压缩KV缓存，但不使用稀疏注意力。

图4：HCA的核心架构。它执行更重度的压缩，其中m'个（ $>>m$ ）词元的KV条目将被整合为一个。此外，我们还额外引入一小组滑动窗口KV条目，以增强局部细粒度依赖关系。

压缩键-值条目（Compressed Key-Value Entries）。总地来说，HCA的压缩策略与CSA类似，但采用更大的压缩率m′（≫m），并且不执行重叠压缩。令 $H\in \mathbb{R}^{n\times d}$ 为输入隐藏状态序列，HCA首先计算原始的KV条目 $C\in \mathbb{R}^{n\times c}$ 及其对应的压缩权重 $Z\in \mathbb{R}^{n\times c}$ ：

$\begin{array}{r}C = H\cdot W^{KV},\\ Z = H\cdot W^Z, \end{array} \quad (20-21)$

其中 $W^{KV},W^{Z}\in \mathbb{R}^{d\times c}$ 是可训练参数。接下来，C中每m′个KV条目将根据压缩权重和可学习的位置偏置 $B\in \mathbb{R}^{m'\times c}$ 被压缩为一个，产生 $C^{\mathrm{Comp}}\in \mathbb{R}^{\frac{n}{m'}\times c}$ 。每个压缩条目 $C_{i}^{\mathrm{Comp}}\in \mathbb{R}^{c}$ 通过下式计算：

$\begin{array}{r}S_{m^{\prime}i:m^{\prime}(i + 1) - 1} = \mathrm{Softmax}_{\mathrm{Krow}}(Z_{m^{\prime}i:m^{\prime}(i + 1) - 1} + B),\\ C_{i}^{\mathrm{Comp}} = \sum_{j = m^{\prime}i}^{m^{\prime}(i + 1) - 1}S_{j}\odot C_{j}. \end{array} \quad (22-23)$

通过此压缩操作，HCA将序列长度压缩至 $\frac{1}{m'}$ 倍。

共享键-值MQA和分组输出投影（Shared Key-Value MQA and Grouped Output Projection）。 HCA也采用与CSA相同的共享KV MQA和分组输出投影策略。在KV压缩之后，对于一个查询词元 t，HCA首先以低秩方式产生注意力查询 $\{\mathbf{q}_{t,1}; \mathbf{q}_{t,2}; \dots ; \mathbf{q}_{t,n_h}\}$ ：

$\mathbf{c}_t^Q = \mathbf{h}_t\cdot W^{DQ}, \quad (24)$

$[\mathbf{q}_{t,1}; \mathbf{q}_{t,2}; \dots ; \mathbf{q}_{t,n_h}] = \mathbf{q}_t = \mathbf{c}_t^Q\cdot W^{UQ} \quad (25)$

其中 $\mathbf{h}_t\in \mathbb{R}^d$ 是查询词元 t 的输入隐藏状态； $n_h$ 表示查询头的数量； $W^{DQ}\in \mathbb{R}^{d\times d_c}$ 和 $W^{UQ}\in \mathbb{R}^{d_c\times cn_h}$ 分别是查询的下投影和上投影矩阵。接下来，我们对 $\{\mathbf{q}_{t,i}\}$ 和 $C^{\mathrm{Comp}}$ 执行MQA。

$\mathbf{o}_{t,i} = \mathrm{CoreAttn}\left(\mathrm{query} = \mathbf{q}_{t,i},\mathrm{key} = C^{\mathrm{Comp}},\mathrm{value} = C^{\mathrm{Comp}}\right), \quad (26)$

其中 $\mathbf{o}_{t,i}\in \mathbb{R}^c$ 是第 t 个词元第 i 个头的核心注意力输出。接下来，与CSA一样，HCA将 $n_h$ 个输出分成 g 组，对于每组输出 $\mathbf{o}_{t,i}^G\in \mathbb{R}^{\frac{n_h}{g}}$ ，HCA将其投影到一个 $d_g$ 维的中间输出 $\mathbf{o}_{t,i}^{G^{\prime}}\in \mathbb{R}^{d_g}$ ，其中 $d_g< c\frac{n_h}{g}$ 。最后，HCA将中间输出 $[\mathbf{o}_{t,i}^{G^{\prime}};\mathbf{o}_{t,i}^{G^{\prime}};\dots;\mathbf{o}_{t,g}^{G^{\prime}}]\in \mathbb{R}^{d_g g}$ 投影到最终的注意力输出 $\hat{\mathbf{o}}_t\in \mathbb{R}^d$ 。

2.3.3. 其他细节（Other Details）

除了上述CSA和HCA的核心架构外，我们的混合注意力还结合了其他几种技术。为使行文清晰，我们在上述介绍中省略了这些额外的技术，并将在本小节中简要描述它们。同时，本小节只关注这些技术的核心思想，为简化起见可能会省略一些微小的细节。我们鼓励读者参考我们的开源实现以获取明确的细节。

查询和键-值条目归一化（Query and Key-Value Entry Normalization）。对于CSA和HCA，我们在核心注意力操作之前，对每个头的查询和压缩KV条目的唯一头执行额外的RMSNorm操作。此归一化可避免注意力logits爆炸，并可能提高训练稳定性。

部分旋转位置嵌入（Partial Rotary Positional Embedding）。 对于CSA和HCA，我们部分地对注意力查询、KV条目和核心注意力输出使用旋转位置嵌入（RoPE）（Su et al., 2024）。具体来说，对于CSA和HCA中使用的每个查询向量和KV条目向量，我们对其最后64个维度应用RoPE。由于KV条目同时充当注意力键和值，朴素的核心注意力输出 $\{\mathbf{o}_{t,i}\}$ 将携带绝对位置嵌入，这些嵌入来源于KV条目的加权求和。作为对策，我们还对每个 $\mathbf{o}_{t,i}$ 的最后64个维度应用位置为 $-i$ 的RoPE。通过这种方式，核心注意力的输出也将携带相对位置嵌入——每个KV条目对核心注意力输出的贡献也将与查询和KV条目之间的距离相关。

滑动窗口注意力的附加分支（Additional Branch of Sliding Window Attention）。 为了在CSA和HCA中严格保持因果性，每个查询只能关注前面的压缩KV块。因此，一个查询无法访问其自身压缩块内其他词元的信息。同时，近期的词元在语言建模中通常与查询词元具有更大的相关性。基于这些原因，我们为CSA和HCA都引入了一个补充的注意力分支，以滑动窗口的方式工作，用于更好地建模局部依赖关系。具体来说，对于每个查询词元，我们额外产生 $n_{\mathrm{win}}$ 个未压缩的KV条目，对应于最近的 $n_{\mathrm{win}}$ 个词元。在CSA和HCA的核心注意力中，这些滑动窗口中的KV条目将与压缩后的KV条目一起被使用。

注意力汇（Attention Sink）。 在CSA和HCA的核心注意力中，我们采用了注意力汇的技巧（OpenAI, 2025; Xiao et al., 2024）。具体来说，我们设置了一系列可学习的汇logits $\{z_{1}^{\prime},z_{2}^{\prime},\dots,z_{n_{h}}^{\prime}\}$ 。对于第 h 个注意力头， $\mathrm{Exp}(z_{h}^{\prime})$ 将被加到注意力得分的分母上：

$s_{h,i,j} = \frac{\mathrm{Exp}(z_{h,i,j})}{\sum_{k}\mathrm{Exp}(z_{h,i,k}) + \mathrm{Exp}(z_{h}^{\prime})}, \quad (27)$

其中 $s_{h,i,j},z_{h,i,j}\in \mathbb{R}$ 分别表示第 h 个注意力头在第 i 个查询词元和第 j 个前一词元或压缩块之间的注意力得分和注意力logit。此技术允许每个查询头调整其总注意力得分，使其不等于1，甚至可以接近0。

2.3.4. 效率讨论（Efficiency Discussion）

由于采用混合CSA和HCA，以及低精度计算和存储，DeepSeek-V4系列的注意力模块在注意力FLOPs和KV缓存大小两方面都实现了卓越的效率，特别是在长上下文场景中。首先，我们对KV条目采用混合存储格式：旋转位置嵌入（RoPE）维度使用BF16精度，而其余维度应用FP8精度。与纯BF16存储相比，这种混合表示将KV缓存大小减少了近一半。其次，闪电索引器内的注意力计算在FP4精度下执行，这加速了极长上下文下的注意力操作。第三，相对于DeepSeek-V3.2，DeepSeek-V4系列选择了更小的注意力top-k，从而提高了模型在短文本和中长文本上的效率。最后，也是最重要的，压缩注意力以及混合注意力技术大幅减少了KV缓存大小和计算FLOPs。

以头维度为128的BF16 GQA8（Ainslie et al., 2023）作为基准——LLM注意力常见的配置之一——在1百万上下文设置下，DeepSeek-V4系列的KV缓存大小可大幅减少至该基准的大约2%倍。此外，即使与DeepSeek-V3.2（DeepSeek-AI, 2025）——已经是一个高效的基准——相比，DeepSeek-V4系列在效率上仍然表现出显著优势。它们的推理FLOPs和KV缓存大小的比较如图1右侧部分所示。

2.4. Muon优化器（Muon Optimizer）

由于Muon（Jordan et al., 2024; Liu et al., 2025）优化器收敛更快且训练稳定性有所提升，我们将其用于DeepSeek-V4系列的大多数模块。我们的Muon优化完整算法总结在算法1中。

基本配置（Basic Configurations）。 我们为嵌入模块、预测头模块、mHC模块的静态偏置和门控因子，以及所有RMSNorm模块的权重保持使用AdamW（Loshchilov and Hutter, 2017）优化器。所有其他模块均使用Muon进行更新。遵循Liu et al. (2025)，我们也对Muon参数应用权重衰减，使用Nesterov（Jordan et al., 2024; Nesterov, 1983）技巧，并重新缩放更新矩阵的均方根（RMS）以复用我们的AdamW超参数。与他们不同的是，我们使用混合Newton-Schulz迭代进行正交化。

混合Newton-Schulz迭代（Hybrid Newton-Schulz Iterations）。 对于一个给定的矩阵M，令其奇异值分解（SVD）为 $M = U \Sigma V^{T}$ 。Newton-Schulz迭代旨在将M近似正交化为 $UV^{T}$ 。通常，M首先被归一化为 $M_{0} = M / ||M||_{F}$ ，以确保其最大奇异值不超过1。然后，每次Newton-Schulz迭代执行以下操作：

$M_{k} = a M_{k - 1} + b(M_{k - 1}M_{k - 1}^{T})M_{k - 1} + c(M_{k - 1}M_{k - 1}^{T})^{2}M_{k - 1}. \quad (28)$

我们的混合Newton-Schulz在两个不同的阶段执行10次迭代。在前8步中，我们使用系数(a,b,c)=(3.4445,−4.7750,2.0315)以驱动快速收敛，使奇异值接近1。在最后2步中，我们切换到系数(a,b,c)=(2,−1.5,0.5)，这能将奇异值精确地稳定在1。

避免爆炸式注意力logits（Avoiding Exploding Attention Logits）。 DeepSeek-V4系列的注意力架构允许我们直接对注意力查询和KV条目应用RMSNorm，这有效防止了注意力logits的爆炸。因此，我们在Muon优化器中不使用QK-Clip技术（Liu et al., 2025）。

3. General Infrastructures（通用基础设施）

3.1. 专家并行中的细粒度通信-计算重叠（Fine-Grained Communication-Computation Overlap in Expert Parallelism）

专家混合（MoE）可以通过专家并行（EP）得到加速。然而，EP需要复杂的节点间通信，并对互连带宽和延迟提出很高要求。为减轻EP中的通信瓶颈，并在较低互连带宽需求下实现更高的端到端性能，我们提出了一种细粒度的EP方案，该方案将通信和计算融合到一个单一的流水线内核中，以实现通信-计算重叠。

通信延迟可以被隐藏（Communication Latency Can Be Hidden）。我们EP方案的关键洞见是，在MoE层中，通信延迟可以有效地隐藏在计算之下。如图5所示，在DeepSeek-V4系列中，每个MoE层主要可分解为四个阶段：两个通信密集型阶段，即Dispatch和Combine，以及两个计算密集型阶段，即Linear-1和Linear-2。我们的分析表明，在单个MoE层内，通信的总时间少于计算的总时间。因此，在将通信与计算融合到一个统一的流水线之后，计算仍然是主要的瓶颈，这意味着系统可以容忍较低的互连带宽，而不会降低端到端性能。

图5：我们的EP方案与相关工作的示意图。Comet (Zhang et al., 2025b) 分别将Dispatch与Linear-1重叠，以及将Linear-2与Combine重叠。我们的EP方案通过将专家切分并调度为波次（waves），实现了更细粒度的重叠。理论加速比是在DeepSeek-V4-Flash架构的配置下评估的。

细粒度EP方案（Fine-Grained EP Scheme）。为了进一步降低互连带宽需求并放大重叠的益处，我们引入了一种更细粒度的专家划分方案。受诸多相关工作（Aimuyo et al., 2025; Zhang et al., 2025b）的启发，我们将专家切分并调度为波次。每个波次由一小部分专家组成。一旦一个波次内的所有专家都完成了通信，计算就可以立即开始，无需等待其他专家。在稳态下，当前波次的计算、下一个波次的令牌传输以及已完成专家的结果发送都是同时进行的，如图5所示。这在专家之间形成了一个细粒度的流水线，使计算和通信在整个波次期间都保持连续。基于波次的调度为极端情况（如通常存在长尾小批次的强化学习（RL）推演）加速了性能。

性能与开源Mega-Kernel（Performance and Open-Sourced Mega-Kernel）。我们在NVIDIA GPU和华为昇腾NPU平台上验证了细粒度的EP方案。与强大的非融合基线相比，它在通用推理工作负载上实现了1.50∼1.73×的加速，在延迟敏感型场景（如RL推演和高速智能体服务）中加速比最高可达1.96×。我们已经开源了名为MegaMoE（https://github.com/deepseek-ai/DeepGEMM/pull/304）的基于CUDA的mega-kernel实现，作为DeepGEMM的一个组件。

观察与建议（Observations and Proposals）。我们分享来自内核开发的观察结果和经验教训，并向硬件供应商提出一些建议，以期有助于高效的硬件设计及实现更好的软硬件协同：

计算-通信比（Computation-Communication Ratio）。完全的通信-计算重叠取决于计算-通信比，而非仅仅取决于带宽。记峰值计算吞吐量为C，互连带宽为B，当 $C / B \ll V_{\mathrm{comp}} / V_{\mathrm{comm}}$ 时，通信可以被完全隐藏，其中 $V_{\mathrm{comp}}$ 表示计算量， $V_{\mathrm{comm}}$ 表示通信量。对于DeepSeek-V4-Pro，其中每个令牌-专家对需要6hd FLOPs（SwiGLU门控、上投影和下投影）但仅需3h字节的通信（FP8 Dispatch + BF16 Combine），这简化为： $\frac{C}{B}\leqslant 2d = 6144\mathrm{FLOPs / Byte}.$
也就是说，每GBps的互连带宽足以隐藏6.1 TFLOP/s的计算。一旦带宽达到此阈值，它就不再是瓶颈，将额外的硅面积用于进一步提高带宽会带来递减的回报。我们鼓励未来的硬件设计瞄准这类平衡点，而非无条件地扩展带宽。
功耗预算（Power Budget）。极致的内核融合会驱动计算、内存和网络同时达到高负载，使得功耗限制成为关键的限性能因素。我们建议未来的硬件设计为这类完全并发的工作负载提供充足的功耗余量。
通信原语（Communication Primitives）。我们采用基于拉取（pull）的方式，即每个GPU主动从远程GPU读取数据，避免了细粒度推送（push）所带来的高通知延迟。未来具有更低延迟的跨GPU信令的硬件将使推送方式变得可行，并能实现更自然的通信模式。
激活函数（Activation Function）。我们建议用不涉及指数或除法运算的低成本逐元素激活函数替代SwiGLU。这直接减轻了GEMM后处理的负担，并且在相同的参数预算下，移除门控投影会扩大中间维度d，从而进一步放宽带宽要求。

3.2. 使用TileLang进行灵活高效的内核开发（Flexible and Efficient Kernel Development with TileLang）

在实践中，我们精细的模型架构原本会产生数百个细粒度的Torch ATen算子。我们采用TileLang (Wang et al., 2026) 来开发一组融合内核，以替代其中的绝大多数算子，用最小的努力交付最优的性能。它还使我们能在验证期间快速原型化诸如注意力变体之类的算子。这些内核在模型架构开发、大规模训练以及最终推理服务的生产部署中发挥着关键作用。作为一种领域特定语言（DSL），TileLang平衡了开发效率与运行时效率，支持快速开发，同时能在同一个代码库内进行深度、迭代优化。此外，我们与TileLang社区紧密合作，以培育一个更敏捷、高效和稳定的内核开发工作流。

通过宿主代码生成降低调用开销（Reducing Invocation Overhead with Host Codegen）。随着加速器性能的持续增长，CPU侧的任务编排开销变得愈发显著。对于小型、高度优化的内核，这类固定的宿主开销很容易限制利用率和吞吐量。这种开销的一个常见来源是，宿主侧逻辑（如运行时合约检查）通常为了灵活性而用Python编写，因此每次调用都会产生固定的开销。

我们通过宿主代码生成（Host Codegen）来减轻这种开销，它将大部分宿主侧逻辑移到生成的宿主代码中。具体来说，我们首先在IR（中间表示）级别协同生成设备内核和一个轻量级的宿主启动器，嵌入从前端语言解析出的必要元数据——如数据类型、秩/形状约束以及步幅/布局假设。然后，该启动器被下沉到构建于TVM-FFI (Chen et al., 2018) 框架之上的宿主源代码，其紧凑的调用约定和零拷贝张量互操作共同最小化了宿主侧开销。在运行时，此生成的宿主代码执行验证和参数整理，将所有每次调用的检查移出Python执行路径。我们的测量结果显示，CPU侧的验证开销从数十或数百微秒降至每次调用不到一微秒。

SMT求解器辅助的形式化整数分析（SMT-Solver-Assisted Formal Integer Analysis）。TileLang内核涉及复杂的张量索引算术，需要强大的形式化整数分析。在诸如布局推断、内存冲突检测和边界分析等编译遍次中，编译器必须验证整数表达式是否满足特定属性，以启用相应的优化。因此，更强的形式化分析能力可以解锁更高级、更复杂的优化机会。

为此，我们将Z3 SMT求解器 (De Moura and Bjorner, 2008) 集成到TileLang的代数系统中，为张量程序中的大多数整数表达式提供形式化分析能力。我们通过将TileLang的整数表达式转换为Z3的无量词非线性整数算术（QF_NIA），在计算开销和形式化表达能力之间取得了平衡。基于整数线性规划（ILP）求解器，QF_NIA能无缝解析内核中常见的标准线性整数表达式。此外，其内在的非线性推理能力有效应对了诸如在可变张量形状上进行向量化等高级挑战。在合理的资源限制下，Z3提升了整体优化性能，同时将编译时间开销限制在仅仅几秒钟内。其影响跨越了多个遍次，包括向量化、屏障插入和代码简化。

数值精度与位级可重现性（Numerical Precision and Bitwise Reproducibility）。在生产环境中，数值正确性和可重现性与原始吞吐量同等重要。因此，我们默认优先考虑准确性：在编译器级别禁用快速数学优化，并且仅将影响精度的近似提供为明确的、可选的前端算子（例如，T.__exp、T.__log和T.__sin）。相反，当需要严格的IEEE-754语义时，TileLang提供符合IEEE标准的内置函数及显式舍入模式（例如，T.ieee_fsqrt、T.ieee_fdiv和T.ieee_add），使开发者能够精确指定数值行为。

我们还致力于实现位级可重现性，以便对照手写的CUDA基线验证内核。我们将TileLang的代数简化和下沉规则与主流的CUDA工具链（如NVCC）对齐，以避免引入会导致非预期位级差异的变换。布局注解（例如，T.annotate_layout）进一步允许用户固定依赖布局的下沉决策，使求值和累加顺序与参考CUDA实现保持一致，从而在需要时实现位级完全一致的输出。

我们的评估表明，这些面向准确性和可重现性的设计选择并未牺牲性能：在保守的默认设置下，TileLang内核依然保持竞争力，同时暴露了可供选择性放宽数值约束以换取更高速度的开关。

3.3. 高性能批次不变与确定性内核库（High-Performance Batch-Invariant and Deterministic Kernel Libraries）

为了支持高效的训练和推理，我们开发了一套全面的高性能计算内核。除了基本功能和最大化硬件利用率之外，另一个关键的设计目标是确保训练可重现性，以及预训练、后训练和推理管线之间的位级别对齐。因此，我们实现了端到端的、位级别的批次不变和确定性内核，且性能开销极小。这些内核有助于调试、稳定性分析以及保持一致的后训练行为。

批次不变性（Batch Invariance）。批次不变性确保任何给定令牌的输出保持位级别完全相同，无论该令牌在批次中的位置如何。为实现批次不变性，主要的挑战列举如下：

注意力（Attention）。为实现批次不变性，我们不能使用split-KV方法 (Dao et al., 2023)，该方法将单个序列的注意力计算分布到多个流多处理器（SM）上以平衡SM的负载。然而，放弃此技术将导致严重的波次量化问题（https://docs.nvidia.com/deeplearning/performance/dl-performance-matrix-multiplication/index.html#wave-quant），这可能会对GPU的利用率产生不利影响。为解决此问题，我们为批次不变解码开发了一种双内核策略。第一个内核在单个SM内计算整个序列的注意力输出，确保了满载波次的高吞吐量。第二个内核使用多个SM处理单个序列，以最小化最后一个部分填充波次的延迟，从而缓解波次量化。为了实现这两个内核的位级别一致性，我们精心设计了第二个内核的计算路径，以确保其累加顺序与第一个内核相同。此外，第二个内核利用线程块集群内的分布式共享内存（https://docs.nvidia.com/cuda/cuda-programming-guide/02-basics/writing-cuda-kernels.html#distributed-shared-memory），实现跨SM的高速数据交换。这种双内核方法有效地将批次不变解码的额外开销限制在可忽略的水平。
矩阵乘法（Matrix Multiplication）。传统的cuBLAS库 (NVIDIA Corporation, 2024) 无法实现批次不变性。因此，我们端到端地用DeepGEMM (Zhao et al., 2025) 将其替换。此外，对于非常小的批次大小，传统的实现通常采用split-k (Osama et al., 2023) 技术来提高性能。不幸的是，split-k技术无法保证批次不变性，而这在DeepSeek-V4中是一个关键特性。因此，我们在大多数场景下放弃了split-k，但这可能会导致性能下降。为解决此问题，我们引入了一系列优化，使我们的矩阵乘法实现在大多数主要场景中能够匹配甚至超越标准split-k的性能。

确定性（Determinism）。确定性训练对于调试硬件或软件问题非常有益。此外，当训练出现诸如损失尖峰之类的异常时，确定性使研究人员能够更容易地定位数值原因，并进一步完善模型设计。训练中的非确定性通常源于非确定性的累加顺序，这通常是由于使用了原子加法指令。此问题主要出现在反向传播过程中，特别是以下部分：

注意力反向（Attention Backward）。在稀疏注意力反向传播的传统实现中，我们使用atomicAdd来累积KV令牌的梯度。由于浮点加法的不可结合性，这引入了非确定性。为了解决此问题，我们为每个SM分配单独的累加缓冲区，然后跨所有缓冲区进行全局确定性求和。
MoE反向（MoE Backward）。当来自不同rank的多个SM并发地将数据写入接收rank上的同一缓冲区时，协商写入位置同样会引入非确定性。为解决此问题，我们在每个单个rank内部设计了一种令牌顺序预处理机制，并结合跨多个rank的缓冲区隔离。此策略确保了专家并行的发送结果以及MoE反向传播中累加顺序的确定性。
mHC中的矩阵乘法（Matrix Multiplication in mHC）。mHC涉及输出维度仅为24的矩阵乘法。对于非常小的批次大小，我们不得不使用split-k (Osama et al., 2023) 算法，其简单实现会导致非确定性。为克服此问题，我们将每个拆分部分单独输出，并在后续内核中执行确定性规约，从而同时保持了性能和确定性。

3.4. FP4量化感知训练（FP4 Quantization-Aware Training）

为在部署时实现推理加速和内存节省，我们在后训练阶段引入了量化感知训练（QAT） (Jacob et al., 2018)，使模型能够适应量化引入的精度损失。我们将FP4（MXFP4）量化 (Rouhani et al., 2023) 应用于两个组件：（1）MoE专家权重，这是GPU内存占用的一个主要来源 (OpenAI, 2025)，以及（2）CSA索引器中的查询-键（QK）路径，其中QK激活完全以FP4格式缓存、加载和相乘，从而加速了长上下文场景下的注意力得分计算。此外，我们在此QAT过程中进一步将索引得分 $I_{:,:}$ 从FP32量化为BF16。这项优化为top-k选择器实现了2×的加速，同时保持了99.7%的KV条目召回率。

对于MoE专家权重，遵循QAT的常见做法，由优化器维护的FP32主权重首先被量化为FP4，然后反量化为FP8以用于计算。值得注意的是，我们的FP4到FP8反量化是无损的。这是因为FP8（E4M3）相比FP4（E2M1）多了2个指数位，提供了更大的动态范围。因此，只要每个FP8量化块（128×128分块）内FP4子块（1×32分块）的最大和最小缩放因子之比不超过某个阈值，细粒度的缩放信息就可以被FP8扩展的动态范围完全吸收。我们经验性地验证了当前权重满足这一条件。这使得整个QAT管线能够完全复用现有的FP8训练框架，无需任何修改。在反向传播中，梯度相对于前向传播中所用的相同FP8权重进行计算，并直接传播回FP32主权重，这相当于通过量化操作应用直通估计器（STE）。这也避免了重新量化转置权重的需要。

在RL训练的推理和推演阶段，这些阶段不涉及反向传播，我们直接使用真实的FP4量化权重而非模拟量化。这确保了采样时的模型行为与在线部署完全一致，同时减少了内核内存加载以实现实际加速并显著降低内存消耗。我们以类似的方式处理CSA索引器中的QK路径。

3.5. 训练框架（Training Framework）

我们的训练框架构建于为DeepSeek-V3 (DeepSeek-AI, 2024) 开发的可扩展且高效的基础设施之上。在训练DeepSeek-V4时，我们继承了这一坚实的基础，同时引入了多项关键创新以适应其新颖的架构组件——具体而言是Muon优化器、mHC和混合注意力机制——同时保持高训练效率和稳定性。

3.5.1. Muon的高效实现（Efficient Implementation of Muon）

Muon优化器需要完整的梯度矩阵来计算参数更新，这在与零冗余优化器（ZeRO） (Rajbhandari et al., 2020) 结合时带来了挑战。传统的ZeRO是为像AdamW这样的逐元素优化器设计的，其中单个参数矩阵可以被划分并在多个rank上更新。为解决此冲突，我们为Muon设计了一种混合的ZeRO桶分配策略。

对于稠密参数，我们限制ZeRO并行的最大规模，并采用背包算法将参数矩阵分配到这些rank上，确保每个rank管理大致均衡的负载。每个rank上的桶被填充到与跨所有rank的最大桶大小一致，以便于高效的reduce-scatter操作。在我们的设置中，每个rank管理不超过五个参数矩阵，这种填充通常带来不到10%的内存开销。当数据并行的总体规模超过ZeRO的限制时，我们在额外的数据并行组上冗余计算Muon更新，以计算换取总桶内存的减少。

对于MoE参数，我们对每个专家独立进行优化。我们首先将所有层中所有专家的SwiGLU (Shazeer, 2020) 下投影矩阵展平，接着展平上投影矩阵和门控矩阵。然后，我们填充展平后的向量，以确保能够将该向量均匀地分布到所有rank，而不会拆分任何逻辑上独立的矩阵。由于专家数量众多，我们不对MoE参数施加ZeRO并行规模限制，填充开销同样可以忽略不计。

此外，在每个rank上，形状相同的连续参数将被自动合并，从而能够批量执行Newton-Schulz迭代，以获得更好的硬件利用率。更进一步，我们观察到Muon中的Newton-Schulz迭代在使用BF16矩阵乘法计算时保持稳定。利用这一点，我们将要在数据并行rank间同步的MoE梯度以随机舍入的方式进一步量化为BF16精度，将通信量减半。为避免低精度累加器引入的累积误差，我们用一种两阶段方法替代传统的树形或环形reduce-scatter集合通信。首先，一个all-to-all操作在rank间交换本地梯度，然后每个rank在FP32下执行本地求和。此设计保持了数值鲁棒性。

3.5.2. mHC的经济高效且内存友好的实现（Cost-Effective and Memory-Efficient Implementation of mHC）

与传统的残差连接相比，mHC的引入增加了激活内存消耗以及流水线阶段间的通信量。为降低这些成本，我们实施了多种优化策略。

首先，我们精心设计并实现了用于训练和推理的mHC融合内核。其次，我们引入了一种重计算策略，选择性地对中间张量进行检查点操作。具体来说，我们重新计算大多数层间的隐藏状态以及所有归一化层输入，同时避免对计算密集型操作进行重计算。这在节省内存和减少计算开销之间取得了平衡。第三，我们调整了DualPipe 1F1B重叠方案，以适应增加的流水线通信，并支持mHC中某些操作的并发执行。

综合来看，这些优化将mHC的墙钟时间开销限制在仅占重叠1F1B流水线阶段的6.7%。更多工程优化细节可参阅专门的mHC论文 (Xie et al., 2026)。

3.5.3. 长上下文注意力的上下文并行（Contextual Parallelism for Long-Context Attention）

传统的上下文并行（CP）沿序列维度进行划分，每个rank维护连续的 s 个令牌。这给我们的压缩注意力机制（即CSA和HCA）带来了两个挑战。一方面，训练样本由多个序列打包而成，每个序列被独立地按m（或m′）因子压缩，任何少于 m 的尾随令牌都将被丢弃。因此，压缩后的KV长度通常小于 $\frac{s}{m}$ ，且在不同rank间有所变化。另一方面，压缩需要 m 个连续的KV条目，这可能跨越两个相邻CP rank之间的边界。

为解决这些挑战，我们设计了一种两阶段通信方法。在第一阶段，每个rank i 将其最后 m 个未压缩的KV条目发送给rank i+1。然后，rank i+1 将部分接收到的这些条目与其本地的 s 个未压缩KV条目一起压缩，生成固定长度为 $\frac{s}{m} +1$ 的压缩条目，其中存在一些填充条目。在第二阶段，跨所有CP rank的all-gather操作收集本地压缩后的KV条目。然后，一个融合的筛选和填充算子将它们重组为完整的压缩KV条目集合，总长度为 $\mathrm{cp\_size}\cdot \frac{s}{m}$ 。所有填充条目被放置在末尾。对于HCA和CSA中的索引器，每个查询令牌可见的压缩KV条目范围可以通过规则预先计算。对于CSA中的稀疏注意力，top-k选择器为每个查询显式指定可见压缩KV条目的索引。

3.5.4. 用于灵活激活检查点的扩展自动微分（Extended Automatic Differentiation for Flexible Activation Checkpointing）

传统的激活检查点实现以整个模块为粒度，决定在反向传播期间是保留还是重计算其输出激活。这种粗粒度常常导致重计算成本与激活内存占用之间的次优权衡。另一种方法是手动实现整个层的前向和反向逻辑，显式管理张量检查点状态。虽然这能实现细粒度控制，但该方法丧失了自动微分框架的便利性，大大增加了开发复杂性。

为了在不牺牲编程效率的情况下实现细粒度控制，我们实现了一个支持自动微分的张量级激活检查点机制。借助此机制，开发者只需实现前向传播，并选择性地注解单个张量以进行自动检查点和重计算。我们的框架利用TorchFX (Reed et al., 2022) 来追踪完整的计算图。对于每个被注解的张量，它执行反向遍历，以确定其重计算所需的最小子图。我们将这些最小子图定义为重计算图，并将它们插入到相应梯度计算之前的反向逻辑中。

与手动实现相比，此设计在训练期间不引入额外开销。此框架中的重计算通过直接释放被注解张量的GPU内存，并重用来自重计算张量的存储指针来实现，无需任何GPU内存拷贝。此外，由于图追踪会具体执行模型，我们可以追踪每个张量的底层存储指针，从而能够自动对那些共享存储的张量（例如，reshape操作的输入和输出）进行重计算去重。这使开发者在注解重计算时无需推理底层内存细节。

3.6. 推理框架（Inference Framework）

我们的推理框架很大程度上继承自DeepSeek-V3，在KV缓存管理方面有一些差异。

3.6.1. KV缓存结构与管理（KV Cache Structure and Management）

为高效管理DeepSeek-V4中由混合注意力机制产生的异构KV缓存，我们设计了一个定制的KV缓存布局。该布局如图6所示，我们将如下对其详细阐述。

DeepSeek-V4中的异构KV条目（Heterogeneous KV Entries in DeepSeek-V4）。DeepSeek-V4系列中的混合注意力机制引入了多种类型的KV条目，它们具有不同的键-值（KV）缓存大小和更新规则。用于稀疏选择的闪电索引器在KV缓存中引入了额外的维度，这些维度的嵌入大小与主注意力中的不同。CSA和HCA中采用的压缩技术分别将序列长度减少了 $\frac{1}{m}$ 和 $\frac{1}{m'}$ 倍，从而减小了整体KV缓存大小。因此，不同层的KV缓存大小各不相同。此外，滑动窗口注意力（SWA）层也以不同的KV缓存大小以及不同的缓存命中和淘汰策略运行。在压缩分支中，每 m 个令牌生成一个KV条目。当剩余令牌数量不足以进行压缩时，所有待处理令牌及其相关的隐藏状态必须保留在缓冲区中，直到压缩操作可以执行为止。这些缓冲的令牌代表了一种由位置上下文决定的序列状态，并且也在KV缓存框架内进行管理。

管理混合注意力KV缓存的挑战（Challenges in Managing Hybrid Attention KV Cache）。混合注意力机制违反了PagedAttention及其变体背后的基本假设。尽管最近的一些混合KV缓存管理算法（例如，Jenga (Zhang et al., 2025a)，Hymba (Dong et al., 2025)）针对通用混合注意力模型或特定结构，但有两个主要障碍阻止了在PagedAttention框架下整合所有层的KV缓存：

多样化的缓存策略，例如滑动窗口注意力中使用的那些。
由高性能注意力内核施加的约束，包括对齐要求。

为了高效管理DeepSeek-V4的KV缓存，我们设计了相应的策略来克服这两个挑战。

用于SWA和未压缩尾令牌的状态缓存（State Cache for SWA and Uncompressed Tail Tokens）。为解决第一个障碍，我们采用了一种替代的缓存管理机制。由于SWA旨在有限的KV缓存大小下增强性能，因此可以合理地将它以及压缩分支中的未压缩尾令牌视为一个状态空间模型。相应的KV缓存因此可以被视为一个仅依赖于当前位置的序列特定状态。据此，我们预先分配一个固定且大小有限的状态缓存池，并将其动态分配给每个序列。

稀疏注意力内核协同设计（Sparse Attention Kernel Co-Design）。关于第二个障碍，传统的高性能注意力内核通常假设每个块有固定数量 B 个令牌以优化性能，这在CSA中对应 B⋅m 个原始令牌，在HCA中对应 B⋅m′ 个。通过采用高性能的稀疏注意力内核，不同层可以容纳可变的每块令牌数而不会降低性能。实现这一点需要协同设计KV缓存布局和稀疏注意力内核。例如，填充块以对齐缓存行可以提高性能。因此，对于压缩率为 m 的CSA和压缩率为 m′ 的HCA，每个块的原始令牌数可以是 lcm(m,m′) 的任意倍数，即这两个压缩率的最小公倍数。

图6：DeepSeek-V4的KV缓存布局示意图。KV缓存组织为两个主要部分：一个用于CSA/HCA的经典KV缓存，以及一个用于SWA和CSA/HCA中尚未准备好压缩的令牌的状态缓存。在状态缓存中，每个请求被分配一个固定大小的缓存块。在此块内，SWA段存储最近 $n_{\mathrm{win}}$ 个令牌对应的KV条目，而CSA/HCA段存储尚未准备压缩的未压缩尾部状态。在经典KV缓存中，我们为每个请求分配多个块。每个缓存块覆盖 $\mathrm{lcm}(m,m')$ 个原始令牌，生成 $k_{1} = \frac{\mathrm{lcm}(m,m')}{m}$ 个CSA压缩令牌和 $k_{2} = \frac{\mathrm{lcm}(m,m')}{m'}$ 个HCA压缩令牌。

3.6.2. 磁盘KV缓存存储（On-Disk KV Cache Storage）

在部署DeepSeek-V4时，我们利用磁盘KV缓存存储机制来消除共享前缀请求的重复预填充。对于CSA/HCA中的压缩KV条目和滑动窗口注意力（SWA）中的未压缩KV条目，我们设计了不同的存储管理解决方案。

对于CSA和HCA，我们简单地将所有压缩KV条目存储到磁盘。当请求命中一个已存储的前缀时，我们读取并复用该前缀对应的压缩KV条目，直到最后一个完整的压缩块。特别地，对于处于尾部不完整块中的前缀令牌，我们仍然需要重新计算它们以恢复未压缩的KV条目，因为CSA和HCA中的未压缩KV条目是不存储的。

对于SWA KV条目，由于它们未被压缩且存在于每一层中，其体积大约比压缩后的CSA和HCA KV条目大8倍。为高效处理这些大的SWA KV条目，我们提出并实现了三种不同的策略来管理磁盘上的SWA KV条目，每种策略在存储开销和计算冗余之间提供不同的权衡：

全量SWA缓存（Full SWA Caching）。此策略存储所有令牌的完整SWA KV条目，确保计算零冗余。在此策略下，命中前缀的SWA KV条目可以仅通过读取该前缀内最后 $n_{win}$ 个令牌的磁盘缓存来重建。尽管计算零冗余，但此策略对于现代基于SSD的存储系统而言效率不高——对于每个命中请求，只有存储的SWA KV缓存的一小部分会被访问，这导致了一种不平衡的写入密集型访问模式。
定期检查点（Periodic Checkpointing）。此策略每隔 p 个令牌对最后 $n_{win}$ 个令牌的SWA KV条目进行检查点操作，其中 p 是一个可调参数。对于命中前缀，我们加载最近的检查点状态，然后重新计算剩余的尾部令牌。通过调整 p ，此策略能够在存储和计算之间实现按需权衡。
零SWA缓存（Zero SWA Caching）。此策略不存储任何SWA KV条目。对于命中前缀，我们需要执行更多的重计算来恢复SWA KV条目。具体来说，在每个注意力层中，每个令牌的SWA KV条目仅依赖于前一层中最近 $n_{win}$ 个令牌的SWA KV条目。因此，利用已经缓存的CSA和HCA KV条目，重新计算最后 $n_{win}\cdot L$ 个令牌足以为一个 L 层模型恢复最后 $n_{win}$ 个SWA KV条目。

根据具体的部署场景，我们选择最合适的策略以达成期望的存储与计算之间的权衡。

4. Pre-Training（预训练）

4.1. 数据构建（Data Construction）

在DeepSeek-V3预训练数据的基础上，我们努力构建一个更多样化、更高质量且具有更长有效上下文的训练语料库。我们不断改进数据构建流程。对于网络来源的数据，我们实施过滤策略以移除批量自动生成和模板化的内容，从而降低模型崩溃（Zhu et al., 2024）的风险。数学和编程语料仍然是我们训练数据的核心组成部分，我们通过在训练中期加入智能体数据来进一步增强DeepSeek-V4系列的编码能力。对于多语言数据，我们为DeepSeek-V4构建了一个更大的语料库，提高了其对不同文化中长尾知识的捕获能力。对于DeepSeek-V4，我们特别强调长文档数据的整理，优先考虑科学论文、技术报告和其他反映独特学术价值的材料。综合以上所有，我们的预训练语料库包含超过32万亿个词元，涵盖数学内容、代码、网页、长文档和其他高质量类别。

对于预训练数据，我们大体遵循DeepSeek-V3相同的预处理策略。在分词方面，我们在DeepSeek-V3分词器的基础上，引入了一些用于上下文构建的特殊词元，并保持词汇量大小为128K。我们还继承了DeepSeek-V3的词元分割（DeepSeek-AI, 2024）和中间填充（FIM）（DeepSeek-AI, 2024）策略。受Ding et al. (2024)启发，我们将不同来源的文档打包成适当的序列，以最大限度地减少样本截断。与DeepSeek-V3不同的是，我们在预训练期间采用了样本级注意力掩码。

4.2. 预训练设置（Pre-Training Setups）

4.2.1. 模型设置（Model Setups）

DeepSeek-V4-Flash。 我们将Transformer层数设置为43，隐藏维度 d 设置为4096。前两层使用纯滑动窗口注意力。对于后续层，CSA和HCA以交错方式使用。对于CSA，我们将压缩率 m 设置为4，索引器查询头数 $n_h^l$ 设置为64，索引器头维度 $c^l$ 设置为128，为稀疏注意力选择的KV条目数（即注意力top-k）设置为512。对于HCA，我们将压缩率 m′ 设置为128。对于CSA和HCA，我们将查询头数 $n_h$ 设置为64，头维度 c 设置为512，查询压缩维度 $d_c$ 设置为1024。输出投影组数 g 设置为8，每个中间注意力输出的维度 $d_g$ 设置为1024。对于滑动窗口注意力的附加分支，窗口大小 $n_{win}$ 设置为128。我们在所有 Transformer 块中使用 MoE 层，但对前3个 MoE 层使用哈希路由策略。每个MoE层包含1个共享专家和256个路由专家，其中每个专家的中间隐藏维度为2048。对于每个词元，将激活路由专家中的6个专家。多词元预测深度设置为1。至于mHC，扩展因子 $n_{\mathrm{hc}}$ 设置为4，Sinkhorn-Knopp迭代次数 $t_{\mathrm{max}}$ 设置为20。在此配置下，DeepSeek-V4-Flash包含284B总参数，其中每个词元激活13B参数。

DeepSeek-V4-Pro。 我们将Transformer层数设置为61，隐藏维度 d 设置为7168。前两层使用HCA。对于后续层，CSA和HCA以交错方式使用。对于CSA，我们将压缩率 m 设置为4，索引器查询头数 $n_h^l$ 设置为64，索引器头维度 $c^l$ 设置为128，为稀疏注意力选择的KV条目数（即注意力top-k）设置为1024。对于HCA，我们将压缩率 m′ 设置为128。对于CSA和HCA，我们将查询头数 $n_h$ 设置为128，头维度 c 设置为512，查询压缩维度 $d_c$ 设置为1536。输出投影组数 g 设置为16，每个中间注意力输出的维度 $d_g$ 设置为1024。对于滑动窗口注意力的附加分支，窗口大小 $n_{win}$ 设置为128。我们在所有 Transformer 块中使用MoE层，但对前3个MoE层使用哈希路由策略。每个MoE层包含1个共享专家和384个路由专家，其中每个专家的中间隐藏维度为3072。对于每个词元，将激活路由专家中的6个专家。多词元预测深度设置为1。至于mHC，扩展因子 $n_{\mathrm{hc}}$ 设置为4，Sinkhorn-Knopp迭代次数 $t_{\mathrm{max}}$ 设置为20。在此配置下，DeepSeek-V4-Pro包含1.6T总参数，其中每个词元激活49B参数。

4.2.2. 训练设置（Training Setups）

DeepSeek-V4-Flash。 我们对大多数参数使用Muon优化器（Jordan et al., 2024; Liu et al., 2025），但对嵌入模块、预测头模块以及所有RMSNorm模块的权重使用AdamW优化器（Loshchilov and Hutter, 2017）。对于AdamW，我们将其超参数设置为 $\beta_{1} = 0.9$ ， $\beta_{2} = 0.95$ ， $\epsilon = 10^{- 20}$ ，以及权重衰减=0.1。对于Muon，我们将动量设置为0.95，权重衰减设置为0.1，并将每个更新矩阵的RMS重新缩放为0.18，以复用AdamW的学习率。我们在32万亿个词元上训练DeepSeek-V4-Flash，并且与DeepSeek-V3一样，我们也采用批次大小调度策略，将批次大小（以词元计）从小逐步增加到75.5M，然后在大部分训练期间保持在75.5M。学习率在前2000步线性预热，在大部分训练期间保持在 $2.7\times 10^{-4}$ 。在训练接近尾声时，我们最后按照余弦计划将学习率衰减到 $2.7\times 10^{-5}$ 。训练从4K的序列长度开始，我们逐步将训练序列长度扩展到16K、64K和1M。至于稀疏注意力的设置，我们在前1万亿个词元上先用密集注意力进行预热，然后在序列长度为64K时引入稀疏注意力，并在剩余的训练过程中保持稀疏注意力。当引入注意力稀疏性时，我们首先设置一个短阶段来预热CSA中的闪电索引器，然后在大部分训练中使用稀疏注意力训练模型。对于无辅助损失负载均衡，我们将偏置更新速度设置为0.001。对于平衡损失，我们将其损失权重设置为0.0001，以避免单个序列内的极端不平衡。MTP损失权重在大部分训练期间设置为0.3，在学习率衰减开始时设置为0.1。

DeepSeek-V4-Pro。 除超参数的具体值外，DeepSeek-V4-Pro的训练设置与DeepSeek-V4-Flash大致一致。我们对大多数参数使用Muon优化器，但对嵌入模块、预测头模块以及所有RMSNorm模块的权重使用AdamW优化器。AdamW和Muon的超参数与DeepSeek-V4-Flash相同。我们在33万亿个词元上训练DeepSeek-V4-Pro，并同样采用批次大小调度策略，最大批次大小为9440万个词元。学习率调度策略与DeepSeek-V4-Flash大致相同，但峰值学习率设置为 $2.0\times 10^{-4}$ ，最终学习率设置为 $2.0\times 10^{-5}$ 。训练也从4K的序列长度开始，并逐步扩展到16K、64K和1M。与DeepSeek-V4-Flash相比，DeepSeek-V4-Pro从更长的密集注意力阶段开始，引入稀疏注意力的策略与DeepSeek-V4-Flash相同，采用两阶段训练方法。对于无辅助损失负载均衡，我们将偏置更新速度设置为0.001。对于平衡损失，我们将其损失权重设置为0.0001，以避免单个序列内的极端不平衡。MTP损失权重在大部分训练期间设置为0.3，在学习率衰减开始时设置为0.1。

4.2.3. 缓解训练不稳定性（Mitigating Training Instability）

训练万亿参数级MoE模型面临显著的稳定性挑战，DeepSeek-V4系列也不例外。我们在训练过程中遇到了显著的不稳定性挑战。虽然简单的回滚可以暂时恢复训练状态，但事实证明，它们作为长期解决方案是不够的，因为它们不能防止损失尖峰的再次发生。根据经验，我们发现尖峰的出现始终与MoE层中的异常值有关，并且路由机制本身似乎加剧了这些异常值的出现。因此，我们试图从两个维度解决这个问题：打破由路由引起的恶性循环，以及直接抑制异常值。幸运的是，我们发现了两种能够有效维持训练稳定性的实用技术。尽管目前对它们底层机制的全面理论理解仍然是一个开放性问题，但我们在此公开分享它们，以促进社区的进一步探索。

先行路由（Anticipatory Routing）。 我们发现，将骨干网络和路由网络的同步更新解耦能显著提高训练稳定性。因此，在第 t 步，我们使用当前的网络参数 $\theta_t$ 进行特征计算，但路由索引则使用历史网络参数 $\theta_{t - \Delta t}$ 来计算和应用。在实践中，为了避免加载模型参数两次的开销，我们在第 t−Δt步提前取第 t 步的数据。我们“先行地”计算并缓存将在第 t 步使用的路由索引，这就是我们命名此方法为先行路由的原因。我们也在基础设施层面对此进行了大量优化。首先，鉴于预计算路由索引只需要对数据进行一次前向传播，我们精心安排了流水线执行以及计算与专家并行（EP）通信的重叠，成功将先行路由的额外墙钟时间开销限制在约20%。其次，我们引入了一种自动检测机制，该机制仅在损失尖峰发生时触发短回滚并激活先行路由；在此模式下运行一段时间后，系统会恢复到标准训练。最终，这种动态应用使我们能够防止损失尖峰，而整体的额外训练开销可以忽略不计，且不会影响模型性能。

SwiGLU截断（SwiGLU Clamping）。在之前的文献中（Bello et al., 2017; Riviere et al., 2024），截断技术已被明确用于约束数值范围，从而增强训练稳定性。在我们的实际训练过程中，我们凭经验发现，应用SwiGLU截断（OpenAI, 2025）能有效消除异常值，并极大地有助于稳定训练过程，且不影响性能。在DeepSeek-V4-Flash和DeepSeek-V4-Pro的整个训练过程中，我们将SwiGLU的线性分量截断到[−10,10]范围内，同时将门控分量的上限定为10。

4.3. 评估（Evaluations）

4.3.1. 评估基准（Evaluation Benchmarks）

对于基础模型的评估，我们考虑了涵盖四个关键维度的基准：世界知识、语言理解与推理、编码与数学，以及长上下文处理。

世界知识基准包括AGIEval (Zhong et al., 2023)、C-Eval (Huang et al., 2023)、CMMLU (Li et al., 2023)、MMLU (Hendrycks et al., 2020)、MMLU-Redux (Gema et al., 2024)、MMLU-Pro (Wang et al., 2024b)、MMMLU (OpenAI, 2024a)、MultiLoKo (Hupkes and Bogoychev, 2025)、Simple-QA verified (Haas et al., 2025)、SuperGPQA (Du et al., 2025)、FACTS Parametric (Cheng et al., 2025) 和 TriviaQA (Joshi et al., 2017)。

语言理解与推理基准包括BigBench Hard (BBH) (Suzgun et al., 2022)、DROP (Dua et al., 2019)、HellaSwag (Zellers et al., 2019)、CLUEWSC (Xu et al., 2020) 和 WinoGrande (Sakaguchi et al., 2019)。

编码与数学基准包括BigCodeBench (Zhuo et al., 2025)、HumanEval (Chen et al., 2021)、GSM8K (Cobbe et al., 2021)、MATH (Hendrycks et al., 2021)、MGSM (Shi et al., 2023) 和 CMath (Wei et al., 2023)。

长上下文基准包括LongBench-V2 (Bai et al., 2025b)。

表1：DeepSeek-V3.2-Base、DeepSeek-V4-Flash-Base 和 DeepSeek-V4-Pro-Base 之间的比较。所有模型都在我们的内部框架中进行评估，并共享相同的评估设置。得分差距不超过0.3被认为处于同一水平。每行中的最高分以粗体显示，第二高分以下划线显示。

4.3.2. 评估结果（Evaluation Results）

在表1中，我们详细比较了DeepSeek-V3.2、DeepSeek-V4-Flash和DeepSeek-V4-Pro的基础模型，所有评估均在统一的内部框架下以严格一致的设置进行。

将DeepSeek-V4-Flash-Base与DeepSeek-V3.2-Base进行比较，揭示了一个令人信服的效率故事。尽管使用的激活参数和总参数量都显著更小，DeepSeek-V4-Flash-Base在广泛的基准测试中优于DeepSeek-V3.2-Base。这一优势在世界知识任务和具有挑战性的长上下文场景中尤为明显。这些结果强调了DeepSeek-V4-Flash-Base中的架构改进、精炼的数据质量和训练优化，即使在更紧凑的参数预算下也能产生卓越的性能，在大多数评估中有效超越了更大的DeepSeek-V3.2-Base。

此外，DeepSeek-V4-Pro-Base展示了更进一步的、决定性的能力飞跃，建立了对DeepSeek-V3.2-Base和DeepSeek-V4-Flash-Base近乎全面的优势。凭借在几乎所有类别上的提升，DeepSeek-V4-Pro-Base在最苛刻的基准测试上达到了DeepSeek基础模型中的性能新高。在知识密集型评估中，它带来了显著的提升，同时也大幅推进了长上下文理解。在大多数推理和编码基准测试上，DeepSeek-V4-Pro-Base也超越了之前的两个模型。这种全面的提升证实了DeepSeek-V4-Pro-Base是DeepSeek系列中最强大的基础模型，在知识、推理、编码和长上下文能力方面均超越了其前代模型。

5. Post-Training（后训练）

5.1. 后训练流程（Post-Training Pipeline）

在预训练之后，我们进行了后训练阶段，以产出DeepSeek-V4系列的最终模型。尽管训练流程在很大程度上与DeepSeek-V3.2相似，但进行了一项关键的方法论替换：混合强化学习（RL）阶段被完全替换为同策略蒸馏（OPD）。

5.1.1. 专家训练（Specialist Training）

领域专家的开发通过调整DeepSeek-V3.2训练流程进行。具体来说，每个模型依次通过初始微调阶段和后续的强化学习（RL）进行优化，并受领域特定的提示和奖励信号指导。对于RL阶段，我们实施了分组相对策略优化（GRPO）算法，其超参数与我们先前的研究（DeepSeek-AI, 2025; DeepSeek-AI, 2025）保持紧密一致。

推理努力（Reasoning Efforts）。 人们普遍认识到，模型在推理任务上的表现从根本上受所投入的计算努力支配。因此，我们在不同的RL配置下训练了不同的专家模型，以促进针对不同推理能力优化的模型的开发。如表2所详述，DeepSeek-V4-Pro和DeepSeek-V4-Flash均支持三种特定的推理努力模式。对于每种模式，我们在RL训练期间应用不同的长度惩罚和上下文窗口，从而导致推理的输出令牌长度不同。为整合这些不同的推理模式，我们利用由<think>和</think>令牌界定的专门响应格式。此外，对于“Think Max”模式，我们将在系统提示开头添加一条特定的指令，以指导模型的推理过程，如表3所示。

表2：三种推理模式的比较

表3：为"Think Max"模式注入到系统提示中的指令

生成式奖励模型（Generative Reward Model）。 通常，易于验证的任务可以使用简单的基于规则的验证器或测试用例进行有效优化。相比之下，难以验证的任务传统上依赖于来自人类反馈的强化学习（RLHF），这需要大量的人工标注来训练一个标量奖励模型。然而，在DeepSeek-V4系列的后训练阶段，我们摒弃了这些传统的基于标量的奖励模型。取而代之的是，为了处理难以验证的任务，我们整理了基于评分标准的RL数据，并采用生成式奖励模型（GRM）来评估策略轨迹。至关重要的是，我们直接对GRM本身应用RL优化。在这个范式中，演员网络本身就充当GRM，使得模型的评估（判断）能力与其标准生成能力一同被联合优化。通过统一这些角色，模型的内部推理能力被固有地融入其评估过程，从而产生高度稳健的评分。此外，这种方法仅需极少量的多样化人工标注就能实现卓越的性能，因为模型利用其自身的逻辑跨复杂任务进行泛化。

工具调用模式和特殊令牌（Tool-Call Schema and Special Token）。 与我们之前的版本一致，我们使用专门的<think></think>标签来界定推理路径。在DeepSeek-V4系列中，我们引入了一种新的工具调用模式，该模式采用特殊的“|DSML|”令牌，并使用基于XML的格式进行工具调用，如表4所示。我们的实验表明，XML格式有效地减少了转义失败并降低了工具调用错误，为模型与工具的交互提供了一个更健壮的接口。

表4：DeepSeek-V4系列的工具调用模式

交错思维（Interleaved Thinking）。 DeepSeek-V3.2引入了一种上下文管理策略，该策略跨工具结果轮次保留推理轨迹，但在新用户消息到达时将其丢弃。虽然有效，但这在复杂的智能体工作流中仍导致不必要的令牌浪费——每次新的用户轮次都会清空所有累积的推理内容，迫使模型从头重建其问题解决状态。利用DeepSeek-V4系列扩展的1百万令牌上下文窗口，我们进一步完善了这一机制，以最大化交错思维在智能体环境中的有效性：

工具调用场景（Tool-Calling Scenarios）。如图7(a)所示，所有推理内容在整个对话过程中都被完全保留。与DeepSeek-V3.2在每个新用户轮次时丢弃思维轨迹不同，DeepSeek-V4系列跨所有轮次保留完整的推理历史，包括跨用户消息边界。这使得模型能够在长周期智能体任务中保持连贯、累积的思维链。
通用对话场景（General Conversational Scenarios）。如图7(b)所示，原始策略被保留：当新用户消息到达时，先前轮次的推理内容被丢弃，在持续推理轨迹收益有限的设置下保持上下文的简洁。

与DeepSeek-V3.2一样，通过用户消息模拟工具交互的智能体框架（例如，Terminus）可能无法触发工具调用上下文路径，因此可能无法从增强的推理持久性中受益。我们继续推荐对这类架构使用非思考模型。

图7：DeepSeek-V4系列的思维管理

快速指令（Quick Instruction）。 在聊天机器人场景中，一些辅助任务（例如，决定是否触发网络搜索、意图识别等）必须在生成响应之前执行。传统上，这些任务由一个单独的小模型处理，由于它无法重用现有的KV缓存，因此需要冗余的预过滤。为克服这一限制，我们引入了快速指令。我们直接在输入序列中附加一组专用的特殊令牌，每个令牌对应一个特定的辅助任务。通过直接重用已经计算好的KV缓存，这种机制完全避免了冗余的预过滤，并允许某些任务（如生成搜索查询和确定权威性与领域）并行执行。因此，这种方法显著减少了用户感知的首令牌时间（TTFT），并消除了维护和迭代额外小模型的工程开销。支持的快速指令令牌总结在表5中。

表5：用于辅助任务的快速指令特殊令牌

5.1.2. 同策略蒸馏（On-Policy Distillation）

在通过专门的微调和强化学习训练了多个领域特定专家之后，我们采用多教师同策略蒸馏（OPD）作为将专家能力融合到最终模型中的主要技术。OPD已成为一种有效的后训练范式，能高效地将领域专家的知识和能力传递给一个统一的模型。这是通过让学生模型在其自身生成的轨迹上学习教师模型的输出分布来实现的。形式上，给定一组 N 个专家模型 $\{\pi_{E_1}, \pi_{E_2}, \dots, \pi_{E_N}\}$ ，OPD目标函数定义为：

$\mathcal{L}_{\mathrm{OPD}}(\theta) = \sum_{i=1}^{N} w_i \cdot D_{\mathrm{KL}} \left( \pi_{\theta} \| \pi_{E_i} \right). \quad (29)$

在此公式中， $w_i$ 代表分配给每个专家的权重，通常由该专家的相对重要性决定。计算反向 KL 损失 $D_{\mathrm{KL}} \left( \pi_{\theta} \| \pi_{E_i} \right)$ 需要从学生模型 $\pi_{\theta}$ 采样训练轨迹以维持同策略学习。其底层逻辑确保统一策略 $\pi_{\theta}$ 选择性地从与当前任务上下文相关的专门化专家处学习（例如，在数学推理任务中与数学专家对齐，在编程任务中与编码专家对齐）。通过这种机制，来自物理上分离的专家权重的知识通过 logits 级别的对齐被整合到一个统一的参数空间中，实际上避免了传统权重合并或混合 RL 技术中经常遇到的性能下降。在这个阶段，采用了覆盖各个领域的十多个教师模型来蒸馏一个单一的学生模型。

在处理上述 OPD 目标时，先前的工作通常将全词表 KL 损失简化为每个令牌位置的令牌级 KL 估计，并通过将 $\mathrm{sg} \left( \log \frac{\pi_{E_i}(y_t|x, y_{<t})}{\pi_{\theta}(y_t|x, y_{<t})} \right)$ （sg 表示停止梯度操作）替换为策略损失计算中的每令牌优势估计，从而复用 RL 框架。尽管这种方法资源效率高，但它导致梯度估计的高方差，并常常引起训练不稳定性。因此，我们在 OPD 中采用全词表 logit 蒸馏。在计算反向 KL 损失时保留完整的 logit 分布能产生更稳定的梯度估计，并确保教师知识的忠实蒸馏。在下一小节中，我们将描述使全词表 OPD 大规模可行的工程努力。

5.2. RL 和 OPD 基础设施（RL and OPD Infrastructures）

我们的后训练基础设施构建于为 DeepSeek-V3.2 开发的可扩展框架之上。具体来说，我们整合了第 3.5 节中描述的相同分布式训练栈，以及之前为高效自回归采样引入的推演引擎。在此基础之上，我们在当前工作中引入了以下主要增强。这些设计能够高效执行超长上下文 RL 和涉及超过十个不同教师模型的 OPD 合并任务，从而显著加速模型发布的迭代周期。

5.2.1. FP4 量化集成（FP4 Quantization Integration）

我们应用 FP4 (MXFP4) 量化来加速推演以及所有仅推理的前向传播，包括教师模型和参考模型的前向传播，从而减少内存流量和采样延迟。如第 3.4 节所述，我们在推演和推理阶段直接使用原生 FP4 权重。对于训练步骤，FP4 量化通过一个无损的 FP4 到 FP8 反量化步骤进行模拟，允许无缝复用现有的 FP8 混合精度框架及 FP32 主权重，且无需修改反向传播管线。

5.2.2. 面向全词表 OPD 的高效教师调度（Efficient Teacher Scheduling for Full-Vocabulary OPD）

我们的框架支持全词表同策略蒸馏（OPD），其教师数量实际上是无上限的，每位教师可能包含数万亿个参数。为此，所有教师权重被卸载到一个集中式分布式存储中，并在教师前向传播期间按需加载，同时采用类似 ZeRO 的参数分片以减轻 I/O 和 DRAM 压力。此外，即使假脱机到磁盘，为所有教师直接物化词表大小 $|V| > 100k$ 的 logits 也是难以承受的。我们通过在前向传播期间仅在中央缓冲区缓存教师最后一层的隐藏状态来解决这个问题。在训练时，这些缓存的状态被取出，并通过相应的预测头模块以即时重建完整的 logits。这种设计引入的重计算开销可忽略不计，同时完全规避了与显式 logits 物化相关的内存负担。为减轻教师预测头的 GPU 内存占用，我们在数据分发期间按教师索引对训练样本进行排序。这种安排确保每个不同的教师头每个小批次仅需加载一次，并且在任何给定时刻设备内存中最多只有一个教师头。所有参数和隐藏状态的加载/卸载操作均在后台异步进行，不会阻塞关键路径上的计算。最后，教师和学生 logits 之间的精确 KL 散度使用专门的 TileLang 内核计算，这加速了计算并减少了动态内存分配。

5.2.3. 可抢占和容错的推演服务（Preemptible and Fault-Tolerant Rollout Service）

为最大化 GPU 资源利用率，同时为高优先级任务提供快速的硬件配置，我们的 GPU 集群采用了集群级抢占式任务调度器，任何正在运行的任务都可能随时被抢占。同时，硬件故障在大规模 GPU 集群中普遍存在。为此，我们为 RL/OPD 推演实现了一个可抢占和容错的 LLM 生成服务。

具体来说，我们为每个生成请求实现了一个令牌粒度的预写日志（WAL）。每当为一个请求生成一个新令牌时，我们立即将其追加到该请求的 WAL 中。在抢占期间，我们暂停推理引擎并保存未完成请求的 KV 缓存。恢复时，我们使用持久化的 WAL 和保存的 KV 缓存继续解码。即使发生致命的硬件错误，我们也可以使用 WAL 中持久化的令牌重新运行预填充阶段以重建 KV 缓存。

重要的是，从头重新生成未完成的请求在数学上是不正确的，因为这会引入长度偏差。因为较短的响应更有可能在中断中幸存下来，从头重新生成会使模型在任何中断发生时更倾向于生成较短的序列。如果推理栈是批次不变和确定性的，这种正确性问题也可以通过使用采样器中伪随机数生成器的一致种子重新生成来解决。然而，这种方法仍然会产生重新运行解码阶段的额外成本，使其远不如我们的令牌粒度 WAL 方法高效。

5.2.4. 面向百万令牌上下文的 RL 框架扩展（Scaling RL Framework for Million-Token Context）

我们引入了针对百万令牌序列上高效 RL 和 OPD 的定向优化。在推演阶段，我们采用第 5.2.3 节详述的可抢占和容错的推演服务。对于推理和训练阶段，我们将推演数据格式分解为轻量级元数据和重量级每令牌字段。在数据分发期间，整个推演数据的元数据可以被加载以执行全局混洗和打包布局计算。重量级每令牌字段通过共享内存数据加载器加载，以消除节点内数据冗余，并在小批次粒度上立即于消费后释放，从而大幅降低 CPU 和 GPU 的内存压力。设备上小批次的数量根据工作负载动态确定，允许在计算吞吐量和 I/O 重叠之间进行有效权衡。

5.2.5. 面向智能体 AI 的沙箱基础设施（Sandbox Infrastructure for Agentic AI）

为满足后训练和评估期间智能体 AI 多样化的执行需求，我们构建了一个生产级沙箱平台，即 DeepSeek Elastic Compute (DSec)。DSec 由三个 Rust 组件组成——API 网关（Apiserver）、每主机代理（Edge）和集群监视器（Watcher）——它们通过一个定制 RPC 协议互连，并在 3FS 分布式文件系统（DeepSeek-AI, 2025）之上水平扩展。在生产环境中，单个 DSec 集群管理着数十万个并发沙箱实例。

DSec 的设计源于四个观察：(1) 智能体工作负载高度异构，涵盖从轻量级函数调用到具有不同操作系统和安全需求的完整软件工程流水线；(2) 环境镜像数量众多且体积庞大，但必须快速加载并支持迭代定制；(3) 高密度部署需要高效的 CPU 和内存利用率；(4) 沙箱生命周期必须与 GPU 训练调度协调，包括抢占和基于检查点的恢复。基于这些观察，我们将在下文中逐一阐述 DSec 的四个核心设计。

统一接口背后的四种执行基底（Four Execution Substrates Behind One Unified Interface）。 DSec 公开了一个单一的 Python SDK (libdsec)，该 SDK 抽象了四种执行基底。函数调用将无状态调用分发到一个预热容器池，消除了冷启动开销。容器完全兼容 Docker，并利用 EROFS (Gao et al., 2019) 按需加载以实现高效的镜像组装。microVM 构建于 Firecracker (Agache et al., 2020) 之上，为安全敏感、高密度部署增加了 VM 级别的隔离。fullVM 构建于 QEMU (Bellard, 2005) 之上，支持任意的客户操作系统。这四种方式共享一个通用的 API 界面——命令执行、文件传输和 TTY 访问——在它们之间切换仅需更改一个参数。

通过分层存储实现快速镜像加载（Fast Image Loading via Layered Storage）。 DSec 通过分层、按需加载的方式，在快速启动与庞大且不断增长的环境镜像语料库之间取得平衡。对于容器，基础镜像和文件系统提交被存储为 3FS 支撑的只读 EROFS 层，直接挂载到 overlay 的 lowerdirs 中。我们在挂载时保持文件元数据在本地磁盘立即可用；同时，数据块在请求时从 3FS 获取。对于 microVM，DSec 使用 overlaybd (Li et al., 2020) 磁盘格式：只读基础层驻留在 3FS 上以供跨实例共享，而写入则定向到本地的写时复制层。此类快照可链接，便于高效的版本控制和毫秒级的恢复。

大规模并发下的密度优化（Density Optimizations Under Massive Concurrency）。 为在每个集群容纳数十万个沙箱，DSec 解决了两个资源瓶颈。首先，它减少了虚拟化环境中重复的页缓存占用，并应用内存回收以实现安全的过量使用。其次，它缓解了容器运行时中的自旋锁争用，从而减少了每个沙箱的 CPU 开销，显著提高了每主机的打包密度。

轨迹日志与抢占安全的恢复（Trajectory Logging and Preemption-Safe Resumption）。 DSec 为每个沙箱维护一个全局有序的轨迹日志，持久记录每条命令调用及其结果。该轨迹服务于三个目的：(1) 客户端快速跟进——当训练任务被抢占时，沙箱资源仍被保留；恢复时，DSec 为先前已完成的命令重放缓存的结果，加速任务恢复，同时防止因重新执行非幂等操作而导致的错误；(2) 细粒度溯源——每次状态变更的起源和相应结果都是可追踪的；(3) 确定性重放——任何历史会话都可以根据其轨迹忠实地重现。

5.3. 标准基准评估（Standard Benchmark Evaluation）

5.3.1. 评估设置（Evaluation Setup）

知识与推理（Knowledge and Reasoning）。知识和推理数据集包括 MMLU-Pro (Wang et al., 2024b)、GPQA (Rein et al., 2023)、Human Last Exam (Phan et al., 2025)、Simple-QA Verified (Haas et al., 2025)、Chinese-SimpleQA (He et al., 2024)、LiveCodeBench-v6 (Jain et al., 2024)、CodeForces（内部基准）、HMMT 2026 Feb、Apex (Balunovic et al., 2025)、Apex Shortlist (Balunovic et al., 2025)、IMOAnswerBench (Luong et al., 2025) 和 PutnamBench (Tsoukalas et al., 2024)。

对于代码，我们在 LiveCodeBench-v6 和一个内部的 Codeforces 基准上评估 DeepSeek-V4 系列。对于 Codeforces，我们收集了 14 场 Codeforces Division 1 比赛，包含 114 道题目（2025 年 5 月 - 2025 年 11 月）。Elo 评分计算如下。对于每场比赛，我们为每道题生成 32 个候选解答。对于每道题，我们独立地从中无放回地随机抽取 10 个解答，并按随机顺序排列以形成提交序列。每个提交均根据领域专家构建的测试套件进行评判。解决一道题的得分遵循 OpenAI (2025) 的罚分方案：模型获得在相同先前失败尝试次数下解出同一道题的人类参与者得分的中位数。这为每个采样的提交序列产生一个总比赛得分，然后转换为比赛排名，并进而通过标准 Codeforces 评分系统转换为预估评分。比赛级别的预期评分定义为该预估评分在所有可能的每道题 10 个提交序列的随机选择和排序上的期望。模型的总体评分是这 14 场比赛的比赛级别预期评分的平均值。

对于推理和知识任务，我们将 Non-think、High 和 Max 模式的温度设置为 1.0，上下文窗口分别设置为 8K、128K 和 384K 令牌。对于数学任务（例如，HMMT、IMOAnswerBench、Apex 和 HLE），我们使用以下模板进行评估："{question}\nPlease reason step by step, and put your final answer within \boxed{}." 对于 DeepSeek-V4-Pro-Max 在数学任务上的评估，我们使用以下模板以引导更深入的推理："Solve the following problem. The problem may ask you to prove a statement, or ask for an answer. If finding an answer is required, you should come up with the answer, and your final solution should also be a rigorous proof of that answer being valid.\n\n{question}"。

对于形式化数学任务，我们在 Lean v4.28.0-rc1 (Moura and Ullrich, 2021) 上的智能体设置中进行评估，可以访问 Lean 编译器和语义策略搜索引擎，最多运行 500 次工具调用，并使用最大推理努力。此外，我们评估了一个计算更密集的流水线，其中先生成候选的自然语言解答并通过自我验证 (Shao et al., 2025) 进行过滤，然后将保留下来的解答作为指导提供给形式化智能体，以证明相应的 Lean 陈述。此设计利用非形式化推理来改善探索，同时通过形式化验证保持严格的正确性。对于这两种设置，只有当严格的验证器 Comparator 接受提交时，才计为正确。

我们为 K2.6 和 GLM-5.1 留下了若干空白条目，因为它们的 API 过于繁忙，未能对我们的查询返回响应。

1百万令牌上下文（1M-Token Context）。由于 DeepSeek-V4 系列支持 1百万令牌上下文，我们通过选择 OpenAI MRCR (OpenAI, 2024b) 和 CorpusQA (Lu et al., 2026) 作为基准，来评估模型在长上下文场景下的性能。我们重新评估了 Claude Opus 4.6 和 Gemini 3.1 Pro 在这些任务上的表现，以标准化所有模型的配置。我们没有评估 GPT-5.4，因为它的 API 未能响应我们大部分查询。

智能体（Agent）。 智能体数据集包括 Terminal Bench 2.0 (Merrill et al., 2026)、SWE-Verified (OpenAI, 2024e)、SWE Multilingual (Yang et al., 2025)、SWE-Pro (Deng et al., 2025)、BrowseComp (Wei et al., 2025)、MCPAtlas 的公开评估集 (Bandi et al., 2026)、GDPval-AA (AA, 2025; Patwardhan et al., 2025) 和 Tool-Decathlon (Li et al., 2025)。

对于代码智能体任务（SWE-Verified、Terminal-Bench、SWE-Pro、SWE Multilingual），我们使用一个内部开发的评估框架对 DeepSeek-V4 系列进行评估。该框架提供了一套最小工具——一个 bash 工具和一个文件编辑工具。最大交互步数设置为 500，最大上下文长度设置为 512K 令牌。关于 Terminal-Bench 2.0，我们知悉 GLM-5.1 提到的环境相关问题。尽管如此，为保持一致性，我们报告了在原版 Terminal-Bench 2.0 数据集上的性能。在 Terminal-Bench 2.0 Verified 子集上，DeepSeek-V4-Pro 达到了大约 72.0 的分数。

对于搜索智能体任务（BrowseComp、HLE w/ tool），我们也使用一个带有网页搜索和 Python 工具的内部工具，并将最大交互步数设置为 500，最大上下文长度设置为 512K 令牌。对于 BrowseComp，我们采用与 DeepSeek-V3.2 (DeepSeek-AI, 2025) 相同的“全部丢弃”上下文管理策略。

5.3.2. 评估结果（Evaluation Results）

表6：DeepSeek-V4-Pro-Max 与闭源/开源模型的比较。"Max"、"xHigh" 和 "High" 表示推理努力。最佳结果以粗体突出显示；次佳结果以下划线标出。

DeepSeek-V4-Pro-Max 与其他闭源/开源模型的比较见表6。此外，我们评估了 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 的不同模式，并将结果显示在表7中。

知识（Knowledge）。 在通用世界知识的评估中，DeepSeek-V4-Pro-Max（DeepSeek-V4-Pro 的最大推理努力模式）在开源大语言模型中建立了新的目前最优水平。如 SimpleQA-Verified 所示，DeepSeek-V4-Pro-Max 以 20 个绝对百分点的优势显著超越了所有现有的开源基线。尽管取得了这些进步，它目前仍落后于领先的闭源模型 Gemini-3.1-Pro。在教育知识和推理领域，DeepSeek-V4-Pro-Max 在 MMLU-Pro、GPQA 和 HLE 基准上略微优于 Kimi 和 GLM，尽管它落后于领先的闭源模型。总的来看，DeepSeek-V4-Pro-Max 在增强开源模型的世界知识能力方面标志着一个重要的里程碑。

此外，DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 在基于知识的任务上存在显著的性能差距；这是预期的，因为更大的参数量有助于在预训练期间保留更多知识。值得注意的是，当分配到更高的推理努力时，两个模型在知识基准上都表现出改进的结果。

表7：DeepSeek-V4 系列不同规模和模式的比较。"Non-Think"、"High" 和 "Max" 表示推理努力。

推理（Reasoning）。 DeepSeek-V4-Pro-Max 在推理基准上超越了所有先前的开放模型，并在许多指标上匹配了最先进的闭源模型，而较小的 DeepSeek-V4-Flash-Max 也在代码和数学推理任务上超越了先前最佳的开放模型 K2.6-Thinking。同时，DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 在编码竞赛中表现出色。根据我们的评估，它们的性能与 GPT-5.4 相当，这是开放模型首次在此任务上与闭源模型匹敌。在 Codeforces 排行榜上，DeepSeek-V4-Pro-Max 目前在人类参赛者中排名第 23 位。DeepSeek-V4 在智能体和计算密集型两种设置下的形式化数学任务上也展示了强大的性能。在智能体设置下，它取得了目前最优的结果，如图8所示，超越了 Seed Prover (Chen et al., 2025) 等先前模型。通过一个计算更密集的流水线，性能进一步提高，超越了包括 Aristotle (Achim et al., 2025) 在内的系统，并匹配了该设置下已知的最佳结果。

图8：实用和前沿设置下的形式化推理。左图：Putnam-200 Pass@8 评估了从 PutnamBench (Tsoukalas et al., 2024) 中选取的一个固定随机子集，遵循 Seed-Prover 引入的设置；所有模型都在相同的问题集上测试。我们遵循 Seed-Prover 协议，但将专有搜索工具替换为开源的 LeanExplore (Asher, 2025)，从而产生一个带有最小智能体工具和有界采样的轻量级设置。右图：Putnam-2025 在一个扩展的混合形式化-非形式化设置中探究数学推理的前沿，其中非形式化推理与形式化验证相结合，以暴露差距并提高严谨性；DeepSeek-V4 达到了完美的 120/120 证明。

智能体。 DeepSeek-V4 系列在智能体评估中展示了强大的性能。对于代码智能体任务，DeepSeek-V4-Pro 取得了与 K2.6 和 GLM-5.1 相当的结果，尽管所有这些开放模型仍落后于其闭源同类。DeepSeek-V4-Flash 在编码任务上表现不及 DeepSeek-V4-Pro，尤其是在 Terminal Bench 2.0 上。其他智能体评估中也观察到类似的趋势。值得注意的是，DeepSeek-V4-Pro 在 MCPAtlas 和 Toolathlon 这两个包含广泛工具和 MCP 服务的评估测试集上表现良好，这表明我们的模型具有出色的泛化能力，并且不仅仅在内部框架上表现良好。

图9：DeepSeek-V4系列在MRCR任务上的性能。

1百万令牌上下文。 DeepSeek-V4-Pro 在衡量上下文内检索的 MRCR 任务上优于 Gemini-3.1-Pro，但仍落后于 Claude Opus 4.6。如图9所示，在 128K 上下文窗口内，检索性能保持高度稳定。尽管超过 128K 后性能下降变得可见，但模型在 1M 令牌时的检索能力，与专有及开源同类相比仍然非常强大。与 MRCR 不同，CorpusQA 更接近真实场景。评估结果同样表明 DeepSeek-V4-Pro 优于 Gemini-3.1-Pro。

推理努力。 如表7所示，使用更长上下文和 RL 中降低长度惩罚的 Max 模式，在最困难的任务上优于 High 模式。图10展示了在代表性的推理和智能体任务上，DeepSeek-V4-Pro、DeepSeek-V4-Flash 和 DeepSeek-V3.2 的性能与成本比较。通过扩展测试时计算，DeepSeek-V4 系列相较于前代取得了显著改进。此外，在诸如 HLE 等推理任务上，DeepSeek-V4-Pro 展示了比 DeepSeek-V3.2 更高的令牌效率。

图10：HLE 和 Terminal Bench 2.0 性能随推理努力的变化。"None" 表示 Non-think 模式，"Speciale" 表示 DeepSeek-V3.2-Speciale 模型。

5.4. 在真实世界任务上的性能（Performance on Real-World Tasks）

标准化基准往往难以捕捉多样化、真实世界任务的复杂性，从而在测试结果和实际用户体验之间造成了差距。为弥合这一差距，我们开发了专有的内部指标，这些指标优先考虑真实世界的使用模式，而非传统基准。这种方法确保我们的优化转化为切实的收益。我们的评估框架特别针对 DeepSeek API 和 Chatbot 的主要用例，使模型性能与实际需求对齐。

5.4.1. 中文写作（Chinese Writing）

DeepSeek 的主要用例之一是中文写作。我们对功能性写作和创意性写作进行了严格的评估。表12展示了 DeepSeek-V4-Pro 与 Gemini-3.1-Pro 在功能性写作任务上的成对比较。这些任务包含常见的日常写作查询，提示通常是简洁且直接的。选择 Gemini-3.1-Pro 作为基线，因为它在我们评估的中文写作中是表现最佳的外部模型。结果表明，DeepSeek-V4-Pro 以 62.7% 的总胜率优于基线（基线为 34.1%）；这主要是因为 Gemini 有时会允许其固有的风格偏好覆盖用户在中文写作场景中的明确要求。

表13展示了创意性写作的比较，该比较沿两个轴进行评估：指令遵循和写作质量。与 Gemini-3.1-Pro 相比，DeepSeek-V4-Pro 在指令遵循上取得了 60.0% 的胜率，在写作质量上取得了 77.5% 的胜率，显示出在指令遵循上的微弱优势和在写作质量上的显著提升。尽管 DeepSeek-V4-Pro 在聚合用户案例分析中产生了更优的结果，但一项仅限于最具挑战性提示——特别是那些涉及高复杂度约束或多轮场景的提示——的评估显示，Claude Opus 4.5 相较于 DeepSeek-V4-Pro 仍保持性能优势。如表14所示，Claude Opus 4.5 取得了 52.0% 的胜率，而 DeepSeek-V4-Pro 为 45.9%。

5.4.2. 搜索（Search）

增强搜索的问答是 DeepSeek 聊天机器人的一项核心能力。在 DeepSeek 网页和应用程序中，“非思考”模式采用检索增强搜索（RAG），而“思考”模式则利用智能体搜索。

检索增强搜索（Retrieval Augmented Search）。我们进行了一项成对评估，在客观和主观问答类别中比较了 DeepSeek-V4-Pro 和 DeepSeek-V3.2。如表11所示，DeepSeek-V4-Pro 以显著优势优于 DeepSeek-V3.2，展现出在两个类别中一致的优势。最显著的提升出现在单值搜索和规划与策略任务中，表明 DeepSeek-V4-Pro 擅长定位精确的事实答案，并从检索到的上下文中综合出结构化的计划。然而，DeepSeek-V3.2 在比较和推荐任务上仍然相对具有竞争力，这表明 DeepSeek-V4-Pro 在需要对搜索结果进行平衡、多视角推理的场景中仍有改进空间。

智能体搜索（Agentic Search）。 与标准 RAG 不同，智能体搜索使模型能够为每个查询迭代地调用搜索和抓取工具，从而显著提升整体搜索性能。对于 DeepSeek-Chat 中的思考模式，我们优化了智能体搜索功能，以在预定义的“思考预算”内最大化回复准确性。如表9所示，智能体搜索始终优于 RAG，尤其是在复杂任务上。此外，其成本仍然高效，智能体搜索仅略高于标准 RAG（见表10）。

5.4.3. 白领任务（White-Collar Task）

为严格评估模型在复杂企业生产力场景中的实用性，我们构建了一套包含 30 个高级中文专业任务的综合性测试集。这些工作流特意涵盖了高级认知需求，包括深度信息分析、综合文档生成和细致文档编辑，横跨 13 个关键行业（例如金融、教育、法律和科技）的多样化领域。评估在一个配备了包括 Bash 和网页搜索在内的基本工具的内部智能体工具中进行。

鉴于这些任务的开放性，自动化指标通常难以捕捉高质量回复的细微差别。因此，我们进行了人工评估，以比较 DeepSeek-V4-Pro-Max 和 Opus-4.6-Max 的表现。标注者从四个维度盲评模型输出：

任务完成度：核心问题是否被成功解决。
指令遵循性：对特定约束和指示的遵守程度。
内容质量：事实准确性、逻辑连贯性和专业语气。
格式美观性：布局可读性和视觉呈现。

如图11所示，DeepSeek-V4-Pro-Max 在多样化的中文白领任务上优于 Opus-4.6-Max，取得了令人印象深刻的 63% 的非失败率，并在分析、生成和编辑任务中展示出一致的优势。图12展示的详细维度分数突显了模型在任务完成度和内容质量方面的主要优势。具体来说，DeepSeek-V4-Pro-Max 通过频繁提供补充见解和自我验证步骤来主动预测用户的隐含意图。它还在长篇生成方面表现出色，提供深入、连贯的叙述，而非依赖 Opus-4.6-Max 经常生成的过于简单的项目符号列表。此外，该模型严格遵守正式的专业惯例，例如标准的中文层级编号。然而，在指令遵循方面，它偶尔会忽略特定的格式约束，略逊于 Opus。此外，该模型在将大量文本输入浓缩为简洁摘要方面不太擅长。最后，其格式美观性在演示幻灯片的整体视觉设计方面仍有相当大的改进空间。图13、14和15展示了若干测试案例；由于某些输出的长度较长，仅显示部分页面。

图11：分析、生成、编辑任务及整体性能的胜率比较。分数：DeepSeek-V4-Pro-Max vs Opus-4.6-Max

图12：详细的维度分数，包括任务完成度、内容质量、格式美观性和指令遵循性。

图13：一项要求为一家流行奶茶品牌和北京地铁起草联合营销方案的任务示例输出。

5.4.4. 代码智能体（Code Agent）

为基准测试我们的编码智能体能力，我们从真实的内部研发工作负载中整理了任务。我们从 50 多位内部工程师那里收集了约 200 个具有挑战性的任务，涵盖特性开发、Bug 修复、重构和诊断，横跨 PyTorch、CUDA、Rust 和 C++ 等多种技术栈。每个任务都附带其原始仓库、相应的执行环境以及人工标注的评分标准；经过严格的质量过滤后，保留了 30 个任务作为评估集。如表8所示，DeepSeek-V4-Pro 显著优于 Claude Sonnet 4.5，并接近 Claude Opus 4.5 的水平。

表8：研发编码基准上的比较（外部模型仅用于评估目的）。

在一项询问 DeepSeek 开发者和研究者（N=85）——他们均有在日常工作中使用 DeepSeek-V4-Pro 进行智能体编码的经验——的调查中，对于“相比其他前沿模型，DeepSeek-V4-Pro 是否已准备好作为他们默认且主要的编码模型”，52% 表示同意，39% 倾向于同意，仅有不到 9% 表示不同意。受访者发现 DeepSeek-V4-Pro 在大多数任务上都能给出令人满意的结果，但也指出存在一些轻微错误、对模糊提示的误解以及偶尔的过度思考。

6. Conclusion, Limitations, and Future Directions（结论、局限性及未来方向）

在这项工作中，我们展示了DeepSeek-V4系列的预览版，旨在打造突破超长上下文处理效率障碍的下一代大语言模型。通过结合集成CSA和HCA的混合注意力架构，DeepSeek-V4系列在长序列效率上实现了巨大飞跃。这些架构创新，加之广泛的基础设施优化，使得能够高效原生支持百万词元上下文，并为未来的测试时扩展、长周期任务，以及诸如在线学习等新兴范式奠定了必要基础。评估结果表明，DeepSeek-V4-Pro-Max（DeepSeek-V4-Pro的最大推理努力模式）重新定义了开放模型的目前最优水平。它在知识基准上大幅超越先前的开源模型，取得了接近前沿闭源模型的卓越推理性能，并提供了具有竞争力的智能体能力。同时，DeepSeek-V4-Flash-Max获得了与领先闭源模型相当的推理性能，同时保持了高成本效益的架构。我们相信，DeepSeek-V4系列为开放模型开启了百万长度上下文的新纪元，并朝着更高的效率、规模和智能迈进。

在追求极致长上下文效率的过程中，DeepSeek-V4系列采用了大胆的架构设计。为将风险降至最低，我们保留了许多初步验证过的组件和技巧，这些虽然有效，却使架构变得相对复杂。在未来的迭代中，我们将进行更全面、更原理性的研究，将架构精简至最基本的设计，使其在不牺牲性能的情况下更加优雅。同时，尽管先行路由和SwiGLU截断已被证明能有效缓解训练不稳定性，但其底层原理仍未被充分理解。我们将积极研究训练稳定性的基础问题，并加强内部指标监控，旨在为稳定的大规模训练找到一种更具原理性和可预测性的方法。

此外，除了MoE和稀疏注意力架构之外，我们还将积极探索新维度的模型稀疏性 —— 例如更稀疏的嵌入模块（Cheng et al., 2026）—— 以进一步提高计算和内存效率而不损害能力。我们还将持续研究低延迟架构和系统技术，以使长上下文部署和交互响应更快。此外，我们认识到长周期、多轮智能体任务的重要性和实用价值，并将继续在这个方向上进行迭代和探索。我们同时致力于为模型加入多模态能力。最后，我们承诺将开发更优的数据策展和合成策略，以在日益广泛的场景和任务中持续提升模型的智能性、鲁棒性和实际可用性。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐