DeepSeek-V4 解读

龟速兔子

562人浏览 · 2026-04-24 15:41:16

龟速兔子 · 2026-04-24 15:41:16 发布

DeepSeek-V4 这次最值得关注的地方，不是单纯把参数规模继续堆大，而是把大模型正在遇到的一个核心瓶颈摆到了台前：当推理模型越来越依赖 test-time scaling，当智能体任务、长文档分析、跨文件代码理解都需要超长上下文时，传统 Attention 的计算和 KV Cache 成本已经变成主要限制。 DeepSeek-V4 的目标，就是让百万 token 上下文从“理论支持”变成“工程上可以日常使用”。报告中给出的两个预览模型分别是 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash：前者总参数约 1.6T、每 token 激活 49B；后者总参数 284B、每 token 激活 13B，二者都支持 100 万 token 上下文。

一、先看结论：V4 的核心突破是什么？

一句话概括：DeepSeek-V4 是一次围绕“长上下文效率”的系统级重构。

过去很多模型也宣称支持长上下文，但长上下文的成本主要卡在两件事上。第一是 Attention 计算量，尤其在长序列下，普通全量注意力会随上下文长度急剧膨胀。第二是 KV Cache，模型每生成一个 token，都要保留历史 token 的 key/value 表示，百万 token 下显存压力非常大。DeepSeek-V4 用混合注意力架构 CSA + HCA，把历史上下文压缩成更少的 KV 条目，再通过稀疏选择或重压缩稠密注意力来降低计算量；同时配合 FP8/FP4 低精度存储与计算，让 KV Cache 和推理 FLOPs 都大幅下降。报告称，在 100 万 token 场景下，DeepSeek-V4-Pro 的单 token 推理 FLOPs 只有 DeepSeek-V3.2 的 27%，KV Cache 只有 10%；V4-Flash 则进一步降到 10% FLOPs 和 7% KV Cache。

这意味着 V4 的技术路线不是“我能塞进 100 万 token”，而是“我能在 100 万 token 下比较经济地继续推理、检索和思考”。这对长程智能体、代码仓库级分析、多论文综述、复杂企业文档处理都很关键。

二、模型家族：Pro 追求上限，Flash 追求性价比

DeepSeek-V4 系列至少包含两个核心版本。DeepSeek-V4-Pro 是能力上限版本，61 层 Transformer，隐藏维度 7168，总参数 1.6T，每 token 激活 49B；DeepSeek-V4-Flash 是高效率版本，43 层 Transformer，隐藏维度 4096，总参数 284B，每 token 激活 13B。二者都采用 MoE 架构，但只激活一小部分专家，因此总参数很大，实际每 token 计算量相对可控。表 1 中也把 V4-Pro-Base、V4-Flash-Base 与 V3.2-Base 做了统一评测对比，其中 V4-Pro-Base 被报告描述为 DeepSeek 系列中目前最强基础模型，而 V4-Flash-Base 在更小激活参数下超过 V3.2-Base 的多数指标。

Pro 和 Flash 的定位差异很明显：Pro 适合高难推理、复杂智能体、深度代码与长文档任务；Flash 更适合大规模部署、低成本调用，以及在给足思考预算时完成性价比较高的推理任务。报告也明确提到，Flash 在知识类评测中由于参数规模较小会落后于 Pro，但在推理任务上如果给更大的 thinking budget，可以接近更大模型的表现。

三、第一大技术点：CSA + HCA 混合注意力，让百万 token 不再全量硬算

DeepSeek-V4 最关键的架构创新是 Hybrid Attention，也就是把两类注意力交错使用：Compressed Sparse Attention，简称 CSA；Heavily Compressed Attention，简称 HCA。报告中 Figure 2 给出了整体架构：注意力层使用 CSA/HCA，前馈层使用 DeepSeekMoE，并用 mHC 加强传统残差连接。

CSA 可以理解为“先压缩，再稀疏检索”。它不是让每个 query token 去看所有历史 token，而是先把每 m 个 token 的 KV 压缩成一个条目，然后用一个轻量的 Lightning Indexer 对压缩后的 KV 块打分，只选 top-k 个最相关的压缩 KV 条目参与核心注意力。DeepSeek-V4-Flash 的 CSA 压缩率 m=4，top-k=512；DeepSeek-V4-Pro 的 CSA 同样 m=4，但 top-k=1024。这样一来，远距离历史不再以原始 token 粒度全部参与计算，而是先变成“块级记忆”，再按需检索。

HCA 则更激进，可以理解为“重压缩后的全局摘要注意力”。它把每 m′ 个 token 压成一个 KV 条目，并且 m′ 远大于 m；在 V4 的配置中，HCA 的压缩率 m′=128。HCA 不做稀疏 top-k，而是在重压缩后的短序列上做稠密注意力。它牺牲了一部分细粒度信息，换来非常便宜的全局覆盖。

为什么要 CSA 和 HCA 混用？因为单靠 CSA，模型能精准检索远处相关片段，但全局背景可能不够平滑；单靠 HCA，模型能便宜地看到全局，但细节会被压缩。混合后，CSA 负责“从百万 token 中找关键证据”，HCA 负责“维持全局语义场”。同时，二者都额外加入滑动窗口注意力分支，让最近的 nwin=128 个 token 以未压缩形式参与注意力，弥补局部细节损失。

这就是 V4 长上下文能力的核心：远处信息压缩，关键远处信息稀疏选取，近处信息保留原始粒度。

四、第二大技术点：mHC，把残差连接从“一条路”变成“稳定的多路混合”

除了注意力，V4 还引入了 Manifold-Constrained Hyper-Connections，简称 mHC。传统 Transformer 的残差连接可以理解为每层都有一条“主干高速路”，让信息跨层传递。Hyper-Connections 的想法是把残差流扩展成多条并行残差流，给模型更多跨层组合方式。但普通 HC 容易在深层堆叠时带来数值不稳定。

mHC 的做法是给残差映射矩阵加约束：把它限制在“双随机矩阵”的流形上，也就是每行每列都归一、元素非负。这样做的效果是让残差变换保持非扩张，报告中指出这可以把残差映射的谱范数约束在 1 以内，从而提高前向传播和反向传播的稳定性。具体实现上，V4 用 Sinkhorn-Knopp 迭代把原始矩阵投影到双随机矩阵集合，迭代次数 tmax=20；输入和输出映射也用 Sigmoid 保证非负和有界。

直观来说，mHC 的价值是：模型越深、越大，信息在层间传递越容易爆炸或衰减；mHC 相当于给跨层信息混合加了一个稳定器。 这也是 V4 能训练 1.6T MoE 模型的重要基础之一。

五、第三大技术点：Muon 优化器，不只是调学习率，而是调“更新方向”

V4 另一个关键变化是引入 Muon 优化器。传统 AdamW 更像是对每个参数做自适应缩放，而 Muon 更关注矩阵参数更新方向的结构性。报告中描述，DeepSeek-V4 对大多数模块使用 Muon，对 embedding、prediction head、RMSNorm 权重，以及 mHC 的部分静态偏置和门控参数仍保留 AdamW。Muon 内部使用 Nesterov trick，并通过 Hybrid Newton-Schulz 迭代近似正交化更新矩阵，再对更新的 RMS 进行缩放，以复用 AdamW 的部分超参经验。

这件事的重要性在于，大模型训练不只是“算得快”，还要“别崩”。V4 报告专门提到训练万亿参数 MoE 会遇到稳定性挑战，简单 rollback 不能根治 loss spike，因此除了 Muon，还引入了 SwiGLU clamping，把 SwiGLU 的线性分量限制在 [-10, 10]，gate 分量上界限制为 10，用来消除 outlier 并稳定训练。

六、第四大技术点：MoE 没变成负担，靠专家并行和通信计算重叠撑住

DeepSeek-V4 延续了 DeepSeekMoE：细粒度 routed experts 加 shared experts。相比 V3，V4 把路由 affinity 的激活函数从 Sigmoid 改成 Sqrt(Softplus)，继续使用 auxiliary-loss-free 的负载均衡策略，并额外加入轻量 sequence-wise balance loss，避免单条序列内部专家负载极端不均。同时，前几层不再使用普通 dense FFN，而是用带 Hash routing 的 MoE 层。

MoE 的难点是专家并行会产生大量跨卡通信。V4 的工程方案是把 Dispatch、Linear-1、激活、Linear-2、Combine 等阶段做细粒度流水化，把专家拆成多个 wave，只要某个 wave 的通信完成，就立刻开始计算，不必等全部专家通信结束。报告称，这种细粒度 EP 方案在 NVIDIA GPU 和华为 Ascend NPU 上都做了验证，相比强 non-fused baseline，通用推理负载可达 1.50–1.73 倍加速，在 RL rollout 和高速 agent serving 等延迟敏感场景最高可达 1.96 倍。

这说明 V4 的 MoE 不是只靠模型结构，而是强依赖训练与推理系统。没有通信计算重叠、kernel fusion、低精度和缓存管理，1.6T MoE 的实际服务成本很难压下来。

七、第五大技术点：FP4 QAT 和异构 KV Cache，都是为了让长上下文服务能落地

DeepSeek-V4 在低精度上走得很激进。报告说，它把 FP4 量化感知训练用于两个地方：一是 MoE expert weights，因为专家权重是显存大户；二是 CSA indexer 的 QK path，因为长上下文下 indexer 的 QK 激活会被缓存、加载和乘法计算，低精度能直接降低长上下文检索成本。此外，V4 还把 index scores 从 FP32 量化到 BF16，让 top-k selector 获得 2 倍加速，同时保持 99.7% 的 KV entry recall。

KV Cache 管理也被重新设计。传统 PagedAttention 假设各层 KV 结构比较统一，但 V4 的 CSA、HCA、SWA 会产生不同大小、不同更新规则、不同淘汰策略的缓存。报告中的 Figure 6 把 KV Cache 分成两类：一类是 CSA/HCA 的 classical KV cache；另一类是 state cache，用来保存滑动窗口 KV 和尚未压缩完成的 token 状态。

这背后有一个重要判断：百万 token 上下文不是只改模型结构就能解决，推理系统的数据结构也要重写。 否则，模型理论上省了 FLOPs，服务端还是会被缓存碎片、对齐要求、前缀复用和状态恢复拖垮。

八、训练：不是直接上 1M，而是逐级拉长上下文

V4 的预训练语料超过 32T tokens，覆盖数学、代码、网页、长文档、多语言和其他高质量数据。报告中特别强调了长文档数据，包括科学论文、技术报告等，并且过滤批量自动生成和模板化网页内容，以降低模型塌缩风险。Tokenizer 仍保持 128K 词表，并继承 token-splitting 和 FIM 策略，同时在预训练中使用 sample-level attention masking。

训练过程也不是一开始就喂 100 万 token。V4 从 4K 序列长度开始，逐渐扩展到 16K、64K，最后到 1M。Flash 训练 32T tokens，最大 batch size 75.5M tokens；Pro 训练 33T tokens，最大 batch size 94.4M tokens。稀疏注意力也不是一开始就启用，而是在先经过 dense attention warmup 后，于 64K 长度阶段引入，并先短暂 warmup CSA 的 lightning indexer，再进入长期稀疏训练。

这个训练节奏很关键：百万上下文模型不是简单把 context window 拉大，而是需要让模型逐步适应“从短上下文语言建模”到“长上下文压缩、检索、推理”的分布变化。

九、后训练：从“多个专家”到“一个统一模型”，关键是 OPD

DeepSeek-V4 的后训练分两步。第一步是 specialist training，也就是针对数学、代码、agent、指令跟随等不同领域分别训练专家模型：先用高质量领域数据做 SFT，再用 GRPO 做强化学习。第二步是 On-Policy Distillation，简称 OPD，把多个领域专家的能力蒸馏进一个统一模型。报告明确说，V4 相比 V3.2 的关键方法替换，是把 mixed RL 阶段整体替换成 OPD。

OPD 的核心是让学生模型在自己采样出来的轨迹上，去对齐多个 teacher expert 的完整 logits 分布。它优化的是反向 KL：学生策略相对于专家策略的 KL。报告中特别强调，他们没有采用更省资源但方差更高的 token-level KL 估计，而是做 full-vocabulary logit distillation，因为完整 logits 分布能带来更稳定的梯度和更忠实的教师知识迁移。此阶段使用了十多个覆盖不同领域的 teacher models 来蒸馏一个学生模型。

直观来说，V4 不再试图把所有能力都通过一次混合 RL 硬塞进模型，而是先让不同专家分别做到强，再用 on-policy 的方式把它们的行为合并到一个统一参数空间里。这样可以减少传统权重合并或混合 RL 容易出现的能力互相干扰。

十、评测结果：长上下文、推理和中文办公是重点亮点

按照报告总结，DeepSeek-V4-Pro-Max 在知识、推理、agent 和长上下文任务上都显著推进了开放模型水平。知识方面，它在 SimpleQA、Chinese-SimpleQA 上超过领先开源模型，在 MMLU-Pro、HLE、GPQA 等教育知识评测上相对开源模型有小幅领先，但在部分知识评测上仍落后 Gemini-3.1-Pro。推理方面，V4-Pro-Max 通过增加 reasoning tokens 超过 GPT-5.2 和 Gemini-3.0-Pro，但仍略低于 GPT-5.4 和 Gemini-3.1-Pro；Flash-Max 则在更低成本下接近 GPT-5.2 和 Gemini-3.0-Pro。

代码和形式化数学也很强。报告称 DeepSeek-V4-Pro-Max 在 Codeforces leaderboard 中排名人类候选第 23；在形式化数学任务中，V4 在实用和 frontier 两种设置下都有很高表现，Putnam-200 Pass@8 中 V4-Flash-Max 得到 81.00，而在 Putnam-2025 的高计算设置下 DeepSeek-V4 达到 120/120。

长上下文方面，V4 的强项很清楚，但也不是没有衰减。MRCR 8-needle 任务显示，检索性能在 128K 内比较稳定，超过 128K 后开始下降，但到 1M token 时仍保持较强水平；报告还称 V4-Pro 在 MRCR 上超过 Gemini-3.1-Pro，但低于 Claude Opus 4.6，在更接近真实场景的 CorpusQA 上也优于 Gemini-3.1-Pro。

真实任务方面，中文写作和白领任务是 V4 报告中特别强调的应用场景。功能性中文写作中，DeepSeek-V4-Pro 相对 Gemini-3.1-Pro 的整体胜率为 62.7% 对 34.1%；创意写作中，V4-Pro 在指令跟随维度胜率 60.0%，写作质量胜率 77.5%。但在最复杂约束或多轮中文写作任务上，Claude Opus 4.5 仍以 52.0% 对 45.9% 领先。

在 30 个高级中文专业任务组成的 white-collar task 中，DeepSeek-V4-Pro-Max 相对 Opus-4.6-Max 的整体非输率为 63%，主要优势在任务完成度和内容质量；但报告也承认，它在严格格式约束、长文压缩成短摘要、PPT 视觉排版美观度方面仍有提升空间。

十一、怎么看 V4 的意义？

DeepSeek-V4 的意义不只是“又一个更强开源模型”。它更像是一个信号：下一阶段大模型竞争，会从单次回答能力，转向长程上下文、长程推理、长程工具调用和低成本持续思考能力。

V4 的技术路线可以总结成三层。第一层是架构：用 CSA/HCA 让百万 token 的注意力不再不可承受，用 mHC 稳定超大模型层间传递，用 MoE 维持参数规模与计算成本的平衡。第二层是训练：用 Muon、SwiGLU clamping、逐级拉长上下文、稀疏注意力 warmup 保证大模型能训稳。第三层是系统：用 FP4 QAT、异构 KV Cache、专家并行通信计算重叠、TileLang kernel 和 OPD rollout 基础设施，让这些架构创新真正能跑起来。

它的限制也同样清楚。第一，百万 token 不是无损记忆，MRCR 曲线已经显示 128K 之后检索性能会下降。第二，V4 在部分知识、复杂 agent、最高端闭源模型对比上仍未全面领先。第三，它的很多收益高度依赖底层 kernel、缓存布局、低精度训练和服务系统，普通开发者很难只靠模型权重复现完整效率。第四，在中文办公场景中，它强在任务完成和长文生成，但在格式精细控制、极端摘要压缩和视觉排版上仍有短板。

最终看，DeepSeek-V4 的主线不是“更大”，而是“更长、更省、更能持续思考”。如果说 V3/R1 时代证明了开源模型可以在推理能力上追近闭源前沿，那么 V4 更像是在证明：开放模型也可以把百万 token 上下文、长程智能体和 test-time scaling 做成一套可运行的系统工程。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

上下文是你的 · Agent 是雇的 · 三步节省 90% Token 账单

AtomGit开源社区

[智能体-100]：采样策略深度详解：temperature /top_p/top_k

控整体随机程度的万能参数；越低越稳、越高越放飞；工业级标准化接口、高精度场景优先拉低温度。：调整体 “脑洞大小”，数值越大越放飞；top_p：筛选 “优质候选词”，在可控范围内增加变化，更稳更流畅；top_k：按数量硬筛，功能老旧，OpenAI 场景基本不用；生产环境严格二选一，不要同时微调 temperature 和 top_p。

AtomGit开源社区

LLM应用长期记忆工程2026：向量DB以外的持久化方案

大多数开发者构建AI应用时，谈到长期记忆，脑子里浮现的第一个词是"向量数据库"。Pinecone、Weaviate、Qdrant……这些名字几乎成了AI记忆的代名词。但在2026年，随着LLM应用复杂度不断攀升，向量检索只是冰山一角。本文深入剖析LLM长期记忆的完整工程体系，带你走出向量DB的思维定势。