DeepSeek-V4 震撼登场！百万上下文免费开送，Agent能力直逼顶级闭源模型

携梦问道

779人浏览 · 2026-04-24 11:42:10

携梦问道 · 2026-04-24 11:42:10 发布

摘要：2026年4月24日，DeepSeek正式发布V4预览版，并同步开源。新模型最大的亮点是将百万（1M）上下文作为所有官方服务的标配，同时大幅提升了Agent能力、世界知识和推理性能。V4系列包含Pro和Flash两个版本，Pro版本在多项评测中超越现有开源模型，比肩Gemini-Pro-3.1、Opus 4.6等顶级闭源模型；Flash版本则提供更快捷经济的API服务。本文将带你快速了解DeepSeek-V4的核心亮点、技术创新、使用方式及开源信息。

大家好！今天凌晨，DeepSeek扔出了一枚“核弹”——DeepSeek-V4预览版正式上线并开源！作为一名长期关注LLM进展的技术博主，我第一时间体验了这款新模型，只能说：真的太强了！

这次V4的发布，不仅仅是参数和分数的提升，更关键的是它标志着百万上下文正式进入普惠时代——从此，1M上下文不再是高阶付费用户的专享，而是DeepSeek所有官方服务的标配。

下面，我就为大家详细拆解DeepSeek-V4的核心亮点。

DeepSeek-V4-Pro：性能比肩顶级闭源模型

在这里插入图片描述

🚀 核心亮点速览

特性	DeepSeek-V4-Pro	DeepSeek-V4-Flash
总参数量	1.6T（万亿）	284B（亿级）
激活参数量	49B	13B
上下文长度	1M tokens（百万级）	1M tokens（百万级）
Agent能力	开源模型最佳，体验优于Sonnet 4.5	简单任务与Pro相当，复杂任务有差距
世界知识	大幅领先开源模型，稍逊于Gemini-Pro-3.1	稍逊于Pro版本
推理性能	超越所有开源模型，比肩顶级闭源模型	接近Pro版本的推理能力
适用场景	复杂Agent、高难度推理、长文档分析	日常对话、快速响应、成本敏感型应用
价格	标准API定价	更快捷、经济的API服务

📊 核心技术参数深度对比

根据ModelScope上发布的模型信息，两款模型的具体参数如下：

模型	总参数量	激活参数量	上下文长度	精度
DeepSeek-V4-Flash-Base	284B	13B	1M	FP8 混合
DeepSeek-V4-Flash	284B	13B	1M	FP4 + FP8 混合*
DeepSeek-V4-Pro-Base	1.6T	49B	1M	FP8 混合
DeepSeek-V4-Pro	1.6T	49B	1M	FP4 + FP8 混合*

*FP4 + FP8 混合：MoE专家参数使用 FP4 精度；其余大部分参数使用 FP8。

基础模型评测对比

基准测试（指标）	DeepSeek-V3.2-Base	DeepSeek-V4-Flash-Base	DeepSeek-V4-Pro-Base
激活参数量	37B	13B	49B
总参数量	671B	284B	1.6T
世界知识
MMLU (EM) 5-shot	87.8	88.7	90.1
MMLU-Pro (EM) 5-shot	65.5	68.3	73.5
C-Eval (EM) 5-shot	90.4	92.1	93.1
代码与数学
HumanEval (Pass@1) 0-shot	62.8	69.5	76.8
GSM8K (EM) 8-shot	91.1	90.8	92.6
MATH (EM) 4-shot	60.5	57.4	64.5
长上下文
LongBench-V2 (EM) 1-shot	40.2	44.7	51.5

从基础模型评测可以看出，V4-Pro-Base虽然在激活参数量上比V3.2增加了12B，但在MMLU-Pro上提升了8个百分点，长上下文能力更是提升了11.3个百分点，进步非常明显。

🧠 技术创新：前所未有的长上下文效率

DeepSeek-V4能轻松驾驭百万上下文，秘诀在于其全新的注意力机制：

混合注意力架构：结合压缩稀疏注意力（CSA）与重度压缩注意力（HCA），显著提升长上下文处理效率。在百万Token上下文场景下，DeepSeek-V4-Pro相比DeepSeek-V3.2仅需27%的单Token推理FLOPs和10%的KV缓存。
流形约束超连接（mHC）：在传统残差连接基础上引入，增强跨层信号传播的稳定性，同时保留模型表达能力。
Muon优化器：实现更快的收敛速度和更高的训练稳定性。

两款模型均在超过32T的多样化高质量Token上进行预训练，并经过全面的后训练流程（SFT + 基于GRPO的强化学习 + 在线策略蒸馏）。

🎯 Agent能力专项优化

V4针对当前主流的Agent框架（如Claude Code、OpenClaw、CodeBuddy等）做了深度适配和优化。在代码任务、文档生成等场景表现大幅提升。

官方内部员工已将V4-Pro作为日常使用的Agentic Coding模型，反馈使用体验优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式。这绝对是一个值得开发者关注的信号。

指令微调模型性能对比（Max模式）

基准测试	Opus-4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High	DS-V4-Pro Max
MMLU-Pro	89.1	87.5	91.0	87.5
GPQA Diamond	91.3	93.0	94.3	90.1
LiveCodeBench	88.8	-	91.7	93.5
Codeforces Rating	-	3168	3052	3206
SWE Verified	80.8	-	80.6	80.6
Terminal Bench 2.0	65.4	75.1	68.5	67.9

V4-Pro Max在代码能力上已经超越所有对比模型，LiveCodeBench达到93.5%，Codeforces评分达到3206分，创下开源模型新高。

V4-Flash vs V4-Pro 不同模式对比

基准测试	V4-Flash Non-Think	V4-Flash Max	V4-Pro Non-Think	V4-Pro Max
MMLU-Pro	83.0	86.2	82.9	87.5
GPQA Diamond	71.2	88.1	72.9	90.1
LiveCodeBench	55.2	91.6	56.8	93.5
MRCR 1M (长上下文)	37.5	78.7	44.7	83.5
SWE Verified	73.7	79.0	73.6	80.6

Flash的Max模式表现惊人：在GPQA Diamond上从71.2跃升至88.1，LiveCodeBench从55.2飙升至91.6，长上下文能力翻倍。这说明通过增加推理预算，Flash可以接近甚至在某些任务上比肩Pro版本。

💻 如何使用DeepSeek-V4？

1. 网页端/App端

即日起，登录 chat.deepseek.com 或官方App，即可直接与DeepSeek-V4对话，免费体验1M超长上下文记忆。

2. API调用

API已同步更新，通过修改 model 参数调用：

deepseek-v4-pro
deepseek-v4-flash

重要提醒：旧的 deepseek-chat 和 deepseek-reasoner 模型名将于 2026-07-24 停止使用。过渡期内，它们会分别指向v4-flash的非思考模式与思考模式。

V4支持三种推理强度模式：

推理模式	特点	典型应用场景
Non-think	快速、直观的响应	日常例行任务、低风险决策
Think High	有意识的逻辑分析，速度较慢但更准确	复杂问题求解、规划
Think Max	将推理能力发挥到极致	探索模型推理能力的边界