摘要:2026年4月24日,DeepSeek正式发布V4预览版,并同步开源。新模型最大的亮点是将百万(1M)上下文作为所有官方服务的标配,同时大幅提升了Agent能力、世界知识和推理性能。V4系列包含Pro和Flash两个版本,Pro版本在多项评测中超越现有开源模型,比肩Gemini-Pro-3.1、Opus 4.6等顶级闭源模型;Flash版本则提供更快捷经济的API服务。本文将带你快速了解DeepSeek-V4的核心亮点、技术创新、使用方式及开源信息。

大家好!今天凌晨,DeepSeek扔出了一枚“核弹”——DeepSeek-V4预览版正式上线并开源!作为一名长期关注LLM进展的技术博主,我第一时间体验了这款新模型,只能说:真的太强了!

这次V4的发布,不仅仅是参数和分数的提升,更关键的是它标志着百万上下文正式进入普惠时代——从此,1M上下文不再是高阶付费用户的专享,而是DeepSeek所有官方服务的标配

下面,我就为大家详细拆解DeepSeek-V4的核心亮点。

DeepSeek-V4-Pro:性能比肩顶级闭源模型

在这里插入图片描述

🚀 核心亮点速览

特性 DeepSeek-V4-Pro DeepSeek-V4-Flash
总参数量 1.6T(万亿) 284B(亿级)
激活参数量 49B 13B
上下文长度 1M tokens(百万级) 1M tokens(百万级)
Agent能力 开源模型最佳,体验优于Sonnet 4.5 简单任务与Pro相当,复杂任务有差距
世界知识 大幅领先开源模型,稍逊于Gemini-Pro-3.1 稍逊于Pro版本
推理性能 超越所有开源模型,比肩顶级闭源模型 接近Pro版本的推理能力
适用场景 复杂Agent、高难度推理、长文档分析 日常对话、快速响应、成本敏感型应用
价格 标准API定价 更快捷、经济的API服务

📊 核心技术参数深度对比

根据ModelScope上发布的模型信息,两款模型的具体参数如下:

模型 总参数量 激活参数量 上下文长度 精度
DeepSeek-V4-Flash-Base 284B 13B 1M FP8 混合
DeepSeek-V4-Flash 284B 13B 1M FP4 + FP8 混合*
DeepSeek-V4-Pro-Base 1.6T 49B 1M FP8 混合
DeepSeek-V4-Pro 1.6T 49B 1M FP4 + FP8 混合*

*FP4 + FP8 混合:MoE专家参数使用 FP4 精度;其余大部分参数使用 FP8。

基础模型评测对比

基准测试(指标) DeepSeek-V3.2-Base DeepSeek-V4-Flash-Base DeepSeek-V4-Pro-Base
激活参数量 37B 13B 49B
总参数量 671B 284B 1.6T
世界知识
MMLU (EM) 5-shot 87.8 88.7 90.1
MMLU-Pro (EM) 5-shot 65.5 68.3 73.5
C-Eval (EM) 5-shot 90.4 92.1 93.1
代码与数学
HumanEval (Pass@1) 0-shot 62.8 69.5 76.8
GSM8K (EM) 8-shot 91.1 90.8 92.6
MATH (EM) 4-shot 60.5 57.4 64.5
长上下文
LongBench-V2 (EM) 1-shot 40.2 44.7 51.5

从基础模型评测可以看出,V4-Pro-Base虽然在激活参数量上比V3.2增加了12B,但在MMLU-Pro上提升了8个百分点,长上下文能力更是提升了11.3个百分点,进步非常明显。

🧠 技术创新:前所未有的长上下文效率

DeepSeek-V4能轻松驾驭百万上下文,秘诀在于其全新的注意力机制

  • 混合注意力架构:结合压缩稀疏注意力(CSA)与重度压缩注意力(HCA),显著提升长上下文处理效率。在百万Token上下文场景下,DeepSeek-V4-Pro相比DeepSeek-V3.2仅需27%的单Token推理FLOPs和10%的KV缓存
  • 流形约束超连接(mHC):在传统残差连接基础上引入,增强跨层信号传播的稳定性,同时保留模型表达能力。
  • Muon优化器:实现更快的收敛速度和更高的训练稳定性。

两款模型均在超过32T的多样化高质量Token上进行预训练,并经过全面的后训练流程(SFT + 基于GRPO的强化学习 + 在线策略蒸馏)。

🎯 Agent能力专项优化

V4针对当前主流的Agent框架(如Claude Code、OpenClaw、CodeBuddy等)做了深度适配和优化。在代码任务、文档生成等场景表现大幅提升。

官方内部员工已将V4-Pro作为日常使用的Agentic Coding模型,反馈使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式。这绝对是一个值得开发者关注的信号。

指令微调模型性能对比(Max模式)

基准测试 Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High DS-V4-Pro Max
MMLU-Pro 89.1 87.5 91.0 87.5
GPQA Diamond 91.3 93.0 94.3 90.1
LiveCodeBench 88.8 - 91.7 93.5
Codeforces Rating - 3168 3052 3206
SWE Verified 80.8 - 80.6 80.6
Terminal Bench 2.0 65.4 75.1 68.5 67.9

V4-Pro Max在代码能力上已经超越所有对比模型,LiveCodeBench达到93.5%,Codeforces评分达到3206分,创下开源模型新高。

V4-Flash vs V4-Pro 不同模式对比

基准测试 V4-Flash Non-Think V4-Flash Max V4-Pro Non-Think V4-Pro Max
MMLU-Pro 83.0 86.2 82.9 87.5
GPQA Diamond 71.2 88.1 72.9 90.1
LiveCodeBench 55.2 91.6 56.8 93.5
MRCR 1M (长上下文) 37.5 78.7 44.7 83.5
SWE Verified 73.7 79.0 73.6 80.6

Flash的Max模式表现惊人:在GPQA Diamond上从71.2跃升至88.1,LiveCodeBench从55.2飙升至91.6,长上下文能力翻倍。这说明通过增加推理预算,Flash可以接近甚至在某些任务上比肩Pro版本

💻 如何使用DeepSeek-V4?

1. 网页端/App端

即日起,登录 chat.deepseek.com 或官方App,即可直接与DeepSeek-V4对话,免费体验1M超长上下文记忆。

2. API调用

API已同步更新,通过修改 model 参数调用:

  • deepseek-v4-pro
  • deepseek-v4-flash

重要提醒:旧的 deepseek-chatdeepseek-reasoner 模型名将于 2026-07-24 停止使用。过渡期内,它们会分别指向v4-flash的非思考模式与思考模式。

V4支持三种推理强度模式:

推理模式 特点 典型应用场景
Non-think 快速、直观的响应 日常例行任务、低风险决策
Think High 有意识的逻辑分析,速度较慢但更准确 复杂问题求解、规划
Think Max 将推理能力发挥到极致 探索模型推理能力的边界

复杂Agent场景建议使用思考模式并设置强度为max。

3. 开源与本地部署

本地部署建议:
  • 采样参数设置:temperature = 1.0, top_p = 1.0
  • 对于 Think Max 推理模式,建议将上下文窗口至少设置为 384K tokens

💎 我的个人评测与展望

简单测试了几个长文档理解和复杂代码生成任务,V4-Pro的表现确实惊艳。百万上下文意味着你可以一次性丢入整个项目代码库、整套技术文档或一整本专业书籍,模型依然能准确捕捉细节并进行深度推理。

Flash版本在快速响应和成本上的优势也很明显。对于日常辅助编程、信息检索等任务,Flash完全够用,且经济性更好。

最让我惊喜的是Flash的Max模式——通过增加推理预算,它能在很多复杂任务上缩小与Pro版本的差距。这种灵活性让开发者可以在成本和质量之间做出更精细的权衡。

🔮 写在最后

DeepSeek在官方公告结尾引用了荀子的话:「不诱于誉,不恐于诽,率道而行,端然正己。」 这体现了团队坚持长期主义、踏实创新的决心。

从开源到免费百万上下文,再到性能比肩顶级闭源模型,DeepSeek正在重新定义AI服务的性价比门槛。作为开发者,我们乐见这样的技术进步与开放生态。


大家赶快去试试吧!体验后欢迎在评论区分享你的感受。如果这篇介绍对你有帮助,别忘了点赞、收藏、关注三连~

标签#DeepSeek-V4 #百万上下文 #开源LLM

本文为原创内容,版权归作者所有,转载需注明出处。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐