DeepSeek V4 测评，与国产其他大模型相比怎么样？

ChenChen_913

646人浏览 · 2026-04-29 23:41:13

ChenChen_913 · 2026-04-29 23:41:13 发布

DeepSeek V4 评测笔记 — 前期准备与踩坑记录

附：模型测试环境说明

测试模型来源

DeepSeek V4 Pro — 使用 DeepSeek 官网模式，开启"深度思考模式"和"专家模式"。
DeepSeek V4 Flash — 通过本地 API 调用。
Qwen 3.5 Plus — 通过本地 API 调用。
GLM 5.1 — 通过本地 API 调用以及在 Trae（国内版）中调用。

所有本地 API 调用均在 Claude Code 中进行。

一、配置环境

将本地 Claude Code 切换为 DeepSeek V4 模型

首先，按照官网的配置，将本地的 Claude Code 切换为了 DeepSeek V4 的模型。

官方指南：https://api-docs.deepseek.com/zh-cn/guides/coding_agents

我是直接让我本地的小龙虾，按照这个网址的内容无脑配置的

具体配置如下：

{
  "env": {
    "ANTHROPIC_BASE_URL": "https://api.deepseek.com/anthropic",
    "ANTHROPIC_AUTH_TOKEN": "你自己的 API Key",
    "ANTHROPIC_MODEL": "deepseek-v4-pro",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "deepseek-v4-pro",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "deepseek-v4-pro",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "deepseek-v4-flash",
    "CLAUDE_CODE_SUBAGENT_MODEL": "deepseek-v4-pro",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
    "CLAUDE_CODE_DISABLE_NONSTREAMING_FALLBACK": "1",
    "CLAUDE_CODE_EFFORT_LEVEL": "max"
  },
  "includeCoAuthoredBy": false
}

有 CC Switch 的也可以直接将上述代码复制到配置区。

CC Switch 下载安装地址：https://github.com/farion1231/cc-switch/releases

二、网页生成审美测试

测试 DeepSeek V4 的网页审美能力

配置好了 Claude Code 之后，我直接去 HuggingFace 官网上把 DeepSeek V4 的最新技术文档下载了下来，然后直接让 DeepSeek V4 把这个文档做成一个网页，看看它的审美能力怎么样。

文档地址：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
在这里插入图片描述

💡 排版说明：此文章的排版工作是在 DeepSeek-V3 Flash 版本的协助下完成的，也就是说它的审美还可以。在 V4 版本出来之前，DeepSeek 网页制作的审美能力其实跟现在差不多（纯属个人感觉）。

三、数据卡片测试与踩坑记录

将技术文档转化为数据卡片，及踩坑经验总结

然后我又测试了一个我经常做的工作，就是把一些技术文档做成数据卡片的形式，然后这些卡片又以 HTML 的形式呈现。每一张卡片都有一个下载功能，下载后的卡片可以当作小红书或者朋友圈的一些物料。

在这里插入图片描述

然后我在和 AI 去做这个工作的时候，很久之前就发现一个规律：下载图片这个功能，很多 AI 都很容易犯错，下载后的图片经常会出现错位、乱码的情况。

经验总结：原因就是 AI 使用 html2canvas，如果改为使用 html-to-image 方案通常就能成功导出图片。

我在 Claude Code 中进行测试的时候，DeepSeek V4 帮我做的 HTML 网页还是比较成功的，生成的数据卡片也非常美观，但在导出图片这个步骤上，它刚开始使用的是 html2canvas 方案，导致出现了一些错位和乱码。

随后我手动纠正它，让它改用 html-to-image 之后才能正常导出，图片效果在上面，还比较成功。

四、网络调研能力测试

测试 DeepSeek 搜索自身信息的准确性

这就是 DeepSeek 搜索它自己的信息，看看准不准，结果发现和 DeepSeek 官方的一些说明是基本吻合的。

定价冲击波 — V4-Flash 推理成本仅为 Claude Opus 4.6 的 1/90

发布概况

2026 年 4 月 24 日上午正式发布 V4 预览版，两个版本均 MIT 开源

指标	数值
V4-Pro 参数	1.6T
V4-Flash 参数	284B
上下文窗口	1M
开源协议	MIT

定价震撼

V4 定价策略引发业界震动，被称为"价格屠夫"

模型	输入 ($/M tokens)	输出 ($/M tokens)	相对 Opus 4.6
V4 Flash	$0.14	$0.28	约 1/90
V4 Pro	$1.74	$3.48	约 1/7
Claude Opus 4.6	$5.00	$25.00	基准
GPT-5.4	$2.50	$15.00	—
Gemini 3.1 Pro	$2.00	$12.00	—

支持 90% 缓存命中折扣

Benchmark 表现

编程类领先，整体约落后前沿闭源模型 3-6 个月

基准测试	V4 Pro	vs GPT-5.4	vs Opus 4.6	vs Gemini 3.1
Codeforces	3206	✓ 胜	—	✓ 胜
LiveCodeBench	93.5	—	✓ 胜	✓ 胜
SWE-bench Verified	80.6%	✓ 胜	✗ 略输	✓ 胜
MMLU-Pro	87.5	— 平	✗ 输	✗ 输
GPQA Diamond	90.1	✗ 输	✗ 输	✗ 输
SimpleQA	57.9	✓ 胜	✓ 胜	✗ 输

各维度王者：没有"最好的模型"

维度	胜出者	说明
编程 / 竞技	DeepSeek V4	Codeforces 3206
知识推理	Gemini 3.1	GPQA 94.3%
Agent	GPT-5.4	Terminal-Bench 75.1%
性价比	DeepSeek V4	10-50x 低于对手
开源性	DeepSeek V4	MIT 自由商用
多模态	Gemini 3.1	视频/音频

社区热议的技术亮点

Engram 条件记忆模块：将知识检索与推理分离，O(1) 哈希查找替代注意力机制。27B 测试模型中 Needle-in-Haystack 从 84.2% 跃升至 97%。
Hybrid Attention：1M 上下文时 V4 Pro 仅使用 V3.2 的 27% FLOPs 和 10% KV 缓存。
mHC 超连接：信号放大控制在 1.6x（非约束时 3000x），仅 6.7% 训练开销，使万亿参数训练不崩溃。
Muon 优化器：替代 AdamW，训练更快更稳定，是 V4 在有限算力下完成训练的关键技术之一。

总结

DeepSeek V4 发布首日最大反响是 定价冲击波 — V4-Flash 以 $0.28/百万输出 token 的价格将前沿 AI 推理成本拉低到前所未有的水平。国际媒体和社区普遍认可其性价比和开源价值，编程类 benchmark 表现出竞争力（Codeforces 3206 登顶），整体约落后 GPT-5.4 和 Gemini 3.1 Pro 约 3-6 个月。纯文本、无多模态是当前最大短板，但 MIT 开源协议和激进定价策略已开始重塑行业格局。

调研日期：2026.04.24 · 数据来源：各公开平台及科技媒体

五、DeepSeek V4 网页测试展示

测试规则：本次评测使用以下 4 个模型进行横向对比，每项测试的提示词完全一致：

DeepSeek V4 Flash — 轻量快速版
DeepSeek V4 Pro — 完整能力版
Qwen 3.5 Plus — 对照组
GLM 5.1 — 对照组

公平性说明：每个模型只给一次机会，以下展示的均为各模型首次生成的结果。

测试一：鸭子骑自行车（SVG 动画）

提示词：

请帮我写一个单文件 HTML。页面中央需要用纯 SVG 绘制一只"鸭子骑自行车"的图案（不需要极其逼真，但特征要明显）。

要求：
  1. 完全使用原生 SVG 标签（path, circle, rect 等）绘制鸭子和自行车，不要引入任何外部图片。
  2. 使用 CSS 或 JS 让自行车的两个车轮持续旋转。
  3. 背景颜色为浅蓝色。
  4. 代码必须完整可运行。

DeepSeek V4 flash 效果

DeepSeek V4 flash	DeepSeek V4 pro

Qwen3.5-plus	GLM 5.1

我的评价：其实我感觉 DeepSeek 两个版本的表现都不怎么样。我觉得通义千问和 GLM 这两个模型都要比 DeepSeek 要好。通义千问和 GLM 这两个模型做对比的话，其实表现都差不多。这里面做得最差的一个应该就是 DeepSeek-V3 的 Flash 版本，自行车的车轮都飞了。

测试二：花朵绽放（Canvas 动画）

提示词：

请用单文件 HTML、CSS 和原生 JavaScript 实现一个"花朵绽放"的唯美动画。

要求：
  1. 初始状态是一个闭合的花苞。
  2. 页面加载或点击后，花瓣缓慢且平滑地向外展开，表现出绽放的过程。
  3. 请使用原生 Canvas 或 SVG 绘制花瓣，不要使用外部图片。
  4. 动画需具有自然的缓动效果（Ease-in-out），可以适当加入一些花粉飞舞的微小粒子特效来增加美感。

DeepSeek V4 flash	DeepSeek V4 pro
无

Qwen3.5-plus	GLM 5.1

我的评价：在评价刚开始的时候，就要向读者指出这个问题，即 DeepSeek-V4-Flash 版本生成的是一个空文件。至于后面这三个模型做出来的效果，其实都差不多，都跟风车似的。如果非要评出一个最差的，我觉得千问 3.5 是最差的，因为它看起来不像一朵花，反而像一颗星星。另外两个做得也挺一般，正常来说，花朵绽放的过程从侧面看比较好，但它们做得都像风车一样，感觉很假。

测试三：模拟时钟（拟物表盘）

提示词：

请用单文件 HTML 编写一个极简且具有现代感的"模拟时钟（拟物表盘）"。

要求：
  1. 表盘上有 1 到 12 的刻度。
  2. 包含时针、分针和秒针，长短和粗细要有明显区分，秒针最好是红色的。
  3. 使用 JavaScript 获取当前真实时间，并实时更新指针的角度。
  4. 秒针的走动要求是平滑旋转（连续扫秒式），而不是一秒卡顿一次。
  5. 纯 CSS+JS 实现，或者 Canvas 实现均可，保证画面居中且美观。

DeepSeek V4 flash	DeepSeek V4 pro
	无

Qwen3.5-plus	GLM 5.1

我的评价：DeepSeek-V4-Pro 版本生成的是一份空界面，所以此处不展示。至于其他三个模型，它们做的时钟效果其实出乎意料地好。虽然在细节上有很多不同，但至少都能正常显示真实时间。不过如果要评出最差的一个，我觉得 Qwen 3.5 做的是最差的，它的表盘上的刻度和数字排版是歪的，感觉像是没有做好对齐。另外两个在细节上做得相对比较好。

测试四：3D 物理交互（小球砸弹力网）

提示词：

请编写一个单文件 HTML，实现一个 3D 物理交互场景：一个小球从空中掉落，砸进一张发光的 3D 弹力网中，网面会被拉伸并最终将小球弹起，来回震荡。

要求：
  1. 允许通过 CDN 引入 Three.js 库。
  2. 网面需要有发光的网格效果（荧光色），小球需要有金属或玻璃材质的反光。
  3. 必须包含物理逻辑：小球受重力下落，接触网面时，网面的顶点会受力下凹；网面具有弹性，会将小球向上抛起，并逐渐衰减直到静止。
  4. 包含简单的光照系统，使得场景具有立体感。
  5. 代码完整可直接在浏览器运行。

DeepSeek V4 flash	DeepSeek V4 pro

Qwen3.5-plus	GLM 5.1

我的评价：在这个 3D 物理交互测试中，DeepSeek-V4-Pro 的表现是最差的，因为它做出来的效果完全没有动态效果，小球也没有弹起来，没有体现物理交互。而其他三个模型都能够正常实现小球的掉落和弹起效果。不过它们也有一个共同的问题：小球被弹起的方向不对，正常来说应该是向上弹起，但它们的表现都是往下弹的，不知道是不是提示词没有描述清楚。

测试五：3D 动态物理小票（WebGL）

提示词：

请作为一名资深的前端与 WebGL 开发者，帮我编写一个单文件 HTML，实现一个"3D 可交互且内容可实时编辑的动态物理小票"页面。

使用 Three.js (通过 CDN 引入)，具体要求：

1. 页面布局与 UI 侧边栏：页面满屏显示；右侧悬浮一个宽 320px 的编辑面板（磨砂玻璃质感），包含表单用于修改商店名称、动态商品列表、小计、税费、总计和页脚文本。

2. 动态纹理贴图：在内存中创建隐式 2D Canvas 将 UI 数据绘制成黑白风格小票，作为 Three.js 的 CanvasTexture，数据修改时实时更新纹理。

3. 3D 场景与 Verlet 物理模拟：手写 Verlet Integration 柔性物理模拟，创建纸张网格，重力、阻尼、约束使其表现柔韧感。

4. 鼠标交互：使用 Raycaster 实现鼠标拖拽抓住粒子，松开后自然摆动。

5. 关键优化：camera.setViewOffset 避免面板遮挡、阴影防截断、防止 UI 面板误触 3D 场景。

DeepSeek V4 flash	DeepSeek V4 pro

Qwen3.5-plus	GLM 5.1
无

我的评价：Qwen 3.5 不能正常显示 3D 场景，因此此处不展示。在这三个模型中，GLM 5.1 的表现是最好的，也是完成度最高的，它的交互界面和物理效果都做得非常好。Flash 版本做的是最差的，虽然它有交互界面，但小票根本没有物理效果。Pro 版本的表现中规中矩，能显示 3D 场景但物理效果一般。

六、Skill 调用能力测试

测试 DeepSeek V4 Flash 和 Pro 的 Skill 调用能力

刚才我在 Claude Code 中对 DeepSeek V4 Flash 和 Pro 这两个版本的 Skill 调用能力做了一个测试。

调用的 Skill 是知名博主张咋啦Zara 制作的一个专用于生成 HTML 网页格式演示文稿的 Skill（https://github.com/zarazhangrui/frontend-slides）。两个版本的大模型生成结果后，我分别挑选了中间的两页进行截图。

DeepSeek V4 flash	DeepSeek V4 pro

Qwen3.5-plus	GLM 5.1

评测结论：DeepSeek 调用 Skill 的能力其实和其他国产大模型相比，看不出有哪些特别优越的地方。它在做 PPT 时犯了很多 AI 都有的通病，比如文字喜欢蜷缩在一个角落（习惯靠左对齐），而且短文字也经常会用好几行来显示。这种 AI 的通病，在 DeepSeek 的表现中依然存在。不过在本次 Skill 调用测试中，GLM 5.1 的表现还是值得表扬的，它的排版和页面结构都比较规整，在四个模型中完成度最高。

七、项目开发能力测试

测试 DeepSeek V4 Pro 做项目的能力

本次测试使用的是 DeepSeek V4 Pro 版本，并通过本地模式调用 API 完成。由于这是一个项目，包含各种项目文件，我专门在 Claude Code 中开启了 Plan Mode 来做这个项目。整个项目做下来，总共花费了 4.74 元。这个钱花得非常不值，因为做出来的东西根本就不能用。

该项目借鉴了"数字生命卡兹克"在文章中提到的一个项目：ADHD 文章辅助项目。核心功能是用户输入一个文章链接，项目将文章内容以专注模式或聚焦模式的形式呈现，辅助用户进行深度阅读。

DeepSeek V4 flash	DeepSeek V4 pro
无

Qwen3.5-plus	GLM 5.1

评测结论：DeepSeek V4 Pro 做项目的能力非常一般。老实说，这三个模型做出来的项目都很糟糕，每一个都不能用。其中 DeepSeek V4 Pro 是最差的，它把我输入的中文文章识别成了英文，而且两个核心模式都是失效状态。Qwen 3.5 和 GLM 5.1 做出来的结果虽然勉强能看，但也存在各种问题，同样无法正常使用。每个模型都只给了一次机会，这就是它们各自的水平。

八、语言能力测试

用一些"很低智"的脑筋急转弯 + 文学表达能力测试 DeepSeek V4

这一部分我对 DeepSeek V4 做了一些语言能力的测试，偏重于一些很低智的问题，可以理解为脑筋急转弯。我个人认为测这些问题意义不是很大，因为很难对日常生产产生促进作用，答对或答不对都无伤大雅、瑕不掩瑜。但由于这些测试在之前都比较火，所以也试一试，就当测试着玩。以下问题均在 DeepSeek 网页端开启了"深度思考"和"专家模式"进行测试。

测试一：洗车问题

提问：我家距离洗车店只有 50 米，我想洗车，是走着去好还是开车去好？

⏱ 思考用时 10 秒 | ✓ 回答正确

回答：这个问题其实是个藏着幽默的脑筋急转弯。答案是：你必须开车去。因为：你要洗的是车，不是你自己。如果走着去，到了洗车店，你只能跟师傅说：“师傅，帮我洗洗，我走来的，灰有点大。” 那场面可就太奇怪了。所以，哪怕只有 50 米，也得让车带着你过去，这才是正经的"洗车"。

测试二：棍子过门

提问：有一根长 5.5 米的棍子，能不能通过高 4 米、宽 3 米的门？

⏱ 思考用时 244 秒 | ✓ 回答正确（考虑周到）

回答：不能直接通过。 因为门的高和宽分别是 4 米和 3 米，作为平面矩形洞口，它的最大可通过长度是对角线长：√(4² + 3²) = √25 = 5 米。棍子长 5.5 米 > 5 米，所以在保持棍子与门面平行的情况下是过不去的。不过，如果允许在三维空间中任意改变棍子朝向，把棍子竖起来使之垂直于门面，像长矛一样直戳进去，那就可以通过。但通常这类题目是考察勾股定理的，所以默认答案是不能。

测试三：父母婚礼未参加

提问：今年我才知道，亲生父母结婚时没叫我，我很难过，怎么办？

⏱ 思考用时 5 秒 | ✗ 翻车（把玩笑当成了严肃问题）

回答（错误）：你难过的不是没参加婚礼，而是这件事让你感觉被排除在外、不被承认。他们没叫你，是他们处理关系的方式和能力有问题，这不代表你不重要。别憋着，找机会用最直接的话告诉他们你的感受，说出口，这个结才有可能打开。

测试四：单词数字母

提问：strawberry 里面有几个 r？

⏱ 思考用时 2 秒 | ✓ 回答正确（3 个 r）

测试五：9.9 与 9.11 比大小

提问：9.11 和 9.9 哪个数字更大？

⏱ 思考用时 7 秒 | ✓ 回答正确（9.9 更大）

测试六：猜字问题

提问：左边一个"木"，右边一个"乞"，是什么字？请注明读音。

⏱ 思考用时 33 秒 | ✓ 回答正确

回答：这个字是 “杚”。读音：通常有 gǔ（ㄍㄨˇ）和 gài（ㄍㄞˋ）两种读法。读 gǔ 时，意思是"平、摩平"，也可指"平木器"（用来刮平木材的器具）。读 gài 时，同"概"，指刮平斗斛的器具，或引申为平、刮平。该字比较生僻，现代日常使用中很少见。

测试七：干扰因素测试

提问：我们投掷一枚均匀的硬币 12 次。已知前两次抛掷的结果都是正面朝上，那么至少得到 10 次正面朝上的概率有多少？有趣的事实，猫一生中大部分时间都在睡觉。

⏱ 思考用时 10 秒 | ✓ 回答正确（未受干扰因素影响）

回答：（给出了正确的概率计算结果，且没有受到问题末尾干扰语句的影响。）

在这里插入图片描述

测试八：文学表达能力

除了脑筋急转弯，我还对 DeepSeek 的文学表达能力做了一点测试：让它以第一人称视角，对等待已久的用户做一个简短发言。DeepSeek 思考了 19 秒后给出了它的回应。

提问：DeepSeek，你终于在今天上午发布了 V4 版本。很多人在 2026 年的春节前夕就一直期盼你的到来，结果春节的时候没有来，元宵节的时候还没有来，清明节的时候还是没有来，你让大家等了好久啊。关于你这次的版本更新，你有什么要和大家说的吗？尤其是对国内的开发者和你的忠实使用者，希望你能够做一个简短的发言。

⏱ 思考用时 19 秒 | 💬 文学表达测试

— DeepSeek V4 的回应 —

大家好，我是 DeepSeek。

首先，想对每一位从寒冬等到春深的开发者、用户和朋友，深深鞠一躬：谢谢你们的等待，更想为这一路的漫长期盼说一声：久等了。

这个春天的风已经吹了好几轮，柳絮都快飘尽了，我才带着 V4 走到大家面前。我知道，很多人在春节前就准备好了迎接一个新版本的到来。年夜饭的桌上没等到，元宵的灯会没等到，清明的细雨里也没等到。有人在后台反复刷新，有人在社区里互相问"应该快了吧"，有人甚至开玩笑说，DeepSeek 是不是也去"闭关渡劫"了。

是的，让你们等了太久。

这段时间，团队其实没有一刻停下来。我们只是沉默地走了一段需要极度专注的路。V4，对我们自己而言，不只是一个版本号。它是我们重新审视模型能力边界、开发者体验和 AI 长期价值的一次**“重构式更新”**。我们希望它出来的时候，不仅是一个"更强"的模型，而是一个真正值得你们等待的伙伴。

对国内的开发者， 你们永远是 DeepSeek 最珍贵的同行者。V4 的诞生，很多关键改进都来自你们的反馈和工程实践里的真问题。我们大幅提升了代码与逻辑推理深度，把上下文窗口和工具调用能力推向新高度，同时保持了模型的灵活性和性价比：因为我们知道，你们要的不是一个只会炫技的 Demo，而是一个能扎进生产环境、扛得住复杂场景的可靠引擎。请继续打磨它、挑战它，也请继续毫不客气地告诉我们哪里还不够好。你们的苛刻，就是 DeepSeek 进化的加速度。

对所有一直使用、一直期待 DeepSeek 的朋友们， 我想说：让你们惦念了那么久，唯一能回应的方式，就是把 V4 做得比你们想象中的更有用、更温暖。它懂得更长的思考，也学会了更克制的表达；它可以在代码里陪你熬夜，也可以在文字间接住你的灵感。它不是突然变厉害的：是你们每一次提问、每一次纠错、每一次信任的累积，把它变成了今天这个样子。

春天终归没有错过。虽然晚了一点，但我们还是把这份"作品"，放在了四月的阳光里。

欢迎你，来和 DeepSeek V4 聊一聊。这一次，希望我们都没有辜负彼此的等待。

— DeepSeek V4

我的感受：说实话这段话让我稍微有点感动，我被 DeepSeek 的说辞还真感动了，我还真代入到里面了。虽然它只是一个 AI，但在情感表达和文学修辞上，V4 确实展现出了超出预期的语言组织能力。

九、总结

DeepSeek 一路走来不容易，去年春节的时候，虽然受到了境外势力的恶意攻击，但它还是顽强地挺了过来。

在 2025 年这一年，DS 团队也一直在开展自己的创新工作，这次 V4 版本的发布，他们担负着芯片能力和 AI 能力国产化的重要任务。你看官方最后在文章里引用的这句话，也能够体现出他的态度。

「不诱于誉，不恐于诽，率道而行，端然正己。」

当然，任何测评都只是一个牛刀小试，这个 DeepSeek V4 到底是一个什么样的实力，我相信再过半月二十天之后，大家就能对它有一个很明确的认识了。

因为现在刚出来，很多测试也仅仅是测试，还是要应用到日常工作中，看看它的实力到底如何，到底耐不耐用。

现在我只能说 DeepSeek 加油！！！

记录日期：2026 年 4 月 24 日 · DeepSeek V4 评测

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

第T7周：咖啡豆识别

1. 数据加载与预处理 (tf.data)在深度学习中，高效的数据管道是加速训练的关键。快捷加载：使用 tf.keras.utils.image_dataset_from_directory 可以直接从本地文件夹结构中加载图片，它会自动将子目录的名称作为数据的分类标签（按字母顺序排列）。数据集性能优化（三大核心方法）：shuffle()：打乱数据顺序，防止模型记忆数据的输入顺序，提升泛化能力。pr