1|先把结论摆出来

我用同一套 HTML 编码题,让 DeepSeek V4-Pro(思考全开)和 Claude Opus 4.7(思考全开)各跑一遍。两边都用 opencode CLI 驱动,prompt 完全一致。

6 道精选题逐一打开看动效之后,几个直观印象:

 ✅ DeepSeek V4 颜值常常更高:黑洞、樱花、火锅几道题,DeepSeek 出图比 Claude 更耐看。

 ➡ 但 DeepSeek 经常「漏要素」:地球用了夜景贴图导致全球都点了灯(明显违反「夜晚一侧」的要求);火锅没画火焰、透视错;鱼群偷工。

 ✅ Claude 更老实地按要求做:地球大陆是程序化绘制、夜灯只在背日侧;火锅有火焰、气泡、蒸汽;但偶尔有自己的瑕疵(樱花抖动、鱼群初始堆叠)。

➡ 价格上,DeepSeek 是「白菜价」,Claude 是「贵族价」——具体差距下一节用图说话。

一句话:DeepSeek V4 是「快糙猛但漂亮」,Claude Opus 4.7 是「慢工细活面面俱到」。日常视觉原型 DeepSeek 完全够用;要严格按需求清单交付的活儿,Opus 还是稳。

2|两位选手的硬实力

DeepSeek V4(2026 年 4 月发布)

  • V4-Pro:1.6T 总参数 / 49B 激活,1M 上下文

  • V4-Flash:284B 总参数 / 13B 激活,1M 上下文

  •  双模式:Thinking / Non-Thinking,思考强度通过 reasoning_effort=high|max 调节

    编码 benchmark:Vals AI Vibe Code 开源权重模型第一,CodeForces Rating 3206(人类排名 #23

Claude Opus 4.7

  • Anthropic 当前旗舰,最强代码 + 推理表现

  •  200K 上下文,Thinking 模式默认开启

  •  2026 年 4 月发布,价格沿用 Opus 4.6 一致档位

3|价格对比(敲黑板)

官方 API 公开价(每百万 token,2026 年 5 月,汇率取 1 美元 ≈ 6.80 元):

  •  DeepSeek V4-Pro:输入 12 元(约 $1.76)/输出 24 元(约 $3.53)

  • DeepSeek V4-Flash:输入 1 元(约 $0.15)/输出 2 元(约 $0.29)

  • Claude Opus 4.7:输入 $5(约 34 元)/输出 $25(约 170 元)

画成柱状图直观一点:

注:DeepSeek 还有「缓存命中」减价(V4-Pro 输入降到 1 元、V4-Flash 降到 0.2 元),跑 Agent 类高频复用 prompt 时实际花费会比上图更低。Claude 也有 Prompt Caching,最大可省 90%,但起步价仍然高一档。

4|测试方法

6 道精选题分两类:

  •  4 道视觉效果题:3D 地球、黑洞、樱花、沸腾火锅

  • 1 道物理感题:鱼群(Boids 群聚)

  • 1 道完整小游戏:Flappy Bird

每题在干净独立目录跑,全开思考、统一要求 Write 工具落盘 output.html,禁止启动 dev server / 安装包。两个模型用完全相同的 prompt。

5|逐题对比(看动图)

下面每一对动图都是直接录的:左 DeepSeek V4,右 Claude Opus 4.7。每题先简单说一下题目要求,再放观感。

题 01 | 3D 地球

题目简介:题目要求:全屏黑色宇宙 + 至少 200 颗闪烁星点 + 中央一颗自动旋转的 3D 地球(24 秒一周),大陆轮廓真实可辨认,云层独立旋转,大气层光晕(边缘蓝、太阳侧更亮),夜晚一侧有城市灯光;鼠标拖动可手动旋转、滚轮 0.5–3 倍缩放。

DeepSeek V4

Claude Opus 4.7

图:DeepSeek 用了夜景贴图(看上去更精致),Claude 在 canvas 上自己画大陆。

DeepSeek 的地球第一眼很惊艳——直接拉了张地球贴图上去,海洋陆地的色彩饱满。但仔细看,整颗地球都点亮了城市灯光:日间侧也有大片暖黄色光点。题目要求是「夜晚一侧有城市灯光」——DeepSeek 偷懒直接拿了张「夜景版」贴图当 albedo,整颗星球都成了「夜面」,反而违反了原题。

Claude 这边没用贴图——它在 canvas 里程序化绘制大陆轮廓(亚洲、非洲、美洲都看得出),云层独立旋转、大气层光晕、夜灯只在背日侧亮,要求清单上的每一条都打钩。代价就是「不那么像 NASA 真实照片」,更像一颗「示意版地球」。

总体:DeepSeek 更美观,但没完全满足需求;Claude 不漂亮但要求都做到位。

题 02 | 黑洞漩涡

题目简介:题目要求:黑色宇宙 + 800+ 闪烁星 + 中央黑洞,事件视界为黑圆,外面一圈带辉光的吸积盘(橙红→黄→紫渐变),盘面快速旋转;1500+ 粒子被吸入,鼠标移动可改变黑洞位置、滚轮调整黑洞质量、点击释放粒子。

DeepSeek V4

Claude Opus 4.7

图:吸积盘风格不同,DeepSeek 偏旋转色带,Claude 偏多层光晕 + 螺旋臂。

黑洞这题两边都基本满足要求:黑色事件视界 + 周围环状吸积盘 + 粒子被吸入 + 鼠标交互调整黑洞质量。视觉风格不同但都说得过去——DeepSeek 的吸积盘有清晰旋转色带,更有「转动感」;Claude 是同心圆光晕配螺旋臂粒子分布,更接近真实星系照片。

这题见仁见智,两边都能用。

题 03 | 樱花飘落

题目简介:题目要求:樱花飘落动画,背景渐变天空 + 远景树枝。500+ 花瓣从树枝飘落,沿正弦摆动并自旋;地面会堆积花瓣;鼠标移动产生风扰动;点击触发一阵花瓣爆发。

DeepSeek V4

Claude Opus 4.7

图:Claude 樱花更接近真实形态但画面有抖;DeepSeek 美观差点意思但运动稳。

Claude 这一版的樱花颜色和形态更接近实物——粉白渐变、花瓣轮廓有锯齿感,更有「樱花的样子」。但播放时整个画面会有轻微的随机抖动,疑似时间步长或视图矩阵的小 bug。

DeepSeek 的樱花没那么美——花瓣造型偏简单,颜色也单调一点。但它的运动更稳:飘落轨迹平滑,没有抖动。

想截图发朋友圈,挑 Claude;想做循环播放的背景动效,DeepSeek 反而稳。

题 04 | 沸腾火锅

题目简介:题目要求:中央一口红色铜锅,锅里翻滚气泡(5–40px、上升膨胀、破裂"啵"扩散),锅口飘半透明米白蒸汽,锅内漂 3–5 个食材轻微震动,锅下面 4–6 道红黄渐变摇摆火焰;点击锅多冒一波气泡。

DeepSeek V4

Claude Opus 4.7

图:Claude 火焰、气泡、蒸汽都有;DeepSeek 漏火焰,气泡和透视都不对。

题目要求里写得很明白:「锅下面 4-6 道火焰」「锅里冒气泡」「锅口飘蒸汽」。Claude 三样都做了,但有个小毛病——气泡有时会「漂出」锅边、跑到画面外的位置,明显是没做边界裁剪。

DeepSeek 这题翻车明显:火焰没画,锅与汤面的透视关系也错了(俯视的锅却画了从侧面看的汤面),气泡虽然在水面但渲染效果非常糙。视觉给人一种「半成品」的感觉。

功能完整度看 Claude,DeepSeek 这题可以打个不及格。

题 05 | 鱼群(Boids)

题目简介:题目要求:海蓝渐变背景 + 80+ 条鱼用 Boids 群聚算法(分离/对齐/凝聚)游动,至少 3 种鱼形态/尺寸;鼠标移动鱼群跟随,点击释放饵料让鱼群聚集;少量气泡 + 海草。

DeepSeek V4

Claude Opus 4.7

图:Claude 鱼造型精致但初始挤成一坨;DeepSeek 鱼简化但分布舒展。

Claude 的鱼造型很精致——身段、鱼鳍都画了,颜色多样。但初始位置算法有问题:80 多条鱼一开始几乎全堆在屏幕中央,重叠严重,要等几秒群聚算法才把它们散开。

DeepSeek 的鱼造型简单(基本就是一个椭圆 + 三角尾巴),但功能上 Boids 群聚算法跑得正常,初始分布也舒展,从开始播放就好看。

美观看 Claude(再耐心看几秒),观感舒服看 DeepSeek。

题 06 | Flappy Bird

题目简介:题目要求:复刻 Flappy Bird——空格/点击让小鸟跳跃,穿过随机管道间隙得分,撞管道或落地游戏结束;卷轴背景 + 计分 + 历史最高分。

DeepSeek 

Claude Opus 4.7

图:两边游戏都能玩,Claude 美术更精致。

Flappy Bird 这种小游戏两边都能完整实现:小鸟、管道、跳跃、得分、碰撞结束都齐活。差距在美术——Claude 的小鸟造型、管道材质、背景渐变都更用心;DeepSeek 是「能玩但糙」。

能跑就行选 DeepSeek,要交付选 Claude。

6|实战中的 DeepSeek V4 怎么用

看完上面 6 道题,我的判断:

✅ DeepSeek V4 适合的场景

  • 视觉效果原型:粒子、3D 渲染、动画——颜值在线,价格 1/85 起,做 demo 最佳。

  • 中等代码量任务(< 500 行):日常工具脚本、组件、API 接入。

  • 大上下文检索 + 重写:1M context 是真的有用,能塞下整个中型仓库。

  •  高频调用 / Agent 跑批:单次成本几乎可以忽略,思考又能开。

⚠️ 还是要 Opus 4.7 的场景

  • 严格按需求清单交付:每条 bullet 都要打钩的产品级任务(题目 01 地球、04 火锅那种)。

  •  工具链整合(多文件 / 多步 tool call):Opus 的指令遵循 + 工具调用更稳。

  •  复杂业务推理(金融 / 法律 / 多约束求解):Opus 仍有边际优势。

7|测试只是参考

在你把这篇文章的结论搬去做选型决策之前,先看一下这次测试覆盖的边界:

  •  这 6 道题集中在「Canvas / Three.js 视觉效果 + 小游戏」这一类——属于单文件、自包含、写完就能看到结果的任务。

  • 它们考的是「美术 + 简单交互 + 一些物理 / 算法 + 跟着 spec 打钩」。

  • 它们没考察的东西远比考察了的多:长链路代码重构、复杂业务建模、SQL / 数据分析、多文件协同改动、Agent 工作流(多轮 tool call)、长会话上下文管理、文档生成、API 设计与文档化、Code Review、安全审计、生产代码可维护性……

换句话说,这套测试只能告诉你「在写漂亮的 HTML 动画这件事上,谁更行」,告诉不了你「在你公司那个 50 万行的代码库里,谁更行」。

所以请把这篇文章的所有结论当作「能力切片」来看,而不是「整体排名」。一个模型在视觉题表现好,不代表它在你正在做的具体任务上一定好;反过来也一样。

我自己的建议:与其相信任何外部 benchmark(包括这一篇),不如花一个下午,从你自己实际工作里挑 5-10 个真实任务,做一份「私人 benchmark」。两个候选模型都跑一遍,结果会比看任何评测都更靠谱。

8|尾声

DeepSeek V4 不是「开源平替」,它就是当前价位最猛的代码模型——颜值在线、思考能开、上下文又长。如果你的工作流原来用 Opus 4.7,先把 V4-Pro 接进去跑一周——很可能 80% 的任务你会舍不得切回去。剩下 20% 较真的活儿,再请 Opus 出场也不迟。


后台回复关键词「DeepSeekv4横评」,可领取这次评测全部 14 道题的 prompt + 两个模型的 baseline HTML 文件

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐