GPT 5.4发布，我测了一整天，发现它真是个怪物

ju7ran

365人浏览 · 2026-03-14 15:32:46

ju7ran · 2026-03-14 15:32:46 发布

GPT 5.4发布，我测了一整天，发现它真是个怪物

OpenAI 刚发布了 GPT 5.4，我花了整整一天时间测试，结果让我有点慌。

这不是普通的版本升级，而是一次真正意义上的智能跃迁。它能做的事情，已经开始让人感到不安了。

只用三句话，就能造出一个 3D 地球

我先给它出了个难题，让它做一个可以从太空无缝缩放到街道的 3D 地球模型。

结果只用了三四句对话，它就给我搭出来了。你可以从轨道视角看到整个地球，云层、大气层、昼夜模式全都有。点击纽约，镜头直接拉到曼哈顿上空，还是 3D 建筑模型。切换到东京，同样的效果。

这不是什么现成的地图 API 调用，而是它自己写代码实现的完整交互系统。以前这种项目，至少得一个小团队干几周。

更夸张的是音乐创作。我让它写一段 32 小节的钢琴曲，要求有大师级的表现力和复杂度。它直接给我生成了一首完整的作品，和声进行、情绪起伏、技巧运用全都到位。我对比测试了 Gemini 3.1 和 GLM5，GPT 5.4 的作品明显更有深度，不是那种简单重复的和弦堆砌。

它能看懂 CT 片里的肿瘤

我上传了一组胸部 CT 扫描图像，没告诉它这是什么，只问这是什么照片，如果有病灶请圈出来。

它思考了两分钟，准确识别出这是胸部 CT 的轴位切片，然后用 Python 工具把可疑的结节都标注出来了。虽然没有全部找到，但考虑到这是个通用 AI 模型而不是专门的医疗影像系统，这个表现已经相当惊人。

它还能处理复杂的财务文档。我扔给它谷歌、英伟达、亚马逊的三份财报，让它做一份华尔街分析师级别的综合报告。它思考了 17 分钟，输出了一份包含财务指标、增长预测、投资建议的完整 PDF，甚至还能转成交互式演示文稿。

光线追踪渲染，两句话搞定

我测试了一个超级复杂的物理渲染场景，一个球体、一个立方体、一个金字塔，全是金属反光材质，放在镜面地板的房间里。

这种场景的难点在于无限递归反射，球体反射在立方体上，立方体又反射回球体，还要考虑彩色墙壁的光线影响。

GPT 5.4 只用了两个提示就完成了。它不仅渲染正确，还给我做了完整的参数调节面板，可以实时调整每个物体的位置、大小、反射率、粗糙度、金属度。我拖动滑块改变球体位置，其他物体上的反射也会同步更新。

这种物理精确度，以前需要专业的 3D 渲染软件才能做到。

它在 70% 的任务上打败了人类专家

OpenAI 公布了一个叫 GDP-val 的基准测试，涵盖美国 GDP 贡献最大的九个行业、44 种职业的知识工作任务。包括制作销售演示、会计表格、紧急护理排班、制造业图表、短视频制作等等。

结果显示，GPT 5.4 在 70% 的任务上胜过行业专家。这不是跟其他 AI 比，而是跟真人比。

如果你的工作主要是处理文档、表格、演示文稿这类知识工作，这个数据确实应该让你警觉了。

它还能自主操作电脑。在 OSWorld 基准测试中，它可以通过屏幕截图和键鼠操作来完成桌面任务。你给它看一个直播画面，它能分析内容并帮你写邮件，知道在哪里输入收件人和主题。你给它一个包含大量发票的 JSON 文件，它能自动填写表单。

数学物理双料冠军，但有个致命缺陷

在独立评测机构 Artificial Analysis 的排行榜上，GPT 5.4 和 Gemini 3.1 Pro 并列第一。但在解决复杂物理和数学问题方面，它是绝对的王者。

在 Crit PT 物理基准测试和 Frontier Math 数学基准测试中，GPT 5.4 都排名第一，远超 Claude Opus 和 Gemini。如果你需要解决研究级别的科学计算问题，它是目前最好的选择。

但这里有个大问题，GPT 5.4 extra high 模式的幻觉率极高，在某个基准测试中错误率达到 89%，远高于之前的版本和其他竞品。

这意味着什么？它在处理需要绝对准确的事实性任务时，可能会编造信息。如果你需要确保答案完全正确，GLM5 会是更安全的选择。

它支持 100 万 token 上下文

GPT 5.4 在 Codex 环境下支持 100 万 token 的上下文窗口，相当于 70 万个单词或 30 万行代码。这是业内最大的上下文容量之一，Claude 和 GLM 都没有这么高。

不过要注意，这个 100 万 token 只在 Codex 里有效，在 ChatGPT 里只有 40 万 token。

它的编程能力也很强悍。在 SWEBench Pro 基准测试中表现优异，在 Vibe Code Bench 排名第一，超过了 Opus 4.6 和 Gemini 3.1 Pro。我的实际测试也证实了这一点，它确实很擅长快速写代码。

你现在就能用上

GPT 5.4 已经对 Plus、Team 和 Pro 付费用户开放，免费用户暂时还用不了。开发者也可以通过 API 调用，Codex 里也已经集成。

价格方面，它比 Gemini 3.1 Pro 贵一些，但比 Claude Opus 4.6 便宜不少，后者几乎是它的两倍价格。速度上，它比 Gemini 3.1 稍慢，有时候会过度思考，明明不是很复杂的问题也要想很久。

每个顶级模型都有自己的特点和适用场景。GPT 5.4、Gemini 3.1 Pro、Claude Opus 4.6 各有千秋，关键看你的具体需求。

但有一点是确定的，AI 的能力边界正在以超出想象的速度扩张。那些曾经需要专业团队、专业软件、专业知识才能完成的工作，现在一个人对着屏幕说几句话就能搞定。

这到底是好事还是坏事，我也说不清楚。但变化已经来了，而且速度比我们预想的要快得多。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【2025最新】基于SpringBoot+Vue的新冠物资管理系统管理系统源码+MyBatis+MySQL

AtomGit开源社区

【2025最新】基于SpringBoot+Vue的兴顺物流管理系统管理系统源码+MyBatis+MySQL

AtomGit开源社区

SpringBoot+Vue 新冠物资管理pf管理平台源码【适合毕设/课设/学习】Java+MySQL

AtomGit开源社区

所有评论(0)

查看更多评论

ju7ran

@ju7ran

已为社区贡献4条内容