GPT 5.4发布,我测了一整天,发现它真是个怪物
GPT 5.4发布,我测了一整天,发现它真是个怪物
OpenAI 刚发布了 GPT 5.4,我花了整整一天时间测试,结果让我有点慌。
这不是普通的版本升级,而是一次真正意义上的智能跃迁。它能做的事情,已经开始让人感到不安了。
只用三句话,就能造出一个 3D 地球
我先给它出了个难题,让它做一个可以从太空无缝缩放到街道的 3D 地球模型。
结果只用了三四句对话,它就给我搭出来了。你可以从轨道视角看到整个地球,云层、大气层、昼夜模式全都有。点击纽约,镜头直接拉到曼哈顿上空,还是 3D 建筑模型。切换到东京,同样的效果。
这不是什么现成的地图 API 调用,而是它自己写代码实现的完整交互系统。以前这种项目,至少得一个小团队干几周。
更夸张的是音乐创作。我让它写一段 32 小节的钢琴曲,要求有大师级的表现力和复杂度。它直接给我生成了一首完整的作品,和声进行、情绪起伏、技巧运用全都到位。我对比测试了 Gemini 3.1 和 GLM5,GPT 5.4 的作品明显更有深度,不是那种简单重复的和弦堆砌。
它能看懂 CT 片里的肿瘤
我上传了一组胸部 CT 扫描图像,没告诉它这是什么,只问这是什么照片,如果有病灶请圈出来。
它思考了两分钟,准确识别出这是胸部 CT 的轴位切片,然后用 Python 工具把可疑的结节都标注出来了。虽然没有全部找到,但考虑到这是个通用 AI 模型而不是专门的医疗影像系统,这个表现已经相当惊人。
它还能处理复杂的财务文档。我扔给它谷歌、英伟达、亚马逊的三份财报,让它做一份华尔街分析师级别的综合报告。它思考了 17 分钟,输出了一份包含财务指标、增长预测、投资建议的完整 PDF,甚至还能转成交互式演示文稿。
光线追踪渲染,两句话搞定
我测试了一个超级复杂的物理渲染场景,一个球体、一个立方体、一个金字塔,全是金属反光材质,放在镜面地板的房间里。
这种场景的难点在于无限递归反射,球体反射在立方体上,立方体又反射回球体,还要考虑彩色墙壁的光线影响。
GPT 5.4 只用了两个提示就完成了。它不仅渲染正确,还给我做了完整的参数调节面板,可以实时调整每个物体的位置、大小、反射率、粗糙度、金属度。我拖动滑块改变球体位置,其他物体上的反射也会同步更新。
这种物理精确度,以前需要专业的 3D 渲染软件才能做到。
它在 70% 的任务上打败了人类专家
OpenAI 公布了一个叫 GDP-val 的基准测试,涵盖美国 GDP 贡献最大的九个行业、44 种职业的知识工作任务。包括制作销售演示、会计表格、紧急护理排班、制造业图表、短视频制作等等。
结果显示,GPT 5.4 在 70% 的任务上胜过行业专家。这不是跟其他 AI 比,而是跟真人比。
如果你的工作主要是处理文档、表格、演示文稿这类知识工作,这个数据确实应该让你警觉了。
它还能自主操作电脑。在 OSWorld 基准测试中,它可以通过屏幕截图和键鼠操作来完成桌面任务。你给它看一个直播画面,它能分析内容并帮你写邮件,知道在哪里输入收件人和主题。你给它一个包含大量发票的 JSON 文件,它能自动填写表单。
数学物理双料冠军,但有个致命缺陷
在独立评测机构 Artificial Analysis 的排行榜上,GPT 5.4 和 Gemini 3.1 Pro 并列第一。但在解决复杂物理和数学问题方面,它是绝对的王者。
在 Crit PT 物理基准测试和 Frontier Math 数学基准测试中,GPT 5.4 都排名第一,远超 Claude Opus 和 Gemini。如果你需要解决研究级别的科学计算问题,它是目前最好的选择。
但这里有个大问题,GPT 5.4 extra high 模式的幻觉率极高,在某个基准测试中错误率达到 89%,远高于之前的版本和其他竞品。
这意味着什么?它在处理需要绝对准确的事实性任务时,可能会编造信息。如果你需要确保答案完全正确,GLM5 会是更安全的选择。
它支持 100 万 token 上下文
GPT 5.4 在 Codex 环境下支持 100 万 token 的上下文窗口,相当于 70 万个单词或 30 万行代码。这是业内最大的上下文容量之一,Claude 和 GLM 都没有这么高。
不过要注意,这个 100 万 token 只在 Codex 里有效,在 ChatGPT 里只有 40 万 token。
它的编程能力也很强悍。在 SWEBench Pro 基准测试中表现优异,在 Vibe Code Bench 排名第一,超过了 Opus 4.6 和 Gemini 3.1 Pro。我的实际测试也证实了这一点,它确实很擅长快速写代码。
你现在就能用上
GPT 5.4 已经对 Plus、Team 和 Pro 付费用户开放,免费用户暂时还用不了。开发者也可以通过 API 调用,Codex 里也已经集成。
价格方面,它比 Gemini 3.1 Pro 贵一些,但比 Claude Opus 4.6 便宜不少,后者几乎是它的两倍价格。速度上,它比 Gemini 3.1 稍慢,有时候会过度思考,明明不是很复杂的问题也要想很久。
每个顶级模型都有自己的特点和适用场景。GPT 5.4、Gemini 3.1 Pro、Claude Opus 4.6 各有千秋,关键看你的具体需求。
但有一点是确定的,AI 的能力边界正在以超出想象的速度扩张。那些曾经需要专业团队、专业软件、专业知识才能完成的工作,现在一个人对着屏幕说几句话就能搞定。
这到底是好事还是坏事,我也说不清楚。但变化已经来了,而且速度比我们预想的要快得多。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)