GPT-5.5发布-Terminal-Bench-82.7-OpenAI找回主场
GPT-5.5 发布:Terminal-Bench 82.7%,OpenAI 今夜找回主场
标签:OpenAI、GPT-5.5、大模型评测、AI编程、Agent
4月23日深夜,OpenAI发布了GPT-5.5,内部代号依然是"Spud"。距上一代GPT-5.4发布只有七周。
这七周不太好过——Claude Opus 4.7把CursorBench干到了70%,GLM-5.1的开源版本SWE-bench Pro拿下58.4%,DeepSeek V4同日发布……OpenAI面临的压力已经不是来自一个方向了。
这次GPT-5.5的发布,数据看起来确实够硬。
一、基准测试结果:多项榜单第一
先看编程能力,这是大家最关心的:
| 测试项目 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 |
|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% |
| Expert-SWE | 73.1% | 68.5% | — |
| SWE-Bench Pro | 58.6% | — | 64.3%⚠️ |
Terminal-Bench 2.0 比上一代高了7.6个百分点,比Claude Opus 4.7高了13.3个百分点。这项测试主要评估在终端环境中完成真实编程任务的能力,比传统SWE-bench更贴近实际工程场景。
SWE-Bench Pro这个项目GPT-5.5落后了,但OpenAI在报告里给Claude Opus 4.7的成绩标注了"可能存在过拟合(记忆)迹象"。这场争议短期内应该不会有定论——两家公司各有说法,得看独立测评机构的结论。
数学和科研能力方面:
| 测试项目 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 |
|---|---|---|---|
| FrontierMath Tier 4 | 35.4% | 27.1% | 22.9% |
| GeneBench | 25.0% | 19.0% | — |
| BixBench | 80.5% | — | — |
FrontierMath Tier 4由陶哲轩等顶级数学家出题,题目接近未发表研究的难度,GPT-5.5领先Opus 4.7超过12个百分点。BixBench是金融/商业分析基准,80.5%是所有已公开模型中的第一名。
二、Agent能力:这才是这次发布的重点
OpenAI把GPT-5.5定位为"Agent时代的原生大脑"。看几个数据:
OSWorld-Verified(计算机操作任务):78.7% vs Opus 4.7:78.0%
GDPval(知识型工作综合):84.9% vs Opus 4.7:80.3% vs Gemini 3.1 Pro:67.3%
Tau2-bench(多轮工具调用):98.0%
Tau2-bench 98%这个数字很突出——这个基准测的是多轮对话中连续调用工具、根据结果调整策略的能力,在真实Agent工作流中极为重要。
三、“每个任务用更少Token”:这个细节不容忽视
GPT-5.5速度与5.4持平,但完成同等任务消耗的Token量"显著降低"——OpenAI没有给出具体数字,但这个方向非常重要。
Token消耗量决定实际使用成本,也决定在有限上下文窗口内能处理多少信息。如果GPT-5.5能用更少的来回完成复杂任务,那么实际API账单会比官方定价看起来更有竞争力。
四、定价:比想象中贵
| 版本 | 输入 | 输出 |
|---|---|---|
| GPT-5.5 | $5/百万Token | $30/百万Token |
| GPT-5.5 Pro | $30/百万Token | $180/百万Token |
| GPT-5.4(对比) | $2.5/百万Token | $15/百万Token |
输出价格直接翻倍,GPT-5.5 Pro和Claude Opus 4.7价位相当(Opus 4.7是$5/$25)。对于大量调用的企业来说,这个涨价幅度需要好好算一算是否值得迁移。
五、一个值得关注的内部数据:85%员工用Codex
OpenAI在报告里提到一个内部数据:公司内部85%的员工跨部门使用Codex。
这不只是营销话语,它传递了一个信号:GPT-5.5 + Codex的工作流在OpenAI内部已经是默认配置,而不是少数人的实验工具。当一家AI公司自己的产研人员日常依赖这套工具,它的实际能力大概率是真实的。
六、和DeepSeek V4的正面对比
同日,DeepSeek V4也发布了。两款模型的技术路线形成有趣对比:
| 维度 | GPT-5.5 | DeepSeek V4-Pro |
|---|---|---|
| 定价(输入) | $5/百万Token | ¥12/百万Token(约$1.7) |
| SWE-Bench Pro | 58.6% | — |
| Agentic Coding | 领先 | 优于Anthropic Sonnet 4.5 |
| 硬件绑定 | NVIDIA | 支持NVIDIA + 华为昇腾 |
| 开源 | 否 | 是 |
两款模型不存在全面碾压的关系,更像是不同市场定位的产品:GPT-5.5主打最顶级性能和全球生态,DeepSeek V4主打开源、国产化适配和极低成本。
对于国内开发者,这两款模型能够同时存在并且都值得用,本身就是一件好事。
七、简单说几点个人判断
Terminal-Bench 82.7%是真的吓人。 在真实终端任务里,这意味着GPT-5.5能完成的编程工作已经超过大多数初中级工程师的日常任务量。
SWE-Bench Pro落后争议会持续。 这个基准在业界已经引发了多次"刷题"争议,短期内很难有一个所有人都认可的权威结论。
七周一个大版本的节奏是核心护城河。 技术领先可以被追赶,但高密度的迭代速度需要体系支撑——不只是算法,还有工程基础设施、数据飞轮、评测体系。这个护城河比单个版本的分数更难复制。
参考来源:36氪、钛媒体、Artificial Analysis综合智能指数、新浪财经
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)