GPT-5.5发布-Terminal-Bench-82.7-OpenAI找回主场

西里尤琦

308人浏览 · 2026-05-07 10:35:54

西里尤琦 · 2026-05-07 10:35:54 发布

GPT-5.5 发布：Terminal-Bench 82.7%，OpenAI 今夜找回主场

标签：OpenAI、GPT-5.5、大模型评测、AI编程、Agent

4月23日深夜，OpenAI发布了GPT-5.5，内部代号依然是"Spud"。距上一代GPT-5.4发布只有七周。

这七周不太好过——Claude Opus 4.7把CursorBench干到了70%，GLM-5.1的开源版本SWE-bench Pro拿下58.4%，DeepSeek V4同日发布……OpenAI面临的压力已经不是来自一个方向了。

这次GPT-5.5的发布，数据看起来确实够硬。

一、基准测试结果：多项榜单第一

先看编程能力，这是大家最关心的：

测试项目	GPT-5.5	GPT-5.4	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	75.1%	69.4%
Expert-SWE	73.1%	68.5%	—
SWE-Bench Pro	58.6%	—	64.3%⚠️

Terminal-Bench 2.0 比上一代高了7.6个百分点，比Claude Opus 4.7高了13.3个百分点。这项测试主要评估在终端环境中完成真实编程任务的能力，比传统SWE-bench更贴近实际工程场景。

SWE-Bench Pro这个项目GPT-5.5落后了，但OpenAI在报告里给Claude Opus 4.7的成绩标注了"可能存在过拟合（记忆）迹象"。这场争议短期内应该不会有定论——两家公司各有说法，得看独立测评机构的结论。

数学和科研能力方面：

测试项目	GPT-5.5	GPT-5.4	Claude Opus 4.7
FrontierMath Tier 4	35.4%	27.1%	22.9%
GeneBench	25.0%	19.0%	—
BixBench	80.5%	—	—

FrontierMath Tier 4由陶哲轩等顶级数学家出题，题目接近未发表研究的难度，GPT-5.5领先Opus 4.7超过12个百分点。BixBench是金融/商业分析基准，80.5%是所有已公开模型中的第一名。

二、Agent能力：这才是这次发布的重点

OpenAI把GPT-5.5定位为"Agent时代的原生大脑"。看几个数据：

OSWorld-Verified（计算机操作任务）：78.7%  vs  Opus 4.7：78.0%
GDPval（知识型工作综合）：84.9%  vs  Opus 4.7：80.3%  vs  Gemini 3.1 Pro：67.3%
Tau2-bench（多轮工具调用）：98.0%

Tau2-bench 98%这个数字很突出——这个基准测的是多轮对话中连续调用工具、根据结果调整策略的能力，在真实Agent工作流中极为重要。

三、“每个任务用更少Token”：这个细节不容忽视

GPT-5.5速度与5.4持平，但完成同等任务消耗的Token量"显著降低"——OpenAI没有给出具体数字，但这个方向非常重要。

Token消耗量决定实际使用成本，也决定在有限上下文窗口内能处理多少信息。如果GPT-5.5能用更少的来回完成复杂任务，那么实际API账单会比官方定价看起来更有竞争力。

四、定价：比想象中贵

版本	输入	输出
GPT-5.5	$5/百万Token	$30/百万Token
GPT-5.5 Pro	$30/百万Token	$180/百万Token
GPT-5.4（对比）	$2.5/百万Token	$15/百万Token

输出价格直接翻倍，GPT-5.5 Pro和Claude Opus 4.7价位相当（Opus 4.7是$5/$25）。对于大量调用的企业来说，这个涨价幅度需要好好算一算是否值得迁移。

五、一个值得关注的内部数据：85%员工用Codex

OpenAI在报告里提到一个内部数据：公司内部85%的员工跨部门使用Codex。

这不只是营销话语，它传递了一个信号：GPT-5.5 + Codex的工作流在OpenAI内部已经是默认配置，而不是少数人的实验工具。当一家AI公司自己的产研人员日常依赖这套工具，它的实际能力大概率是真实的。

六、和DeepSeek V4的正面对比

同日，DeepSeek V4也发布了。两款模型的技术路线形成有趣对比：

维度	GPT-5.5	DeepSeek V4-Pro
定价（输入）	$5/百万Token	¥12/百万Token（约$1.7）
SWE-Bench Pro	58.6%	—
Agentic Coding	领先	优于Anthropic Sonnet 4.5
硬件绑定	NVIDIA	支持NVIDIA + 华为昇腾
开源	否	是

两款模型不存在全面碾压的关系，更像是不同市场定位的产品：GPT-5.5主打最顶级性能和全球生态，DeepSeek V4主打开源、国产化适配和极低成本。

对于国内开发者，这两款模型能够同时存在并且都值得用，本身就是一件好事。

七、简单说几点个人判断

Terminal-Bench 82.7%是真的吓人。 在真实终端任务里，这意味着GPT-5.5能完成的编程工作已经超过大多数初中级工程师的日常任务量。

SWE-Bench Pro落后争议会持续。 这个基准在业界已经引发了多次"刷题"争议，短期内很难有一个所有人都认可的权威结论。

七周一个大版本的节奏是核心护城河。 技术领先可以被追赶，但高密度的迭代速度需要体系支撑——不只是算法，还有工程基础设施、数据飞轮、评测体系。这个护城河比单个版本的分数更难复制。

参考来源：36氪、钛媒体、Artificial Analysis综合智能指数、新浪财经

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

技术选型历程

本文档就是这些决策过程的完整记录，但只写到"当时怎么想的、考虑了哪些选项"，具体选了哪个由对应的专题文档给出。它不仅决定了数据的存储方式，还决定了 Text-to-SQL 的 SQL 方言、向量检索的实现方式（pgvector 还是独立向量库）、甚至 Android 端做数据缓存时的查询语法。不论选了哪个 Text-to-SQL 方案，都会面临同一个问题：十几张表的 DDL、业务文档和示例 SQL

AtomGit开源社区

Halcon超盒分类器(陈旧)---个人学习篇

AtomGit开源社区

（IEEE顶刊复现）改进的中点电位平衡策略：基于最优零序电压注入法的二极管钳位型NPC三电平拓扑中点电位平衡仿真

本文针对二极管钳位型NPC三电平拓扑中存在的中点电位不平衡问题，提出一种基于最优零序电压注入法的改进控制策略。通过理论分析建立中点电位波动模型，推导出最优零序电压的解析计算方法，并采用载波脉宽调制（CPWM）实现控制。仿真结果表明，在0.3s时注入最优零序电压后，中点电位波动显著降低，系统动态性能得到显著提升。研究为三电平逆变器的工程应用提供了理论支持与仿真验证。