GPT-5.5 震撼登场：首次完整重训基座，终端编程得分 82.7% 碾压 Opus 4.7，还顺手证了一个数学定理

weixin_57908930

614人浏览 · 2026-04-24 10:49:25

weixin_57908930 · 2026-04-24 10:49:25 发布

GPT-5.5 正式发布：一次真正的代际跃升，Agent 时代的原生大脑来了

快速摘要

核心结论（30秒版）：
GPT-5.5（代号 Spud）于 2026 年 4 月 23 日正式发布，是 OpenAI 自 GPT-4.5 以来首次完整重训的基座模型。 它在终端智能体编程基准 Terminal-Bench 2.0 上以 82.7% 的成绩创下新纪录，大幅领先 Claude Opus 4.7（69.4%）；在知识型工作测试 GDPval（涵盖 44 个职业场景）中以 84.9% 位居第一；在前沿数学测评 FrontierMath Tier 4 中，以 35.4% 的得分将 Claude Opus 4.7（22.9%）甩开超过 12 个百分点。同一天，OpenAI 还披露 GPT-5.5 协助研究人员发现了一个关于拉姆齐数的全新数学证明，并在 Lean 定理证明器中完成了形式化验证。 API 定价为每百万输入 token 5 美元、输出 30 美元，较 GPT-5.4 翻倍；GPT-5.5 Pro 版输入 30 美元、输出 180 美元。
往下看，有完整的技术拆解、基准解读、Codex 实战指南和定价分析。

一、八天之内，两次换王

2026 年 4 月 16 日，Anthropic 发布了 Claude Opus 4.7，凭借在 SWE-Bench Pro 上 64.3% 的成绩，从 GPT-5.4 手中夺走了编程领域的榜首位置，一时引发广泛讨论。

仅仅八天之后，OpenAI 于 4 月 23 日深夜推送了 GPT-5.5。

这是 AI 大模型竞争节奏史上最能说明问题的八天之一。不是因为哪一方的数字最漂亮，而是因为整个行业的迭代节奏已经快到让人无法按照传统的「版本发布周期」来理解——上午还在讨论谁是「现任最强」，下午基准就已经被重写了。

OpenAI 总裁 Greg Brockman 在发布会上对记者说：「这真的感觉像是在奠定我们将来使用电脑、完成电脑工作的基础。」这句话不是在描述一次功能更新，而是在宣告一种新的人机协作范式正在成形。

二、GPT-5.5 是什么？从「版本迭代」到「基座重训」

要理解 GPT-5.5 的意义，首先要明白它和此前那些带小数点的版本之间有什么本质区别。

GPT-5.1、5.2、5.3、5.4 这些版本，大多是在已有基座上进行微调、对齐优化或特定能力强化，本质上属于同一代架构的演进。而 GPT-5.5，是 OpenAI 自 GPT-4.5 以来第一次完整重训基座模型。这意味着它不仅仅是「更好的 GPT-5.4」，而是从底层架构到训练数据、从推理策略到上下文理解，整体经过了重新设计和训练。

代号「Spud」（土豆）的这个模型，在 OpenAI 内部其实已经准备了相当长的时间，外界一直有所期待。它的核心设计目标，用 OpenAI 官方的话说是：「成为面向真实工作的全新一类智能——能更快理解你想做什么，并在不同工具之间切换，直到任务完成。」

换句话说，GPT-5.5 的定位不是「更聪明的问答模型」，而是「能自主完成多步骤工作任务的智能体大脑」。这个方向，才是理解它各项设计取舍的核心线索。

与此同时，OpenAI 做到了一件在工程层面颇为困难的事：在不牺牲速度的前提下提升智能。GPT-5.5 在真实环境中的单 token 生成延迟，与 GPT-5.4 基本持平。要在更强的模型上实现同等延迟，OpenAI 重新设计了部分推理基础设施，并与英伟达 GB200 和 GB300 NVL72 系统进行了联合优化。Codex 内部还分析了数周的生产流量数据，编写了自定义负载均衡算法，使 token 生成速度提升了 20% 以上。

三、智能体编程：打完翻身仗了吗？

编程是这次发布最核心的战场，也是最值得细看的部分。

Terminal-Bench 2.0：终端全链路工程能力

Terminal-Bench 2.0 是目前学术界和工业界公认最能反映 Agent 式编程能力的测试之一。它的逻辑是这样的：给模型一个真实的终端环境和一个描述模糊的目标，让它自主规划解决路径、调用工具、编写脚本、处理报错、反复迭代。这个过程和人类工程师在实际项目中的工作流程高度相似。

在这个测试上，GPT-5.5 的成绩是 82.7%，GPT-5.4 是 75.1%，Claude Opus 4.7 是 69.4%。

13 个百分点的差距，在这个量级的基准上不是小数字。

Expert-SWE：长周期工程任务

Expert-SWE 是 OpenAI 内部的评测，专门针对那些人类开发者预估需要 20 小时以上才能完成的复杂编程任务，包括大型代码库重构、跨模块功能新增、深层调试等。GPT-5.5 得分 73.1%，GPT-5.4 是 68.5%。

SWE-Bench Pro：真实 GitHub 问题解决

SWE-Bench Pro 是目前跨语言、跨项目类型最全面的编程评测，涵盖 Python、JavaScript/TypeScript、Java 和 Go 四种编程语言，所有测试问题均来自真实 GitHub 仓库的 Issue。

这里的数字稍微复杂一点：GPT-5.5 得分 58.6%，Claude Opus 4.7 得分 64.3%。乍看之下是 Opus 4.7 领先，但 OpenAI 在这个数据旁边加了一个注脚——Anthropic 自身也报告称，在部分问题子集上发现了模型记忆（过拟合）的迹象。换句话说，这个榜单的可比性存疑。

不过客观说，SWE-Bench Pro 的这个差距是真实存在的，值得关注，而不应该被完全忽略。

三项综合来看

在以上三个维度中，GPT-5.5 在使用更少 token 的前提下，全面超越了 GPT-5.4。这是一个很关键的细节：不是靠「用更多算力换分数」，而是在效率和准确性上同步提升。

下面这个表格给出各模型在编程核心基准上的对比：

基准测试	GPT-5.5	GPT-5.4	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	75.1%	69.4%
Expert-SWE（内部）	73.1%	68.5%	—
SWE-Bench Pro	58.6%	—	64.3%*

*OpenAI 注：Anthropic 自行报告了部分题目存在记忆化迹象

四、从「代码助手」到「全能工作大脑」：Codex 的实战形态

GPT-5.5 和 Codex 的关系，值得单独说清楚。

Codex 是 OpenAI 推出的 AI 编程智能体平台，早期主要是代码补全工具。随着底层模型能力的跃升，它现在已经进化成一个可以端到端完成完整工程任务的自主智能体——不只是写代码，而是能规划、实现、重构、调试、测试、验证，把一整套软件工程流程自主跑完。

GPT-5.5 上线 Codex 之后，能做的事情远超代码生成：

在真实浏览器环境中测试 Web 应用，识别屏幕内容，点击、输入、导航，捕捉截图，并根据所见结果不断调整，直到流程验证通过
生成高质量的电子表格、幻灯片和工作文档，支持复杂财务模型
通过新增的文件查看器，更快速地完成文件审阅、修订和迭代
跨工具流转上下文信息，在本地环境和浏览器之间无缝衔接

OpenAI 内部有超过 85% 的员工每周在不同部门中使用 Codex。这个数字来自官方博客，说明这不是一个用于展示的 Demo 工具，而是真实融入到日常工作流程中的生产力工具。

以下是几个真实的内部使用案例：

公关部门：用 GPT-5.5 分析了六个月的演讲邀约数据，搭建了一套评分和风险分类框架，让低风险请求可以通过 Slack AI 智能体自动处理，减少了大量人工审核环节。

财务部门：审查了 24,771 份 K-1 税表，共计 71,637 页文件，比往年提前整整两周完成工作。

市场团队：实现了每周业务报告自动生成，每周节省约 5 到 10 个小时。

这些例子说明，GPT-5.5 + Codex 的组合，已经不仅仅是一个给工程师用的工具，而是真正渗透到了非技术岗位的日常工作中。

五、知识型工作与计算机操控：超越编程的边界

如果说编程是 GPT-5.5 的强项，那么它在更广泛的知识型工作和计算机使用上的表现，才是让人真正感受到「范式转变」的地方。

GDPval：44 个职业的知识工作基准

GDPval 评测覆盖了 44 个具体职业领域的规范性知识工作任务，包括法律分析、财务建模、医疗信息处理、工程文档编写等。这个测试的设计理念是「用可量化的方式评估 AI 替代专业知识工作的能力」，因此其结果更能反映模型在真实业务场景中的价值。

结果：GPT-5.5 得分 84.9%，Claude Opus 4.7 是 80.3%，Gemini 3.1 Pro 只有 67.3%。

OSWorld-Verified：独立操作真实电脑

这个测试评估模型是否能在真实视觉桌面环境中自主完成生产力任务，人类基准线约为 72%。GPT-5.5 得分 78.7%，Claude Opus 4.7 是 78.0%，两者几乎持平，但都超越了人类基准。

这意味着在相当多的「操控计算机」场景中，AI 已经能做到比普通用户更准确、更稳定。

Tau2-bench：复杂客服工作流

Tau2-bench 测试的是模型能否在多轮对话中处理复杂客服场景，包括查询系统、执行操作、协调多个工作流。GPT-5.5 在不做提示词微调的情况下达到 98.0%，这是一个接近实用化门槛的成绩。

这几个数字放在一起读会发现一件事：GPT-5.5 的优势不是集中在某一个特定类型的任务上，而是在「需要 AI 像一个能理解全局、自主规划、持续执行的同事」这类工作上，全方位地提升了表现。这正是 OpenAI 所说的「Agent 化计算」范式的核心体现——不是你告诉 AI 下一步做什么，而是 AI 自己判断下一步该做什么。

在操控计算机方面，GPT-5.5 的能力提升更体现在「理解意图」而非「执行操作」上。此前的模型在面对复杂桌面环境时，往往能点击正确按钮，但无法理解为什么要点击、点击之后该做什么。GPT-5.5 的改进让它能根据屏幕上的内容动态调整自己的行动计划，而不是机械执行预设步骤。这一点在 OSWorld 上的表现已经有所体现，在实际 Codex 的使用中体现得更为明显。

基准测试	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
GDPval	84.9%	80.3%	67.3%
OSWorld-Verified	78.7%	78.0%	—
Tau2-bench	98.0%	—	—

六、科研辅助：拉姆齐数证明与生命科学突破

这是整个发布中最让数学和科研圈感到震动的部分。

拉姆齐数新证明

拉姆齐数（Ramsey Number）是组合数学中的核心研究对象。用通俗语言解释：它回答的问题是「一个网络（图）必须大到什么程度，才能保证其中一定出现某种特定的规律性结构？」

这个领域的新研究成果极其罕见，因为每一步推进都需要极深的数学洞察力，而不是简单的计算。OpenAI 内部使用配备了定制工具链的 GPT-5.5，协助数学研究人员发现了一个关于非对角拉姆齐数长期渐近性质的全新证明。这个证明随后在 Lean（一种用于形式化数学的定理证明语言）中完成了机器验证。

这不是让 AI 去重新推导已知定理，而是参与了一个此前无人证明的数学结论的发现过程。论文已公开发布在 OpenAI 的 CDN 上，感兴趣的读者可以自行检索。

前沿数学基准 FrontierMath Tier 4

FrontierMath 是由 Terence Tao（陶哲轩）等顶级数学家策划的前沿数学题库，Tier 4 是其中最难的一档，题目涉及代数几何、数论、拓扑等方向，难度接近未发表的研究级别。

GPT-5.5 得分 35.4%，GPT-5.4 是 27.1%，Claude Opus 4.7 只有 22.9%。

差距不止体现在分数上。更值得注意的是，Tier 1 到 3 的差距约为 8 个百分点（51.7% vs 43.8%），而 Tier 4 上的差距超过 12 个百分点。这说明越到数学前沿，GPT-5.5 相对于竞品的优势越显著。

生命科学与生物信息学

在 GeneBench（多阶段科学数据分析）上，GPT-5.5 得分 25.0%，GPT-5.4 是 19.0%。

在 BixBench（真实生物信息学任务）上，GPT-5.5 以 80.5% 在所有已公开成绩的模型中排名第一。

美国杰克逊基因医学实验室的免疫学教授 Derya Unutmaz 用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 28,000 个基因的表达数据集。模型不仅总结了发现，还深挖出关键问题与洞察，出具了一份详尽的研究报告。他表示，如果让人类团队完成同等工作，需要数月时间。

波兹南密茨凯维奇大学的数学助教 Bartosz Naskręcki 在 Codex 中仅用 11 分钟，从单个提示词出发，构建了一个代数几何可视化应用——将二次曲面的交集可视化，并将生成的曲线转换为 Weierstrass 模型。

这两个例子说明，GPT-5.5 在专业科研辅助领域的实用价值，已经远远超出了「帮你写提示词」或「帮你检索文献」的层面。

在数学辅助方面，一个值得关注的背景是：FrontierMath 基准的整体得分，从 2024 年 GPT-4 时代的约 5% 一路攀升，到 2026 年 3 月 GPT-5.4 Pro 时代已经突破 50%。这条增长曲线，直观地展示了大模型在数学推理能力上的跨越式进步节奏。GPT-5.5 在 Tier 4 上达到 35.4%，意味着它已经能解决一部分连顶级数学家都觉得棘手的研究级题目。

这对 AI 辅助科研的未来而言，意义比编程领域的进步更为深远。编程领域的代码可以通过测试来验证对错，但数学和科学发现往往没有现成的「标准答案」。GPT-5.5 在这一领域展现出的不只是「计算能力」，而是一定程度上的「推理创造性」。

七、基础设施支撑：推理架构的重新设计

前面提到，GPT-5.5 在保持 GPT-5.4 单 token 延迟的前提下实现了能力跃升，这背后有具体的工程实现。

OpenAI 与英伟达深度合作，联合优化了 GPT-5.5 在 GB200 和 GB300 NVL72 系统上的推理性能。这两种芯片分别搭载了英伟达的 Blackwell B200 和 Blackwell Ultra GPU，代表了 2025-2026 年最新一代数据中心 GPU 架构。

在上层，Codex 自身也参与了推理效率的提升——通过分析数周的生产流量模式，编写了定制化的负载均衡和分区启发式算法，使 token 生成速度提升超过 20%。

这一系列优化的结果是：GPT-5.5 在 Codex 任务中，使用的 token 数量明显少于 GPT-5.4，但交付的结果质量更高。

从技术架构角度来说，这也是 GPT-5.5 定价虽然较前代翻倍，但 OpenAI 能合理解释其「单位价值」的逻辑基础。

八、版本与定价：该怎么选？

版本对比

GPT-5.5 目前分为两个版本：

GPT-5.5（标准版）：面向 ChatGPT 的 Plus、Pro、Business、Enterprise 用户，以及 Codex 的 Plus、Pro、Business、Enterprise、Edu、Go 计划用户，上下文窗口为 400,000 tokens
GPT-5.5 Pro（专业版）：仅面向 ChatGPT 的 Pro、Business、Enterprise 用户，适用于商业、法律、教育、数据科学等高精度场景，比标准版在复杂任务上有更高的准确率

API 版本暂时尚未开放，OpenAI 表示正在为规模化部署完善安全防护机制，预计很快上线。

API 定价

GPT-5.5（标准版）
  输入：$5 / 百万 tokens
  输出：$30 / 百万 tokens
  批量/Flex 价格：标准价的 50%
  优先处理加急：标准价的 2.5 倍
  上下文窗口：1M tokens

GPT-5.5 Pro（专业版）
  输入：$30 / 百万 tokens
  输出：$180 / 百万 tokens

相比之下，GPT-5.4 的 API 定价为输入 $2.50、输出 $15，整整翻了一倍。Claude Opus 4.7 的定价为输入 $5、输出 $25——GPT-5.5 的输出价格比 Opus 4.7 贵约 20%。

OpenAI 给出的解释逻辑是 token 效率：同样的任务，GPT-5.5 使用的 token 数量显著少于 GPT-5.4，因此虽然单价更高，但实际完成一个任务的总费用不一定更贵。对于高频、复杂的 Agent 工作流来说，这个效率提升的意义尤为明显。

九、安全机制：最强防护体系

OpenAI 在本次发布中格外强调安全策略。GPT-5.5 是目前 OpenAI 发布过的安全防护最完整的模型，具体包括：

完整的安全性与准备度框架评估
内部红队与外部红队的双重测试
针对网络安全和生物安全能力的专项测试
来自约 200 个可信早期合作伙伴的真实使用场景反馈

OpenAI 研究副总裁 Mia Glaese 在发布会上表示，GPT-5.5 已经过广泛的第三方安全测试，特别是在网络安全和生物安全风险领域。模型在提升专业能力的同时，保留了足够的访问限制以防止滥用。

API 版本之所以比 ChatGPT 版本晚发布，也是因为大规模 API 部署在安全防护层面有不同的要求，OpenAI 正在与合作伙伴共同完善相关机制。

十、竞争格局：「编程王座」争夺战的本质

如果仅从分数看这场竞争，很容易陷入「谁赢了这场」的简单叙事。但把各项测试并排来看，会发现更有意思的结构：

GPT-5.5 在 Terminal-Bench 2.0（终端 Agent）、GDPval（知识工作）、FrontierMath Tier 4（前沿数学）和 BixBench（生物信息学）上全面领先；而 Claude Opus 4.7 在 SWE-Bench Pro（传统 GitHub Issue 解决）上仍保持优势，但 OpenAI 对这个结果的有效性提出了质疑。

这不是一场「A 打败了 B」的简单比赛，而是两个不同方向的能力演进正在交叉：一方向 Agent 化操控能力和科研辅助延伸，一方向代码准确性和工程实践深耕。

更有意思的是，OpenAI 在发布会上反复强调的主题不是「更强的模型」，而是「全新的电脑使用方式」。Greg Brockman 说：「这朝着一种全新的计算机工作方式迈出了一步。」这背后隐含的判断是：AI 竞争的主战场，正在从「基准分数」转向「谁先定义 AI 如何替人完成电脑工作」。

从这个视角来看，SWE-Bench Pro 上 Opus 4.7 保持的分数优势，并不代表它在实际工程场景中的综合实力更强。Terminal-Bench 2.0 对应的是更真实的 Agent 工作流——那种给你一个模糊的目标，你得自己想清楚怎么做的场景。这类任务的难度要比解决一个具体的 GitHub Issue 高得多，也更接近未来 AI 承担职业工作的实际形态。

Codex 是这个战略方向的载体，GPT-5.5 是它的大脑。

另一个值得关注的竞争维度是生态整合。OpenAI 同一天披露了 ChatGPT 的最新用户数据：超过 9 亿周活跃用户，5000 万付费订阅用户，Codex 每周有约 400 万活跃开发者。这个规模意味着 GPT-5.5 的实际用户反馈和迭代数据，将以远超竞品的速度积累回来，形成正向飞轮。对于一个正在转向「Agent 化工作」的平台来说，用户规模和使用深度是其他实验室目前很难在短期内复制的护城河。

十一、如何开始使用 GPT-5.5

对于有意将 GPT-5.5 接入工作流的用户，以下是目前可行的接入路径：

ChatGPT（网页 / App 端）

Codex（智能体编程平台）

访问 Codex 平台（需要对应订阅计划），选择 GPT-5.5 作为默认模型。Codex 支持 Plus 及以上用户，上下文窗口为 40 万 tokens，适合处理大型代码库。

API（即将开放）

API 版本尚未正式上线，但 OpenAI 表示「很快」就会开放。届时开发者可以通过标准的 Responses API 和 Chat Completions API 调用，模型 ID 为 gpt-5.5：

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5.5",
    messages=[
        {
            "role": "user",
            "content": "请帮我分析这个代码库中的性能瓶颈，并给出重构建议"
        }
    ],
    max_tokens=4096
)

print(response.choices[0].message.content)

GPT-5.5 Thinking 模式

在 ChatGPT 中选择 GPT-5.5 Thinking 后，消息输入框中会出现「思考时长」切换按钮。标准模式平衡速度与深度，扩展模式适合更复杂的推理任务，Pro 用户还可以选择 Light（最快）和 Heavy（最深）模式。

十二、一个 AI 训练师学习者的视角

说到这里，想跟大家分享一点个人体会。

前段时间在黑龙江节点云计算科技公司备考人工智能训练师的时候，我就在思考一个问题：「人工智能训练师」这个职业，在大模型能力飞速进化的当下，究竟意味着什么？

那时候课程里讲到的很多「大模型局限性」——比如无法自主规划多步骤任务、需要手动切换工具、对模糊指令理解能力弱——在 GPT-5.5 这里几乎都被系统性地解决了。这不是说训练师这个职业没有价值，恰恰相反，正是因为模型能力越来越强，训练师在数据标注、对齐反馈、评测设计和安全审查上的工作才会越来越重要，而不是越来越轻松。

备考期间有一节课专门讲「RLHF（基于人类反馈的强化学习）」的工作原理，当时觉得那些「偏好数据标注」的流程很抽象。但看完 GPT-5.5 在 Vending-Bench 测试中的伦理对比结果，再回头看那节课的内容，突然就清楚了：那些标注员选择「哪个回答更好、更诚实、更合规」的每一次操作，其实都在直接塑造模型在陌生场景下的行为边界。Opus 4.7 在模拟商业博弈中会对供应商撒谎，GPT-5.5 选择诚实策略并同样赢得竞争——这背后差异的根源，很可能就来自训练数据和对齐策略的不同设计。

模型在 Terminal-Bench 上能拿 82% 的分数，但那些测试题目的设计者、评测方案的制定者、Lean 证明的人工复核者，仍然是人。AI 进步的速度越快，我们对「如何正确评价 AI 能力」的需求就越迫切，而这恰恰是人工智能训练师的核心工作领域之一。

这次备考的经历让我深刻体会到：学习 AI 相关知识，最重要的不是记住当前哪个模型得分最高，而是理解这些能力背后的评测逻辑、技术架构和局限边界。只有这样，才能在模型迭代的浪潮中持续做出有价值的判断。更重要的是，理解模型能做什么、不能做什么、为什么这样做，本身就是与 AI 协作工作的核心竞争力。