价格翻倍的 GPT-5.5，到底香在哪？

十二AI编程

441人浏览 · 2026-04-24 08:46:12

十二AI编程 · 2026-04-24 08:46:12 发布

过去几个月，AI 圈的竞争异常胶着。

Anthropic 的 Claude Opus 4.7 和谷歌的 Gemini 3.1 Pro 轮番发力，确实给了 OpenAI 不小的压力。

昨晚，OpenAI 正式给出了他们的回应——全新的 GPT-5.5。

GPT-5.5 是 OpenAI迄今为止最智能的模型，在各项跑分上遥遥领先。

不过，伴随性能飞跃而来的，是引发巨大争议的定价策略。

一、两年来最贵的模型，凭什么敢涨价？

很多开发者看到新闻的第一反应是：太贵了。

GPT-5.5 的 API 输入和输出价格分别达到了每百万 Token 5 美元和 30 美元。

这不仅比上一代 GPT-5.4 直接翻了一倍，输出端甚至比目前竞品中最贵的 Claude 旗舰模型还要高出 20%。

在各家都在大打价格战的今天，OpenAI 凭什么敢逆势涨价？

官方给出的解释是：因为模型更聪明了，完成同等任务所需的 Token 数量大幅减少，因此实际落地成本反而具备竞争力。

这并非是在画大饼。

从多项核心基准测试来看，GPT-5.5 在需要规划、迭代和工具协调的复杂命令行工作流（Terminal-Bench 2.0）中拿下了 82.7% 的高分，大幅超越 Opus 4.7 的 69.4%。

在测试模型独立操控真实电脑环境（OSWorld-Verified）时，也取得了 78.7% 的成绩。

唯一未能霸榜的，是公开的编程基准 SWE-Bench Pro，GPT-5.5 以 58.6% 的成绩略逊于 Opus 4.7 的 64.3%。

但综合来看，GPT-5.5 已经重新夺回了全能王者的位置。

二、告别纸上谈兵：真正的“接管”级智能体

跑分终究只是一串数字，真正让业界感到震撼的，是 GPT-5.5 在实际工程环境中的表现。

它目前的定位非常精准：用于真实工作和智能体驱动的新一代智能。

英伟达目前已经有超过一万名员工在内部工作流中接入了由 GPT-5.5 驱动的 Codex。

根据工程师们的实测反馈，过去需要耗费几天时间排查的复杂 Bug，现在缩短到了几个小时；

原本需要几周的系统重构实验，甚至能在一夜之间自动跑完。

一位英伟达的工程师留下了一句极其生动的评价：“现在要是把 GPT-5.5 的访问权限收回去，感觉就像被截去了一条胳膊。”

OpenAI 自己人同样是深度依赖者。

内部有超过 85% 的员工每周都在使用它来处理日常工作。

比如，财务团队直接扔给它 2.4 万多份、合计 7 万多页的税务表格进行审查，硬是把整体工作进度提前了两周。

三、从辅助工具，到“联合科学家”

除了写代码和干日常杂活，这次发布最具有想象力的突破，是 GPT-5.5 在科研领域展现出的潜力。

它已经半只脚踏进了核心研究领域，开始成为人类科学家的“联合研究员”。

在数学界，一个内部定制版的 GPT-5.5 协助发现了一项关于 Ramsey 数（组合数学中长期悬而未决的核心难题）的新证明，并成功通过了形式化验证。

在生物医药领域，有免疫学教授让它去分析一份包含近 2.8 万个基因的复杂数据集，模型不仅处理了数据，还直接生成了涵盖关键发现的详尽研究报告——这通常是一个科研团队好几个月的工作量。

四、通往AGI的最后一块里程碑？

或许正是基于这些跨越式的表现，OpenAI CEO Sam Altman 毫不掩饰他的野心。

他将 GPT-5.5 的发布称为“智能发展特定阶段的完成”，并将其定义为通往 AGI之前的最后一个重要里程碑。

当然，能力越大，潜在的破坏力就越不可控。

在最新的安全评估中，GPT-5.5 的网络安全和生物/化学能力被首次双双评为“高级”（High）。

为了测试这一强大能力的安全底线，OpenAI 同步推出了高达 2.5 万美元的悬赏计划，招募顶级研究人员来寻找模型在生物安全领域的“越狱”漏洞。

总体而言，GPT-5.5 是一次抛开浮夸炒作的实质性进化。

它残酷地宣告了 AI 竞争已经进入深水区：谁能最先跳出“陪聊”的框架，真正在复杂的业务流里把工作做完、做好，谁才能拿到下一个时代的入场券。

对于我们每一个普通人来说，也许现在更应该关注的，不再是 AI 会不会产生意识，而是那些已经熟练驾驭 AI Agent 的同行，正在把工作效率拉升到怎样一个不可思议的水平。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI- RAG笔记06 - 系统评估

本文学习来源个人学习笔记整理总结，有错误或者遗漏希望大家指正。

AtomGit开源社区

AutoGLM 手机自动化测试滑动性能优化

摘要：本文针对AutoGLM大模型移动端自动化测试框架中存在的滑动操作延迟大、性能数据碎片化问题，提出全流程优化方案。通过修改5个核心文件：1）重构scenario_presets.yaml测试场景配置，采用结构化指令替代自然语言描述；2）重写mobile_prompt_zh.py提示词，限制AI自主决策；3）改造device_control.py底层滑动逻辑，支持零间隔批量执行；4）优化task

AtomGit开源社区

【极简监控】跨系统甩锅的终结者！AI 助力魔改 SkyWalking 插件，让 HTTP 调用入参无所遁形

本文针对跨系统协作中下游服务报错时难以追溯请求参数的痛点，介绍了如何基于已有的 SkyWalking-Local 极简监控底座，借助 AI 大模型能力对 SkyWalking 原生 HTTP 客户端插件进行"外科手术式"魔改。通过扩展插件动态抓取 HTTP 请求体参数，并设计动态启停与长度截断机制保障生产环境性能，实现了在故障排查时能精准还原调用现场，彻底终结上下游开发团队间的"盲盒式"对峙与无休