价格翻倍的 GPT-5.5,到底香在哪?
过去几个月,AI 圈的竞争异常胶着。
Anthropic 的 Claude Opus 4.7 和谷歌的 Gemini 3.1 Pro 轮番发力,确实给了 OpenAI 不小的压力。
昨晚,OpenAI 正式给出了他们的回应——全新的 GPT-5.5。
GPT-5.5 是 OpenAI迄今为止最智能的模型,在各项跑分上遥遥领先。

不过,伴随性能飞跃而来的,是引发巨大争议的定价策略。
一、两年来最贵的模型,凭什么敢涨价?
很多开发者看到新闻的第一反应是:太贵了。
GPT-5.5 的 API 输入和输出价格分别达到了每百万 Token 5 美元和 30 美元。
这不仅比上一代 GPT-5.4 直接翻了一倍,输出端甚至比目前竞品中最贵的 Claude 旗舰模型还要高出 20%。
在各家都在大打价格战的今天,OpenAI 凭什么敢逆势涨价?
官方给出的解释是:因为模型更聪明了,完成同等任务所需的 Token 数量大幅减少,因此实际落地成本反而具备竞争力。
这并非是在画大饼。
从多项核心基准测试来看,GPT-5.5 在需要规划、迭代和工具协调的复杂命令行工作流(Terminal-Bench 2.0)中拿下了 82.7% 的高分,大幅超越 Opus 4.7 的 69.4%。
在测试模型独立操控真实电脑环境(OSWorld-Verified)时,也取得了 78.7% 的成绩。

唯一未能霸榜的,是公开的编程基准 SWE-Bench Pro,GPT-5.5 以 58.6% 的成绩略逊于 Opus 4.7 的 64.3%。

但综合来看,GPT-5.5 已经重新夺回了全能王者的位置。

二、告别纸上谈兵:真正的“接管”级智能体
跑分终究只是一串数字,真正让业界感到震撼的,是 GPT-5.5 在实际工程环境中的表现。
它目前的定位非常精准:用于真实工作和智能体驱动的新一代智能。
英伟达目前已经有超过一万名员工在内部工作流中接入了由 GPT-5.5 驱动的 Codex。
根据工程师们的实测反馈,过去需要耗费几天时间排查的复杂 Bug,现在缩短到了几个小时;
原本需要几周的系统重构实验,甚至能在一夜之间自动跑完。
一位英伟达的工程师留下了一句极其生动的评价:“现在要是把 GPT-5.5 的访问权限收回去,感觉就像被截去了一条胳膊。”
OpenAI 自己人同样是深度依赖者。
内部有超过 85% 的员工每周都在使用它来处理日常工作。
比如,财务团队直接扔给它 2.4 万多份、合计 7 万多页的税务表格进行审查,硬是把整体工作进度提前了两周。
三、从辅助工具,到“联合科学家”
除了写代码和干日常杂活,这次发布最具有想象力的突破,是 GPT-5.5 在科研领域展现出的潜力。
它已经半只脚踏进了核心研究领域,开始成为人类科学家的“联合研究员”。
在数学界,一个内部定制版的 GPT-5.5 协助发现了一项关于 Ramsey 数(组合数学中长期悬而未决的核心难题)的新证明,并成功通过了形式化验证。
在生物医药领域,有免疫学教授让它去分析一份包含近 2.8 万个基因的复杂数据集,模型不仅处理了数据,还直接生成了涵盖关键发现的详尽研究报告——这通常是一个科研团队好几个月的工作量。

四、通往AGI的最后一块里程碑?
或许正是基于这些跨越式的表现,OpenAI CEO Sam Altman 毫不掩饰他的野心。
他将 GPT-5.5 的发布称为“智能发展特定阶段的完成”,并将其定义为通往 AGI之前的最后一个重要里程碑。
当然,能力越大,潜在的破坏力就越不可控。
在最新的安全评估中,GPT-5.5 的网络安全和生物/化学能力被首次双双评为“高级”(High)。

为了测试这一强大能力的安全底线,OpenAI 同步推出了高达 2.5 万美元的悬赏计划,招募顶级研究人员来寻找模型在生物安全领域的“越狱”漏洞。
总体而言,GPT-5.5 是一次抛开浮夸炒作的实质性进化。
它残酷地宣告了 AI 竞争已经进入深水区:谁能最先跳出“陪聊”的框架,真正在复杂的业务流里把工作做完、做好,谁才能拿到下一个时代的入场券。
对于我们每一个普通人来说,也许现在更应该关注的,不再是 AI 会不会产生意识,而是那些已经熟练驾驭 AI Agent 的同行,正在把工作效率拉升到怎样一个不可思议的水平。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)