过去几个月,AI 圈的竞争异常胶着。

Anthropic 的 Claude Opus 4.7 和谷歌的 Gemini 3.1 Pro 轮番发力,确实给了 OpenAI 不小的压力。

昨晚,OpenAI 正式给出了他们的回应——全新的 GPT-5.5。

GPT-5.5 是 OpenAI迄今为止最智能的模型,在各项跑分上遥遥领先。

图片

不过,伴随性能飞跃而来的,是引发巨大争议的定价策略。

一、两年来最贵的模型,凭什么敢涨价?

很多开发者看到新闻的第一反应是:太贵了。

GPT-5.5 的 API 输入和输出价格分别达到了每百万 Token 5 美元和 30 美元。

这不仅比上一代 GPT-5.4 直接翻了一倍,输出端甚至比目前竞品中最贵的 Claude 旗舰模型还要高出 20%。

在各家都在大打价格战的今天,OpenAI 凭什么敢逆势涨价?

官方给出的解释是:因为模型更聪明了,完成同等任务所需的 Token 数量大幅减少,因此实际落地成本反而具备竞争力。

这并非是在画大饼。

从多项核心基准测试来看,GPT-5.5 在需要规划、迭代和工具协调的复杂命令行工作流(Terminal-Bench 2.0)中拿下了 82.7% 的高分,大幅超越 Opus 4.7 的 69.4%。

在测试模型独立操控真实电脑环境(OSWorld-Verified)时,也取得了 78.7% 的成绩。

图片

唯一未能霸榜的,是公开的编程基准 SWE-Bench Pro,GPT-5.5 以 58.6% 的成绩略逊于 Opus 4.7 的 64.3%。

图片

但综合来看,GPT-5.5 已经重新夺回了全能王者的位置。

图片

二、告别纸上谈兵:真正的“接管”级智能体

跑分终究只是一串数字,真正让业界感到震撼的,是 GPT-5.5 在实际工程环境中的表现。

它目前的定位非常精准:用于真实工作和智能体驱动的新一代智能。

英伟达目前已经有超过一万名员工在内部工作流中接入了由 GPT-5.5 驱动的 Codex。

根据工程师们的实测反馈,过去需要耗费几天时间排查的复杂 Bug,现在缩短到了几个小时;

原本需要几周的系统重构实验,甚至能在一夜之间自动跑完。

一位英伟达的工程师留下了一句极其生动的评价:“现在要是把 GPT-5.5 的访问权限收回去,感觉就像被截去了一条胳膊。”

OpenAI 自己人同样是深度依赖者。

内部有超过 85% 的员工每周都在使用它来处理日常工作。

比如,财务团队直接扔给它 2.4 万多份、合计 7 万多页的税务表格进行审查,硬是把整体工作进度提前了两周。

三、从辅助工具,到“联合科学家”

除了写代码和干日常杂活,这次发布最具有想象力的突破,是 GPT-5.5 在科研领域展现出的潜力。

它已经半只脚踏进了核心研究领域,开始成为人类科学家的“联合研究员”。

在数学界,一个内部定制版的 GPT-5.5 协助发现了一项关于 Ramsey 数(组合数学中长期悬而未决的核心难题)的新证明,并成功通过了形式化验证。

在生物医药领域,有免疫学教授让它去分析一份包含近 2.8 万个基因的复杂数据集,模型不仅处理了数据,还直接生成了涵盖关键发现的详尽研究报告——这通常是一个科研团队好几个月的工作量。

图片

四、通往AGI的最后一块里程碑?

或许正是基于这些跨越式的表现,OpenAI CEO Sam Altman 毫不掩饰他的野心。

他将 GPT-5.5 的发布称为“智能发展特定阶段的完成”,并将其定义为通往 AGI之前的最后一个重要里程碑。

当然,能力越大,潜在的破坏力就越不可控。

在最新的安全评估中,GPT-5.5 的网络安全和生物/化学能力被首次双双评为“高级”(High)。

图片

为了测试这一强大能力的安全底线,OpenAI 同步推出了高达 2.5 万美元的悬赏计划,招募顶级研究人员来寻找模型在生物安全领域的“越狱”漏洞。

总体而言,GPT-5.5 是一次抛开浮夸炒作的实质性进化。

它残酷地宣告了 AI 竞争已经进入深水区:谁能最先跳出“陪聊”的框架,真正在复杂的业务流里把工作做完、做好,谁才能拿到下一个时代的入场券。

对于我们每一个普通人来说,也许现在更应该关注的,不再是 AI 会不会产生意识,而是那些已经熟练驾驭 AI Agent 的同行,正在把工作效率拉升到怎样一个不可思议的水平。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐