Claude降智,是自杀还是装死?
Anthropic遭遇重创?
最新动态显示,AMD的AI总监证实Claude Code性能大幅下滑,明确指出"已无法胜任复杂任务"。
更令人震惊的是,BridgeBench评测报告再次揭露了Anthropic的严重问题:
数据显示:Claude Opus 4.6的全球排名从第2名暴跌至第10名:
准确率从83.3%骤降至68.3%,同时幻觉率飙升近一倍,增幅高达98%。

那一刻,Claude降智变蠢、用户体验变差,冰冷的数字终结了所有用户的疑问——
不是自己的问题,Claude Opus 4.6确实变差了!



Claude用户感觉上当受骗了!

想象一下,如果你依赖这个模型处理任何关键任务,而他们却可以在不告知你的情况下,直接换成一个差得多的模型。

但用户质疑:「这怎么可能合法?」,信任开始破灭,对Anthropic的嘲讽铺天盖地,连最忠实的拥趸都开始动摇。
但就在全网群嘲的另一边,Anthropic王炸出来了——疑似内部工具界面截图流出。

画面显示的东西,让所有关于「Claude变笨了」的讨论瞬间变得无关紧要——Claude Projects正在测试一套完整的全栈应用构建系统。
不是帮你写代码,是帮你造产品。
所有人盯着模型分数吵架的时候,Anthropic已经换了牌桌。
泄露图里藏着什么?
先说那张截图到底拍到了什么。
根据多方爆料交叉验证,泄露画面展示的是Claude Projects内部正在测试的一套「一键式开发套件」。

界面上赫然列着一排预置模板:AI聊天机器人、互动小游戏、商业落地页、SaaS数据仪表盘……几乎覆盖了独立开发者最高频的需求场景。

但模板只是表面。
真正让人倒吸一口冷气的是模板背后的全栈能力链——
身份验证?勾选即配。
数据库?选型即建。
前端界面?描述即生成。
部署上线?一键搞定。

这不是「AI辅助编程」,而是「AI取代编程」——连技能提炼的步骤都省去了。
要理解这句话的分量,必须看清当前AI编程工具的格局分层:
- Cursor的定位是「提升IDE内的编码效率」——加速程序员的工作流程,开发者仍是核心。
- Replit的定位是「让零基础用户也能编程」——降低学习门槛,但仍需理解代码逻辑。
- Vercel的定位是「实现无感部署」——解决最终环节,前期开发仍需自主完成。
它们各自聚焦软件开发链条的特定环节,并将该环节优化到极致。
而Claude的野心,与它们根本不在同一维度。
Cursor让程序员效率提升10倍,Replit让素人也能编码——但Claude要让「写代码」这个行为彻底消失。
前者是效率革命,后者是行业颠覆。
据泄露信息,支撑这一系统的底层引擎正是那个被全网嘲讽「降智」的Opus 4.6模型。
Mythos「不够强」或许是战略选择?
一个大胆却合理的推测是:
Anthropic或许从未将Mythos的排行榜表现视为核心目标。
这绝非为平庸找借口,而是商业逻辑使然。
当企业战略锚定「全栈应用平台」时,基础模型的定位必然重构——
它不必成为「最强大脑」,只需达到「实用门槛」。
平台之争的胜负法则早已明晰:
- Windows战胜Mac凭借软件生态而非系统优雅
- Android击溃Windows Phone依靠开发者规模而非内核先进
平台战争的制胜关键从来不是「最优」,而是「最普及」。
Dario Amodei的公开表态「编码将死」曾被视为预言,如今全栈构建器的泄露证实:
这并非预测,而是正在落地的战略蓝图。
由此反观Mythos的测试数据:
- HLE领先GPT-5.4 Pro(56.8 vs 42.7)
- GPQA持平(94.4 vs 94.5)
- BrowseComp被反超(89.3 vs 86.9)
这些看似波动的表现,实则是战略意图的精准投射。

它不是「Anthropic输了」,而是「Anthropic选择性地不在这里发力了」。
把有限的算力资源投入到排行榜军备竞赛中去维护一个虚幻的「第一名」标签,还是把算力倾斜给全栈构建器这种能直接创造商业价值的产品?
对一家年收入300亿美金、需要向投资人证明商业化能力的公司来说,这个选择并不难。
模型够用就行,平台锁定才是护城河。
商业竞争的残酷真相就是:用户不关心你的GPQA分数是94.4还是94.5,用户关心的是「我说一句话,App能不能跑起来」。
年收300亿之后的恐惧
Anthropic的年化收入刚刚突破300亿美金,超过了OpenAI。

15个月内,Anthropic年化收入从10亿美元涨到300亿美元
这是一个足以让任何创业公司开香槟的数字。
但如果你是Dario Amodei,你此刻最大的情绪不是庆祝,而是恐惧。
因为这300亿里的绝大部分,来自API调用。而API,本质上是一种极度危险的商业模式。
为什么?因为API意味着你的客户正在用你的能力,建造他们自己的产品。
今天他们调用Claude的接口做了一个AI客服平台,明天做了一个AI写作工具,后天做了一个AI编程助手。
每一个成功的客户,都在你的地基上盖起自己的大楼。听起来很美——直到有一天,另一家模型公司提供了更便宜、差不多好用的API,你的客户会在一夜之间集体迁移。

这就是「模型商品化」的噩梦:当模型层的差异越来越小,API定价就变成了一场没有赢家的价格战。
OpenAI感受到了这种恐惧,所以它疯狂做C端产品——ChatGPT、GPTs、自定义助手。谷歌感受到了这种恐惧,所以它把Gemini塞进了搜索、邮箱、文档等每一个自家产品。
它们都在做同一件事:在模型变成白菜价之前,把自己变成一个用户离不开的平台。
Anthropic的全栈构建器,是同一逻辑的最激进版本。
它的潜台词是:
与其等别人用我的API在上面建一个平台,然后等模型降价的那天把我一脚踢开——不如我自己先把平台建了。
你不用调我的API了,你直接在我的平台上造App吧。你的用户数据在我这里,你的工作流在我这里,你的部署环境在我这里。到那时候,你想换模型?可以,但你的整个业务都得重来。
这不是产品创新,这是生存本能。
300亿的营收证明了Anthropic有能力赚钱,但泄露图暴露了Anthropic真正的焦虑——光会赚钱不够,得让别人离不开你。
收尾:星空与幻象
让我们暂且放下商业叙事,回归技术本质。
目前最先进的大模型——无论是Claude、GPT还是Gemini——其能力水平约达到70%的完成度。过去半年里,这一指标的上升速度已明显放缓。
从70%到100%的突破,不在于刷榜或提升几个百分点的GPQA分数,而在于成为不可或缺的基础设施——就像电网一样,用户无需了解发电厂的技术细节,只需知道按下开关灯就会亮,打开空调就能制冷。
Anthropic推出的全栈构建器,首次展现了一家AI公司正认真探索这条"基础设施化"的道路。
他们不再沉迷于"我的模型比你聪明0.1分"的虚荣竞赛,而是直面更核心的问题:如何让十亿人在无意识中,每天都使用我们的产品?
因为AI竞赛的终极胜负,从来不由考试分数决定,而取决于谁能率先成为那张人人都离不开的电网。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)