Claude降智，是自杀还是装死？

LiuSid7

381人浏览 · 2026-04-17 13:51:22

LiuSid7 · 2026-04-17 13:51:22 发布

Anthropic遭遇重创？

最新动态显示，AMD的AI总监证实Claude Code性能大幅下滑，明确指出"已无法胜任复杂任务"。

更令人震惊的是，BridgeBench评测报告再次揭露了Anthropic的严重问题：

数据显示：Claude Opus 4.6的全球排名从第2名暴跌至第10名：

准确率从83.3%骤降至68.3%，同时幻觉率飙升近一倍，增幅高达98%。

那一刻，Claude降智变蠢、用户体验变差，冰冷的数字终结了所有用户的疑问——

不是自己的问题，Claude Opus 4.6确实变差了！

Claude用户感觉上当受骗了！

想象一下，如果你依赖这个模型处理任何关键任务，而他们却可以在不告知你的情况下，直接换成一个差得多的模型。

但用户质疑：「这怎么可能合法？」，信任开始破灭，对Anthropic的嘲讽铺天盖地，连最忠实的拥趸都开始动摇。

但就在全网群嘲的另一边，Anthropic王炸出来了——疑似内部工具界面截图流出。

画面显示的东西，让所有关于「Claude变笨了」的讨论瞬间变得无关紧要——Claude Projects正在测试一套完整的全栈应用构建系统。

不是帮你写代码，是帮你造产品。

所有人盯着模型分数吵架的时候，Anthropic已经换了牌桌。

泄露图里藏着什么？

先说那张截图到底拍到了什么。

根据多方爆料交叉验证，泄露画面展示的是Claude Projects内部正在测试的一套「一键式开发套件」。

界面上赫然列着一排预置模板：AI聊天机器人、互动小游戏、商业落地页、SaaS数据仪表盘……几乎覆盖了独立开发者最高频的需求场景。

但模板只是表面。

真正让人倒吸一口冷气的是模板背后的全栈能力链——

身份验证？勾选即配。

数据库？选型即建。

前端界面？描述即生成。

部署上线？一键搞定。

这不是「AI辅助编程」，而是「AI取代编程」——连技能提炼的步骤都省去了。

要理解这句话的分量，必须看清当前AI编程工具的格局分层：

Cursor的定位是「提升IDE内的编码效率」——加速程序员的工作流程，开发者仍是核心。
Replit的定位是「让零基础用户也能编程」——降低学习门槛，但仍需理解代码逻辑。
Vercel的定位是「实现无感部署」——解决最终环节，前期开发仍需自主完成。

它们各自聚焦软件开发链条的特定环节，并将该环节优化到极致。

而Claude的野心，与它们根本不在同一维度。

Cursor让程序员效率提升10倍，Replit让素人也能编码——但Claude要让「写代码」这个行为彻底消失。

前者是效率革命，后者是行业颠覆。

据泄露信息，支撑这一系统的底层引擎正是那个被全网嘲讽「降智」的Opus 4.6模型。

Mythos「不够强」或许是战略选择？

一个大胆却合理的推测是：

Anthropic或许从未将Mythos的排行榜表现视为核心目标。

这绝非为平庸找借口，而是商业逻辑使然。

当企业战略锚定「全栈应用平台」时，基础模型的定位必然重构——

它不必成为「最强大脑」，只需达到「实用门槛」。

平台之争的胜负法则早已明晰：

Windows战胜Mac凭借软件生态而非系统优雅
Android击溃Windows Phone依靠开发者规模而非内核先进

平台战争的制胜关键从来不是「最优」，而是「最普及」。

Dario Amodei的公开表态「编码将死」曾被视为预言，如今全栈构建器的泄露证实：

这并非预测，而是正在落地的战略蓝图。

由此反观Mythos的测试数据：

HLE领先GPT-5.4 Pro（56.8 vs 42.7）
GPQA持平（94.4 vs 94.5）
BrowseComp被反超（89.3 vs 86.9）

这些看似波动的表现，实则是战略意图的精准投射。

它不是「Anthropic输了」，而是「Anthropic选择性地不在这里发力了」。

把有限的算力资源投入到排行榜军备竞赛中去维护一个虚幻的「第一名」标签，还是把算力倾斜给全栈构建器这种能直接创造商业价值的产品？

对一家年收入300亿美金、需要向投资人证明商业化能力的公司来说，这个选择并不难。

模型够用就行，平台锁定才是护城河。

商业竞争的残酷真相就是：用户不关心你的GPQA分数是94.4还是94.5，用户关心的是「我说一句话，App能不能跑起来」。

年收300亿之后的恐惧

Anthropic的年化收入刚刚突破300亿美金，超过了OpenAI。

15个月内，Anthropic年化收入从10亿美元涨到300亿美元

这是一个足以让任何创业公司开香槟的数字。

但如果你是Dario Amodei，你此刻最大的情绪不是庆祝，而是恐惧。

因为这300亿里的绝大部分，来自API调用。而API，本质上是一种极度危险的商业模式。

为什么？因为API意味着你的客户正在用你的能力，建造他们自己的产品。

今天他们调用Claude的接口做了一个AI客服平台，明天做了一个AI写作工具，后天做了一个AI编程助手。

每一个成功的客户，都在你的地基上盖起自己的大楼。听起来很美——直到有一天，另一家模型公司提供了更便宜、差不多好用的API，你的客户会在一夜之间集体迁移。

这就是「模型商品化」的噩梦：当模型层的差异越来越小，API定价就变成了一场没有赢家的价格战。

OpenAI感受到了这种恐惧，所以它疯狂做C端产品——ChatGPT、GPTs、自定义助手。谷歌感受到了这种恐惧，所以它把Gemini塞进了搜索、邮箱、文档等每一个自家产品。

它们都在做同一件事：在模型变成白菜价之前，把自己变成一个用户离不开的平台。

Anthropic的全栈构建器，是同一逻辑的最激进版本。

它的潜台词是：

与其等别人用我的API在上面建一个平台，然后等模型降价的那天把我一脚踢开——不如我自己先把平台建了。

你不用调我的API了，你直接在我的平台上造App吧。你的用户数据在我这里，你的工作流在我这里，你的部署环境在我这里。到那时候，你想换模型？可以，但你的整个业务都得重来。

这不是产品创新，这是生存本能。

300亿的营收证明了Anthropic有能力赚钱，但泄露图暴露了Anthropic真正的焦虑——光会赚钱不够，得让别人离不开你。

收尾：星空与幻象

让我们暂且放下商业叙事，回归技术本质。

目前最先进的大模型——无论是Claude、GPT还是Gemini——其能力水平约达到70%的完成度。过去半年里，这一指标的上升速度已明显放缓。

从70%到100%的突破，不在于刷榜或提升几个百分点的GPQA分数，而在于成为不可或缺的基础设施——就像电网一样，用户无需了解发电厂的技术细节，只需知道按下开关灯就会亮，打开空调就能制冷。

Anthropic推出的全栈构建器，首次展现了一家AI公司正认真探索这条"基础设施化"的道路。

他们不再沉迷于"我的模型比你聪明0.1分"的虚荣竞赛，而是直面更核心的问题：如何让十亿人在无意识中，每天都使用我们的产品？

因为AI竞赛的终极胜负，从来不由考试分数决定，而取决于谁能率先成为那张人人都离不开的电网。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

有哪些专业且非常好用的毕业论文写作辅助生成工具（提纲、初稿、降重、图表公式生成）？

AtomGit开源社区

大一学Java必看！static从报错到精通指南

AtomGit开源社区

《RAG技术的实现原理与落地实战》

摘要： RAG（检索增强生成）技术通过检索私有数据增强大模型生成能力，解决知识滞后、幻觉等问题。其核心流程分为离线构建（文档加载、分块、向量化存储）和在线推理（提问检索、生成回答）。本文从原理到实战，详解RAG技术栈（LangChain+Chroma+轻量Embedding模型），手把手实现多格式文档处理、智能分块、向量检索及Prompt优化问答链，并提供完整代码与高频问题解决方案。进阶方向包括混