强到不敢全给你:拆解 Anthropic 的 Claude Fable 5 与 Mythos 5
强到不敢全给你:拆解 Anthropic 的 Claude Fable 5 与 Mythos 5
2026 年 6 月 9 日,Anthropic 一次性发布了两个同根同源的模型:面向所有人的 Claude Fable 5,以及仅限受信任伙伴的 Claude Mythos 5。这是它第一次把「Mythos 级」能力推向公众,同时也第一次公开承认:有些能力强到必须先上锁,才敢交出去。
本文事实来源:Anthropic 官方公告(https://www.anthropic.com/news/claude-fable-5-mythos-5)+ 官方推文线程(@claudeai 2026-06-09)+ 官方基准对比表,并经 TechCrunch、CNBC、VentureBeat、CNN、Fortune 等多家报道交叉核实。立场:诚实拆解、不吹不黑——讲清它有多强,也讲清「自报基准」「安全版=会降级的版本」和「访问代价是数据留存」这几件容易被跑分盖过的事。
一句话先说清
同一个大脑,两套权限。
- Claude Fable 5(寓言 5):把「神话级」模型做了安全处理后的公开版,6 月 9 日起全球所有人可用。它是戴着镣铐跳舞的版本。
- Claude Mythos 5(神话 5):同一个底层模型,但解除了部分防护,目前只升级给已获批的少数伙伴。它是解开镣铐的版本。
镣铐的有无,决定了谁能用。这本身,就是这次发布最值得聊的点。
一、来龙去脉:从被锁起来,到端到所有人面前
今年 4 月,Anthropic 放出 Claude Mythos Preview,没有公开发售。理由很直接:它在网络安全上的能力强到危险。于是 Mythos 被关进一个叫 Project Glasswing 的小圈子,只给极少数关键基础设施和网络防御伙伴。官方称,最近这个圈子刚扩大到 15 个以上国家、约 150 家新机构。
两个月后的今天,Anthropic 反手把同一级别的能力,端到了所有人面前——只不过,是带着锁端出来的。
二、它到底有多强(官方基准表 + 客户实测)
官方对比表(取 Mythos 5 / Fable 5 中较高分,对手为 Opus 4.8、GPT‑5.5、Gemini 3.1 Pro):
| 能力 / 基准 | Fable 5 | Opus 4.8 | GPT‑5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Agentic 编码 · SWE‑Bench Pro | 80.3% | 69.2% | 58.6% | 54.2% |
| Agentic 编码 · Terminal‑Bench 2.1 | 88.0% | 82.7% | 83.4%(Codex) | 70.7%(Gemini CLI) |
| 前沿编码 · FrontierCode (Diamond) | 29.3% | 13.4% | 5.7% | — |
| 知识工作 · GDPval‑AA | 1932 | 1890 | 1769 | 1314 |
| 多学科推理 · HLE(带工具) | 64.5% | 57.9% | 52.2% | 51.4% |
| 网络安全 · ExploitBench | 78.0% | 40.0% | 34.0% | — |
| 健康 · HealthBench Professional | 66.0% | 56.9% | 51.8% | — |
具体来源如图:
官方一句话总结:任务越长、越复杂,Fable 5 领先得越多。 它指向的不是单点跑分,而是长程、复杂、需要自我校验的任务上的代际差距。
客户实测(官方引用,多源可查):
- Hex:第一个在它那套复杂长程分析基准上拿到 90% 以上的模型。
- Base44:更擅长「一次性产出完整应用」。
- Genspark:在自家评测里击败了所有其他模型。
- Rakuten:在最高 effort 下,Fable 5 会「反思并验证自己的工作」,这种额外思考「自己赚回了成本」。
⚠️ 冷静一点:这些是 Anthropic 自报 + 自家客户的基准。就在不久前,OpenAI 自己都因数据污染弃用了 SWE‑bench Verified。所以「全面 SOTA」该理解成「在它自己挑的测法上领先」——榜单 ≠ 你的体验,真正算数的是拿你最难的真实任务去压测。
两个值得记住的数字:SWE‑Bench Pro 80.3%(碾压上一代)和 ExploitBench 78%(几乎是 Opus 4.8 的两倍)——后者,正是它要被锁的原因。
三、护栏:这次发布真正的主角
如果只看跑分,这就是一篇「我们又变强了」的平淡公告。Fable 5 的特别,在于护栏被当成产品的一部分来设计和宣传。
机制:碰敏感,就降级。 Fable 5 内置分类器,检测网络安全、生物化学、以及模型蒸馏(distillation)三类请求。一旦命中,这条请求不再由 Fable 5 回答,而是回退到次强的 Claude Opus 4.8。官方说至少 95% 的会话全程跑在 Fable 自己身上,触发回退的会话平均低于 5%,且每次都会告诉用户。
说人话:普通人手里的「安全版」,本质是一个「一碰敏感话题就自动降级到 Opus 4.8」的版本。
把「蒸馏」也列进高风险,耐人寻味。 这是为了防止他人用 Fable 的输出去训练一个山寨小模型——既是安全考量,也是商业护城河。背景是:2026 年 2 月,Anthropic 公开指控 DeepSeek、Moonshot AI、MiniMax 等中国 AI 实验室用大量假账号「蒸馏」Claude 的能力(OpenAI 同期也有类似指控)。这条蒸馏护栏,多少是那场争议的延续。
注:上述为 Anthropic 单方指控,相关公司有否认空间,这里只陈述「它这么指控过」这一事实,不替任何一方下结论。
护栏可靠吗? 官方说发布前跑了外部漏洞赏金,超过 1000 小时测试没找到通用越狱(universal jailbreak);但也坦白,新型攻击仍可能出现。
四、最容易被跑分盖过、却影响最深的一条:强制 30 天数据留存
正因为「仍可能被攻破」,这次发布附带了一条政策:对 Mythos 级模型的所有流量,强制 30 天数据留存——即便你此前签的是零留存协议。 Anthropic 承诺不拿这些数据训练模型,只用于「防御复杂和新型攻击(包括新越狱)」和「减少误报」。
这可能开了个行业先例:越强的模型,访问的代价,是用数据留存换来的安全监控。 能力的上限被解锁,隐私的下限也被重新定义。对处理敏感数据的企业,这是一笔要认真算的账。
五、价格与可用性:看起来开放,用起来要钱
- 价格:每百万输入 10 美元 / 每百万输出 50 美元——是 Opus 4.8(5/25)的整整两倍。(官方另有一句「不到 Mythos Preview 的一半」,那是另一个参照物,别混。)
- 免费试驾期:即日起到 6 月 22 日,Fable 5 免费含在 Pro、Max、Team 和按席位的 Enterprise 里;6 月 23 日起撤下,之后要消耗 usage credits。换句话说,想低成本验证它,6 月 22 日前是窗口期。
- 官方说预期需求「极高且难以预测」,这个限时更像一次受控的产能放量,而非长期慷慨。
成本提醒:输出 50 美元/百万,叠加它「把一个请求拆成多个子任务」的推理方式,在多 agent 工作流里烧钱速度相当可观。值不值,得拿真实任务去算。
六、被解锁的 Mythos 5:能力的另一面
Mythos 5(解锁版)据官方称,在科研上更猛:内部蛋白质设计专家用它,把药物设计的部分环节加速了约 10 倍,14 个蛋白靶点里有 9 个产出了强候选。
注意限定语:是「部分环节、约 10 倍」,不是全流程,也别夸成「刷新世界纪录」。
这也解释了 Mythos 5 为什么只给少数人——它解除的,恰恰是生物化学这类「两用」风险最高的防护。
七、一个更大的背景:发布时机很微妙
这次发布卡在两件事的夹缝里:
- Anthropic 正被普遍预期备战 IPO(与 OpenAI、SpaceX 同处这波 AI 上市潮)。把最强能力公开,既兑现了它「最终要大规模部署 Mythos 级模型」的说法,也是在上市前秀肌肉。
- 就在几天前(6 月 5 日),Anthropic 还公开呼吁全行业建一个「刹车踏板」,警告 AI 进步太快、可能很快实现递归自我改进(RSI)——不需要人类介入就能自我提升。
一边喊「AI 正变得太危险、该装刹车」,一边把自家最强模型交给公众。 这中间的张力,Anthropic 用「护栏」来调和:不是不放,而是带着锁放。
Fable 与 Mythos 这对名字本身就是隐喻——**寓言(Fable)**是讲给所有人听、被驯化过的故事;**神话(Mythos)**是更原始、更有力量、也更危险的版本,只在少数人手里流传。
八、对中文 AI 开发者,几条现实建议
- 长程任务是真卖点,但要用在刀刃上。 短平快单轮问答,Opus 4.8 性价比更高;跨多文件重构、长链 agent pipeline、需要自我反思纠错的活,Fable 5 的代际优势才显现。别无脑全量切换。
- 价格 + 留存会改成本结构。 输出翻倍 + 强制 30 天留存——如果你的 agent 工作流经手客户敏感数据,合规上要单独评估这条留存政策。
- 蒸馏护栏,开源作者留个心眼。 想用 Fable 输出去训练/微调自己的小模型,这条路会被堵。
- 免费窗口就是现在(至 6/22)。 Max/Pro 直接可用,拿一两个你手头最长、最难、Opus 也搞不太定的真实任务去压测,别跑 demo。
落点
Fable 5 / Mythos 5 真正的看点,不是又一个「刷榜最强」,而是 Anthropic 摆上桌的问题:当模型强到一定程度,要不要、以及怎么「分级」地放给不同的人?
「强到不敢全给你」——你可以读成负责任的克制,也可以读成变相阉割 + 高级营销(毕竟「强到要上锁」本身就是最好的广告)。能力的天花板被捅破之后,真正的竞争,转移到了「怎么安全地把它交出去」这件事上。
这道题没有标准答案。你站哪边?
素材:Anthropic 官方公告及推文线程(@claudeai,2026-06-09)+官方基准对比表,经 TechCrunch / CNBC / VentureBeat / CNN / Fortune 等 6/9 前后报道交叉核实。涉及第三方(含中国实验室)的指控均为相关方单方主张,本文只陈述「曾如此主张」之事实。定价、留存与订阅可用性可能随产能调整变化。本文为诚实科普,不构成使用或投资建议。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐




所有评论(0)