22岁小伙两天开源复现了 Claude Mythos，Anthropic 沉默了。

yfj-unicorn

445人浏览 · 2026-04-21 20:12:02

yfj-unicorn · 2026-04-21 20:12:02 发布

摘要：Anthropic 旗舰模型 Claude Mythos 的架构从未公开，但22岁创业者 Kye Gomez 用两天时间，从公开论文和社区讨论出发，理论复现了整套系统并开源。核心假设是"循环深度变换器"——同一批参数反复循环推理，不输出中间 token，直接在隐空间里完成多步思考。仓库已收获2800星，代码可直接安装运行。

上周末，我刷到一个 GitHub 仓库，愣了好几秒。

仓库名叫 OpenMythos。作者是 Kye Gomez，22岁，Swarms AI 的 CEO。他做了一件事：把 Anthropic 至今没有公开过任何技术细节的旗舰模型 Claude Mythos，从零开始，理论复现了一遍。

两天，2800 颗星。

Claude Mythos 是什么来头

先说背景。今年3月底，Anthropic 的 CMS 系统出了个意外——一个包含三千个资源的文件夹被意外设成了公开访问。里面有 Claude Mythos 的发布博客草稿。

消息一出，社区炸了。

草稿透露的信息不多，但已经够震撼：Mythos 是 Anthropic "迄今为止构建的最强大模型"，甚至比现有的 Opus 层级更贵、更强。还有个内部代号叫 Capybara。

但架构是什么？Anthropic 什么都没说，只有一句话：**"研究敏感信息"**。

然后基准分跑出来了。Claude Mythos 在 GraphWalks BFS（一个考验超长程图推理能力的测试，上下文达到 256K-1M token）上拿了 **80%**。对比一下：GPT-5.4 是 21.4%，Claude Opus 4.6 是 38.7%。

差距大到不像同一个时代的产品。

社区开始猜测：这东西的底层逻辑，根本就不一样。

有人找到了答案

Kye 找到的答案，叫 循环深度变换器（Recurrent-Depth Transformer，RDT）——也有人叫它 Looped Transformer（循环变换器）。

这个理论不是他凭空想出来的。背后有一篇 Parcae 论文（2026年4月），有 ByteDance 的 Ouro 项目，有好几篇学术研究，还有 Twitter/X 上一群 AI 研究者连续几天的公开推演。

Kye 把所有线索拼在一起，写成了 OpenMythos。

核心思路是这样的：

普通的 Transformer 把层叠起来——比如用200层，就是200组不同的参数跑一遍。而 Looped Transformer 不这样干：它只用少数几层，但把这些层反复跑很多次，每次循环都用同一组参数，但更新一次内部状态。

输入
  ↓
[Prelude 前奏层]        — 普通 Transformer，只跑一次
  ↓
[循环块 Recurrent Block] — 这一段，反复跑 T 次
  ↑_______↓              （每次循环更新隐状态 h）
  ↓
[Coda 尾奏层]           — 普通 Transformer，只跑一次
  ↓
输出

每一次循环，更新规则长这样：

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

e 是编码后的原始输入，每次循环都注入进来，防止模型"跑偏"。A 和 B 是可学习的参数，控制状态怎么演化。

用人话说：模型在"想"这件事，不需要把中间步骤说出来，全程在脑子里转。

这就是为什么 Mythos 在超长链推理上远超其他模型——它跑的不是更多的参数，是更深的"思考循环"。推理时想多跑几圈就多跑几圈，难题多转几圈，简单题少转几圈，参数量不变，推理深度随时调整。

这个想法有多炸裂

Parcae 论文里有一组数据：770M 参数的循环变换器，推理质量能打平 1.3B 参数的普通变换器。

同样的效果，参数量省了一半。

更有意思的是推理能力的扩展方式。普通模型要提升推理深度，只能加参数、加层——这需要更多存储、更多显存、更贵的硬件。但循环模型不同，加推理深度只需要多循环几次，参数量不动，算力按需分配。

这解释了 Mythos 在 GraphWalks 上的统治力：它不是靠"更大的模型"赢的，是靠"更多的思考圈"赢的。

还有一件事值得注意：每次循环，本质上相当于一步"隐式思维链"。不是输出 token 的那种思维链——是在连续的隐空间里完成的推理。每一步可以同时保留多个可能的方向，像在脑子里做广度优先搜索，而不是押注在某一条路上。

Kye 做了什么

Kye 不是简单地写了篇博客说"我猜 Mythos 是这样的"。他把整套架构实现了出来，打包成 Python 库，发到了 PyPI。

pip install open-mythos

装完就能跑：

from open_mythos.main import OpenMythos, MythosConfig

cfg = MythosConfig(
    vocab_size=1000,
    dim=256,
    n_heads=8,
    max_loop_iters=4,
    ...
)
model = OpenMythos(cfg)
logits = model(ids, n_loops=4)

参数规模从 1B 到 1T 都有预设配置，1B、3B、10B、50B、100B、500B、1T，一行代码切换。训练脚本也开源了，用 FineWeb-Edu 数据集，支持单卡和多卡。

仓库还认真解决了一个训练稳定性问题——循环变换器有个出名的毛病，训练容易爆炸。解决方案来自控制论：把注入参数 A 的谱半径限制在1以内，用数学手段保证稳定性，而不是靠调参碰运气。

整个仓库，文档、代码、训练脚本，一个人写完，从立项到发布，两天。