摘要:Anthropic 旗舰模型 Claude Mythos 的架构从未公开,但22岁创业者 Kye Gomez 用两天时间,从公开论文和社区讨论出发,理论复现了整套系统并开源。核心假设是"循环深度变换器"——同一批参数反复循环推理,不输出中间 token,直接在隐空间里完成多步思考。仓库已收获2800星,代码可直接安装运行。

上周末,我刷到一个 GitHub 仓库,愣了好几秒。

仓库名叫 OpenMythos。作者是 Kye Gomez,22岁,Swarms AI 的 CEO。他做了一件事:把 Anthropic 至今没有公开过任何技术细节的旗舰模型 Claude Mythos,从零开始,理论复现了一遍。

两天,2800 颗星。

图片

Claude Mythos 是什么来头

先说背景。今年3月底,Anthropic 的 CMS 系统出了个意外——一个包含三千个资源的文件夹被意外设成了公开访问。里面有 Claude Mythos 的发布博客草稿。

消息一出,社区炸了。

草稿透露的信息不多,但已经够震撼:Mythos 是 Anthropic "迄今为止构建的最强大模型",甚至比现有的 Opus 层级更贵、更强。还有个内部代号叫 Capybara。

但架构是什么?Anthropic 什么都没说,只有一句话:**"研究敏感信息"**。

然后基准分跑出来了。Claude Mythos 在 GraphWalks BFS(一个考验超长程图推理能力的测试,上下文达到 256K-1M token)上拿了 **80%**。对比一下:GPT-5.4 是 21.4%,Claude Opus 4.6 是 38.7%。

差距大到不像同一个时代的产品。

社区开始猜测:这东西的底层逻辑,根本就不一样。

有人找到了答案

图片

Kye 找到的答案,叫 循环深度变换器(Recurrent-Depth Transformer,RDT)——也有人叫它 Looped Transformer(循环变换器)。

这个理论不是他凭空想出来的。背后有一篇 Parcae 论文(2026年4月),有 ByteDance 的 Ouro 项目,有好几篇学术研究,还有 Twitter/X 上一群 AI 研究者连续几天的公开推演。

Kye 把所有线索拼在一起,写成了 OpenMythos。

核心思路是这样的:

普通的 Transformer 把层叠起来——比如用200层,就是200组不同的参数跑一遍。而 Looped Transformer 不这样干:它只用少数几层,但把这些层反复跑很多次,每次循环都用同一组参数,但更新一次内部状态。

输入
  ↓
[Prelude 前奏层]        — 普通 Transformer,只跑一次
  ↓
[循环块 Recurrent Block] — 这一段,反复跑 T 次
  ↑_______↓              (每次循环更新隐状态 h)
  ↓
[Coda 尾奏层]           — 普通 Transformer,只跑一次
  ↓
输出

每一次循环,更新规则长这样:

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

e 是编码后的原始输入,每次循环都注入进来,防止模型"跑偏"。A 和 B 是可学习的参数,控制状态怎么演化。

用人话说:模型在"想"这件事,不需要把中间步骤说出来,全程在脑子里转

这就是为什么 Mythos 在超长链推理上远超其他模型——它跑的不是更多的参数,是更深的"思考循环"。推理时想多跑几圈就多跑几圈,难题多转几圈,简单题少转几圈,参数量不变,推理深度随时调整。

图片

这个想法有多炸裂

Parcae 论文里有一组数据:770M 参数的循环变换器,推理质量能打平 1.3B 参数的普通变换器。

同样的效果,参数量省了一半

更有意思的是推理能力的扩展方式。普通模型要提升推理深度,只能加参数、加层——这需要更多存储、更多显存、更贵的硬件。但循环模型不同,加推理深度只需要多循环几次,参数量不动,算力按需分配。

这解释了 Mythos 在 GraphWalks 上的统治力:它不是靠"更大的模型"赢的,是靠"更多的思考圈"赢的。

还有一件事值得注意:每次循环,本质上相当于一步"隐式思维链"。不是输出 token 的那种思维链——是在连续的隐空间里完成的推理。每一步可以同时保留多个可能的方向,像在脑子里做广度优先搜索,而不是押注在某一条路上。

Kye 做了什么

Kye 不是简单地写了篇博客说"我猜 Mythos 是这样的"。他把整套架构实现了出来,打包成 Python 库,发到了 PyPI。

pip install open-mythos

装完就能跑:

from open_mythos.main import OpenMythos, MythosConfig

cfg = MythosConfig(
    vocab_size=1000,
    dim=256,
    n_heads=8,
    max_loop_iters=4,
    ...
)
model = OpenMythos(cfg)
logits = model(ids, n_loops=4)

参数规模从 1B 到 1T 都有预设配置,1B、3B、10B、50B、100B、500B、1T,一行代码切换。训练脚本也开源了,用 FineWeb-Edu 数据集,支持单卡和多卡。

仓库还认真解决了一个训练稳定性问题——循环变换器有个出名的毛病,训练容易爆炸。解决方案来自控制论:把注入参数 A 的谱半径限制在1以内,用数学手段保证稳定性,而不是靠调参碰运气。

整个仓库,文档、代码、训练脚本,一个人写完,从立项到发布,两天。

说说 Kye 这个人

Kye Gomez 在他网站上写着:21岁,要"征服宇宙"。

夸张?也许。但他的 GitHub 真的在说话:Swarms 框架(企业级多智能体系统)、Zeta(神经网络框架)、AI 论文阅读清单……大多数是他一个人写的,全部开源。

OpenMythos 仓库到现在(2026年4月20日)还在更新,贡献者只有他一个人,2800 颗星,495 个 fork,14 个 open issue。按这个节奏,接下来可能会有社区跟进,真的把这个架构训练出来。

这件事最有意思的地方不是"猜对了没有"——毕竟没人能确认,Anthropic 不会出来说话。

有意思的是:一个22岁的人,不靠内部资料,只靠公开论文和社区讨论,就把一个顶级 AI 实验室的神秘旗舰模型,拼出了一个可运行的实现。

这才是 open source 真正的意思。

你怎么看这件事?Kye 的猜测靠谱吗?还是说 Anthropic 另有玄机?

欢迎评论区聊——特别想听听做模型训练的朋友的判断。

延伸阅读

  • OpenMythos 开源地址:github.com/kyegomez/OpenMythos

  • Parcae 论文:arxiv.org/abs/2604.12946

  • 核心论文《Reasoning with Latent Thoughts》:arxiv.org/abs/2502.17416

我是顾北,关注我,获取更多好玩好用的开源仓库!

谢谢你阅读我的文章~

我们下期再见!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐