22岁小伙两天开源复现了 Claude Mythos,Anthropic 沉默了。
摘要:Anthropic 旗舰模型 Claude Mythos 的架构从未公开,但22岁创业者 Kye Gomez 用两天时间,从公开论文和社区讨论出发,理论复现了整套系统并开源。核心假设是"循环深度变换器"——同一批参数反复循环推理,不输出中间 token,直接在隐空间里完成多步思考。仓库已收获2800星,代码可直接安装运行。
上周末,我刷到一个 GitHub 仓库,愣了好几秒。
仓库名叫 OpenMythos。作者是 Kye Gomez,22岁,Swarms AI 的 CEO。他做了一件事:把 Anthropic 至今没有公开过任何技术细节的旗舰模型 Claude Mythos,从零开始,理论复现了一遍。
两天,2800 颗星。

Claude Mythos 是什么来头
先说背景。今年3月底,Anthropic 的 CMS 系统出了个意外——一个包含三千个资源的文件夹被意外设成了公开访问。里面有 Claude Mythos 的发布博客草稿。
消息一出,社区炸了。
草稿透露的信息不多,但已经够震撼:Mythos 是 Anthropic "迄今为止构建的最强大模型",甚至比现有的 Opus 层级更贵、更强。还有个内部代号叫 Capybara。
但架构是什么?Anthropic 什么都没说,只有一句话:**"研究敏感信息"**。
然后基准分跑出来了。Claude Mythos 在 GraphWalks BFS(一个考验超长程图推理能力的测试,上下文达到 256K-1M token)上拿了 **80%**。对比一下:GPT-5.4 是 21.4%,Claude Opus 4.6 是 38.7%。
差距大到不像同一个时代的产品。
社区开始猜测:这东西的底层逻辑,根本就不一样。
有人找到了答案

Kye 找到的答案,叫 循环深度变换器(Recurrent-Depth Transformer,RDT)——也有人叫它 Looped Transformer(循环变换器)。
这个理论不是他凭空想出来的。背后有一篇 Parcae 论文(2026年4月),有 ByteDance 的 Ouro 项目,有好几篇学术研究,还有 Twitter/X 上一群 AI 研究者连续几天的公开推演。
Kye 把所有线索拼在一起,写成了 OpenMythos。
核心思路是这样的:
普通的 Transformer 把层叠起来——比如用200层,就是200组不同的参数跑一遍。而 Looped Transformer 不这样干:它只用少数几层,但把这些层反复跑很多次,每次循环都用同一组参数,但更新一次内部状态。
输入
↓
[Prelude 前奏层] — 普通 Transformer,只跑一次
↓
[循环块 Recurrent Block] — 这一段,反复跑 T 次
↑_______↓ (每次循环更新隐状态 h)
↓
[Coda 尾奏层] — 普通 Transformer,只跑一次
↓
输出
每一次循环,更新规则长这样:
h_{t+1} = A·h_t + B·e + Transformer(h_t, e)
e 是编码后的原始输入,每次循环都注入进来,防止模型"跑偏"。A 和 B 是可学习的参数,控制状态怎么演化。
用人话说:模型在"想"这件事,不需要把中间步骤说出来,全程在脑子里转。
这就是为什么 Mythos 在超长链推理上远超其他模型——它跑的不是更多的参数,是更深的"思考循环"。推理时想多跑几圈就多跑几圈,难题多转几圈,简单题少转几圈,参数量不变,推理深度随时调整。

这个想法有多炸裂
Parcae 论文里有一组数据:770M 参数的循环变换器,推理质量能打平 1.3B 参数的普通变换器。
同样的效果,参数量省了一半。
更有意思的是推理能力的扩展方式。普通模型要提升推理深度,只能加参数、加层——这需要更多存储、更多显存、更贵的硬件。但循环模型不同,加推理深度只需要多循环几次,参数量不动,算力按需分配。
这解释了 Mythos 在 GraphWalks 上的统治力:它不是靠"更大的模型"赢的,是靠"更多的思考圈"赢的。
还有一件事值得注意:每次循环,本质上相当于一步"隐式思维链"。不是输出 token 的那种思维链——是在连续的隐空间里完成的推理。每一步可以同时保留多个可能的方向,像在脑子里做广度优先搜索,而不是押注在某一条路上。
Kye 做了什么
Kye 不是简单地写了篇博客说"我猜 Mythos 是这样的"。他把整套架构实现了出来,打包成 Python 库,发到了 PyPI。
pip install open-mythos
装完就能跑:
from open_mythos.main import OpenMythos, MythosConfig
cfg = MythosConfig(
vocab_size=1000,
dim=256,
n_heads=8,
max_loop_iters=4,
...
)
model = OpenMythos(cfg)
logits = model(ids, n_loops=4)
参数规模从 1B 到 1T 都有预设配置,1B、3B、10B、50B、100B、500B、1T,一行代码切换。训练脚本也开源了,用 FineWeb-Edu 数据集,支持单卡和多卡。
仓库还认真解决了一个训练稳定性问题——循环变换器有个出名的毛病,训练容易爆炸。解决方案来自控制论:把注入参数 A 的谱半径限制在1以内,用数学手段保证稳定性,而不是靠调参碰运气。
整个仓库,文档、代码、训练脚本,一个人写完,从立项到发布,两天。
说说 Kye 这个人
Kye Gomez 在他网站上写着:21岁,要"征服宇宙"。
夸张?也许。但他的 GitHub 真的在说话:Swarms 框架(企业级多智能体系统)、Zeta(神经网络框架)、AI 论文阅读清单……大多数是他一个人写的,全部开源。
OpenMythos 仓库到现在(2026年4月20日)还在更新,贡献者只有他一个人,2800 颗星,495 个 fork,14 个 open issue。按这个节奏,接下来可能会有社区跟进,真的把这个架构训练出来。
这件事最有意思的地方不是"猜对了没有"——毕竟没人能确认,Anthropic 不会出来说话。
有意思的是:一个22岁的人,不靠内部资料,只靠公开论文和社区讨论,就把一个顶级 AI 实验室的神秘旗舰模型,拼出了一个可运行的实现。
这才是 open source 真正的意思。
你怎么看这件事?Kye 的猜测靠谱吗?还是说 Anthropic 另有玄机?
欢迎评论区聊——特别想听听做模型训练的朋友的判断。
延伸阅读
-
OpenMythos 开源地址:github.com/kyegomez/OpenMythos
-
Parcae 论文:arxiv.org/abs/2604.12946
-
核心论文《Reasoning with Latent Thoughts》:arxiv.org/abs/2502.17416
我是顾北,关注我,获取更多好玩好用的开源仓库!
谢谢你阅读我的文章~
我们下期再见!
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)