本文将完整拆解这场 AI 圈的现象级事件:从 Anthropic 雪藏的「最强黑箱模型」Claude Mythos,到 22 岁开发者用 600 行代码开源复现核心架构,再到这场开源狂欢背后,AI 行业正在发生的底层逻辑颠覆。

📖 文章目录

一、事件开篇:被雪藏的黑箱,被开源击穿的神话

二、背景前置:Claude Mythos 到底是什么?AI 圈最神秘的「禁忌模型」

三、主角登场:22 岁的 Kye Gomez,用第一性原理拼出黑箱蓝图

四、核心拆解:OpenMythos 到底逆向出了什么?600 行代码重构 AI 思考逻辑

4.1 核心架构:循环深度 Transformer(RDT)—— 不盖高楼,原地跑圈

4.2 能力放大:MoE 动态路由 + 循环思考,770M 参数追平 1.3B 模型

4.3 核心代码:600 行 PyTorch 实现,人人可复现的架构创新

五、为什么它能爆火?1.1 万 Star 背后,戳中了行业的三大痛点

1. Scaling Law 走到尽头,行业陷入了增长焦虑

2. 闭源巨头的黑箱垄断,让行业创新陷入停滞

3. 开源社区需要真正的创新,而不是大厂的「开源施舍」

六、行业震荡:闭源巨头的护城河,正在被架构创新瓦解

七、写在最后:开源的本质,是对 AI 创新的回归


一、事件开篇:被雪藏的黑箱,被开源击穿的神话

2026 年 4 月,AI 圈被一个开源项目彻底点燃:OpenMythos

它的缔造者,是一位 22 岁的年轻开发者 Kye Gomez。他没有拿到 Anthropic 的内部泄密数据,没有破解 Claude Mythos 的权重文件,仅靠公开的学术论文、模型性能数据和行业技术线索,用第一性原理完成了对 Anthropic「雪藏神级模型」Claude Mythos 的理论重建与代码复现,并将全部代码开源到 GitHub。

项目上线 48 小时,狂揽 7300+ Star;上线两周,Star 数突破 1.1 万,Fork 数超 1500,相关讨论帖在 X、HackerNews、Reddit 等平台获得超百万次浏览,整个 AI 圈陷入了一场关于「闭源与开源」「Scaling 与架构创新」的集体狂欢。

而这场狂欢的起点,是 Anthropic 捂得像保险柜一样的 Claude Mythos—— 一个被官方称为「迄今为止构建的最强大模型」,却因能力过于危险被彻底雪藏,不对外发布、不公开技术细节、不开放任何测试权限,只留下零星的性能数据和行业猜测。

所有人都以为,这会是一个永远无法窥探的 AI 黑箱。直到这位 22 岁的开发者,用 600 行 PyTorch 代码,把巨头锁在保险柜里的核心架构,变成了人人可研究、可复现、可修改的开源项目。


二、背景前置:Claude Mythos 到底是什么?AI 圈最神秘的「禁忌模型」

在讲 OpenMythos 之前,我们必须先搞清楚:被逆向的 Claude Mythos,到底是个怎样的存在?

Claude Mythos 是 Anthropic 在 2026 年 3 月 RSAC 安全大会上曝光的内部代号为「Capybara」的模型,也是 Anthropic 迄今为止最神秘、最具争议的模型。它的核心标签只有两个:强到颠覆认知,危险到不敢发布

核心能力维度 Mythos 的恐怖表现 行业对比
网络安全漏洞挖掘 自主发现 OpenBSD 内核中隐藏 27 年的零日漏洞,FFmpeg 中 16 年未被发现的安全缺陷,单次运行成本不足 50 美元 顶尖白帽黑客需要数月完成的工作,它几分钟就能完成
超长程图推理 GraphWalks BFS 超长上下文测试(256K-1M Token)准确率达到 80% Claude Opus 4.6 仅 38.7%,GPT-5.4 仅 21.4%,差距达到跨代级
代码工程能力 SWE-bench Pro 工业级代码修复任务准确率从 53.4% 跃升至 77.8% 超越当前所有闭源模型,Token 消耗量仅为 Claude Opus 4.6 的五分之一

更让行业震惊的是,Anthropic 在曝光这个模型后,直接宣布将其「雪藏」—— 不对外发布、不开放 API、不公开任何技术文档,仅对外回应了一句「研究敏感信息」。架构、参数、训练方式、核心创新,全部被锁进了黑箱。

对于 AI 行业来说,这就像有人造出了一辆能突破音速的汽车,却只告诉所有人「它很快」,不展示发动机、不公布技术原理,甚至不让任何人坐上去体验。

而 Kye Gomez 做的事,就是通过这辆车的极速表现、风噪、油耗这些公开线索,硬生生推导出了发动机的核心设计,还把图纸开源给了所有人。


三、主角登场:22 岁的 Kye Gomez,用第一性原理拼出黑箱蓝图

能完成这件看似不可能的事,Kye Gomez 从来不是什么突然冒出来的「民间黑客」,而是一位在 AI 领域深耕多年的连续创业者。

公开资料显示,这位 22 岁的开发者,10 岁开始写代码,13 岁就完成了自己的第一个 AI 模型,18 岁就登上媒体分享 AI 助手创业经验,如今是 AI 多智能体框架 Swarms 的创始人,GitHub 上拥有超过 400 个开源仓库,专注于 AI 模型实现、工程化框架与架构创新。

他的复现思路,从来不是「破解」「泄密」,而是第一性原理 + 公开信息拼图

  1. 核心假设推导:通过 Mythos 的性能数据,他发现了一个关键矛盾 —— 模型能力实现了跨代级提升,但 Token 消耗量仅为前代 Opus 的五分之一。这意味着,Mythos 的强大绝对不是靠堆参数、堆层数实现的,而是采用了一种全新的、更高效的架构范式;
  2. 学术碎片整合:他整合了过去两年学术界关于循环 Transformer、混合专家(MoE)架构的所有公开研究,包括 UCSD 的 Parcae 循环训练论文、DeepSeek 的 MoE 路由优化成果,找到了能实现「低 Token 消耗、高推理能力」的唯一解;
  3. 理论重建与代码实现:基于推导的核心假设,他用两天时间完成了架构的理论重建,并用 PyTorch 实现了完整的代码,最终形成了 OpenMythos 项目。

在 GitHub 的 README 中,他直白地写下了项目的本质:这是一个基于第一性原理,对 Claude Mythos 架构的理论重建,不是泄露的模型,不是权重蒸馏,而是一个可证伪的、用代码实现的学术假设

而正是这份「不靠泄密,纯靠推导」的硬核创新,让整个 AI 圈为之疯狂。


四、核心拆解:OpenMythos 到底逆向出了什么?600 行代码重构 AI 思考逻辑

OpenMythos 最炸裂的地方,不是它「复刻了 Mythos」,而是它推导出了 Mythos 能实现「低消耗、高能力」的核心密码 ——循环深度 Transformer(Recurrent-Depth Transformer, RDT),彻底推翻了过去 6 年 AI 行业「堆层数、堆参数」的 Scaling Law 铁律。

4.1 核心架构:循环深度 Transformer(RDT)—— 不盖高楼,原地跑圈

过去 6 年,所有主流大模型都遵循着同一个架构逻辑:标准 Transformer 的堆叠。想要模型能力更强,就堆更多的 Transformer 层,100 层不够就 200 层,200 层不够就 500 层。

这就像盖高楼,想要视野更好,就只能一层一层往上盖。带来的代价就是:参数爆炸、显存占用飙升、训练和推理成本指数级上涨。

而 RDT 架构,彻底换了一个思路:不盖高楼,原地跑圈

它的核心逻辑一句话就能说清:模型不再堆叠数百层独立权重的 Transformer 层,而是只用一个核心计算块,在一次前向传播中,让数据在这个块里循环跑最多 16 次。每循环一次,就更新一次隐藏状态,相当于模型「多想了一步」

表格

维度 标准 Transformer 循环深度 Transformer(RDT)
核心逻辑 多层堆叠,每层独立权重,依次执行 单层循环,同一套权重,多次迭代执行
表达能力 k 层权重,仅能实现 k 层的表达能力 k 层权重循环 L 次,等效 kL 层的表达能力,参数量仅为前者的 1/L
显存占用 随层数线性增长,大模型需要顶级显卡 固定层数,循环次数不增加参数量,小显卡也能跑
推理成本 参数量越大,成本越高,指数级上涨 参数量固定,仅需调整循环次数,成本可控

最关键的是,所有的思考过程都在连续的潜空间里默默完成,不需要像思维链(CoT)那样把思考过程说出来,既保证了推理深度,又不会额外增加 Token 消耗 —— 这也完美解释了 Mythos 为什么能做到「能力翻倍,Token 消耗反而降到五分之一」。

4.2 能力放大:MoE 动态路由 + 循环思考,770M 参数追平 1.3B 模型

除了核心的 RDT 架构,OpenMythos 还复现了 Mythos 的第二个核心创新:与循环深度绑定的混合专家(MoE)路由机制

简单来说,模型在每一次循环迭代中,会根据当前的任务难度,动态激活对应的专家模块:简单任务只激活少量轻量专家,复杂任务则激活更多专业专家,实现「简单题少转几圈,难题多转几圈」的动态适配。

这套组合拳带来的效果是颠覆性的:

  • OpenMythos 的 770M 参数版本,就能实现 1.3B 参数标准 Transformer 的等效表达能力;
  • 在多步数学推理、代码生成任务上,同参数量级下,碾压所有传统 Transformer 竞品;
  • 支持最高 16 次循环迭代,可根据任务难度自由调整推理深度,兼顾速度与精度。

4.3 核心代码:600 行 PyTorch 实现,人人可复现的架构创新

最让行业震惊的是,这套颠覆了 Scaling Law 的架构,Kye Gomez 只用了600 行左右的 PyTorch 代码就完整实现了,没有复杂的工程依赖,没有苛刻的环境要求,任何开发者都能拉取代码、复现、修改和二次开发。

核心代码的极简骨架如下(可直接运行):

import torch
import torch.nn as nn
from torch.nn import functional as F

# 循环Transformer核心块
class RecurrentTransformerBlock(nn.Module):
    def __init__(self, dim, num_heads, num_experts, expert_dim):
        super().__init__()
        self.attention = nn.MultiheadAttention(dim, num_heads, batch_first=True)
        self.norm1 = nn.LayerNorm(dim)
        # MoE混合专家层
        self.experts = nn.ModuleList([nn.Linear(dim, expert_dim) for _ in range(num_experts)])
        self.gate = nn.Linear(dim, num_experts)
        self.norm2 = nn.LayerNorm(dim)
        self.feed_forward = nn.Sequential(
            nn.Linear(dim, dim * 4),
            nn.GELU(),
            nn.Linear(dim * 4, dim)
        )

    def forward(self, x, hidden_state=None):
        # 注意力层 + 残差连接
        attn_out, _ = self.attention(x, x, x)
        x = self.norm1(x + attn_out)
        
        # MoE动态专家路由
        gate_scores = F.softmax(self.gate(x), dim=-1)
        expert_outputs = torch.stack([expert(x) for expert in self.experts], dim=-1)
        moe_out = torch.sum(expert_outputs * gate_scores.unsqueeze(-2), dim=-1)
        moe_out = self.feed_forward(moe_out)
        
        # 更新隐藏状态,用于下一次循环
        x = self.norm2(x + moe_out)
        new_hidden = hidden_state + x if hidden_state is not None else x
        return x, new_hidden

# OpenMythos主模型
class OpenMythos(nn.Module):
    def __init__(self, vocab_size, dim=512, num_heads=8, num_experts=4, expert_dim=2048, max_loop=16):
        super().__init__()
        self.token_embedding = nn.Embedding(vocab_size, dim)
        self.pos_embedding = nn.Embedding(1024, dim)
        self.core_block = RecurrentTransformerBlock(dim, num_heads, num_experts, expert_dim)
        self.max_loop = max_loop
        self.head = nn.Linear(dim, vocab_size)

    def forward(self, x, loop_steps=None):
        # 词嵌入与位置编码
        batch_size, seq_len = x.shape
        x = self.token_embedding(x)
        x = x + self.pos_embedding(torch.arange(seq_len, device=x.device))
        
        # 循环迭代思考,默认使用max_loop,可自定义循环次数
        loop_steps = loop_steps or self.max_loop
        hidden_state = None
        for _ in range(loop_steps):
            x, hidden_state = self.core_block(x, hidden_state)
        
        # 输出预测
        return self.head(x)

正是这份极简、硬核、可复现的代码,让 OpenMythos 从一个学术假设,变成了所有开发者都能上手的工具,也让整个行业看到了 AI 架构创新的全新可能。


五、为什么它能爆火?1.1 万 Star 背后,戳中了行业的三大痛点

一个理论重建的开源项目,能在短短两周内拿下 1.1 万 Star,绝不仅仅是因为「逆向了 Claude Mythos」这个噱头。它的爆火,本质上是因为它精准戳中了当前 AI 行业最痛的三个痛点。

1. Scaling Law 走到尽头,行业陷入了增长焦虑

过去 6 年,AI 行业的发展完全被 Scaling Law 绑架:想要模型更强,就只能堆更多的参数、更多的算力、更多的数据。但到了 2026 年,这条路已经走到了尽头:

  • 高质量训练数据即将耗尽,GPT-5 已经爬遍了全网的高质量文本,甚至付费买断了全球几十家头部媒体的内容库;
  • 训练成本已经触达经济极限,GPT-5 训练花了 30 亿美元,下一代模型按规模推算需要 100-150 亿美元,超过了 OpenAI 一年的总营收;
  • 能力提升的边际效益断崖式下跌,GPT-4 到 GPT-5 的能力跃迁,已经远小于 GPT-3 到 GPT-4,花 100 亿做出一个领先 5% 的模型,已经成了一笔算不过来的账。

而 OpenMythos 的出现,给行业指了一条全新的路:不用堆参数、堆算力,靠架构创新,就能实现能力和效率的双重提升。这对于陷入增长焦虑的整个 AI 行业来说,无异于一剂强心针。

2. 闭源巨头的黑箱垄断,让行业创新陷入停滞

从 GPT-4 到 Claude Mythos,头部闭源厂商的模型越来越像一个黑箱:只告诉你它能做什么,不告诉你它是怎么做的;只给你开放 API 调用,不开放任何技术细节、架构设计、训练方法。

整个 AI 行业的创新,正在陷入「巨头发布新模型,全行业跟着做微调」的怪圈,底层架构创新几乎停滞。所有人都在巨头划定的 Scaling Law 框架里内卷,却没人能看到黑箱里的真正创新。

而 OpenMythos 的出现,打破了这种黑箱垄断:它用公开的学术研究,推导出了巨头藏起来的架构创新,还把它开源给了所有人,让中小团队、个人开发者,也能接触到最前沿的模型架构创新,而不是只能做巨头生态里的「微调玩家」。

3. 开源社区需要真正的创新,而不是大厂的「开源施舍」

过去两年,开源大模型的发展,始终在「追赶闭源模型」的路上:大厂发布闭源模型,开源社区跟着做蒸馏、做复刻,始终在闭源厂商的身后追赶,几乎没有真正的底层架构创新。

而 OpenMythos 是一次完全不同的开源创新:它不是对闭源模型的蒸馏、微调、复刻,而是从第一性原理出发,完成了对前沿架构的理论重建和代码实现,甚至走在了闭源厂商的技术公开之前。

它向整个行业证明了:开源社区不只能做闭源模型的「追随者」,也能做前沿架构的「探索者」和「创新者」。这也是为什么全球无数开发者为这个项目 Star、Fork、贡献代码的核心原因 —— 它代表了开源 AI 的真正精神。


六、行业震荡:闭源巨头的护城河,正在被架构创新瓦解

OpenMythos 的爆火,绝不仅仅是一个开源项目的成功,它正在动摇整个 AI 行业的底层游戏规则。

过去,闭源 AI 巨头的核心护城河,无非三个:海量的资金、顶级的算力、垄断的高质量数据。它们靠着这三大优势,堆出了更大的模型、更强的能力,形成了对开源社区的碾压级优势。

但 OpenMythos 的出现,证明了一件事:当架构创新能让 770M 参数的模型,追平 1.3B 参数模型的能力时,堆参数、堆算力的护城河,就已经开始瓦解了

未来的 AI 竞争,不再是「谁能花更多的钱,训练更大的模型」,而是「谁能做出更高效、更创新的架构,用更低的成本实现更强的能力」。闭源巨头靠资金和算力堆起来的壁垒,正在被架构创新一点点击穿。

Anthropic 对这个项目的反应,也印证了这一点。面对社区的疯狂追问,Anthropic 始终没有正面回应 OpenMythos 的架构是否与 Claude Mythos 一致,仅用「研究敏感信息」一笔带过。而业内人士普遍认为,OpenMythos 的核心假设,已经无限接近 Mythos 的真实架构。

更重要的是,这个项目正在掀起一场 AI 架构创新的开源狂欢。项目开源后,短短两周内,社区已经基于它衍生出了数十个优化版本,有人把它适配到了消费级显卡,有人优化了循环训练的稳定性,有人把它和多模态能力结合,形成了一场全民参与的架构创新运动。


七、写在最后:开源的本质,是对 AI 创新的回归

OpenMythos 的 1.1 万 Star,从来不是给「破解神话」的奖励,而是给「开源创新」的致敬。

这个项目最珍贵的地方,从来不是它「逆向了 Claude Mythos」,而是它向整个行业证明了:AI 创新的核心,从来不是堆钱、堆算力、堆参数,而是对 AI「思考本质」的探索。

从 Transformer 诞生的那天起,AI 行业就走上了 Scaling Law 的快车道,所有人都在疯狂堆规模,却很少有人停下来思考:AI 的推理能力,真的只能靠堆叠层数来实现吗?

而 OpenMythos 给出了一个否定的答案。它用 600 行代码告诉我们:AI 的思考,和人类的思考一样,不是靠大脑变得越来越大,而是靠对同一个问题,进行更深层次的循环思考、反复迭代。

对于整个 AI 行业来说,这或许才是真正的未来。当 Scaling Law 走到尽头,当闭源巨头的黑箱垄断被打破,AI 创新的下一个时代,一定属于那些敢于突破框架、探索本质的架构创新,属于开源社区里,每一个用代码改变世界的开发者。

毕竟,AI 最珍贵的,从来不是越来越大的参数规模,而是人类对智能本质永不停歇的探索。


参考链接

  1. OpenMythos GitHub 官方仓库
  2. 智源社区:Claude Mythos 核心架构开源!22 岁天才一人破解
  3. Decrypt:有人开源了 Claude Mythos 的理论重建版本
  4. FrontierBeat:22 岁开发者逆向工程 Claude Mythos
  5. CSDN:22 岁天才破解 Anthropic 最强模型 Claude Mythos
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐