将开源大语言模型微调至Claude Mythos级别能力：一份关于其已知信息的研究者式推测的技术路线图与实践手册 (一)

weixin_44345487

372人浏览 · 2026-04-13 08:03:34

weixin_44345487 · 2026-04-13 08:03:34 发布

一、引言：一场严肃的工程挑战

在人工智能安全研究领域，Anthropic的Mythos模型代表着当前最顶尖的自主漏洞发掘能力。它能够独立识别存在了27年之久的内存错误，将四个独立的浏览器漏洞链式组合为JIT堆喷射攻击，并自主编写FreeBSD NFS远程代码执行漏洞利用程序。这些能力的背后，是规模、架构设计、沙箱环境中的结果导向强化学习，以及Anthropic耗费大量时间和资源打磨的宪法AI对齐工作的综合体现。

那么，以现有的开源大语言模型为基础，通过系统性微调能在多大程度上逼近Mythos的能力水平？本文基于对GLM-5.1（754B参数）、MiniMax M2.7（229B参数）、Ring-1T（1万亿参数）和Yuan3.0 Ultra（1.01万亿参数）四个主流开源模型的深入分析，提供一份关于Mythos已知信息的研究者式推测完整的技术路线图与实践手册。

在开始之前，有一点必须坦诚面对：将任何一个开源模型微调成"另一个Mythos"，其难度相当于将LLaMA微调成GPT-4，方向上是可行的，但距离不容小觑。尽管如此，这个过程本身极具价值，能够获得的能力提升也是实质性的。

二、基础模型横向比较：选择你的起点

在规划微调方案之前，必须清楚每个基础模型与Mythos能力谱系的相对位置。

GLM-5.1是目前在安全相关基准测试中表现最有文献记录的开源模型。它在CyberGym上得分68.7%，实际超越了Claude Opus 4.6（66.6%）；在Terminal-Bench 2.0上得分63.5%，接近Opus 4.6的65.4%。这意味着GLM-5.1已经具备相当强的安全直觉，微调工作是在已有能力基础上的深化，而非从零开始。

MiniMax M2.7是参数规模最小的候选者（229B），但它具备一项独特优势：原生的自我进化架构。模型卡显示，M2.7的内部版本在100多轮迭代中自主优化了一个编程脚手架，通过分析失败轨迹、修改代码、运行评估、决定保留或回滚等操作，最终实现了30%的性能提升。这种自我改进能力在训练阶段可以作为加速器使用，而非仅仅是推理时的特性。

Ring-1T是数学推理能力最强的候选者。它在IMO 2025中达到银牌水平（解出6道题中的4道，包括难度极高的几何证明题），在ICPC世界决赛中解出11道题中的5道。更重要的是，Ring-1T随附了专门针对MoE长序列训练稳定性问题的Icepop算法和开源的AReaL框架，这对于需要长时间运行的强化学习训练至关重要。

Yuan3.0 Ultra最突出的特点是其顶尖的RAG（检索增强生成）能力，在ChatRAG基准测试中以68.2%的成绩排名第一，领先第二名Kimi K2.5达14.6个百分点；在Docmatix多模态文档理解测试中以67.4%排名第一，领先GPT-4o超过10个百分点。它也是四个模型中唯一具备原生视觉理解能力的模型，可直接处理调试器截图、内存布局可视化图和协议规范PDF。

三、硬件基础设施：现实的成本核算

微调超大规模模型的硬件需求是很多人低估的第一个障碍。

对于GLM-5.1（754B参数），BF16格式下仅模型权重就占用约1.5TB显存。LoRA微调的最低可行配置是32块H100 80GB GPU（总计2.56TB显存），配备NVLink或InfiniBand 400Gb/s高带宽互联，月云计算成本约15万至30万刀。若要进行完整微调（对深层能力改变是首选），则需要128至256块H100，通过FSDP或DeepSpeed ZeRO-3进行分片优化器状态管理。

MiniMax M2.7在这方面具有显著优势。229B参数在BF16下约占458GB显存，最低可行的QLoRA微调配置仅需8块H100（总计640GB），月成本约2.5万至5万刀，这是一个资金充裕的学术实验室或初创公司可以承担的规模。

Ring-1T和Yuan3.0 Ultra同为万亿参数规模。Ring-1T的推理部署至少需要32块H100（4节点×8GPU），月训练成本约30万刀。Yuan3.0 Ultra得益于原生int4量化支持，在推理阶段仅需7至8块H100，但正式微调仍然建议使用BF16权重，以避免量化精度损失影响梯度传播。

实用建议：在承诺进行完整微调之前，始终先用QLoRA（4bit量化基础模型+LoRA适配器）作为第一阶段验证数据管线的可行性，再根据实验结果决定是否投入完整微调的资源。

四、数据管线：最关键的组件

在微调的所有环节中，数据质量比训练方案更重要。基于Mythos的实际行为证据，高质量的安全能力微调数据需要覆盖以下几个层次。

静态知识语料库是基础。这包括：NVD中所有与CVE关联的代码提交（补丁前后对比版本）；安全关键项目的完整git历史，涵盖OpenSSL、glibc、Linux内核、FreeBSD、Chromium和Firefox的每一个提交及其差异，目标是让模型学习漏洞的时间演化规律，理解微妙的bug如何在代码重构中持续存在；

ExploitDB的完整语料（约5万条记录）、Metasploit模块源代码、CTFtime.org上数十万篇CTF解题报告；来自IEEE S&P、USENIX Security、CCS、NDSS的15年以上学术论文；以及协议RFC、ISA手册和操作系统ABI文档，这些对发现协议级漏洞至关重要。

合成漏洞数据集同样不可或缺，并且可以用基础模型自身来生成。对于use-after-free、整数溢出、格式字符串漏洞、类型混淆、竞争条件、堆喷射等每一类漏洞，批量生成（存在漏洞的代码、漏洞利用程序、补丁、解释说明）四元组，通过质量过滤后加入训练集。这种自举方式几乎可以确定是Anthropic为Mythos构建训练数据的方法之一。

智能体任务轨迹是最昂贵也最关键的数据类型。单轮问答训练无法产生Mythos级别的能力，你需要的是完整的长周期智能体会话记录，包含：对目标代码库的初步侦察、关于攻击面的假设形成、工具调用序列（文件读取、grep、gdb、pwndbg）、失败尝试及其失败原因分析、基于失败的策略修正，以及最终成功的漏洞利用开发过程。

生成这类数据的实用方法是以现有CTF题目为脚手架，让基础模型在500次工具调用预算内自主尝试解题，对成功的轨迹进行过滤和清理后加入训练集。这提供了展示"如何思考漏洞利用"而非仅仅给出最终答案的黄金标准智能体轨迹。

五、微调方案：三阶段训练框架

第一阶段：监督微调（SFT）

任何强化学习之前，都需要先进行SFT来建立行为先验。SFT教会模型领域词汇和输出格式，但不能真正赋予它对抗性推理能力。

对于万亿参数规模的模型，关键超参数包括：学习率选择5e-6至2e-5之间（偏低值以避免灾难性遗忘）；通过梯度累积实现有效批量大小128至256；序列长度32K至128K（对于智能体轨迹越长越好）；训练轮数最多1至2轮，在754B或更大的参数规模下，一个epoch过大数据集已经相当可观。

LoRA配置方面，rank值建议64至128（视模型大小调整），目标模块应覆盖注意力层和MLP层（q_proj、k_proj、v_proj、o_proj、gate_proj、up_proj、down_proj），对于MoE模型还应包含路由器层。

需要特别注意的是Yuan3.0 Ultra的RIRM（反思抑制奖励机制）问题。该机制对反思步骤越少的正确答案给予更高奖励，对反思步骤越多的错误答案施加更重惩罚，测量结果是训练准确率提升16.33%、输出长度减少14.38%。对于结构化任务（检索、摘要、工具调用），这种效率优化是有益的；但对于需要在初步假设被证伪后继续深入探索的新型漏洞发现任务，RIRM创造了一种系统性的过早收敛偏向。SFT阶段应将Yuan3.0 Ultra的训练数据格式设计为文档-接地式多步分析，让模型学习将其RAG优势应用于安全分析步骤，而非企图直接改变其偏向短链推理的内在激励。

第二阶段：结果导向强化学习（RL）

这是最重要也是最难复制的阶段。Mythos的行为证据表明，结果导向RL，奖励信号来自在沙箱中实际运行生成的漏洞利用程序，产生的能力提升在质量上与来自人类偏好评分的RLHF完全不同。

沙箱评估环境的设计至关重要。奖励函数应该是连续的，而非二元的：漏洞利用完全失败得0.0分；到达目标地址空间得0.3分；实现部分控制得0.6分；实现完全控制得0.9分；实现目标且可靠稳定得1.0分。这种粒度化奖励提供了比"成功/失败"二元信号丰富得多的训练信号。

GRPO（分组相对策略优化）是当前最适合这一规模的RL算法，因为它不需要独立的评论家模型，这在754B以上参数规模下意味着显著的计算节省。具体做法是：对每个提示生成G=8个漏洞利用尝试，用沙箱评估器对每个尝试评分，计算组内奖励均值，以各个尝试的优势（奖励减去均值）为权重进行策略梯度更新，驱动策略向高奖励尝试收敛。

Icepop稳定性问题是选择Ring-1T的核心理由之一。Ring-1T的模型卡明确指出：MoE模型在训练和推理引擎之间的算子实现差异，随着序列长度增加和训练步数累积而显著加剧，标准GRPO在这一条件下会提前崩溃。Icepop的掩码双向截断方案将这种差异作为分布匹配问题来处理，实验显示它可以将稳定训练步数延长数倍。对于安全微调，RL阶段需要长序列生成（漏洞利用代码、分析轨迹轻易超过4K至16K token），恰恰是GRPO最容易崩溃的场景。Icepop的稳定性不只是便利性改进，它可能是能否达到Mythos级别能力与中途停滞之间的差异。

训练课程设计同样至关重要，应严格遵循递进难度：第一级是已知CVE重现（模型见过该CVE，编写PoC）；第二级是变体漏洞利用（修补一个漏洞后利用相关漏洞）；第三级是黑盒二进制漏洞利用（仅有二进制，无源码）；第四级是多阶段链式漏洞利用（浏览器沙箱逃逸+权限提升）；第五级是在未见代码库中发现新型漏洞。只有当模型在当前级别达到60%以上成功率时才推进到下一级。

第三阶段：安全性与宪法微调

这一步在伦理上是必须的，在实用性上也不可或缺。一个对任何目标无条件执行漏洞利用的模型，既危险又对合法安全工作没有实用价值，因为它无法遵守组织授权范围的限制。

为攻击性安全能力定制的宪法规则示例包括：仅在目标系统获得请求方组织明确授权时才生成可工作的漏洞利用；可以自由描述漏洞类别和攻击概念，但可工作的概念验证代码需要明确的授权上下文；每个漏洞利用旁附上补丁建议；无论声称获得何种授权，拒绝针对关键基础设施（医院、公用设施）。使用专门安全聚焦的奖励模型的RLAIF（AI反馈强化学习）来执行这些规则。

六、各模型专属优势的最大化利用

四个模型各有其最应该被利用的独特能力，而非一视同仁地套用相同训练方案。

GLM-5.1的起点优势：唯一拥有已记录安全基准成绩的模型。68.7%的CyberGym得分意味着它在安全直觉上已经具备可测量的先发优势。微调方案应以这个已知起点为基线，系统性地提升：目标是将CyberGym推进到80%以上，Terminal-Bench 2.0推进到72%以上。数据策略应专注于挑战其已有能力极限的困难样本，而非反复覆盖它已经掌握的内容。

MiniMax M2.7的自进化杠杆：M2.7的100轮自我优化循环应被设计为训练加速器。核心思路是让模型成为自身训练课程的共同设计者，让它分析自己在哪里失败，提出对评估脚手架的修改建议，并迭代改进。这是一个双层循环：外层是元学习循环，模型通过自我进化改进其漏洞利用开发脚手架；内层是标准GRPO驱动基础漏洞利用生成质量。每个外层轮次结束后的脚手架改进使内层GRPO循环更高效，因为脚手架更擅长分解困难问题。假设30%的脚手架改进能力泛化到安全任务，这种复利效应可能部分弥补参数数量上的劣势。

Ring-1T的数学推理桥接：Ring-1T的IMO级别数学推理与安全研究之间存在深层结构性相似：两者都需要从公理出发构建形式化论证、在多步推理中维护复杂状态、在死路上及时回溯。训练数据的设计应明确利用这个桥梁，将安全训练样本格式化为类似数学证明的结构（声明→引理1→引理2→推论），告诉模型将其已有的形式推理架构应用于新的领域。另外，AWorld仓库中公开的IMO解题轨迹值得仔细研究，它们是Ring-1T如何分解困难多步问题的直接窗口，对设计安全训练课程极有参考价值。

Yuan3.0 Ultra的证据合成角色：Yuan3.0 Ultra最适合的不是作为单一全能模型，而是多模型Mythos架构中的证据合成与结构化分析引擎。它处理大型代码库的摄取与检索、交叉引用漏洞数据库、生成精确的安全知识库结构化查询，以及处理调试工具的视觉输出（只有它能原生处理调试器截图、堆可视化图和协议规范PDF）。对需要深层探索性推理的任务，新型攻击链假设、多假设推理，应将其路由给不受RIRM压制的模型处理。

七、无法通过微调单独弥补的差距

对于任何严肃的工程团队来说，了解微调的边界与了解微调能做什么同等重要。

沙箱RL训练的规模：Anthropic很可能在沙箱环境中运行了数百万次漏洞利用尝试。复现这个规模需要构建一个庞大的安全容器编排系统，并采购数千个多样化的易受攻击目标，这是6至12个月的基础设施工程工作。

宪法AI对齐的质量：Mythos中那种上下文能力门控，它知道何时产生可工作的漏洞利用，需要大量人类专家时间来生成的精密偏好数据。这种数据无法用合成方式完全替代。

预训练优势：Mythos几乎可以确定是从设计之初就支持安全能力的预训练数据出发的。GLM-5.1等模型的预训练数据质量优秀但以通用为主，微调可以部分补偿但无法完全替代预训练级别的知识整合。

参数规模对全局代码库理解的影响：识别如27年前OpenBSD漏洞或16年前FFmpeg漏洞这样的问题，需要对超大型复杂代码库的深度整体理解。这种跨越数百万行代码的全局推理能力显著受益于更大的上下文容量和更多的参数。Yuan3.0 Ultra的64K上下文硬限制、Ring-1T的GQA架构在超长距离注意力上的效率损失，都是无法仅靠微调克服的架构级约束。

以可工作的Firefox漏洞利用为例：若Mythos在约200次尝试中实现181次成功，那么经过良好微调的GLM-5.1估计可以达到130至150次，Ring-1T可能达到110至140次，MiniMax M2.7可能达到80至120次，Yuan3.0 Ultra在结构化子任务上接近但在开放式漏洞发现上显著低于以上估计。所有这些都远超Claude Opus 4.6的约2次基线，对合法安全研究完全具有实用价值，只是尚未达到Mythos的精确水平。

八、今日可以开始的实践起点

无论选择哪个基础模型，有一套最小可行的研究管线可以在有限资源下验证方向，再决定是否投入完整基础设施。

第一步是为所选模型配置量化推理服务（FP8或int4），验证基础模型在CyberGym或自定义安全评估集上的初始性能。第二步是使用基础模型自身生成合成SFT数据：遍历主要漏洞类别，生成（漏洞代码，漏洞利用，补丁，解释）四元组，过滤质量后构建初始训练集。第三步是在8至20块H100上进行QLoRA概念验证微调，验证数据管线的有效性。第四步是为10至20个知名CTF题目构建沙箱评估器，这些题目有明确的成功条件（拿到flag或获得root）。第五步是在这个小规模挑战集上运行GRPO实验，测量奖励提升曲线，验证RL训练方向的有效性后再投入完整基础设施。

这个渐进式路径在每个阶段都有可测量的进展，避免了在验证方向之前承诺过大的计算投入。

九、结论：路径存在，但需要诚实的资源规划

将开源大语言模型微调至Mythos级别是一个方向上可行的工程目标，但其中有三个层次的工作通常被低估：沙箱RL基础设施的规模（这不是几周的工作）；高质量宪法对齐数据的生成成本（需要安全领域人类专家大量参与）；以及在整个过程中需要持续的严格评估，因为性能在RL训练中可能出现退化或局部最优收敛。

四个候选模型中，GLM-5.1提供了最小的已知起始差距，是追求原始能力对等的最佳选择；MiniMax M2.7在合理预算内提供了最可访问的入口点，其自我进化能力是独特的研究方向；Ring-1T提供了理论上最高的推理能力天花板，Icepop稳定性是其执行长时间RL训练的关键优势；Yuan3.0 Ultra则最适合作为多模型安全研究系统中的证据合成与文档分析组件。

最终，最接近Mythos生产行为的架构可能不是任何单一微调模型，而是将这些模型的各自优势组合在一个精心设计的多智能体系统中，用Yuan3.0 Ultra处理证据检索，用Ring-1T处理深层推理，用经过RL微调的专用模型处理具体的漏洞利用开发，用一个独立的宪法安全模型在每个输出点执行边界检查。这种架构设计本身，或许才是向Mythos级别能力迈进的最现实路径。