摩尔线程开源MusaCoder：面向GPU底层算子生成的专用代码大模型

吕其恒

465人浏览 · 2026-06-10 15:53:56

吕其恒 · 2026-06-10 15:53:56 发布

随着大模型代码生成能力不断提升，行业对代码模型的评估重心正在发生变化：从过去关注“语法是否正确”“能否写出完整代码”，逐步转向更底层、更真实的工程能力，即生成代码是否能够被编译、运行、验证，并在实际执行中带来性能收益。

近日，摩尔线程正式发布并开源MusaCoder——面向GPU底层算子生成的专用代码大模型，包含9B和27B两个参数规模。在严格的MooreEval执行式验证协议下，MusaCoder-27B-RL于KernelBench评测中取得Overall Pass@8 93.2%、Avg.@8 88.60%的优异成绩，超越GLM-5.1、Kimi K2.6、DeepSeek-V4-Pro、Claude Opus 4.7 等主流SOTA模型，在GPU底层算子生成任务上取得领先表现。

MusaCoder是业内首个基于摩尔线程全功能GPU完成全链路训练与验证的开源专用代码大模型，其完整后训练流程，包括监督微调、拒绝采样微调、强化学习、异步采样生成、在线编译执行验证和奖励信号计算，均运行于基于摩尔线程旗舰级AI训推一体智算卡MTT S5000构建的夸娥智算集群之上。这一实践验证了国产GPU不仅能够支撑推理与标准微调，也能够承载执行反馈驱动的复杂强化学习训练。

图1：KernelBench准确率（Avg.@8）对比。

高性能架构与全栈训练闭环

MusaCoder是摩尔线程面向GPU底层算子生成任务推出的专用代码大模型，核心能力在于根据PyTorch标准算子自动生成高性能CUDA/MUSA原生Kernel代码。该项目旨在推动MUSA开源生态发展，降低开发者手写底层GPU算子的门槛，促进代码生成、自动优化与异构计算编程技术的研究与应用。

MusaCoder提供9B和27B两个参数规模，均针对PyTorch-to-CUDA/MUSA Kernel生成任务进行专项优化。通过多源数据训练、执行式验证与强化学习反馈，MusaCoder-27B显著提升了根据PyTorch标准算子生成GPU底层算子代码的能力，使生成代码在可编译性、数值正确性、合法性及实际加速效果上表现更加稳定。

图2：MusaCoder训练总流程。

MusaCoder在算子生成任务中的稳定表现，源自专用模型设计、数据构造、执行式验证、强化学习优化和国产GPU集群训练能力的协同作用。整体来看，其技术闭环可以概括为以下六个方面。

1. 面向GPU底层算子生成的专用模型设计

MusaCoder聚焦PyTorch-to-CUDA/MUSA Kernel生成场景，而非通用代码生成。该任务要求模型不仅理解Python/PyTorch层面的计算逻辑，还要进一步掌握底层GPU编程中的关键能力，包括：

• 张量形状推导

• 线程索引映射

• 边界处理

• 访存模式

• 规约策略

• 数值稳定性

• 性能优化

通过开源MusaCoder，项目可为MUSA社区提供面向异构计算编程的基础模型能力，帮助开发者高效构建、验证和优化MUSA Kernel，进一步降低MUSA底层算子开发门槛。

2. 三阶段数据构造流程，系统补齐Kernel生成能力

MusaCoder构建了一套面向GPU Kernel生成的三阶段数据流程，而不是单纯依赖通用代码数据或少量开源Kernel样本。

• 第一阶段：任务扩容与基础正确性对齐

数据来源包括开源PyTorch-to-Kernel数据、GitHub开源项目中的PyTorch 模型代码、NNSmith自动生成计算图、基础算子变种以及GPU Kernel知识问答，重点增强卷积、规约、归一化、广播、复杂索引等基础算子能力。

• 第二阶段：结构化推理与空间逻辑约束

注入张量形状、步长、内存连续性等元信息，并引入六阶段结构化推理格式，引导模型在生成Kernel前显式理解算子语义、形状变化、索引映射、边界条件和常见错误约束，从而减少形状推导错误、越界访存及错误地址映射。

• 第三阶段：执行反馈理解与多轮修复能力

构造编译错误、运行时错误、数值不一致、性能分析、多轮修复、Kernel审查及优化改写等数据，使模型在强化学习前即具备理解验证器反馈、定位错误原因及改写低效Kernel的基础能力。

图3：三阶段数据构造流程。

这套数据流程使MusaCoder不仅“会写CUDA/MUSA代码”，更能系统学习从PyTorch 标准算子语义到线程级实现、从错误反馈到代码修复、从正确实现到性能优化的完整Kernel 开发流程。

3. 全栈后训练流程：SFT→RFT→RL

MusaCoder采用完整的多阶段后训练流程，逐步提升模型在GPU底层算子生成任务上的正确性、稳定性和性能表现。

• SFT（监督微调）：通过多源多任务数据训练模型掌握Kernel生成格式、常见算子实现模式、GPU编程知识、错误审查及性能分析能力。

• RFT（拒绝采样微调）：利用MooreEval验证器筛选模型自生成的正确实现，并采用多样性保留策略，避免模型过早收敛到少数固定代码模板。

• RL（强化学习）：通过真实编译、执行、正确性验证及性能测量，将Kernel生成建模为可验证强化学习任务，进一步优化正确性、合法性和加速效果，使模型训练目标直接对齐真实开发场景。

4. MooreEval执行式验证环境

项目配套构建了MooreEval执行式评测环境，对模型生成的候选代码进行真实解析、编译、运行、正确性验证、反作弊检测及性能测试。MooreEval的核心功能包括：

• 检查候选代码是否能够成功编译和运行；

• 在随机输入上验证输出形状、数据类型和数值正确性；

• 反作弊机制：检测forbidden PyTorch/ATen fallback，即禁止的高层PyTorch/ATen算子回退，防止模型调用高层PyTorch算子绕过任务，确保模型真正学习生成底层Kernel；

• 使用同步CUDA event测速，评估生成Kernel是否真正带来加速；

• 将编译错误、运行错误、数值错误、非法算子和性能结果转化为结构化奖励信号与多轮反馈。

图4：MooreEval评估架构。可用于编译、验证、性能分析以及奖励生成的原生GPU内核。

MooreEval不仅能区分编译错误、运行错误、数值错误、非法PyTorch算子回退、性能不足等失败类型，还将这些信息分别用于训练奖励和多轮反馈。这使得MusaCoder的训练目标不再停留在代码文本相似度，而是直接对齐真实可执行、可验证、可加速的GPU底层算子生成任务。

5. 三大强化学习稳定化机制

MusaCoder在强化学习阶段引入了三个关键机制，用于解决多轮Kernel生成训练中的奖励稀疏、训练不稳定和过度依赖后续修复等问题：

• PrimeEcho：一种首轮锚定的多轮奖励机制。它在利用多轮反馈提升修复能力的同时，保持模型在首轮生成时尽量生成高质量代码的约束，避免完全依赖后续多轮修复，从而提升首轮生成质量和推理效率。

• Buffered Dynamic Retry：将强化学习中全部失败的困难样本转化为带执行反馈的修复任务，为长尾困难算子恢复有效训练信号，缓解奖励稀疏问题。

• MirrorPop：面向策略更新不稳定问题，通过衡量序列级绝对概率偏移，对高风险样本进行过滤，减少异常策略漂移对训练更新的干扰。

6. 基于国产GPU集群完成完整训练闭环

MusaCoder的完整训练和评测流程，全部运行于摩尔线程MTT S5000构建的集群之上，覆盖长上下文监督微调、异步采样生成、在线执行式验证和GRPO强化学习更新。该项目的成功实践展示了国产全功能GPU支撑复杂大模型训练任务的能力，尤其是面向代码生成、编译执行反馈及强化学习的高复杂度训练场景。

卓越性能：全面超越主流模型

在严格的MooreEval执行式验证协议下，MusaCoder-27B-RL在KernelBench评测中取得了显著领先的优异成绩。

表1：KernelBench评估结果对比。Pass@8表示8个采样代码中至少有一个通过验证，而Avg.@8 则衡量8个样本的平均正确率。

表2：对主要训练组件的消融实验。

1. 显著提升PyTorch-to-Kernel生成正确率

相比原始通用基座模型Qwen3.6-27B（Overall Pass@8 67.2% / Avg.@8 35.60%），MusaCoder-27B-RL通过专项微调和执行反馈强化学习，将两项指标大幅提升至93.2%和88.60%，充分证明了其在高阶Kernel代码生成任务上的稳定性。

2. 在反作弊检测下超越主流SOTA模型

在与Claude Opus 4.7、GLM-5.1、Kimi K2.6、DeepSeek-V4-Pro等强代码模型的对比中，MusaCoder-27B-RL在KernelBench Overall Pass@8上达到93.2%，在GPU底层算子生成任务上占据领先优势。由于评测过程包含forbidden PyTorch/ATen fallback检测，模型必须真正生成底层Kernel实现，而不能通过调用高层PyTorch算子绕过任务。

3. 在困难任务（Level 3）上展现优势

在极具挑战的Level 3困难任务中，任务通常涉及复杂形状推导、深层规约逻辑、复杂索引映射和多算子组合。MusaCoder-27B-RL的Pass@8和Avg.@8分别达到72%和65.75%，远高于Claude Opus 4.7的54%和39.25%。这一结果表明MusaCoder在复杂Kernel生成场景下具备更强的稳定性和修复能力。

4. 不止正确率，更关注真实加速能力

配合MooreEval的严格测速指标，模型生成的候选代码必须通过数值校验、合法性检查，并且相对基线获得有效加速，才会被计入Faster Rate。在此标准下，MusaCoder-27B-RL的Overall Faster Rate达到15.0%（vs. PyTorch Eager）和9.2%（vs. torch.compile），高于 Claude Opus 4.7的11.8%和7.5%。这说明MusaCoder不仅能够生成正确代码，也更有能力生成具备实际性能收益的GPU底层算子代码。

5. 验证国产GPU集群支撑复杂大模型训练闭环的能力

项目的全流程后训练、异步采样生成以及在线分布式验证，均在摩尔线程MTT S5000构建的夸娥智算集群上稳健运行，用实打实的评测结果验证了国产全功能GPU在长上下文及高复杂度强化学习工作负载下的工程可行性。

MusaCoder的开源，为MUSA生态提供了一个面向PyTorch-to-CUDA/MUSA原生Kernel生成的高能力基础模型，帮助开发者更高效地完成底层算子代码生成、验证、修复和优化。通过多源数据构造、执行式验证、拒绝采样微调和强化学习训练，MusaCoder在生成正确率、困难任务表现、实际加速效果以及国产GPU适应性等方面均取得了明显成效，有力推动了自动化Kernel生成、异构计算优化和代码生成模型研究的发展。

范式突破与生态贡献：三重价值落地

除了评测指标上的领先表现，MusaCoder的开源还具有更深层次的价值。它从技术突破、工程示范与生态贡献三个维度，为国产GPU软硬件全栈基础设施提供了可参考的实践样本。

在技术突破层面，MusaCoder将大模型代码生成从“文本级代码模仿”推进到“执行反馈驱动的GPU底层算子生成”。模型训练不再仅依赖离线标注代码，而是通过真实编译、运行、验证和测速获得反馈，使训练目标与实际Kernel开发需求高度一致。针对GPU Kernel生成中的三类关键难点，MusaCoder提出了针对性解决方案：

• MooreEval通过静态规则和运行时性能分析检测forbidden PyTorch/ATen fallback，确保模型真正生成底层Kernel，从而减少奖励投机；

• Buffered Dynamic Retry将全错样本转化为可学习的反馈修复任务，缓解奖励稀疏；

• MirrorPop则提升GRPO训练稳定性，降低高风险样本对策略更新的干扰，应对策略漂移。

这些设计对后续执行反馈强化学习、代码智能体和自动编译优化具有重要参考价值。

在工程示范层面，基于前述在MTT S5000集群上完成的全栈训练与评测验证，MusaCoder充分展示了国产全功能GPU在支撑高复杂度大模型后训练工作负载方面的工程可行性。MusaCoder的完整开源实现为AI Coding、AI Infra、编译优化、异构计算及行业大模型后训练等方向提供了一个可复用的技术参考案例。

在生态贡献层面，MusaCoder作为面向MUSA原生Kernel生成的重要模型资产，开源后可以帮助开发者更快理解和使用MUSA编程生态，同时为高校、科研机构及开源社区提供一个面向国产GPU的代码生成研究平台。这一开源举措将有助于提升MUSA在AI开发者社区的可见度，推动MUSA Kernel、编译工具链及运行时生态建设，吸引社区围绕MUSA进行算子优化、KernelBench适配和代码生成模型微调等工作，全面展示摩尔线程在国产GPU、大模型训练、执行反馈强化学习和AI编程工具链方向的综合能力。

持续演进：明确路线与开放生态

发布并开源MusaCoder是摩尔线程MUSA生态进阶的起点，团队已围绕模型能力、工具链和社区协同制定了清晰的技术演进路线：

▼ 开源模型与基础资源：将开源MusaCoder-27B模型权重、基础推理脚本、PyTorch-to-MUSA/CUDA Kernel生成示例及使用文档，帮助开发者快速上手并开展二次开发。

▼ 提升复杂算子的生成能力：后续训练将重点增强Level 3困难任务，包括复杂形状索引、多Kernel融合、卷积变体、归一化、Softmax、规约密集型任务以及非连续内存访问等场景。

▼ 扩展工具链与开发者工作流：未来可结合IDE插件、自动调试工具、性能分析工具和Kernel审查智能体，探索从PyTorch标准算子到MUSA原生Kernel的自动生成、验证、修复、优化闭环。

▼ 推动开源社区共建：鼓励开发者提交更多MUSA Kernel任务、算子实现、优化案例及评测反馈，逐步形成围绕MusaCoder、MooreEval和MUSA KernelBench的开源生态闭环。

MusaCoder的发布不仅是模型能力的开放，更是面向国产GPU生态的一次深度赋能。我们期待与开发者社区共同探索执行反馈驱动下的代码生成新范式，推动MUSA生态持续演进。

了解摩尔线程MusaCoder更多信息，请访问：

▼ MusaCoder模型权重已开源

https://huggingface.co/MooreThreads/MusaCoder-27B

▼ MusaCoder学术论文

http://arxiv.org/abs/2606.04847

或点击下方“阅读原文”

* 以上测试数据均来自摩尔线程实验室。

阅读原文

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

我们如何利用「混沌工程」工具Chaos Blade进行故障演练？

而Chaos Blade作为阿里巴巴开源的混沌工程实验工具，凭借其轻量级、易用性和丰富的故障场景支持，成为故障演练的利器。这种与K8s深度集成的能力，使得在微服务架构下进行服务熔断、节点宕机等演练变得异常简单，有效验证服务网格的容错机制。Chaos Blade支持创建复杂的演练场景。建议将演练结果与监控系统、日志平台的数据进行关联分析，找出系统的薄弱环节，持续优化架构设计。通过定期使用Chaos

AtomGit开源社区

AI 辅助学术写作（五）：模块化论文撰写与开源交付——从草稿到可复现研究包

这两个部分放在最后写，因为它们是对全文的精炼，而不是提前预设的框架。请基于以下信息，撰写一个150-200字的学术摘要。【摘要必须包含的五个要素】1. 研究问题（一句话）：[你的核心研究问题]2. 研究方法（一句话）：[数据来源 + 识别策略]3. 核心发现（两句话）：[主要系数 + 经济含义]4. 异质性/机制（一句话）：[最重要的一个扩展发现]5. 政策含义（一句话）：[对政策制定的启示]【格

AtomGit开源社区

DALI / UMAP / H5

这几个词通常出现在深度学习框架、数据处理库、AI训练平台或代码仓库的功能说明中，表示该系统支持相应的数据处理技术或文件格式。DALI 指的是 NVIDIA DALI（Data Loading Library）。它是 NVIDIA 开发的高性能数据加载与预处理框架，主要用于加速训练过程。例如 ImageNet 训练时，DALI 可以减少 CPU 成为瓶颈的问题。对于大规模视觉训练（ImageNet、