2026 年 3 月,NVIDIA 正式发布了 Nemotron-Cascade 2 系列的最新力作——Nemotron-Cascade-2-30B-A3B,这是一个总参数量为 30B 但仅激活 3B 参数的开源混合专家(MoE)模型。这个看似“小巧”的模型却在多个国际顶级竞赛中取得了金牌级表现,成为继 DeepSeek-V3.2 之后,第二个在 2025 年国际数学奥林匹克竞赛(IMO)、国际信息学奥林匹克竞赛(IOI)和 ICPC 世界总决赛中全部获得金牌的开源大语言模型。

智能密度的新标杆

在大模型领域,一个长期存在的认知是:更强的能力需要更大的参数规模。然而 Nemotron-Cascade-2-30B-A3B 用实际表现打破了这一固有印象。这个模型用比 DeepSeek-V3.2 少 20 倍的参数量,达到了相同的金牌级竞赛水平,展现出惊人的“智能密度”。

所谓智能密度,指的是单位参数所能承载的推理能力。传统的 MoE 模型通常拥有数百亿甚至上千亿的总参数量,虽然推理时只激活其中一部分,但整体模型体积依然庞大。Nemotron-Cascade-2-30B-A3B 则将这一理念推向极致:30B 的总参数量本身就相对精简,而每次推理仅激活 3B 参数,这意味着它能够在单张 RTX 4090 显卡上流畅运行,使用 Q4 量化后仅需 24GB 显存。

这种设计哲学的转变意义深远。对于开发者而言,不再需要昂贵的多卡集群就能部署具有前沿推理能力的模型;对于研究者而言,这证明了通过精细化的训练策略,可以在更小的参数规模上实现曾经被认为只有超大模型才能达到的能力边界。

架构创新:Mamba-2 与 Transformer 的混合设计

Nemotron-Cascade-2-30B-A3B 基于 Nemotron-3-Nano-30B-A3B-Base 基座模型构建,采用了 Mamba-2 状态空间层与标准 Transformer 注意力层的混合架构。这种设计并非简单的拼凑,而是针对不同计算场景的精心优化。

Mamba-2 状态空间层在处理长上下文时比传统的全注意力机制更加高效,这使得模型能够真正利用其声称的 100 万 token 上下文窗口,而不仅仅是纸面数据。在实际应用中,这意味着模型可以在消费级硬件上处理超长文档、完整代码库或复杂的多轮对话,而不会因为注意力计算的二次复杂度而崩溃。

Transformer 层则负责需要全局关联和深度推理的任务。两种架构的协同工作,让模型在保持计算效率的同时,不牺牲对复杂问题的理解和推理能力。这种混合设计正在成为新一代高效大模型的重要方向。

Cascade RL:级联强化学习的威力

Nemotron-Cascade 2 最核心的技术创新在于其 Cascade RL(级联强化学习)训练方法。与 DeepSeek-R1 或 Qwen3 系列采用的“混合所有领域提示进行单次 RL 训练”不同,Cascade RL 采用顺序训练策略,一次专注于一个领域的强化学习,然后再转向下一个领域

Cascade RL训练架构

这种方法的优势在于,模型可以在每个领域深度优化,避免了多任务学习中常见的能力稀释和相互干扰问题。训练流程从精心策划的监督微调(SFT)数据集开始,然后依次在数学推理、代码生成、指令遵循、对齐等多个领域进行强化学习。

更重要的是,NVIDIA 引入了多领域在线策略蒸馏(Multi-Domain On-Policy Distillation)技术。在 Cascade RL 的每个阶段,模型都会从该领域最强的中间教师模型中学习,这使得模型能够高效地弥补在某些基准测试上的性能回退,并在整个训练过程中保持稳定的性能提升。这种蒸馏不是简单的知识迁移,而是动态的、针对性的能力增强。

双模式运行:思考与直答的自由切换

Nemotron-Cascade-2-30B-A3B 支持两种运行模式:思考模式(Thinking Mode)和指令模式(Instruct Mode)。这种设计体现了对不同应用场景的深刻理解。

在思考模式下,模型会将推理过程包裹在<think></think>标签中,展示其内部的思维链条。这对于需要透明度和可解释性的场景至关重要,比如数学证明、复杂代码调试或科学推理。用户可以看到模型是如何一步步分解问题、尝试不同路径、最终得出结论的。

指令模式则省略了中间推理过程,直接给出最终答案。这适用于对响应速度有要求、或者不需要了解推理细节的场景,比如日常问答、快速代码补全等。模型遵循 ChatML 模板,能够无缝集成到现有的应用框架中。

这种双模式设计不是简单的开关,而是模型在训练中就已经学会的能力分化。它让同一个模型能够在“深度思考”和“快速响应”之间灵活切换,大大提升了实用性。

竞赛级表现:金牌背后的硬实力

Nemotron-Cascade-2-30B-A3B 在多个权威基准测试中展现出了顶尖水平,尤其是在数学和编程领域。

Nemotron-Cascade 2金牌表现

在数学推理方面,模型在 AIME 2025 上得分 92.4,超越了 Qwen3.5-35B-A3B 的 91.9 分;在 HMMT Feb25 上得分 94.6,远超 Qwen3.5 的 89.0 分。这些不是简单的选择题测试,而是需要深度推理、多步骤证明的奥林匹克级数学问题。模型能够理解复杂的数学概念,构建严密的逻辑链条,并给出正确答案。

编程能力同样出色。在 LiveCodeBench v6 上得分 87.2,大幅领先 Qwen3.5-35B-A3B 的 74.6 分;在 IOI 2025 上得分 439.28,超过 Qwen3.5 的 348.6 分。更令人印象深刻的是,它在这些编程基准上甚至超越了 NVIDIA 自家参数量达 120B 的 Nemotron-3-Super 模型,而激活参数仅为后者的四分之一。

在指令遵循和对齐方面,模型在 ArenaHard v2 上得分 83.5,远超 Qwen3.5 的 65.4 分;在 IFBench 上得分 82.9,领先 Qwen3.5 的 70.2 分。这意味着模型不仅能解决复杂问题,还能准确理解用户意图,按照要求的格式和风格输出结果。

需要指出的是,Nemotron-Cascade 2 并非在所有维度上都占优。它在知识密集型任务和某些代理任务上的表现不如 Qwen3.5-35B-A3B,这反映了其训练重点的取舍:NVIDIA 选择将有限的参数预算集中在推理密集型领域,而不是追求全面覆盖。这种专注策略在特定应用场景下反而是优势。

开源生态:模型、数据、训练流程全公开

NVIDIA 将 Nemotron-Cascade 2 的完整训练流程开源,包括所有中间检查点、训练数据集和技术细节。开发者可以在 Hugging Face 上获取模型权重,使用 vLLM、Ollama 等推理框架快速部署,也可以基于公开的数据集复现训练过程或进行进一步优化。

这种开放态度对整个 AI 社区意义重大。研究者可以深入研究 Cascade RL 的实际效果,分析不同训练阶段的性能变化,探索更优的训练策略。开发者则可以根据自己的需求对模型进行微调,或者将其集成到 OpenHands 等代理框架中,构建更强大的 AI 应用。

模型采用 NVIDIA 开放模型许可证,允许商业使用,这进一步降低了企业采用的门槛。对于需要强大推理能力但预算有限的初创公司或研究团队,这是一个极具吸引力的选择。

实用性考量:从基准到真实世界

尽管基准测试成绩亮眼,但模型的真实价值还需要在实际应用中检验。Nemotron-Cascade-2-30B-A3B 的设计已经考虑到了这一点。

其 100 万 token 的上下文窗口不是摆设,而是真正可用的。在代码生成场景中,这意味着模型可以理解整个项目的代码库结构,而不仅仅是单个文件;在文档处理中,可以一次性分析完整的技术手册或研究论文;在对话系统中,可以保持长时间的上下文连贯性。

模型对 OpenHands 的原生支持使其能够执行复杂的软件工程任务,比如自动化代码重构、bug 修复、功能实现等。这不仅仅是生成代码片段,而是理解需求、规划步骤、执行操作、验证结果的完整流程。

在部署方面,单卡运行的能力大大降低了硬件成本。一台配备 RTX 4090 的工作站就能运行这个金牌级模型,这在以往是不可想象的。对于需要本地部署、保护数据隐私的企业应用场景,这是一个重要优势。

未来展望:智能密度时代的开端

Nemotron-Cascade-2-30B-A3B 的发布标志着大模型发展进入了一个新阶段。过去几年,行业的主流思路是“越大越好”,参数量从数十亿飙升到数千亿。但这条路径正在遇到瓶颈:训练成本指数级增长,推理效率持续下降,边际收益逐渐递减。

智能密度的概念提供了另一条路径:不是无限制地堆砌参数,而是通过更精细的架构设计、更科学的训练方法、更专注的能力培养,在更小的规模上实现更高的效能。Cascade RL 证明了,通过领域专注的顺序强化学习和动态蒸馏,可以让模型在特定能力上达到甚至超越大得多的通用模型。

这不意味着超大模型没有价值,而是说不同规模的模型应该有不同的定位。超大模型可以追求全面性和通用性,中小模型则可以在特定领域深耕,提供更高的性价比和更好的部署体验。Nemotron-Cascade 2 展示了后者的可能性上限。

对于开发者和研究者而言,这个模型提供了一个重要参考:如何在资源受限的情况下,通过方法创新达到接近前沿的能力水平。它证明了,在 AI 民主化的道路上,我们不必等待算力变得无限廉价,而是可以通过更聪明的方式,让强大的 AI 能力触手可及。

社区地址

OpenCSG社区:https://opencsg.com/models/nvidia/Nemotron-Cascade-2-30B-A3B

hf社区:https://huggingface.co/nvidia/Nemotron-Cascade-2-30B-A3B

关于 OpenCSG

OpenCSG 是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps人工智能领域的一种AI原生方法论,由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐