【RL】MiniMax-M1: CISPO + Lightning Attention

山顶夕景

325人浏览 · 2026-03-28 01:17:02

山顶夕景 · 2026-03-28 01:17:02 发布

note

CISPO是2025年6月minimax提出，放到今天还是有价值的。
CISPO强化学习：
- 传统 PPO / GRPO 这类方法，在做 token 级 clipping 时，会把一些“低概率但很关键”的 token（这类token一般是反思、转折、纠错、重新检查等字符，类似思维拐点）更新给压掉，如果都被clip掉，模型就不容易学会真正的长链反思。
- 通过裁剪重要性采样权重而不是更新令牌来稳定训练，从而避免了传统PPO/GRPO算法中的令牌裁剪问题。
模型架构优化：它不是纯标准 softmax attention，也不是全线性 attention，
而是一个 hybrid attention：
- 大部分层用 lightning attention：线性/闪电注意力负责把长序列成本压低
- 每隔几层再插一个普通 softmax attention（每 7 个 transnormer/lightning attention block 后接 1 个 softmax attention block）：少量 softmax attention 负责保住全局建模能力
训练态和推理态概率不一致，他们发现 hybrid architecture 下：training-mode 的 token probability、inference-mode 的 token probability，本来理论上应该一致，结果实际不一致，直接影响 RL reward 增长。最后他们查到主要问题在 LM output head 的精度，把输出头提到 FP32 后，这个问题才缓解。
MiniMax-M1模型在多个复杂场景中表现出色，特别是在软件工程、长上下文和工具使用方面。
- 软件工程：在SWE-bench验证任务上，MiniMax-M1取得了56.0%的准确率，显著优于其他开源模型。
- 长上下文理解：在OpenAI-MRCR(1M)任务上，MiniMax-M1取得了58.6%的准确率，排名全球第二，仅次于最新的DeepSeek-R1-0528模型。
- 工具使用：在TAU-bench(retail)任务上，MiniMax-M1取得了67.8%的准确率，超过了所有其他开源模型，甚至超过了Gemini-2.5 Pro。

一、研究背景

研究问题：这篇文章要解决的问题是如何有效地扩展测试时计算能力，以便在大规模推理任务中提高模型的性能。具体来说，作者提出了MiniMax-M1，这是世界上第一个开源的大规模混合注意力推理模型，结合了闪电注意力机制。
研究难点：该问题的研究难点包括：传统Transformer架构中softmax注意力的二次计算复杂度限制了推理长度的扩展；现有的优化技术（如稀疏注意力、线性注意力等）在大规模推理模型中尚未得到充分验证。
相关工作：该问题的研究相关工作包括OpenAI的o1和DeepSeek-R1等模型，这些模型通过大规模强化学习在复杂任务中取得了显著进展。然而，这些模型仍然依赖于传统的注意力设计，且扩展推理过程具有挑战性。

二、MiniMax-M1模型

1、模型架构变化

混合专家（MoE）架构：MiniMax-M1采用了混合MoE架构，结合了多个专家网络来处理不同的输入子集。每个Transformer块后跟随一个闪电注意力模块，理论上可以实现对数百个千token长度的推理。
闪电注意力机制：闪电注意力是一种I/O感知的线性注意力变体，通过减少计算复杂度来实现高效的扩展。其核心思想是将长序列的注意力映射到一个低频的傅里叶域上，从而降低计算复杂度。

MiniMax-M1模型采用了闪电注意力机制，这是一种I/O感知的线性注意力变体。其核心思想是将长序列的注意力映射到一个低频的傅里叶域上，从而降低计算复杂度。具体来说，闪电注意力通过以下步骤实现高效扩展：

傅里叶注意力映射：将长序列的注意力映射到傅里叶域上，减少了计算复杂度。
动态采样和长度惩罚：采用动态采样和长度惩罚技术，进一步降低计算开销。
I/O感知设计：闪电注意力机制特别适用于I/O密集型任务，能够在保持高效计算的同时，处理长序列输入。

这些创新使得MiniMax-M1模型能够在大规模推理任务中显著提高计算效率，特别是处理长输入和复杂推理任务时表现出色。

2、CISPO强化学习算法

新算法CISPO：为了进一步提高RL训练效率，作者提出了一种新的RL算法CISPO。CISPO通过裁剪重要性采样权重而不是更新令牌来稳定训练，从而避免了传统PPO/GRPO算法中的令牌裁剪问题。具体公式如下： $\mathcal{J}_{\text{CISPO}}(\theta) = \mathbb{E}_{(q, a) \sim \mathcal{D}, \{o_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \hat{r}_{i,t}(\theta) \hat{A}_{i,t} \right]$

其中， $\hat{r}_{i,t}(\theta)$ 是裁剪后的重要性采样权重：
$\hat{r}_{i,t}(\theta) = \text{clip}\left(r_{i,t}(\theta), 1 - \epsilon_{\text{low}}, 1 + \epsilon_{\text{high}}\right)$

在这里插入图片描述
你直觉上看到：

GRPO: $\min(rA, \text{clip}(r)A)$
CISPO: $\text{clip}(r) A \log \pi_\theta$

会觉得都用了 clip，好像差不多。

但真正差别是：

1) GRPO 被 clip 后，很多 token 会“没梯度”

GRPO的loss是 $L_{\mathrm{GRPO}}=-\min \left(r_t A_t, \operatorname{clip}\left(r_t\right) A_t\right)$

当 $A > 0$ 且 $\epsilon$ 时，GRPO 里：

$\min(rA, (1 + \epsilon)A) = (1 + \epsilon)A$
这项对 $\theta$ 来说就是个常数，因为 clip 后那个边界值不再随 $\theta$ 变。所以这部分 token 的梯度没了，等价于：这个 token 被 mask 掉了，不再继续学。论文后面其实把它写成了一个显式 mask 形式：

如果 $A > 0$ 且 $\epsilon_{\text{high}}$ ，或者 $A < 0$ 且 $\epsilon_{\text{low}}$ ，那 $M_{i,t} = 0$ 。也就是这个 token 的更新直接被关掉。

比如 $\epsilon$ 为0.2，对应的min结果为：
$\min (r A, \operatorname{clip}(r) A)= \begin{cases}r A, & r<0.8 \\ r A, & 0.8 \leq r \leq 1.2 \\ 1.2 A, & r>1.2\end{cases}$

而被clip的低概率token的梯度就为0了。

2) CISPO 被 clip 后，token 还有梯度

CISPO 是：

$\hat{r} A \log \pi_\theta$

其中 $\hat{r} = \text{clip}(r)$ 。论文明确说它是“clip importance sampling weight”，而不是像 PPO/GRPO 那样 clip token updates。
具体看：
在这里插入图片描述

图中的sg是detach函数，参考如下：
如果写成

$L=\operatorname{detach}(x) \cdot y$

那求导时，detach $(x)$ 被当常数，所以：

$\frac{\partial L}{\partial \theta}=0 \cdot y+\operatorname{detach}(x) \frac{\partial y}{\partial \theta}$

也就是第一项没了，变成：

$\frac{\partial L}{\partial \theta}=\operatorname{detach}(x) \frac{\partial y}{\partial \theta}$

所以 detach 的本质就是：保留 $x$ 的数值，但令 $\frac{\partial x}{\partial \theta}=0$

三、模型训练

第一步：继续预训练

他们在 base model 上又继续训了 7.5T tokens，
而且特别提高了：STEM、code、books、reasoning 相关数据，这些数据占比提高到 70%。

第二步：SFT 冷启动

再做一轮 SFT，给模型灌入想要的 CoT pattern，
尤其是 long CoT、reflection 风格的回答。

第三步：大规模 RL

然后才是核心的 RL scaling。
而且 RL 数据不只做数学和代码，还做了很杂的任务：

数学推理
逻辑推理
竞赛编程
软件工程 sandbox
问答
创意写作
instruction following 等

它不是只把模型训成奥数/代码刷题机，而是想把它训成更 agentic 的 reasoning model。

三、实验设计

数据收集：实验数据包括数学推理、逻辑推理、编程竞赛、软件工程和一般领域任务。数据来源包括公开数学竞赛、GitHub仓库、合成数据框架SynLogic等。
实验设置：MiniMax-M1模型在7.5T令牌的数据上进行预训练，然后在监督微调阶段注入特定的链式思维（CoT）模式。RL训练在多种环境中进行，包括数学推理、逻辑推理、编程竞赛和软件工程任务。
参数配置：模型使用AdamW优化器，初始学习率为8e-5，训练过程中逐步衰减。为了应对计算精度不匹配问题，将LM输出头的精度提高到FP32。

四、实验结果

在这里插入图片描述

基准测试：在数学推理任务中，MiniMax-M1在AIME 2024和AIME 2025基准上分别取得了86.0%和88.9%的准确率，接近DeepSeek-R1的性能。在编程任务中，MiniMax-M1在LiveCodeBench和FullStackBench上分别取得了65.0%和68.3%的准确率，与Qwen3-235B相当。当在2025这个节点，和当时闭源强模型还是有不少距离。
复杂场景：在软件工程任务中，MiniMax-M1在SWE-bench验证任务上取得了56.0%的准确率，显著优于其他开源模型。在长期上下文理解任务中，MiniMax-M1在OpenAI-MRCR(1M)上取得了58.6%的准确率，排名全球第二。
工具使用：在代理工具使用任务中，MiniMax-M1在TAU-bench(retail)上取得了67.8%的准确率，超过了所有其他开源模型。

Reference

[1] CISPO 目标函数怎么从DAPO变过来的
[2] 从 PPO 到 SAPO：大模型强化学习算法的演进与对比 (PPO, GRPO, DAPO, CISPO, GSPO, SAPO)

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

代码就是一切｜Anthropic Agent Skills 架构与落地精讲

Anthropic 2026年战略转型提出"Code First+Agent Skills"新范式，将业务经验沉淀为可版本化管理的文件资产，通过代码脚本执行确定性任务，大模型仅处理推理决策等不确定环节。核心架构采用渐进式披露分层加载机制解决上下文膨胀问题，明确划分Skills（业务方法论）、MCP（系统连接）、Subagents（任务分工）三大组件边界。落地需遵循高频场景优先、

AtomGit开源社区

AI-AGENT概念解析 - LLM模型和智能体

AI应用架构解析：从大模型到专家助手大模型作为核心引擎，驱动AI Agent成为智能执行系统。RAG检索和知识库构成长期记忆体系，Skills提供原子化工具能力，MCP作为标准化接口。这些组件共同支撑AI专家助手的领域应用：层级架构大模型（LLM）处于底层，提供基础认知能力；中间层由Agent整合记忆（知识库+RAG）和行动（Skills）；顶层是面向领域的专家助手。关键组件功能 RAG检

AtomGit开源社区

AI-AGENT概念解析 - LLM模型和AI领域助手

AI专家助手并非独立模型，而是以大模型为"智能核心"构建的专业化应用系统。其工作机制遵循"感知-规划-执行-整合"的闭环：大模型负责理解、推理和规划（大脑功能），专家助手则通过特定领域工具集执行具体任务（手脚功能）。这种架构既解决了大模型的幻觉问题，又扩展了其实际应用能力。根据任务复杂度，专家助手可分为两种模式：1）单一智能体专注于特定领域（如科研助手Sc