ICLR 2026｜告别“刷题”陷阱，MathForge双轨框架让大模型专攻难题，数学推理飙升4.5%

我就是全世界

345人浏览 · 2026-04-29 17:20:31

我就是全世界 · 2026-04-29 17:20:31 发布

ICLR 2026｜告别“刷题”陷阱，MathForge双轨框架让大模型专攻难题，数学推理飙升4.5%

刷了上万道题，模型却在真正难啃的骨头上频频翻车。这就像是个疯狂刷驾考题库的学员，倒车入库练得滚瓜烂熟，一上路遇到个斜车位就彻底懵了。大模型的数学推理训练，正陷入同样的陷阱。
在这里插入图片描述

当前主流方案GRPO，其运作逻辑是在同一道题生成的多个答案间做相对比较，谁好谁坏，一目了然，然后据此调整模型参数。听起来很合理，但这里有个隐秘的bug。论文通过理论分析揭示，GRPO的更新强度天然更偏向中等难度题。对于太简单的题，模型每次都能答对，组内答案差异极小，算法觉得“没啥可学的”，更新信号微弱；对于极难的题，模型每次都错得离谱，答案五花八门却全无正确样本，算法同样陷入迷茫，信号混乱。

真正最有训练价值的，是那些**“难而可学”的题目**——模型有时能做对，有时会做错，恰好暴露了能力的边界。但在GRPO的机制下，这类题得到的训练信号反而被压低。模型最该花精力去攻克的那部分短板，就这样被算法“悄无声息”地忽略了。

算法层面的“偏食”已经够糟，数据层面的“惰性”更是雪上加霜。常见的数学推理数据增强，要么是从头生成新题，要么是对原题做简单重述。前者在生成高难度竞赛题时，答案正确性很难保证，容易引入错误信号；后者虽然增加了题目表述的多样性，但换汤不换药，内在的推理难度几乎原地踏步。

把“小明有3个苹果”改成“小明拥有3个水果，这些水果是苹果”，这能提升什么推理能力？这种浅层重述，只是让模型习惯了同一逻辑的不同表面表达，却从未触及真正的挑战。模型看似在“刷题”，实则是在舒适区里反复横跳。当它面对一个需要更深层推理、更复杂链条的变体时，立刻就原形毕露。真正能逼出模型潜力的，不是更多的题，而是更难、但答案依然可靠的题。

二、双轨锻造：MathForge如何从算法与数据两端“围剿”难题？

在这里插入图片描述

如果只把问题归结为“难题练得少”，解决方案很容易滑向简单的加权采样。但MathForge团队发现，问题远比这更隐蔽——算法本身就在系统性地压制难题的训练信号。因此，MathForge的应对策略也分成了两条清晰的路径：DGPO负责修正“怎么学”的偏差，MQR负责解决“学什么”的瓶颈。这不是修修补补，而是对训练逻辑的一次系统性重构。

算法重塑：DGPO的平衡与重加权策略，如何让“难而可学”样本获得最高训练权重

GRPO的一个反直觉缺陷，在此被理论分析彻底揭示：不同难度题目的更新强度天然失衡，中等难度题占据最大更新幅度，而真正需要大量训练的难题，反而因为组内回答方差小，获得的梯度信号微弱。

DGPO的修正分两步走，逻辑精准。

第一步是DGAE，负责“拉平”。 它用平均绝对偏差（MAD）替代GRPO的标准差归一化。论文定理证明，在不依赖二值正确性奖励的情况下，DGAE能让每道题的更新幅度趋于相等。难题不再因方差小而被边缘化，简单题也不再占据过多训练预算。所有题目在更新强度上被拉到同一起跑线。

第二步是DQW，负责“重加权”。 更新幅度平衡后，DQW根据题目的平均正确率估算难度，对正确率低但并非完全无法答对的题目赋予更高权重。这正是“难而可学”样本的精准定义——它们恰好处于模型能力的边界地带，每一次有效学习都能带来最大幅度的能力跃升。

核心洞察：DGPO不是简单“给难题更高权重”，而是先修正GRPO内在的更新偏差，再按难度重新分配资源。DGAE和DQW是互补关系，缺一不可——只加权不拉平，难题仍被算法压制；只拉平不加权，则无法聚焦最有价值的样本。

数据深改：从背景干扰到子问题拆解，MQR如何系统化地“制造”高价值难题

DGPO解决了“怎么学”，MQR回答的是“学什么”。传统浅层重述只是换了个说法，题目本质难度不变——这解释了为何单纯增加数据量收效甚微。MQR从三个维度系统性地提升题目难度，同时严格保持原始标准答案不变，这是其设计上的关键约束。

Background策略注入看似相关实则干扰的背景信息，迫使模型在复杂叙述中剥离冗余、抓住真正的数学条件，考验信息筛选能力。

Term策略引入新的抽象术语替代核心概念，模型不能只靠熟悉的表面表达作答，必须真正理解定义和结构，这逼迫模型进行深层语义理解而非模式匹配。

Sub-Problem策略把原题中的关键数值条件改造为需先独立求解的小问题，直接拉长推理链条。实验数据显示，这种改写对推理难度的提升最为显著。

三种策略组合使用效果最优，且改写后的数据在控制总训练量后依然优于原始数据。这意味着MQR真正创造出了更高价值的训练样本，而非简单的数据堆砌。

三、性能跃迁：专攻难题的训练范式，带来了怎样的质变与启示？

如果仅把 MathForge 理解为“多刷难题”，就完全低估了它的价值。它真正的贡献，在于揭示了一条反直觉的规律：训练时承受的“认知压力”越大，测试时展现的“推理韧性”越强。 这不是简单的分数堆砌，而是模型底层推理机制的重塑。

全面提分：超4.5%的平均性能提升与跨模型普适性验证

实验数据给出了最直接的答案。在核心基准上，MathForge 相比标准 GRPO 平均性能跃升超过 4.5%。这不是微弱的波动——在数学推理领域，每 1 个百分点的提升都来之不易，4.5% 意味着范式级的代差。

更关键的是跨模型普适性验证。研究团队测试了不同规模的模型，从较小参数模型到 7B 级别，MathForge 均能稳定带来约 3 到 4.5 个点的显著增益。这证明“难题优先”并非某个模型的“特供调参”，而更接近一种通用的后训练规律。

消融实验进一步揭示了 DGPO 内部的双重机制是缺一不可的互补关系：DGAE 负责拉平更新幅度，避免中等难度题垄断训练信号；DQW 则将火力精准聚焦于“难而可学”的边界地带。单独使用任一组件，效果都会大打折扣。这种结构化的增益，使 DGPO 甚至可以作为一种“即插即用”的增强模块，与多种现有强化学习方法结合，持续带来额外收益。

能力泛化与效率革命：多模态任务同样有效，推理路径竟变得更简短高效

如果仅停留在数学文本任务上，还不足以展现 MathForge 的全部潜力。其能力泛化边界，在跨模态任务中得到了有力验证。

当 DGPO 被直接迁移到多模态数学推理场景——面对图像与文本交织的复杂输入时，依然取得了超过 2 个点的稳定提升。这有力地证明，锁定“难而可学”样本进行重点攻坚，并非特定数据下的偶然，而是一种更底层的认知能力激发机制。

最令人意外的，是随之而来的效率革命。传统观念中，攻克难题往往意味着更长的推理链条。但训练动态数据显示，采用 DGPO 的模型不仅准确率更高，其生成的推理路径反而更加简短。

这颠覆了“更长即更好”的直觉。模型并非通过堆砌冗长步骤来碰运气，而是在高难度训练中被迫学会了更高效的推理捷径——它找到了问题的本质，而非在表面绕弯。与此同时，MQR 改写后的数据呈现出典型的“Train Harder, Test Better”现象：训练时准确率更低、挣扎更剧烈，但测试时的泛化能力却实现了反超。