打破算力垄断！Google联合开源社区整大活：如何利用 Tunix 让 Gemma 学会深度“思考”？

JJJennie777

256人浏览 · 2026-05-29 11:26:06

JJJennie777 · 2026-05-29 11:26:06 发布

在大模型（LLM）领域，让模型在回答前先进行“思考”（即输出显式的思维链 Chain-of-Thought）已经成为解决复杂推理任务的标配。像 Gemini 3 或开放权重的 Gemma 4 这样的前沿模型，都具备了极强的推理轨迹生成能力。

然而，市面上虽然有很多关于数学、代码等“易验证任务”的推理训练教程，但针对通用推理（General Reasoning）的、可复现的完整训练方案（包含数据、策略、代码及评估）却依旧凤毛麟角。

为了打破这一僵局，Google 在 Kaggle 上举办了一场名为 “Google Tunix Hack: Train a model to show its work” 的黑客马拉松。比赛要求开发者在极其有限的算力预算下（仅使用一块 Kaggle TPU v5e-8 运行 9 小时），将不具备推理能力的轻量化基础模型（Gemma-2-2B 和 Gemma-3-1B）改造为通用的推理模型。

这场大赛吸引了超过 11,000 名选手参赛，催生了 300 多个高质量方案。今天我们就来拆解前三名获胜团队的技术结晶，看看开源社区是如何用小算力“调教”出低配版“思考模型”的。

一、冠军方案：G-RaR（基于量规的强化学习）

核心思路： 结合监督微调（SFT）与 GRPO（群体相对策略优化），并引入创新的“LLM-as-judge（大模型作为裁判）”量规奖励系统。

1. 推理能力的提升密码

该方案通过显式训练，让 Gemma 在输出最终答案之前，必须在 <reasoning> 标签内“展示其思考过程”。

传统的 GRPO 往往依赖“完全匹配（Exact-Match）”的准确率作为奖励，但这很难应用于开放式、不可验证的任务。冠军团队提出了 G-RaR（Rubrics as Rewards） 技术：他们使用一个更大的裁判模型（Gemma-3-12B）根据特定任务的量规（Rubrics）来评估中间逻辑步骤的质量。通过将离散的量规得分转化为连续、归一化的奖励信号，为模型的逻辑生成提供密集且平滑的反馈。

2. 技术落地架构

这是一个两阶段的后训练（Post-training）管线：

Stage 1 (SFT 预热)： 使用 LoRA 在约 3.3 万个样本的数据集上微调 Gemma-2-2B-IT，让模型牢固掌握 <reasoning>...</reasoning><answer>...</answer> 的结构基础。
Stage 2 (GRPO 精炼)： 基于复合奖励函数（格式奖励 + 精确答案奖励 + G-RaR 量规得分）进行强化学习。为了突破单卡算力瓶颈，团队采用了网格切分（Split-mesh）架构，将策略/参考模型与裁判模型分别放置在单块 TPU v5e-8 的不同切片上，实现了真正的并行计算。

二、亚军方案：Pinocchio-1B（三幕剧式推理引擎）

核心思路： 在 9 小时的 TPU 流水线内，通过（SFT → SimPO → GRPO）三阶段进化，将 1B 参数的超轻量模型训练成结构化推理引擎。

1. 推理能力的提升密码

让 1B 模型的行为从简单的“模式匹配”跃升为“逻辑推导”。通过 SFT 注入基础的思维链（CoT）能力；引入 SimPO 锁死严格的 XML 格式（防止模型通过无意义的拉长篇幅来“刷分”）；最后通过 GRPO 引入裁判模型，奖励连贯性并严厉惩罚幻觉。

2. 技术落地与 Tunix 扩展

SFT 阶段： 使用 OSS-120B 教师模型和 Gemini 任务路由，在 70k 提示词上进行知识蒸馏。
SimPO 阶段： 由于 DPO（直接偏好优化）极其消耗内存，团队采用了更轻量的 SimPO 代替，以极高的效率强制执行严格的 XML 格式。
GRPO 阶段： 引入 Gemini 2.0 Flash 作为异步裁判，动态奖励准确性、逻辑性和格式。

对 Tunix 的自定义改动： 该团队显式扩展了 Tunix 库：首先将带有长度归一化（Length Normalization）的自定义 SimPO 损失函数注入到 DPOTrainer 中；其次构建了一个高吞吐量的异步评估引擎，用于实时处理 GRPO 的奖励信号。

三、季军方案：IDEA-E 蒸馏与课程引导的 GRPO 训练

核心思路： 将结构化的“IDEA-E”伦理推理框架蒸馏至 2B 模型中，并配合课程引导的 GRPO 以及超快的 TF-IDF 奖励系统。

1. 推理能力的提升密码

IDEA-E 支架强制模型在回答前进行逐字逐句的逻辑推导，有效防止了模型的“过早猜测”。同时，为了避免传统 LLM 裁判带来的巨大延迟和算力开销，团队引入了 TF-IDF 奖励机制：通过激励模型在推理轨迹中使用与上下文高度相关的词汇，从根本上杜绝了无意义的废话（Yapping）。

2. 技术落地与 Tunix 扩展

SFT 阶段： 在教师数据上微调以确立 IDEA-E 的标准格式。
GRPO 阶段： 采用课程引导（Curriculum Guidance）的强化学习，并使用基于 CPU 的快速、非阻塞 TF-IDF 奖励函数替代了缓慢的 LLM 裁判。
对 Tunix 的自定义改动： 团队成功将他们的自定义 TF-IDF 奖励函数集成到了 Tunix 的 GRPO 流水线中。

四、垂直行业应用：小模型也能精通专业领域

除了通用的推理方案，本次黑客松还涌现出了大量针对垂直行业的推理模型训练范式，证明了小模型在经过 GRPO 训练后，也能在专业场景下“有条不紊”地思考：

行业领域	推理带来的核心改观
医疗 (Medical)	GRPO 引导模型生成结构化的临床问题思考轨迹，大幅提升了复杂临床诊疗输出的可解释性与可靠性。
化学 (Chemistry)	步进式推理轨迹赋能小微语言模型，使其能够顺利拆解并解决复杂的化学推导任务。
法律 (Legal)	通过 GRPO 强化结构化推导，使 Gemma-3-1B 能够准确分析复杂的法律条文数据，并产出逻辑严密的法律解释。
机器人 (Robotics)	步骤生成允许模型在单次会话训练的物理约束下，完成多步骤的机器人动作规划与决策。