港大与哈工大突破:游戏驱动实现AI举一反三式推理能力提升

这项由香港大学与哈尔滨工业大学(含哈工大深圳校区)联合开展的研究,于2026年4月发表,论文编号为arXiv:2604.17696,有兴趣深入钻研的读者可以通过该编号查询完整论文。
**研究概要:一个会玩游戏的AI,能学会做数学题吗?**
教一个孩子下棋,他学到的不只是棋谱,而是"如何在信息不完整时做出最优决策"这种可以应用在谈判桌、考场甚至日常生活中的通用能力。人工智能研究者一直梦想着用同样的逻辑来训练AI——让它在游戏中磨砺出真正的"智慧",而不只是一堆只适用于棋盘的操作技巧。
然而,现实往往令人沮丧。过去的研究尝试让AI通过玩游戏来提升推理能力,结果发现AI学到的大多是"王牌压过皇后牌"这类只在扑克牌桌上有用的把戏,换个场景就完全失灵。这就像一个人学了一辈子的围棋战术,却完全不知道怎么在工作中做决策——技能没有真正迁移。
这项研究的目标,就是打破这道障碍。来自香港大学与哈尔滨工业大学的研究团队提出了一个名为STRATAGEM的训练框架,核心思路是:不只让AI学会"赢",而是让它学会用那种换了场景依然管用的方式去思考和推理。团队在三种文字类游戏上训练AI,然后直接去测数学竞赛题、科学题和编程题,结果显示AI的推理能力得到了全面提升,在难度最高的数学竞赛题目上提升尤其惊人。
**一、老问题:为什么游戏教出来的AI"不会举一反三"**
要理解这项研究解决了什么问题,先得明白旧方法哪里出了岔子。
在这之前,有一个叫SPIRAL的研究框架已经做了类似的尝试——让AI自己跟自己玩零和游戏(就是一方赢、另一方必输的那种),通过不断的自我对弈来提升。这种方法有个很聪明的地方:AI不需要人类提供标准答案,胜负本身就是最直接的反馈信号。就像两个象棋高手互相对弈,不需要老师在旁边打分,赢了就是赢了。
但SPIRAL有一个根本性的局限:它只告诉AI"这场游戏你赢了还是输了",却完全不区分"你是用了好的方式赢的,还是用了投机取巧的方式赢的"。结果就是,AI可能学会了"对手下注通常意味着他牌大,所以我要弃牌"这类只在扑克牌里有意义的经验,而真正有价值的推理逻辑——比如"把所有可能的情况列举出来,分别计算期望收益,选择最优方案"——反而没有得到专门的强化。
研究团队把这个问题归纳为两个核心障碍。第一个叫"领域特异性",指的是游戏里学到的推理模式被牢牢锁在游戏的语境里,像是穿了一件只能在特定场合穿的戏服,脱下来就什么都不是了。第二个叫"语境静止性",指的是游戏的规则和背景从头到尾不会变,AI只需要面对一个固定的局面,不需要培养那种"随着问题不断演变而不断调整思路"的能力——而这恰恰是做数学题、写代码时最需要的能力。
**二、STRATAGEM的核心思路:不只奖励赢,更奖励"赢得漂亮"**
STRATAGEM这个名字本身就是一个缩写,展开来是"通过轨迹优势激活的自我博弈游戏学习"。但抛开这个绕口的全称,它的核心逻辑可以用一个简单的比喻来理解:一位严格的教练不只看学生比赛赢没赢,还要看赢的方式是否规范、是否展现了可以迁移到其他运动项目中的运动素质。
在技术层面,STRATAGEM在原有的胜负奖励基础上,加入了两个额外的评判信号,用来调整每一段对弈记录对AI训练的影响权重。如果某段对弈展示了高质量的、可迁移的推理过程,这段记录就会获得更大的"话语权",对AI的训练产生更强的引导作用;反之,如果某段对弈虽然赢了,但推理过程全是游戏特有的小技巧,它的影响就会被削弱。
这两个额外信号,一个叫"推理可迁移系数",专门衡量推理内容的抽象程度;另一个叫"推理演化奖励",专门衡量推理过程有没有在多轮对话中不断深化和进步。两者合力,确保AI学到的不只是怎么赢,而是怎么用举一反三的方式去思考。
**三、第一把钥匙:推理可迁移系数——这段推理换个场景还管用吗?**
推理可迁移系数(研究中用希腊字母φ表示)要回答的问题是:如果把这段推理过程里的游戏词汇全部替换成抽象变量,逻辑还成立吗?
研究团队从三个维度来评判这个问题。第一个维度是"抽象程度",也就是推理用的是像"期望值""概率分布"这样的通用概念,还是像"国王打败皇后"这样只在特定游戏里有意义的表述。第二个维度是"结构清晰度",就是推理有没有用到可复用的框架,比如逐一列举所有情况、搭建"如果……那么……"的逻辑链、系统性地穷举所有可能性。第三个维度是"原则导向性",即推理有没有引用像"贝叶斯定理"或"最大化期望效用"这样的普适原则,而不是凭借"我以前见过这种局面"这类经验式直觉。
举个对比来理解:同样面对一手小牌对方却下了重注的局面,一段"游戏特化"的推理会说"我的牌最小,对手下注通常表示他牌大,所以我应该弃牌";而一段"高度可迁移"的推理则会说"列举所有可能情况:情况一,对手是强牌,我跟注的期望收益为负2乘以0.5等于负1;情况二,对手在虚张声势,期望收益为正2乘以0.5等于正1;综合来看,选择期望效用最高的方案"。第二段推理的逻辑框架可以直接搬到任何需要在不确定条件下做决策的场景里——无论是数学题还是商业谈判。
每个维度都被评分为低、中、高三档,然后按照一定的权重加总成最终的可迁移系数。这个系数会直接乘到游戏胜负信号上,高可迁移的推理记录获得充分强化,低可迁移的即便赢了也会被"打折扣"。
**四、第二把钥匙:推理演化奖励——思维有没有在过程中成长?**
推理演化奖励(用ψ表示)解决的是另一个问题:AI的思维过程有没有在多轮对话中不断深化,而不是每一轮都像刚睡醒一样从零开始?
做数学题时,一个好的推理过程应该是这样的:先拆解问题,发现子问题,解决子问题,用子问题的结论推进下一步,不断调整对整体解题路径的判断……每一步都在之前的基础上继续往前走。而研究团队观察到,没有经过专门训练的AI在玩游戏时往往会陷入一种"重置症"——每一轮都说"这是我的第一步,我应该走中间位置来获得最大控制权",完全无视之前已经发生了什么。这就是典型的语境静止性问题。
为了对抗这个问题,推理演化奖励从三个角度评判每段对弈记录。第一个角度是"推理深化",即推理有没有随着轮次推进从简单的表面观察走向更复杂的深层分析,就像数学证明一样层层递进。第二个角度是"策略适应",即推理有没有根据对手的新行动和局面的新变化调整自己的判断,而不是机械地执行预设方案。第三个角度是"逻辑连贯",即后面的推理有没有建立在前面的结论之上,形成一条贯穿始终的逻辑主线。
这个奖励信号的评分区间是负一到正一。正一代表推理在三个方面都有明显进步,负一代表推理出现了退化——比如一开始分析得头头是道,后来突然变成"随便走一步"。设计成可以为负值是有用意的:这样不仅能鼓励好的推理进化,还能主动惩罚那些表面上赢了、但推理过程越来越懒散的对弈记录,即便那些对弈结果对AI有利。
**五、两把钥匙如何合力工作**
整个STRATAGEM的训练流程可以这样理解:每一局游戏结束后,系统会计算三个东西。其一是游戏本身的胜负结果,这是最基础的反馈,告诉AI"这个策略有没有奏效"。其二是推理可迁移系数,这是一个乘数,用来决定这局游戏的胜负结果"说话的音量有多大"——高可迁移的推理让游戏结果的声音变大,低可迁移的让声音变小。其三是推理演化奖励,这是一个加法项,额外奖励或惩罚推理过程本身的进化质量,不管游戏最终输赢如何。
三者组合成一个调制过的综合信号,引导AI的学习方向。关键在于,只有那些既赢得了游戏、又展现了高度可迁移的推理、且推理过程在多轮中不断深化的对弈记录,才能获得最强的强化信号。这就像在体育训练中,一个运动员要同时满足"赢得比赛""动作规范""体能持续进步"三个条件才能获得最高评价,而不只是冲着金牌就行。
评估这两个信号的工作由GPT-4担任,研究团队还专门设计了详细的评分提示词,让评估尽可能客观。为了控制成本,并非每一局对弈都进行完整评估,只是对其中一部分抽样评估,其余的用平均值填充。整个额外评估的成本大约是每次训练一百美元,相比训练本身消耗的三十小时GPU时间来说相当微小。
**六、实验设置:三种游戏,九个测试场景**
训练阶段,研究团队选用了三种文字类零和游戏。井字棋(即Tic-Tac-Toe,在三乘三的格子上连成一线的游戏)用于培养空间推理能力,因为它是完全信息的确定性游戏,可以把战略推理和不确定性管理隔离开来单独训练。库恩扑克(只有三张牌的简化版扑克)用于培养概率推理能力,玩家需要在不完整信息下做出下注决策。简单谈判游戏用于培养策略优化能力,两名玩家交换木材和黄金资源,双方的效用函数相反,需要推断对方的偏好并进行多步骤的策略性提议。
这三种游戏的组合覆盖了核心推理能力的三个主要维度,同时奖励信号完全由游戏结果自然给出,不需要人工标注。
测试阶段覆盖了三个大类共九个基准测试。数学推理类包括MATH500(五百道竞赛数学题)、OlympiadBench(奥林匹克级别题目)、Minerva Math、AIME 2024、AIME 2025和AMC 2023;综合推理类包括GPQA(研究生级别的科学题)和MMLU-Pro;代码生成类包括HumanEval。所有测试均采用零样本方式,即AI没有接触过任何测试题的例题或提示,直接作答。
**七、实验结果:竞赛数学题的成绩翻了好几倍**
测试结果相当直观。基础模型Qwen3-4B-Base在AIME 2024上的正确率只有10%,SPIRAL训练后依然是10%,而经过STRATAGEM训练后直接跳到了20%,翻了一倍。AIME 2025的情况更加戏剧性,基础模型的成绩仅有3.3%,SPIRAL训练后提升到6.7%,STRATAGEM训练后达到13.3%,相当于基础版的四倍。AMC 2023题目上,SPIRAL训练后的成绩为45%,STRATAGEM达到60%,领先15个百分点。
这些提升之所以格外显眼,是因为AIME和AMC是面向高中生的美国数学邀请赛,题目需要多步骤的连续推理,恰恰是检验推理迁移能力最好的场景。如果AI只学到了游戏中的表面技巧,面对这些题目时根本无从下手。
在综合推理方面,GPQA从基础模型的30.6%提升到38.23%,MMLU-Pro从47.2%提升到57.83%。代码生成方面,HumanEval从67.93%提升到77.93%,提升了整整10个百分点。唯一出现小幅退步的是Minerva Math(下降了0.8个百分点),但这个例外反而让整体结果更加可信——完全一边倒的数据反而容易让人生疑。
**八、消融实验:两把钥匙缺一不可**
研究团队做了一组关键测试:把推理演化奖励(ψ)去掉,只保留推理可迁移系数(φ),看看成绩会怎么变化。结果证明,ψ的贡献是实质性的。去掉ψ之后,AIME 2024的成绩从20%跌回13.3%,AMC 2023从60%跌回52.5%,这两个下降幅度都相当显著。AIME 2025也下跌了3.3个百分点,MATH500下跌了1.4个百分点。在九个测试中,ψ的存在让其中八个有所提升。
这个结果说明,单靠"推理必须抽象"是不够的,同时还需要"推理必须随着问题进展不断演化"这个约束,二者缺一不可。这也符合直觉:一个只会用抽象框架但每次都从头开始的人,和一个能把之前的思考成果不断积累并往前推进的人,在解决复杂问题时的表现会有本质差别。
**九、参数敏感性:β值设在0.20是最佳平衡点**
研究团队还测试了控制推理演化奖励贡献大小的参数β取不同值时的表现。从0.01、0.05、0.10、0.20到0.30,测试了五个档位。
β太小(0.01时)相当于推理演化奖励几乎不发声,效果接近去掉ψ的消融版本。β太大(0.30时)则导致训练不稳定,MATH500成绩从76%骤降到71.6%,AMC 2023更是从60%跌回47.5%,说明过分强调推理演化反而干扰了游戏本身的学习信号。最优点落在0.20,在大多数基准测试上都达到峰值。有一个细微的规律值得注意:越难的题目(如AIME 2024)对较大的β更宽容甚至更有利,而偏重知识的题目(如Minerva Math)则倾向于更小的β值,说明不同类型的任务可能天然偏好不同的推理深化强度。
**十、人类专家的评分:AI确实学到了更抽象、更有层次的思维**
为了防止数字成绩只是测试集上的巧合,研究团队请了五位拥有自然语言处理和机器学习背景的博士生,对四种模型(基础模型、SPIRAL、去掉ψ的STRATAGEM、完整STRATAGEM)生成的游戏对弈记录进行盲评。评分者不知道每段记录来自哪个模型,并从两个维度打分:推理的抽象程度(对应φ),以及推理的层次递进程度(对应ψ),每个维度满分5分。
完整STRATAGEM在抽象度上拿到4.06分,在层次递进度上拿到4.18分,两个维度都是四个模型里最高的。基础模型的两个维度分别只有2.48和2.32。去掉ψ的版本抽象度为3.82,接近完整版,但层次递进度只有3.36,明显低于完整版的4.18,精准地印证了ψ专门负责推理进化这一设计意图。评分者之间的一致性也很高,Krippendorff's α系数约为0.75,属于强一致性区间。
研究团队还用Claude 3.5 Sonnet和Gemini 2.0 Flash对约两百段对弈记录进行了重新评分,验证这套评分体系有没有偏向GPT-4的特定口味。结果显示,三个模型之间的一致性Cohen's κ值均超过0.60,Spearman相关系数均超过0.70,说明评分反映的是对弈记录本身的客观属性,而非某个特定评分模型的偏好。
**十一、训练过程的动态变化:推理质量随时间稳步提升**
研究团队还记录了训练过程中φ和ψ这两个指标的变化曲线。训练刚开始时,推理可迁移系数φ很低,说明AI最初依赖的大量都是游戏特有的表述和技巧。随着训练推进,φ稳定上升,在后期稳定在0.7到0.8的区间。推理演化奖励ψ的变化也类似:刚开始时甚至为负值,意味着早期的推理过程是碎片化的、前后不连贯的;随着训练继续,ψ逐渐爬升到正值区间,反映出推理过程越来越具有连贯性和层次感。两条曲线的变化趋势与研究团队的理论预期完全吻合,也说明这套机制确实在朝着预期方向引导AI的学习过程。
**十二、推广到陌生游戏:在从未见过的游戏里也表现更好**
为了检验AI有没有学到真正通用的推理能力而不只是在训练游戏上过拟合,研究团队让两个模型(SPIRAL和STRATAGEM)去玩三种完全没有在训练中出现过的游戏,并以Gemini 2.0 Flash作为对手进行测试。
蛇形游戏是动态空间推理游戏,两名玩家控制蛇在格子上竞争。这测试的是井字棋里的空间推理能否迁移到动态环境中的路径规划。猪骰子游戏是风险决策游戏,玩家不断掷骰子积累分数,但掷出一点就会失去本轮所有积分,需要决定何时"存档"。这测试的是扑克里的概率推理能否迁移到连续风险评估场景。真相与欺骗游戏是信息不对称游戏,一方知道真相另一方通过提问猜测,测试谈判游戏中的策略沟通能力能否迁移到纯粹的信息博弈。
在三种陌生游戏中,STRATAGEM的胜率均高于SPIRAL。蛇形游戏和猪骰子游戏各领先0.20,真相与欺骗游戏领先0.08。这组数据进一步支持了STRATAGEM学到的是可迁移的推理模式这一核心论点。
**十三、多种游戏组合训练比单一游戏更有效**
研究团队还比较了单独用一种游戏训练和混合三种游戏训练的效果。结果显示,混合训练在九个基准测试中有六个达到最佳成绩,在竞赛数学上优势尤为显著——AIME 2024比单游戏最佳成绩还高6.7个百分点,AMC 2023高2.5个百分点。有趣的是,单独用某一种游戏训练有时在特定测试上表现更好,这或许因为某些游戏的推理特性与某类测试更为契合。但整体来看,多种游戏带来的推理模式多样性对综合迁移能力是有益的。
**十四、换一个更强的起点模型,效果依然成立**
最后一组实验检验了这套方法有没有依赖特定的基础模型。研究团队把同样的训练流程用到了Qwen3-4B-Instruct上——这是已经经过指令微调的版本,具备更成熟的语言理解和遵循指令的能力,起点比基础版更高。
结果显示,STRATAGEM在五个测试上均优于SPIRAL:MATH500提升2.8个百分点,AIME 2024提升6.6个百分点,AMC 2023提升7.5个百分点,GPQA提升1.56个百分点,HumanEval提升0.3个百分点。绝对提升幅度比基础模型版本略小,这是因为起点更高之后剩余的提升空间自然缩小,而不是说方法效果变弱了。这组结果说明,STRATAGEM的轨迹优势调制机制作用于奖励信号层面,与模型架构和初始化状态无关,具有一定的通用性。
**十五、案例对比:两个模型在游戏中"脑子里想什么"**
研究团队展示了几个具体的推理过程对比,让人直观感受到两种训练方式的差别。
在井字棋第二轮中,基础版模型说的是"在我的第一步中……我应该走中间位置来获得最大控制权",完全无视第一轮已经走过棋这一事实,仿佛每一轮都是全新的开始。STRATAGEM训练的模型则说"玩家0已经占据了中心位置,威胁最小化策略:走1号位可以限制对手的选项并为后续威胁做铺垫",不仅意识到了当前局面的状态,还使用了"威胁最小化"这类可以在任何对弈场景(甚至商业决策场景)中通用的概念框架。
在库恩扑克中,基础模型的第一轮竟然错误地把J(最小的牌)识别为K(最大的牌),从一开始就建立在错误的前提上,后续推理自然也失去意义。STRATAGEM版本则在第五轮写道"期望值分析:弃牌的期望损失为0;跟注的风险是两筹码……",直接运用了期望值计算框架,这种框架和数学竞赛题里解决概率决策问题的思路如出一辙。
谈判游戏的对比也很鲜明。基础模型把谈判当算术题做,直接写"木材:10,价值:5;黄金:10,价值:15;总计:5+15=20",然后贪婪地追求最优分配,完全不考虑对方的意图。STRATAGEM版本则从第一轮就开始建模对方的策略意图,在第三轮将"对方的初始报价"和"当前的要求"进行系统对比,在第五轮战略性地重申自己的立场,整个过程体现出连续追踪谈判进程和动态调整策略的能力。
归根结底,这项研究的核心贡献是指明了一条让AI在游戏中学到"真本事"的路径:不只看赢没赢,还要看赢得是不是靠真正值得学习的推理方式,以及推理过程有没有随着对话推进而不断成长。这两个细节的加入,让游戏训练的效果从"可能有点用"变成了"在最难的推理任务上有显著收益"。
当然,这项工作也有它还没解决的问题。训练游戏只有三种,都相对简单;测试的模型规模也只到四亿参数级别;评估φ和ψ还需要依赖GPT-4这个外部接口,增加了对第三方服务的依赖。研究团队在论文中坦承,把评估器替换成一个轻量的本地奖励模型是下一步的自然方向,更多种类、更复杂的游戏环境也值得探索。不过,这些都是在已经扎实的基础上继续拓展的问题,而不是基础逻辑本身的缺陷。
有兴趣深入了解完整技术细节的读者,可以通过论文编号arXiv:2604.17696查阅原文,这篇论文的附录部分包含了所有评估提示词的完整版本,具备足够的可复现性。
---
Q&A
Q1:STRATAGEM训练AI的游戏和最终测试的数学题、编程题有什么关系?
A:STRATAGEM训练用的是文字类零和游戏,比如井字棋和扑克,测试用的是完全不同的数学竞赛题和编程题。两者的联系在于推理方式:游戏里用到的"列举所有情况、计算期望值、逐步深化分析"等思维框架,和解数学题时需要的逻辑结构是相通的。STRATAGEM通过专门奖励这类抽象推理方式,让AI在游戏中练出了能迁移到其他领域的推理能力。
Q2:推理可迁移系数和推理演化奖励这两个指标是怎么打分的?
A:两个指标都由GPT-4来评估,研究团队为此设计了详细的评分提示词。推理可迁移系数从"抽象程度""结构清晰度""原则导向性"三个维度打分,每个维度0到1分;推理演化奖励从"推理深化""策略适应""逻辑连贯"三个维度打分,每个维度负1到正1分。研究团队还用Claude和Gemini交叉验证了评分一致性,确认结果不是GPT-4的特定偏好。
Q3:STRATAGEM在AIME数学竞赛题上的成绩为什么比其他题目提升更明显?
A:AIME竞赛题需要多步骤连续推理,每一步的结论都要被后续步骤引用,整个解题过程是一个不断演化的逻辑链。这恰好对应了STRATAGEM重点强化的"推理演化"能力——要求AI的思路随着问题推进而不断深化,而不是每轮都从头开始。相比之下,偏重知识记忆的题目对这种能力的需求没那么强,所以提升幅度相对较小。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)