阿里巴巴AMAP团队找到了让AI智能体自主学习的新钥匙

这项由厦门大学、阿里巴巴AMAP(高德地图)研究团队和南方科技大学联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.12004,感兴趣的读者可通过该编号在arXiv平台检索完整论文。
要理解这篇研究解决了什么问题,不妨先考虑这样一个场景:你雇了一支登山队,要求他们通过反复尝试来找到登顶路线。但问题是,如果山顶周围有一段悬崖峭壁,而这支队伍的装备和技能根本无法攀越,那么无论他们在悬崖下面尝试多少次,永远也到不了山顶,自然也就学不到"如何登顶"这件事。这个"悬崖"的比喻,恰好描述了当前AI智能体强化学习训练中最棘手的核心难题——研究团队将它命名为"可达性障碍"。
近年来,大型语言模型(简单理解为能读能写、能推理的AI大脑)已经从只会回答问题的聊天机器人,进化成了能够主动执行任务的"智能体"。这类智能体可以自主上网搜索信息、调用各种工具、完成复杂的多步骤任务,就像一个能自己规划行程、预订机票、查询攻略的智能助手。训练这种智能体的主流方法叫做强化学习——让AI反复尝试任务,成功了就给奖励,失败了就扣分,通过大量试错让它越来越聪明。
然而,这种训练方式有一个致命弱点:它完全依赖AI自己能"碰巧"找到正确答案。如果一项任务对AI来说太难,AI在训练过程中从来没有一次成功,那就没有任何"奖励信号"可以学习,训练就彻底陷入停滞。这就是那道悬崖——超出AI当前能力范围的任务,它永远触碰不到成功的彼端,自然也就永远学不会。
面对这个困境,业界通常的解决方案是在强化学习之前先做一轮"有监督的微调"——简单说,就是先给AI看大量人工标注的高质量示范数据,让它先热热身,打好基础,再开始强化学习训练。但这条路需要耗费大量人力来准备带有完整推理过程的示范数据,成本极高,而且每换一个新任务场景就得重新准备,难以规模化。
AMAP研究团队提出的新方法——ACTGUIDE-RL——走了一条完全不同的路。他们的核心思路是:既然互联网上每天都有海量人类操作电脑、使用手机应用、浏览网页的行为记录,这些"动作数据"虽然没有AI推理过程,但胜在唾手可得、规模庞大。能不能把这些动作数据当成一份"行动参考地图",直接塞给AI,帮它跨过那道悬崖?实验证明,这个思路不仅可行,而且效果出众。
**一、悬崖到底有多险峻:可达性障碍的本质**
要真正理解ACTGUIDE-RL的价值,必须先搞清楚那道"悬崖"到底有多难翻越。研究团队为此建立了一套严谨的理论框架,用"可达性动态"来量化这个问题,虽然听起来学术,但背后的逻辑其实很直觉。
考虑AI在执行一项复杂任务时每走一步的状态。每个状态都可以想象成登山过程中的一个营地——从这里出发,你有多大概率最终登顶?研究团队把这个"潜在成功概率"叫做"有效状态访问质量"。如果在任务进行到某个关键阶段,这个成功概率突然从相当可观的水平断崖式跌落到接近零,就说明AI在这里遇到了一个无法逾越的障碍。
这就像登山队走到了一段极难的岩壁面前——无论之前积累了多少高度,一旦到了这里,继续向上的概率趋近于零。更糟糕的是,一旦越过这个障碍点,即便勉强走下去,后续所有步骤的成功率也都会保持在极低水平。因为起点就已经"垮掉"了,后面再怎么努力也于事无补。
在强化学习的语境中,这意味着什么?当AI在一批任务上进行训练时,系统会同时让AI尝试同一个任务很多次,然后比较哪些尝试成功了、哪些失败了,从对比中提取学习信号。但如果所有尝试都以失败告终——因为那道悬崖就在那里——那么成功与失败之间就没有任何差异可以比较,梯度(也就是模型学习的驱动力)归零,训练彻底卡死。
关键在于,这个问题不是多试几次就能解决的。无论你让AI尝试十次、一百次还是一千次,只要它的能力本身没有突破那个关键瓶颈,结果都是一样的失败。这是一个结构性问题,不是统计性问题。用登山来比喻:光是原地踏步攀登同一面悬崖,不给绳索和技术支持,任何次数的尝试都是徒劳。
**二、行动数据如何化身"向导绳索":引导机制的工作原理**
既然AI自己翻不过悬崖,那就给它一根绳索。ACTGUIDE-RL的核心创新,就在于如何把人类的操作记录转化为这根"向导绳索"。
研究团队首先做了一个关键实验,来验证这根绳索是否真的有用。他们设计了两个度量指标:一个是在有参考动作序列引导下,AI的每一步动作与没有引导时相差多少(称为"引导影响力");另一个是在被引导到某个状态之后,如果把引导拿掉,AI能不能靠自己从这里继续走到终点(称为"前缀可达性")。
实验结果非常清晰,而且符合直觉。对于简单任务,AI从一开始就有相当大的把握能成功,给不给引导差别不大,两个指标都比较平稳。对于中等难度任务,有些阶段引导的影响力会突然飙升——那正是遇到障碍的位置——越过那个点之后,AI靠自己的成功率会明显回升。而对于困难任务,不引导时AI的成功率从头到尾接近于零,但引导数据在关键障碍处会产生巨大的影响力,一旦被引导越过那个节点,后续靠自己继续完成任务的概率就会回到可观的水平。
这个发现至关重要。它说明引导数据并不是在替AI做决策,而是在帮它找到"那扇打不开的门"的位置,然后引导它穿过去。穿过去之后,AI依然需要靠自己的推理能力继续前进。这就像给登山队在最难的岩壁上提前打好了固定锚点和绳索——队员还是得靠自己的体力和技术爬,但那个原本无法通过的关键路段,现在有了可以抓握的支撑。
在具体实现上,研究团队采用了一种非常简洁的注入方式:把参考动作序列作为一段"未来行动参考计划",直接附加在任务提示词里。比如,任务提示后面会跟着一段说明:"以下是一份参考行动轨迹,你可以参考这些步骤来完成任务,但这份轨迹可能不完整,你仍需自行判断并完成剩余步骤。"接着列出若干条具体操作,如"第一步:搜索XXX;第二步:访问某网页;第三步:搜索YYY……"
这种方式与"强迫AI原样复制动作"有本质区别。AI读到这段参考计划后,依然需要用自己的推理能力来理解、判断,甚至可以偏离参考轨迹,只是有了一个参照系让它不至于在关键岔路口迷失方向。研究团队还对比了其他注入方式,比如把参考动作作为AI已经输出的内容直接前置(强制前缀),或者模拟成多轮对话历史。实验表明,作为"参考计划"放在提示词里的效果最好,AI能在遵守参考的同时保持更灵活的推理。
**三、给多少引导才合适:最小干预原则的精妙平衡**
找到了向导绳索之后,新的问题来了:给多少绳索才算合适?
表面上看,既然引导有效,那引导越多越好。但研究团队发现,这个直觉是错误的。过多的引导会带来一个隐患——离政策风险(off-policy risk)。这个概念用登山比喻来理解很直观:如果全程都有人拖着AI爬,最终虽然到了山顶,但AI学到的是"被拖着爬的感觉",而不是"自己爬山的技能"。训练时靠引导爬过去了,测试时没有引导,还是不会。
更技术性地说,当AI在有引导的状态下生成的行动轨迹,与它在没有引导时自然生成的轨迹差异越大,这批训练数据对于训练"无引导版AI"来说就越不可靠。这种差异会累积放大,导致学习信号不稳定,最终不仅没有帮助,反而可能让训练朝错误方向走。
为了量化这个风险,研究团队测量了"累积对数比率偏移"——通俗说就是有引导时AI的每一步选择,与无引导时相比偏差了多少,把所有步骤的偏差加起来。实验结果画出了一幅非常直观的图:随着引导比例从20%提升到100%,这个累积偏差的平均值稳步增大,而且更关键的是,偏差的波动幅度(也就是不稳定性)增长得更快。这意味着引导越强,训练数据的质量越不稳定,反而会拖累学习效果。
这个发现催生了ACTGUIDE-RL最核心的设计原则:最小干预原则。简单说:能不引导就不引导,必须引导时用最少的引导量。
具体操作是这样的:对于每一道训练题,系统首先让AI在没有任何引导的情况下尝试若干次。如果有哪怕一次成功,那就太好了,直接用这些无引导的数据训练即可,根本不需要启动引导机制。只有当所有无引导尝试全部失败时,系统才会考虑引入引导。
而且引导并不是一股脑全部给出,而是分层递进的。参考动作序列被切分成若干段:提供前1步、前2步、前3步……直到全部步骤,形成一个从弱到强的引导梯队。系统会用二分查找的方式高效找出"最少需要给出多少步参考动作,才能让AI至少有一次成功",就用这个最小引导量,不多给一步。
这个机制的精妙之处在于它的自适应性。对于稍微难一点的任务,可能只需要给前3步的参考,后面AI就能自己搞定;对于非常难的任务,可能需要给出前15步甚至更多。引导量动态匹配任务难度,既突破了障碍,又把离政策风险控制在最低限度。
**四、学到的东西如何变成真正的能力:混合策略优化的内化机制**
有了最小干预的引导机制,还有最后一道坎要跨:如何把在引导下学到的东西,真正内化成AI在没有引导时也能使用的能力?
这个问题的本质是:引导只在训练时存在,测试时AI是独立工作的。如果AI只是学会了"有引导时该怎么做",那训练再好也没用。必须让它把有引导时获得的经验,转化为无引导时的内在本领。
研究团队采用的方案叫做混合策略优化。在每一轮训练中,系统会同时处理两种来源的数据:一种是AI在没有任何引导的情况下自主生成的轨迹;另一种是AI在有引导的情况下生成的轨迹。这两种轨迹被混合在一起,用于更新同一个模型。
关键在于如何处理这两种数据的"计价方式"。强化学习中有一个重要概念叫重要性比率——它衡量的是"我们现在训练的模型"与"生成这批数据时的模型"在行为上的差距,用来修正学习信号的权重。对于无引导轨迹,比率的计算方式很标准,直接比较两个版本的无引导模型即可。但对于有引导轨迹,研究团队做了一个关键调整:分母用的是"生成数据时的有引导模型",而分子用的是"当前训练的无引导模型"。
这个设计的含义是:我们承认这批数据是在引导帮助下生成的,但我们希望把这份功劳记在无引导模型的账上,让无引导模型从这些经验中获益,逐渐学会在没有引导的情况下也能走到那些之前到不了的地方。这就像训练轮上学会了骑自行车,然后通过练习逐步去掉训练轮,最终实现自主骑行。
实验证明这个机制是不可或缺的。研究团队专门做了消融实验——就是把某个组件去掉,看看效果会差多少。去掉混合策略优化这个组件后,模型在三个主要测试集上的成绩大幅下滑,说明如果没有这个"内化通道",引导下学到的经验就无法真正转化为无引导能力,白白浪费了训练资源。
**五、实战表现:数字背后的故事**
理论再完美,最终还是要用数据说话。研究团队在四个难度递进的搜索智能体测评集上进行了全面测试,每个测评集都代表一类真实的复杂任务场景。
GAIA测评集是一个综合性的智能助手能力测试,包含需要深度推理和网络搜索的真实问题,分为三个难度等级。WebWalkerQA测试的是智能体在复杂网页中多跳推理的能力,包含680道需要跨多个页面抓取信息才能回答的问题。XBench专注于评估深度搜索能力,考察智能体在广度和深度上检索和整合信息的综合表现。BrowseComp-ZH则是一个中文互联网环境下的复杂网页浏览基准,包含289道需要跨多个主流中文搜索引擎验证的问题。
以Qwen3-4B-Instruct这个基础模型为例,它是阿里巴巴Qwen系列中一个相对紧凑的模型。在没有任何额外训练的情况下,它在GAIA上只能拿到15.53分,在WebWalkerQA上仅有3.82分,XBench上14分,BC-ZH上7.96分。可以看出这个基础模型在复杂搜索任务上的能力相当有限。
加上标准的强化学习训练(没有引导)之后,成绩有所提升:GAIA涨到了25.24,XBench涨到了18,BC-ZH涨到了15.26,但WebWalkerQA只涨到12.06——因为WebWalkerQA对这个模型来说太难,充满了那些能力边界之外的"悬崖"地带,标准强化学习遭遇了严重的停滞。
换上ACTGUIDE-RL之后,场面完全不同了。GAIA跃升至35.92,提升幅度超过10个百分点;WebWalkerQA从12.06飙升至39.85,一跃提高了近28个百分点;XBench从18涨到37,BC-ZH从15.26涨到20.41。特别是WebWalkerQA的提升,几乎让人难以置信——这正是因为这个测评集包含了大量超出基础模型能力的困难任务,恰恰是ACTGUIDE-RL最擅长帮助突破的场景。
这种提升规律在其他基础模型上同样成立。Qwen3-8B是一个更强的模型,即使用标准强化学习也能取得不错的结果,但ACTGUIDE-RL在此基础上仍然带来了稳定的额外增益。Qwen2.5-3B和Qwen2.5-7B这两个稍旧的系列模型,同样从ACTGUIDE-RL中获得了跨板块的全面提升。一个有趣的细节是:标准强化学习在某些模型上出现了能力倒退的情况——比如Qwen2.5-7B在GAIA上的分数反而从22.32跌到了11.65,Qwen3-8B在BC-ZH上也有轻微退步。ACTGUIDE-RL则有效遏制了这种退步,因为自适应引导能让训练数据的难度始终与模型当前能力匹配,而不是在它束手无策的任务上反复消耗。
另一个重要的对比实验是与"SFT+RL"流程的比较。研究团队用阿里巴巴自研的Tongyi-DeepResearch-30B-A3B大模型蒸馏出了4000条高质量的完整推理轨迹,用这批数据先做监督微调热身,再接强化学习训练。这是业界公认的标准最优方案,但也是最昂贵的方案。ACTGUIDE-RL在不做任何监督微调预热的情况下,取得了与这个两阶段流程相当的总体成绩。更值得关注的是,监督微调这一步会降低模型在非搜索任务上的通用能力——比如科学推理、事实判断、指令遵循等能力都出现了明显下滑——而纯粹用ACTGUIDE-RL训练的模型则几乎没有这种能力退化,在这三类额外测试上维持了与基础模型相当的水平。
**六、训练过程中AI在悄悄变聪明:涌现能力的观察**
除了最终的测评分数,研究团队还对训练过程本身进行了细致观察,发现了一些颇为有趣的现象。
随着训练推进,被引导数据帮助突破障碍的任务比例持续增加,有效训练样本的覆盖面越来越广,这说明AI的能力边界在真实扩展,而不仅仅是在原有能力范围内反复打磨。与此同时,在没有引导的测试轮次中,AI平均愿意执行的交互步骤数从训练初期的约4步,稳步增长到接近10步;生成的内容长度也从大约4000个词元增长到接近12000个词元。这意味着AI不仅仅是在特定任务上变强,而是在主动习得一种"坚持深挖"的行为模式——遇到复杂问题时不轻易放弃,愿意花更多步骤去追溯和验证。
为了验证这种更多步骤的交互是真的有效而非无效消耗,研究团队做了一个有趣的实验:在测试时把AI能执行的最大交互步数从2步逐渐开放到32步,观察成绩变化。结果显示,在2步限制下成绩极低,随着步数限制逐渐放宽,成绩持续稳步上升,直到32步时达到最优。这有力地证明了AI确实学会了如何有效利用更多的交互轮次,而不是在浪费步骤。
研究团队还专门测试了行动数据的"噪声容忍度"——也就是如果参考动作序列里混入了一些无关或错误的操作,效果会下降多少。实验中,他们随机往参考轨迹里插入与任务无关的干扰动作。结果显示,当干扰比例在10%以内时,成绩几乎没有明显下降,甚至在GAIA上略有提升(可能是轻微的多样性引入了正面效果);当干扰比例升到20%时,成绩才出现比较明显的下滑。这说明ACTGUIDE-RL对现实中不可避免的数据质量问题有相当强的鲁棒性,不需要对行动数据进行极其严格的清洗才能使用。
研究团队还探索了一种名为"在线策略自蒸馏"的替代方案,作为对比基准。这个方案的思路是:不主动生成引导轨迹,而是让AI用无引导方式自由探索,但在优化时以"有引导版模型"的输出作为学习目标,相当于用有引导版AI作为老师来指导无引导版AI的每一步。实验显示这个方案确实能带来一定的提升,但效果明显弱于ACTGUIDE-RL。原因在于:如果AI自己探索不到关键状态,即使老师的指导再好,也无从应用,根本问题没有被解决。
**七、研究的边界与未来可能**
任何研究都有其适用范围和未触及的问题,ACTGUIDE-RL也不例外,研究团队在论文中坦诚地列出了几个值得继续探索的方向。
目前的主要实验集中在搜索智能体这一特定场景——AI需要搜索网页、浏览页面来回答问题。选择这个场景有其合理性:搜索任务没有复杂的持久状态,行动数据相对容易收集,任务难度也便于调节。但ACTGUIDE-RL的底层原理是通用的,理论上同样适用于操作图形界面的GUI智能体、使用命令行的CLI智能体、调用API的工具型智能体,乃至在虚拟或现实物理环境中操作的具身智能体。将方法推广到这些场景,验证其普适性,是显而易见的下一步。
在引导机制本身,目前采用的是相对简单的计划式引导——把参考动作列成一份清单附在提示词里。更细粒度的引导方式,比如在每一步执行时动态注入当前步的参考、根据AI实时状态调整引导强度,或许能在保持效果的同时进一步降低离政策风险,这些都值得深入研究。
数据的收集和处理方式同样是一个被有意留待后续的问题。如何从现有的各类互联网用户行为日志、系统操作记录、应用程序交互数据中高效提取有价值的行动序列?如何进行质量过滤和格式标准化?这些工程性问题与算法研究同等重要,但本文并没有系统探讨。
说到底,这篇研究的核心贡献可以用一句话概括:它证明了"怎么做"的数据可以弥补"为什么这样做"的数据的缺失,并且找到了一套方法让AI在参考"行动地图"的同时,真正学会自主导航。这对于降低AI智能体训练的成本门槛、拓宽可训练任务的范围,都有切实的意义。对于关心AI如何更好地帮助人类完成复杂任务的读者来说,这正是那些让AI变得更实用、更平易近人的基础性工作之一。希望探索完整技术细节的读者,可以通过arXiv编号2605.12004查阅原论文。
---
Q&A
Q1:ACTGUIDE-RL中的行动数据具体是什么,从哪里来?
A:ACTGUIDE-RL中的行动数据是人类或AI系统执行任务时留下的操作步骤记录,比如搜索了哪些关键词、访问了哪些网页,只包含"做了什么动作"而不包含推理过程。在这篇研究中,行动数据来自用阿里巴巴自研的大模型对训练任务进行采样,提取正确轨迹中的工具调用名称和参数,作为参考计划注入给待训练的小模型。现实中,这类数据也可以来自用户操作日志、GUI交互记录、游戏行为数据等。
Q2:为什么ACTGUIDE-RL要刻意减少引导量,引导越多不是应该效果越好吗?
A:直觉上引导越多越好,但实验发现恰恰相反。引导越强,AI在有引导时产生的行为轨迹与它在没有引导时的自然行为差距就越大。这批轨迹用于训练"无引导版AI"时,学习信号会变得非常不稳定,因为AI需要学习一种它在测试时根本不会遇到的情境。ACTGUIDE-RL测量了这种"离政策风险",发现引导比例越高,风险方差增长越快。因此最佳策略是用最少的引导突破障碍,其余部分让AI自己完成。
Q3:ACTGUIDE-RL和传统的先做监督微调再做强化学习的方案相比,最大的区别是什么?
A:传统SFT+RL方案需要准备包含完整推理链的高质量示范数据,成本高且每换场景需要重新准备。ACTGUIDE-RL只需要"做了什么动作"的行动记录,不需要完整的推理过程,数据获取成本大幅降低。实验中ACTGUIDE-RL在四个主要测试集上取得了与SFT+RL相当的总体成绩,且不会像SFT那样损害模型在非目标任务上的通用能力,在科学推理、事实判断、指令遵循等能力上均未出现退化。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)