一句话讲清楚👉🏻 浙江大学REAL实验室联合美团、清华大学提出SKILL0框架,首次将Agent技能"内化"到模型参数中,训练时借助技能引导,推理时完全零依赖,在ALFWorld和Search-QA上分别比标准RL基线提升+9.7%和+6.6%,同时每步token消耗降至0.5k以下,仅为SkillRL的1/5。


背景:Agent技能的困境——模型只是在"照着念"

当前LLM Agent的主流做法叫推理时技能增强(Inference-time Skill Augmentation):从技能库检索相关文件,塞进模型的上下文窗口当指导。Claude Code、OpenClaw等框架都在用这套方案。

问题出在三个地方:

检索噪声。语义检索不完美,灌进来的技能文件可能跟当前任务八竿子打不着,反而污染了Agent的上下文。

Token开销大。技能文件本身就是长文本,多轮交互下来历史记录越积越多,上下文窗口迅速膨胀。推理成本上去不说,还容易触发"中间信息丢失"(Lost in the Middle)问题。

模型从未真正学会。在Prompt里跟着技能描述执行的模型,只是"照着念"。能力长在上下文里,没长在参数里。

就像考试允许带参考书——分数好看,合上书就不会了。

SKILL0想解决的就是这个问题:能不能把技能"内化"到模型参数里,推理时完全不需要检索技能文件,零样本自主完成任务?

技能增强方法(a)需要在推理时检索技能并注入上下文,而SKILL0的技能内化方法(b)在训练后推理时完全不需要技能文件。

SKILL0核心方法:三招实现技能内化

SKILL0全称 In-Context Agentic Reinforcement Learning for Skill Internalization,核心思想一句话:“训练时有技能,推理时零技能”(Skills at training, zero at inference)

三个关键机制:

1. 上下文渲染(Context Rendering):把文本变成图片

Agent处理复杂任务时,交互历史和技能文件会累积大量文本。SKILL0借鉴AgentOCR的思路,把文本上下文(包括交互历史 和检索到的技能 )渲染成紧凑的RGB图像,再通过视觉编码器压缩为视觉表示:

其中 是压缩比率,策略在每步自行生成。视觉表示 作为压缩后的上下文嵌入输入给策略,Token开销大幅减少,决策所需的结构信息也保留了下来

2. 上下文强化学习(ICRL):训练时给引导,推理时全移除

ICRL的训练逻辑:

  • 训练阶段:Agent rollout时获得完整的技能上下文引导,帮助学习复杂多步行为
  • 推理阶段:技能上下文完全移除,Agent靠自身参数中内化的知识独立完成任务

为了让模型同时优化任务成功率和压缩效率,SKILL0设计了复合奖励函数:

如果任务成功否则

其中 评估Agent是否在技能增强下正确完成任务, 控制任务性能与压缩效率的权衡。对数形式反映了高压缩率的边际收益递减。

训练目标函数为:

其中优势 通过对组内采样的总奖励 进行归一化计算。

3. 动态课程学习(Dynamic Curriculum):逐步撤走"拐杖"

SKILL0不是突然移除所有技能,而是渐进式撤除。分两个阶段:

(a) 相关性驱动的技能分组

训练前,将验证集划分为 个子任务 T ∗ k ∗ k = 1 N ,每个子任务 T _ k 对应一个技能文件 S _ k {\mathcal{T}*k}*{k=1}^{N},每个子任务\mathcal{T}\_k对应一个技能文件\mathcal{S}\_k Tkk=1N,每个子任务T_k对应一个技能文件S_k。离线分组确保每个技能文件都有专属子任务来评估效用。

(b) 有用性驱动的动态课程

训练过程分为 个渐进阶段,技能预算 线性衰减:

在每个阶段 ,每隔 个训练步骤,系统评估每个技能文件的"有用性" :

即"有技能"和"无技能"两种条件下在对应验证子任务上的准确率差值。然后:

  1. 过滤:只保留 的技能(即当前策略仍能从中受益的)
  2. 排序:按 降序排列
  3. 选择:选取前 个技能文件

随着训练推进,技能预算逐渐归零,最终Agent在完全无技能上下文的情况下运行。

SKILL0整体框架概览。(a)相关性驱动的技能分组;(b)带有技能增强Agent loop的上下文强化学习;(c)训练过程中的动态课程学习。

实验结果

主实验结果

SKILL0在ALFWorld和Search-QA两大基准上评估,基座模型用Qwen2.5-VL系列的3B和7B版本。

ALFWorld任务(家庭环境文本游戏,六类子任务:Pick、Look、Clean、Heat、Cool、Pick2):

  • SKILL0(3B)达到 87.9% 平均成功率,比AgentOCR(78.2%)提升 +9.7%
  • SKILL0(7B)达到 89.8%,超越GRPO(81.8%)、AgentOCR(81.2%)等RL基线
  • SKILL0在推理时不使用任何技能文件的情况下,性能与需要技能增强的SkillRL(82.4%/89.9%)相当甚至更优

Search-QA任务(NQ、TriviaQA、PopQA等7个搜索增强问答数据集):

  • SKILL0(3B)达到 40.8% 平均准确率,比AgentOCR(34.2%)提升 +6.6%
  • SKILL0(7B)达到 44.4%,超越所有RL基线
方法 ALFWorld Avg↑ ALFWorld Cost↓ Search-QA Avg↑ Search-QA Cost↓
Zero-Shot (3B) 15.2 1.21k 15.9 0.48k
GRPO (3B) 79.9 1.02k 36.4 0.61k
AgentOCR (3B) 78.2 0.38k 34.2 0.26k
SkillRL† (3B) 82.4 2.21k 38.9 0.87k
SKILL0 (3B) 87.9 0.38k 40.8 0.18k
SKILL0 (7B) 89.8 0.41k 44.4 0.34k

† 表示推理时使用技能增强

Token效率

视觉上下文建模加技能内化,SKILL0每步平均Token消耗很低:

  • 3B模型在ALFWorld上消耗 0.38k tokens/step,SkillRL需要 2.21k5.8倍差距
  • 3B模型在Search-QA上消耗 0.18k tokens/step,SkillRL需要 0.87k4.8倍差距

实际部署时,SKILL0的推理成本大幅低于需要持续检索技能的方案。

训练动态分析:技能内化的证据

奖励曲线

整个RL优化过程中,SKILL0在3B和7B两个基座上都保持了比AgentOCR基线更高的奖励曲线。

Qwen2.5-VL-3B上的训练动态对比,SKILL0的奖励曲线始终高于AgentOCR基线。

Qwen2.5-VL-7B上的训练动态对比,SKILL0同样保持领先。

技能内化趋势验证

论文通过三组对比验证技能确实被内化到了模型参数中:

(a) 有技能 vs 无技能验证:训练过程中,有技能增强时模型早期性能提升更快;无技能验证初始性能较低,但逐渐追赶上来,最终接近有技能的水平——这是技能内化的信号。

(b) SKILL0 vs AgentOCR(均无技能推理):在无技能推理设置下,SKILL0仍然超越AgentOCR,说明性能优势来自内化知识。

© SKILL0 vs GRPO vs SkillRL(均无技能推理):GRPO和SkillRL在训练早期就达到平台期,SKILL0持续进步,最终达到最高性能上限。

训练动态对比。(a)SKILL0有/无技能增强的验证性能对比;(b)SKILL0与AgentOCR在无技能推理下的对比;(c)SKILL0与GRPO、SkillRL在无技能推理下的对比。

有用性动态:先升后降

SKILL0动态课程中,每个技能的"有用性" 呈现一致的先升后降 模式:

  • 早期:有用性较低,策略还没学会利用技能Prompt
  • 中期:策略逐渐学会基于技能上下文行动,有用性上升
  • 后期:动态课程减少技能预算,策略将技能知识内化到参数中, 回归到零

这条轨迹验证了ICRL和课程学习的协同机制——技能作为临时"脚手架",策略优化完成后被拆除。

各子任务的有用性 训练动态,呈现一致的先升后降模式,验证了技能内化过程。

消融实验

技能预算设计

论文对比了多种技能预算策略:

  • Fixed Full(始终使用全部技能):移除技能Prompt后性能崩溃-12.3%
  • [6,6,6](固定高预算):移除后崩溃-13.3%
  • [3,3,3](固定低预算):早期探索受限,学习不稳定
  • [0,0,0](零技能):缺乏引导,性能最差
  • SKILL0的[6,3,0](线性衰减):移除技能后反而获得+1.6%的正向迁移

不同技能预算策略的消融对比,SKILL0的[6,3,0]线性衰减策略在无技能推理下表现最佳。

训练过程中不同技能预算策略的动态对比。

动态课程三步骤

"过滤-排序-选择"三步策略的必要性:

  • 完整三步策略:无技能推理下达到87.9%,且是唯一实现正向迁移(Δ=+1.6%)的设置
  • 去掉过滤(w/o Filter):引入上下文噪声,性能下降2.7%
  • 随机选择(w/o Rank):严重崩溃(Δ=-13.7%,降至62.9%),保留严格有用的技能对稳定策略学习至关重要

子任务训练动态

论文还展示了ALFWorld各子任务和Search-QA各技能类别的详细训练动态。

SKILL0在Qwen2.5VL-3B上ALFWorld各子任务的训练动态。

SKILL0在Qwen2.5VL-3B上Search-QA各技能类别子任务的训练动态。

意义与展望

SKILL0提出了一条Agent训练的新路径:从"依赖外部知识"走向"内化到参数"。跟人类学习技能的过程类似——初学者看说明书,熟练后凭直觉操作。

Claude Code、OpenClaw等Agent生态发展很快,Skill机制成了标准配置。但SKILL0提了个问题:如果Agent永远需要检索技能文件才能工作,跟查字典的学生有什么区别?

SKILL0的做法是训练时渐进引导,让模型真正"学会"而不是"照着做"。推理时零技能依赖,Token成本降下来,Agent也有了真正的自主能力。

局限在于目前只在ALFWorld和Search-QA两个基准上验证,GUI自动化、代码生成等更复杂的多模态Agent场景还有待探索。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐