【浙大&美团&清华】SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

2201_75464249

412人浏览 · 2026-05-16 18:24:05

2201_75464249 · 2026-05-16 18:24:05 发布

Background

现在的skill augmentation存在什么问题？
现有范式通常是从skill bank中检索合适的技能，插入到上下文中，但（1）检索可能引入噪声、误导模型。（2）插入带来了更多的token消耗。在此类范式中，模型只是使用技能，没有学到它们。
人类是如何掌握技能的？（人类的skill augmentation）
遵循明确的指令 $\to$ 将指令内化，从记忆中取出。

“Skills at training, zero at inference.” — SKILL0
通过渐进式的学习，逐步减少对模型的技能引导，将skill内化到模型参数中。

intro

Method

framework

Agent Loop

Task Defination：在每个时间步 $t$ ，策略 $\pi_\theta$ 根据历史环境交互 $h_t=\{o_1,...o_t\},o_{t+1}=\mathcal{E}(o_t,a_t)$ 和任务指导 $I$ ，生成下一步动作 ${a_1,...a_T\}$ ，即 $\pi_\theta(a_t|I,h_t)$ 。
Skill management：总的技能库 $\text{Skill-bank}=\{\mathcal{S}_k\}_{k=1}^N$ ，其中每个markdown技能文件 $\mathcal{S}_k$ 包含同任务同类别的skills，形如 $\mathtt{skills/\{task\_name\}/\{skill\_category\}.md}$ (e.g., “ $skills/search/entity_attribute_lookup.md \texttt{skills/search/entity\_attribute\_lookup.md}$ ”)。训练时不是按语义相似度检索，而是根据“on-policy helpfulness criterion”（评估每个 $\mathcal{S}_k$ 对当前策略 $\pi_\theta$ 的学习有用性）选择一组技能文件 $\mathcal{S}⊆\text{Skill-Bank}$ 。
Context Rendering：当扩展到更多领域时，检索到的技能增多，token开销增大。为降低token开销，将文本历史 $h_t$ 和返回的一组技能 $\mathcal{S}$ 映射为RGB图像，再由视觉编码器 $\texttt{Enc}$ 压缩为视觉嵌入：
$\mathcal{V}_t=\texttt{Enc}(h_t,\mathcal{S};c_t)$
其中 $c_t$ 为压缩比 $(0, 1]$ ，由策略模型自行生成，和动作一起输出：
$(a_t,c_t)=\pi_\theta(a_t,c_t|I,\mathcal{V}_T)$

In-Context Reinforcement Learning

引入上下文强化学习，结合skill prompting的样本效率和RL的探索能力。为了同时鼓励任务成功率和压缩效率，设计复合奖励：
$r^\text{comp}_t= \{ \begin{matrix} \ln(c_t), & \text{if }\mathcal{I}_\text{succ}=1 \\ 0,&\text{otherwise} \end{matrix},\quad \tilde{r}_t=r_t+\lambda\cdot r^\text{comp}_t$

$r_t$ ：任务完成度（如在第t步是否成功执行了正确动作）。
$ln(c_t)$ ：鼓励高压缩比（低 token 开销），但仅在任务成功时给予，防止为了压缩而牺牲任务。

总奖励组内归一化得到优势，用GRPO进行优化：
$L_\text{SKILL0}(\theta)=\mathbb{E}_{{\tau_i}\sim \pi_{\theta_\text{old}}(q),q\sim \mathcal{D}}\frac{1}{\sum_{i=1}^G|\tau_i|}\sum^G_{i=1}\sum^{|\tau_i|}_{t=1}\text{clip}(r_{i,t}(\theta),A_i,\epsilon)-\beta\cdot \mathbb{D}_\text{KL}[\pi_\theta||\pi_\text{ref}]$

Adaptive Curriculum Learning

自适应课程学习，设共 $N$ 个课程文件，课程分为 $N_S$ 个阶段，则第 $s$ 阶段retrieve的技能子集大小
$|\mathcal{S}|^{(s)}\leq M^{(s)}=\lceil N\cdot \frac{N_S-s}{N_S-1}\rceil$
当 $s=N_S$ 时 $M^{(s)}=0$ ，即最终完全无技能。这种线性衰减保证了相邻阶段之间技能集合的差异有界，策略分布变化平滑。

基于相关性的技能分组：将验证子任务与技能文件 $S_k$ 的相关性定义为该子任务涉及的领域和目标是否与 $S_k$ 中所编码的技能类别相一致。将验证集划分为N个子任务 $\{\mathcal{T}_i\}_{k=1}^N$ ，确保每个技能文件 $\mathcal{S}_k$ 都有一个包含相关技能需求的 $\mathcal{T}_k$ 用于评估它的效用。
基于帮助度的动态课程：每隔d步，在 $\mathcal{T}_k$ 上评估 $\mathcal{S}_k$ 对 $\pi_\theta$ 的帮助度，比较提供技能和不提供技能的效果差距：
$\Delta_k=\text{Acc}_k^\text{w/ skill}-\text{Acc}_k^\text{w/o skill}=\mathtt{Validate}(π_θ, \mathcal{T}_k, \mathcal{S})-\mathtt{Validate}(π_θ, \mathcal{T}_k, \emptyset)$
在课程阶段 $s$ ，通过 $_k$ 从活跃技能池中筛选（仅保留 $\Delta_k> 0$ ）、排序并选取 $\mathtt{top}$ - $m$ （ $m ≤ M^{(s)}$ ）文件。