【浙大&美团&清华】SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization
Background
- 现在的skill augmentation存在什么问题?
现有范式通常是从skill bank中检索合适的技能,插入到上下文中,但(1)检索可能引入噪声、误导模型。(2)插入带来了更多的token消耗。在此类范式中,模型只是使用技能,没有学到它们。 - 人类是如何掌握技能的?(人类的skill augmentation)
遵循明确的指令 → \to → 将指令内化,从记忆中取出。
“Skills at training, zero at inference.” — SKILL0
通过渐进式的学习,逐步减少对模型的技能引导,将skill内化到模型参数中。

Method

Agent Loop
- Task Defination:在每个时间步 t t t,策略 π θ \pi_\theta πθ根据历史环境交互 h t = { o 1 , . . . o t } , o t + 1 = E ( o t , a t ) h_t=\{o_1,...o_t\},o_{t+1}=\mathcal{E}(o_t,a_t) ht={o1,...ot},ot+1=E(ot,at)和任务指导 I I I,生成下一步动作 { a 1 , . . . a T } \{a_1,...a_T\} {a1,...aT},即 π θ ( a t ∣ I , h t ) \pi_\theta(a_t|I,h_t) πθ(at∣I,ht)。
- Skill management:总的技能库 Skill-bank = { S k } k = 1 N \text{Skill-bank}=\{\mathcal{S}_k\}_{k=1}^N Skill-bank={Sk}k=1N,其中每个markdown技能文件 S k \mathcal{S}_k Sk包含同任务同类别的skills,形如 s k i l l s / { t a s k _ n a m e } / { s k i l l _ c a t e g o r y } . m d \mathtt{skills/\{task\_name\}/\{skill\_category\}.md} skills/{task_name}/{skill_category}.md (e.g., “ skills/search/entity_attribute_lookup.md \texttt{skills/search/entity\_attribute\_lookup.md} skills/search/entity_attribute_lookup.md”)。训练时不是按语义相似度检索,而是根据“on-policy helpfulness criterion”(评估每个 S k \mathcal{S}_k Sk对当前策略 π θ \pi_\theta πθ的学习有用性)选择一组技能文件 S ⊆ Skill-Bank \mathcal{S}⊆\text{Skill-Bank} S⊆Skill-Bank。
- Context Rendering:当扩展到更多领域时,检索到的技能增多,token开销增大。为降低token开销,将文本历史 h t h_t ht和返回的一组技能 S \mathcal{S} S映射为RGB图像,再由视觉编码器 Enc \texttt{Enc} Enc压缩为视觉嵌入:
V t = Enc ( h t , S ; c t ) \mathcal{V}_t=\texttt{Enc}(h_t,\mathcal{S};c_t) Vt=Enc(ht,S;ct)
其中 c t c_t ct为压缩比 ( 0 , 1 ] (0,1] (0,1],由策略模型自行生成,和动作一起输出:
( a t , c t ) = π θ ( a t , c t ∣ I , V T ) (a_t,c_t)=\pi_\theta(a_t,c_t|I,\mathcal{V}_T) (at,ct)=πθ(at,ct∣I,VT)
In-Context Reinforcement Learning
引入上下文强化学习,结合skill prompting的样本效率和RL的探索能力。为了同时鼓励任务成功率和压缩效率,设计复合奖励:
r t comp = { ln ( c t ) , if I succ = 1 0 , otherwise , r ~ t = r t + λ ⋅ r t comp r^\text{comp}_t= \{ \begin{matrix} \ln(c_t), & \text{if }\mathcal{I}_\text{succ}=1 \\ 0,&\text{otherwise} \end{matrix},\quad \tilde{r}_t=r_t+\lambda\cdot r^\text{comp}_t rtcomp={ln(ct),0,if Isucc=1otherwise,r~t=rt+λ⋅rtcomp
- r t r_t rt:任务完成度(如在第t步是否成功执行了正确动作)。
- ln ( c t ) \ln(c_t) ln(ct):鼓励高压缩比(低 token 开销),但仅在任务成功时给予,防止为了压缩而牺牲任务。
总奖励组内归一化得到优势,用GRPO进行优化:
L SKILL0 ( θ ) = E τ i ∼ π θ old ( q ) , q ∼ D 1 ∑ i = 1 G ∣ τ i ∣ ∑ i = 1 G ∑ t = 1 ∣ τ i ∣ clip ( r i , t ( θ ) , A i , ϵ ) − β ⋅ D KL [ π θ ∣ ∣ π ref ] L_\text{SKILL0}(\theta)=\mathbb{E}_{{\tau_i}\sim \pi_{\theta_\text{old}}(q),q\sim \mathcal{D}}\frac{1}{\sum_{i=1}^G|\tau_i|}\sum^G_{i=1}\sum^{|\tau_i|}_{t=1}\text{clip}(r_{i,t}(\theta),A_i,\epsilon)-\beta\cdot \mathbb{D}_\text{KL}[\pi_\theta||\pi_\text{ref}] LSKILL0(θ)=Eτi∼πθold(q),q∼D∑i=1G∣τi∣1i=1∑Gt=1∑∣τi∣clip(ri,t(θ),Ai,ϵ)−β⋅DKL[πθ∣∣πref]
Adaptive Curriculum Learning
自适应课程学习,设共 N N N个课程文件,课程分为 N S N_S NS个阶段,则第 s s s阶段retrieve的技能子集大小
∣ S ∣ ( s ) ≤ M ( s ) = ⌈ N ⋅ N S − s N S − 1 ⌉ |\mathcal{S}|^{(s)}\leq M^{(s)}=\lceil N\cdot \frac{N_S-s}{N_S-1}\rceil ∣S∣(s)≤M(s)=⌈N⋅NS−1NS−s⌉
当 s = N S s=N_S s=NS时 M ( s ) = 0 M^{(s)}=0 M(s)=0,即最终完全无技能。这种线性衰减保证了相邻阶段之间技能集合的差异有界,策略分布变化平滑。
- 基于相关性的技能分组:将 验证子任务 与 技能文件 S k S_k Sk 的相关性定义为 该子任务涉及的领域和目标 是否与 S k S_k Sk中所编码的技能类别 相一致。将验证集划分为N个子任务 { T i } k = 1 N \{\mathcal{T}_i\}_{k=1}^N {Ti}k=1N,确保每个技能文件 S k \mathcal{S}_k Sk都有一个包含相关技能需求的 T k \mathcal{T}_k Tk用于评估它的效用。
- 基于帮助度的动态课程:每隔d步,在 T k \mathcal{T}_k Tk上评估 S k \mathcal{S}_k Sk对 π θ \pi_\theta πθ的帮助度,比较提供技能和不提供技能的效果差距:
Δ k = Acc k w/ skill − Acc k w/o skill = V a l i d a t e ( π θ , T k , S ) − V a l i d a t e ( π θ , T k , ∅ ) \Delta_k=\text{Acc}_k^\text{w/ skill}-\text{Acc}_k^\text{w/o skill}=\mathtt{Validate}(π_θ, \mathcal{T}_k, \mathcal{S})-\mathtt{Validate}(π_θ, \mathcal{T}_k, \emptyset) Δk=Acckw/ skill−Acckw/o skill=Validate(πθ,Tk,S)−Validate(πθ,Tk,∅)
在课程阶段 s s s,通过 ∆ k ∆_k ∆k 从活跃技能池中筛选(仅保留 Δ k > 0 \Delta_k> 0 Δk>0)、排序并选取 t o p \mathtt{top} top- m m m( m ≤ M ( s ) m ≤ M^{(s)} m≤M(s))文件。
算法流程:
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)