【SLIM】Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning

2201_75464249

382人浏览 · 2026-05-17 17:57:57

2201_75464249 · 2026-05-17 17:57:57 发布

Background

当前主流skill方法分为两类：

范式	代表方法	行为	问题
持续积累	SkillRL	外部技能只增不减，越用越多	上下文过长、路由噪声增加、性能下降
逐步消除	Skill0	技能逐渐内化到模型中，最终完全消除	强制零技能推断可能丢失有价值的外部支持

这两种做法都是单调的，忽略了技能价值随任务阶段变化、模型容量有限等现实约束。最优的活跃技能集应该是非单调的，即某些阶段需要某些技能，某些阶段则不再需要。

活跃的外部技能集应被视为一个动态优化变量，与策略学习共同更新。

intro

Method

SLIM 不假设技能集单调增长或消失，而是通过训练过程中的周期性审计（audit），动态决定：

保留（retain）：仍然提供边际价值的技能
淘汰（retire）：不再有用的技能
扩展（expand）：缺失必要能力时补充新技能

Hierarchical Skill Retrieval

活跃的通用技能 $\mathcal{A}^\text{gen}_t$ 全拿，任务特定技能从这一任务类别 $k$ 的skill集 $\mathcal{S}_k$ 中、基于任务描述的相似度选择一个子集：
$\mathcal{Q}_t(x) = \text{TopK}(\{s ∈ \mathcal{A}^k_t : \cos(e_x, e_s) ≥ τ_{emb},K\})$
活跃的通用仅能和选择的任务特定技能用于这一任务 $x$ 的技能增强： $π_θ(a_t | h_t, \mathcal{A}^\text{gen}_t ∪\mathcal{Q}_t(x))$
仅当技能与任务相关时，才可能对任务有用；但只是任务描述相似，并不能证明这一skill对实际任务是有贡献的。因此需要对活跃技能的边际贡献做明确的评估。

Marginal External Contribution Estimation

在训练过程中，SLIM定期执行audit。对用到活跃技能 $s$ 的验证任务子集 $\mathcal{V}_t(s)$ ，通过leave-one-skill-out validation计算其边际贡献；使用指数滑动平均平滑估计值，减少噪声。

$\Delta_t(s) = \text{Perf}(\mathcal{V}_t(s);\mathcal{A}_t) - \text{Perf}(\mathcal{V}_t(s);\mathcal{A}_t / \{s\}) \\ \overline{\Delta}_t(s) = α∆_t(s) + (1 − α) \overline{\Delta}_{t−1}(s)$

Dynamic Skill Lifecycle Management for RL

策略模型参数 $\theta$ 是一个连续的优化变量，需要用基于梯度的RL；而外部技能库 $\mathcal{A}$ 是一个离散集合，需要进行不可微的操作。因此对两者进行交替优化：

GRPO policy update with the active set fixed
skill lifecycle management with the policy fixed

操作	触发条件	含义
保留	$\bar{\Delta}_t(s) \geq \tau_{\text{keep}}$	技能仍有明显正向边际价值，继续保留
淘汰	$\bar{\Delta}_t(s) < \tau_{\text{retire}}$ ，且暴露次数足够、连续低贡献次数达标	技能已被内化或不再有用，移除
扩展	当前技能覆盖区域持续失败、性能低于阈值、且无技能可改进	创建新技能（通过LLM生成）补充缺失能力

framework

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

ArkTS（Stage 模型）与 Vue3 生命周期详细对比

维度ArkTS 生命周期Vue3 生命周期设计目标适配移动 / 物联网设备的全场景应用适配 Web 浏览器的组件化开发覆盖范围应用、模块、窗口、页面、组件应用、组件核心关注点资源管理、前后台切换、多设备协同DOM 渲染、组件复用、状态更新严格性非常严格，系统直接管理生命周期相对宽松，依赖浏览器环境最佳实践提前加载数据，及时释放资源按需渲染，减少不必要的更新。