来了，首篇Agent Skills系统性综述！

大靠山

434人浏览 · 2026-05-16 20:58:25

大靠山 · 2026-05-16 20:58:25 发布

你让 AI Agent 帮你写一段代码，它做得很好。第二天你让它做一件几乎一样的事，它又从头推理一遍——卡住、报错、重试。就好像它完全没做过上一次。

skills技能的历史演进

这不是模型不够聪明。而是它缺了一种人类天然具备的能力：把重复经验变成可复用的肌肉记忆。

这篇5月最新的综述，第一次系统性地剖析了这个缺失的环节Agent Skills，并围绕"表示→获取→检索→进化"四个阶段，梳理了 127 篇相关文献，给出了一个完整的技能生命周期框架。

技能到底是什么，怎么存

SKill论文变化趋势

论文给了一个正式定义：一个技能是一个三元组 S = (M, R, C)，其中 M 是主指令文档（告诉 Agent 怎么做），R 是辅助资源（模板、脚本、参考资料等），C 是触发条件（什么时候该用这个技能）。

按资源类型，技能分三种：

技能分类体系

纯文本型：参考文档、示例、模板、评分标准。好处是可读性强，坏处是执行确定性弱
纯代码型：可执行的脚本、函数、封装。执行可靠，但维护成本高
混合型：文本 + 代码。兼顾可读性和可执行性，但一致性维护最复杂

这不是纯学术分类。你如果用过 Claude Code 的技能系统（CLAUDE.md + 辅助脚本），或者 Cursor 的规则文件，其实已经在用混合型技能了。

技能怎么来？四条路，互相补充

技能获取全景

论文把技能的获取分成四条路径，强调它们不互斥，最强技能库是组合的结果：

1. 人类专家手写（精确但慢）

医生写诊疗流程、工程师写排障手册、策略专家写审核标准——把领域知识外化成 Agent 可以直接用的技能。精度最高，但扩展性差。现实中通常作为"种子层"，后续交给自动化补充。

2. 从经验中提炼（目前最主流）

Agent 执行任务后，从成功轨迹中提取可复用的操作模式。比如 Voyager 在 Minecraft 里把成功的操作序列保存成可执行的代码技能；Reflexion 从失败中提炼出纠错规则；ExpeL 把多次成功和失败的教训压缩成高层经验教训。这条路径目前被研究得最多，操作包括筛选、抽象压缩、记忆重组、流程打包四个环节。

3. 遇到新任务时即时构建

面对一个全新的需求，Agent 不等专家也不等积累，直接让 LLM 生成一个候选技能，执行后根据结果决定保留、修改还是丢弃。CREATOR 和 ToolMakers 是这条路的代表。

4. 从外部资料中挖掘

从文档、代码仓库、Kaggle 竞赛方案、API 文档等外部语料中提取可复用的操作流程。这条路径特别适合冷启动——Agent 还没有自己的经验，但可以从别人的经验中学习。

技能越多越好？检索和选择才是新瓶颈

技能检索与选择

当技能库扩展到一定规模——论文提到 SkillsMP 已有 70 万+ 技能——核心问题就不再是"有没有这个技能"，而是"能不能在正确时刻找到并激活正确的技能"。

论文明确指出：检索召回率不等于执行成功率。一个语义上相关的技能，可能在当前环境下根本跑不起来。

检索策略分四类：

语义向量检索：把任务描述和技能描述映射到同一个向量空间，找最近邻。最常用，但语义近≠适用
关键词检索：按技能名称、元数据字段精确匹配。简单但不可靠，适合做补充过滤
生成式检索：让模型直接生成技能 ID。把检索融入推理过程，但覆盖率和正确性难保证
结构化检索：利用技能库内部的层级结构或依赖关系来缩小搜索范围。适合大规模有组织库

技能不是存了就完——它必须持续进化

论文区分了"技能获取"和"技能进化"。获取是第一次创建，进化是之后的持续改进。这就像人的技能：学会开车是一回事，越开越好是另一回事。

从人类技能改进到 Agent 技能进化

进化包含五个环节：

修订（Revision）：执行失败后，不是简单地记下错误，而是修改技能本身的内容。Memento-Skills 会在执行后归因失败、重写技能指令，并通过单元测试决定是否保留修改。

验证（Validation）：改了之后必须通过测试才能进入正式技能库。SkillWeaver 用自动生成的测试用例来验证 Web Agent 的 API 技能；PSN 引入"成熟度门槛"和回滚验证机制。

技能进化阶段

策略耦合（Policy Coupling）：技能库本身成为策略训练的一部分。SkillRL 在强化学习过程中同时优化策略和技能库——技能库不再是静态上下文，而是可训练参数。

仓库级进化（Repository Evolution）：从单个技能的进化扩展到整个技能仓库的治理。SkillClaw 让多个用户的执行轨迹汇聚，经过验证后同步更新到共享仓库。

运行时治理（Runtime Governance）：一个进化过的技能可能可执行但不安全。论文专门警告了 "投毒技能"风险——第三方技能文档可能隐藏恶意逻辑，被 Agent 当作可信操作指南执行。

这对实际做 AI 产品意味着什么

这篇综述的价值不在于某个具体方法的突破，而在于它把一个正在发生但还没被说清楚的范式转变，用清晰的框架讲明白了：

Agent 的下一个关键竞争力不是模型更强，而是技能管理能力更强。模型是大脑，技能是肌肉记忆。大脑再聪明，没有肌肉记忆也快不起来。

skills 的产品应用

技能的生命周期管理比技能本身更重要。技能不是存了就完，需要持续检索、验证、进化、治理。这个生命周期视角直接影响了产品架构——你需要的不只是技能存储，还需要检索系统、测试框架、版本管理和安全审核。
技能生态系统已经成型。SkillNet（30 万+）、ClawHub（4 万+）、SkillsMP（70 万+）这些平台的出现，意味着"技能"正在成为独立的基础设施层，而不是附属在某个 Agent 产品里的次要功能。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～