Memento-Skills: 找到了比语义搜索更聪明的解法

论文提出了一种名为 Memento-Skills 的系统,它的核心目标是让一个通用的AI代理能够自主地为新任务设计、适应和改进专用的代理。这就像教会一个学生如何为自己制作学习笔记和解题工具包,并且随着经验积累,不断优化这个工具包。

图展示了系统在两个基准测试(GAIA和HLE)上的自我进化过程。随着迭代轮次增加,性能持续提升,同时技能库规模也显著增长(从41个技能扩展到235个技能)。
技能即记忆

1. 核心思想:技能作为外部记忆
传统LLM代理在部署后参数固定,无法从交互中学习。Memento-Skills将可执行的技能(包含代码、提示和说明的Markdown文件)作为外部记忆单元。这使得代理能够通过积累和优化技能来持续进化,而无需重新训练模型。
2. 读写反思学习循环
系统的工作流程是一个闭环,分为五步:
- 观察:接收用户任务。
- 读(技能选择):通过技能路由器检索最相关的技能。如果技能库中没有合适技能,则创建新技能。
- 执行:LLM基于检索到的技能执行多步工作流。
- 反馈:通过“法官”模块评估执行结果(正确/错误)。
- 写(反思更新):
- 更新技能的效用分数(基于成功率)。
- 如果失败,进行失败归因,定位问题技能。
- 优化或发现新技能,并通过单元测试门确保更新安全。
这个循环让技能库不断扩展和优化,实现持续学习。
3. 技能路由器:行为对齐的检索
传统的语义检索(如BM25或嵌入模型)可能无法找到行为上最相关的技能。Memento-Skills训练了一个行为对齐的路由器:
- 使用对比学习(InfoNCE损失)训练嵌入模型,优化目标是“执行成功”而非语义相似。
- 将路由视为单步离线强化学习问题,学习一个软Q函数,指导技能选择。
- 结果显示,该路由器在召回率和端到端成功率上均优于基线方法。

4. 持续学习的理论保证
论文引用了Memento 2的理论,证明系统在满足一定条件下会收敛。性能差距取决于三个独立因素:
- LLM质量:LLM在小邻域内的泛化能力。
- 技能库覆盖:技能库越密集,检索误差越小。
- 嵌入质量:更好的嵌入模型减少检索错误。
这意味着可以通过升级LLM、增加技能库规模或改进嵌入模型来独立提升性能。
实验结果与对比
基准测试表现
| 基准测试 | Memento-Skills 准确率 | 基线(仅读写)准确率 | 提升幅度 |
|---|---|---|---|
| GAIA | 66.0% | 52.3% | +13.7% |
| HLE | 38.7% | 17.9% | +20.8% |
- GAIA(通用AI助手基准):问题多样,技能转移有限,但系统仍通过自我优化显著提升性能。
- HLE(人类最后的考试):结构化领域(如生物、化学)技能转移更强,系统表现提升更明显。
技能库演化
- 从5个原子技能开始,经过GAIA学习后技能库扩展到41个,经过HLE学习后达到235个。
- 技能形成语义集群(如搜索/网络、量子/物理),表明系统能针对不同领域自主发展专用能力。
Memento-Skills展示了无需参数更新的持续学习是可行的。通过将技能作为外部记忆,AI代理可以像人类一样,通过经验积累和反思来改进自己的工具包。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)