多模态Agent持续学习新思路，解决工具使用和编排两大难题！

AI-椰子不椰

492人浏览 · 2026-03-19 17:24:44

AI-椰子不椰 · 2026-03-19 17:24:44 发布

本文介绍了XSkill，一种用于多模态Agent的持续学习方法。XSkill通过将“过往经历”沉淀为Skills（技能）和Experiences（经验）两类可复用知识，并形成闭环，有效解决了当前多模态Agent在真实开放环境中工具使用不高效、工具编排不灵活的问题。XSkill通过外部知识持续积累和视觉语境检索与改写，实现了跨模型迁移，并可将一个强模型积累的知识转移给另一个模型使用。实验结果表明，XSkill在多个基准测试中显著优于基线方法，并具有良好的泛化能力和跨模型迁移能力。

先说结论：这篇论文到底解决了什么问题？

多模态 Agent（能看图、能调用工具、能搜索网页）已经很强，但在真实开放环境里仍有两个顽疾：

1. 工具用得不高效 ：简单任务也会绕远路，复杂任务又常常探索不够深。
1. 工具编排不灵活 ：遇到新任务时，工具组合容易僵化，泛化能力差。

这篇论文提出的 XSkill ，核心是让 Agent 像人一样，把“过往经历”沉淀成两类可复用知识，并形成闭环：

• Skills（技能） ：任务级、结构化流程知识（怎么规划、怎么串工具）。
• Experiences（经验） ：动作级、上下文敏感的战术提示（某种场景下优先做什么）。

重点在于：它不是微调模型参数，而是做 外部知识持续积累 + 视觉语境检索与改写 。这使得它可以跨模型迁移，甚至能把一个强模型积累的知识转移给另一个模型使用。

研究动机：为什么“经验 + 技能”要分开建模？

论文的洞见很清晰：

• 仅靠高层流程（skill）不够，因为执行时常有很多局部坑（如图片反转、OCR 误读、工具参数错误）。
• 仅靠局部经验（experience）也不够，因为没有全局任务结构，容易“头痛医头”。

所以 XSkill 把两者拆开并协同：

• Skill 负责“框架正确性”（少走错路、少犯结构性错误）；
• Experience 负责“策略灵活性”（在具体视觉上下文里动态选工具、修正策略）。

方法总览：双流知识 + 双阶段循环

Figure 1

图解：这是 XSkill 的总流程图。左侧是 Phase I（知识积累） ，从多条 rollout 轨迹里做总结、对比批判、层级合并；右侧是 Phase II（任务求解） ，先任务分解再检索经验，随后做视觉上下文改写，最后把适配后的技能注入执行模型。横向看是“学”，纵向看是“用”，闭环看是“持续进化”。

Figure 2

图解：这张对比图展示了“有无 XSkill”在同一多模态任务上的轨迹差异。横向通常是两条推理链；纵向是步骤推进。没有 XSkill 的轨迹出现视觉语义错位（如未做旋转/裁剪），而有 XSkill 的轨迹会先调用相关经验和技能片段，再生成更贴地的执行计划。

数学建模：把“会做题”拆成可管理知识对象

论文把任务建模成 POMDP，并定义两个知识对象。

1）Skill 定义（任务级）

Skill 记为，形式化为三元组：

• 元数据（名称、描述、版本）
• 工作流
• 可复用模板（代码/查询模板）

2）Experience 定义（动作级）

Experience 记为，形式化为：

• 触发条件
• 建议动作
• 检索向量

并约束长度，避免经验冗长失焦。

3）总体目标

给定任务（文本查询 + 图像集），构建外部知识库，最大化正确率：

Phase I：知识积累（从 rollout 到可复用知识）

A. Rollout Summary（视觉扎根总结）

对每个训练任务做次 rollout，交给知识模型总结：

关键不是“复述轨迹”，而是把 视觉证据与动作决策绑定 ：
例如“因为检测到图像倒置，所以触发旋转；因为对比度低，所以触发增强”。

B. Cross-Rollout Critique（跨轨迹对比批判）

利用成功/失败轨迹对比，提炼经验更新操作：

操作类型包括 add 和 modify，本质是在做“经验库自演化”。

C. Knowledge Consolidation（层级合并与压缩）

• 经验层：基于余弦相似度阈值做合并去重；
• 技能层：对技能文档做段落级更新/合并/删除；
• 超长时触发质量驱动精炼（保泛化、去特例）。

这一块决定了系统能否长期运行不崩：否则知识越积越乱，后续检索会被噪音拖垮。

Phase II：任务求解（先拆再找，再按图改写）

A. 任务分解检索（不是直接拿原 query 去搜）

先把任务拆成子需求，每个子任务独立检索：

这样能覆盖“同一任务中的多技术面向”（如图像修复 + 逻辑校验 + 错误恢复）。

B. Experience Rewrite（经验改写）

把通用经验改写为当前图像语境下可执行建议：

C. Skill Adaptation（技能裁剪与融合）

把全局技能文档裁剪成任务可用版本：

然后注入执行模型提示词。注意这里是“参考式注入”，不是强制脚本，给模型保留 improvisation 空间。

实验设置：覆盖 3 大域、5 个基准、4 个闭源骨干模型

数据与任务域

• 视觉工具推理 ：VisualToolBench、TIR-Bench
• 多模态搜索 ：MMSearch-Plus、MMBrowseComp
• 综合高难任务 ：AgentVista

工具配置

Figure 3

图解：该图的横轴是不同错误类型（如语法错误、运行时错误、工具名错误），纵轴是错误比例/次数。它直接说明 Skill 会显著压低结构性执行错误，尤其是 syntax/tool-name 这类“低级但致命”错误。

评价指标

• Average@4 ：4 次 rollout 的平均成功率（稳定性）
• Pass@4 ：4 次 rollout 至少一次成功（上限能力）

主结果：XSkill 在几乎所有设置中都明显领先

论文报告的核心趋势非常稳定：

• 相比仅工具基线，XSkill 在不同模型上 Average@4 提升 2.58～6.71 点。
• 在高难 TIR-Bench（Gemini-3-Flash）上，XSkill 达到 47.75% ，比最强基线 Agent-KB 高 11.13 点。
• 在知识迁移场景（GPT-5-mini、o4-mini 使用 Gemini-3-Flash 累积知识）中仍有明显收益，说明外部知识结构具有跨模型可迁移性。

消融与行为分析：为什么双流设计有效？

消融结论（VisualToolBench, Gemini-2.5-Pro）

• 去掉 Experience：Average@4 从 30.49 降到 27.45（-3.04）
• 去掉 Skill：降到 26.64（-3.85）
• 说明两者都重要，且 Skill 在该数据集上贡献更大。

行为层解释

• Skill 主要抑制执行错误 ：总错误率从 29.9% 降到 15.3%，语法错误和工具名错误显著减少。
• Experience 主要提升编排灵活性 ：
在 VisualToolBench 中 Code Interpreter 使用占比从 66.63% 提升至 76.97%；
在 MMSearch-Plus 中 image search 占比明显提升，说明策略更“按任务选工具”。

Figure 4

图解：横轴是 rollout 数量，纵轴是 Average@4 / Pass@4。随着增加，两项指标持续上升，且 Pass@4 上升更陡。这说明多路径 rollout 提供了更丰富的对比样本，帮助知识提炼更稳。

Figure 5

图解：这是跨任务零样本迁移结果。横轴是目标基准（如 TIR-Bench、MMBrowseComp），纵轴是 Average@4。XSkill 曲线/柱形整体高于基线，并高于灰色工具基线参考线，说明其泛化不是“记住题目”，而是学到可迁移方法。

附录中的关键信息：复现与扩展价值很高

1）开源模型迁移结果（Qwen3-VL）

迁移到 Qwen3-VL-235B/32B 时出现“均值不总是涨、Pass@4 常上涨”的现象。
这说明较弱的基础模型在吸收外部知识时可能受到干扰，但探索次数增加会提升“至少一次成功”的概率。

2）关键超参数

• Rollout 数
• 检索 top-
• 经验合并阈值
• 经验库上限 120 条
• 技能文档精炼阈值 1000 词
• 执行温度 0.6，分解/改写温度 0.3

3）工具定义很工程化

Web Search / Image Search / Visit / Code Interpreter 四工具都给了参数规范与调用约束，适合直接落地到 agent framework。

论文的价值与局限

价值

• 给出了多模态 Agent 的 非参数持续学习 实用路径；
• 双流知识设计把“高层流程”与“低层战术”解耦，解释性更强；
• 跨模型转移能力证明外部知识库具备平台化潜力。

局限与风险

• 知识库可能传播偏差（尤其在跨模型迁移时）；
• 需要知识审计机制，否则“错误经验”会进入闭环；
• 当前实验主要是单轮“积累后测试”，虽架构支持长期迭代，但真实长期漂移问题仍待更多实证。

对实战系统的启发

1. 先把你现有 Agent 的历史轨迹结构化成两层：skills.md + experiences.json。
1. 不要只按 query 检索，先做 task decomposition 再多路检索。
1. 强制增加一层“经验改写器”，防止把通用建议硬塞给当前任务。
1. 给知识库加去重与质量门槛，否则 2～3 周后就会知识膨胀失效。
1. 对跨模型迁移设置白名单与审计，避免把偏差一起迁移过去。

AI行业迎来前所未有的爆发式增长：从DeepSeek百万年薪招聘AI研究员，到百度、阿里、腾讯等大厂疯狂布局AI Agent，再到国家政策大力扶持数字经济和AI人才培养，所有信号都在告诉我们：AI的黄金十年，真的来了！

在行业火爆之下，AI人才争夺战也日趋白热化，其就业前景一片蓝海！

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴，可以VＸ扫描下方二维码免费领取🆓

在这里插入图片描述

人才缺口巨大

人力资源社会保障部有关报告显示，据测算，当前，****我国人工智能人才缺口超过500万，****供求比例达1∶10。脉脉最新数据也显示：AI新发岗位量较去年初暴增29倍，超1000家AI企业释放7.2万+岗位……

单拿今年的秋招来说，各互联网大厂释放出来的招聘信息中，我们就能感受到AI浪潮，比如百度90%的技术岗都与AI相关！

就业薪资超高

在旺盛的市场需求下，AI岗位不仅招聘量大，薪资待遇更是“一骑绝尘”。企业为抢AI核心人才，薪资给的非常慷慨，过去一年，懂AI的人才普遍涨薪40%+！

脉脉高聘发布的《2025年度人才迁徙报告》显示，在2025年1月-10月的高薪岗位Top20排行中，AI相关岗位占了绝大多数，并且平均薪资月薪都超过6w！

在去年的秋招中，小红书给算法相关岗位的薪资为50k起，字节开出228万元的超高年薪，据《2025年秋季校园招聘白皮书》，AI算法类平均年薪达36.9万，遥遥领先其他行业！

总结来说，当前人工智能岗位需求多，薪资高，前景好。在职场里，选对赛道就能赢在起跑线。抓住AI风口，轻松实现高薪就业！

但现实却是，仍有很多同学不知道如何抓住AI机遇，会遇到很多就业难题，比如：

❌ 技术过时：只会CRUD的开发者，在AI浪潮中沦为“职场裸奔者”；

❌ 薪资停滞：初级岗位内卷到白菜价，传统开发3年经验薪资涨幅不足15%；

❌ 转型无门：想学AI却找不到系统路径，83%自学党中途放弃。

他们的就业难题解决问题的关键在于：不仅要选对赛道，更要跟对老师！

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

我们如何利用「混沌工程」工具Chaos Blade进行故障演练？

而Chaos Blade作为阿里巴巴开源的混沌工程实验工具，凭借其轻量级、易用性和丰富的故障场景支持，成为故障演练的利器。这种与K8s深度集成的能力，使得在微服务架构下进行服务熔断、节点宕机等演练变得异常简单，有效验证服务网格的容错机制。Chaos Blade支持创建复杂的演练场景。建议将演练结果与监控系统、日志平台的数据进行关联分析，找出系统的薄弱环节，持续优化架构设计。通过定期使用Chaos

AtomGit开源社区

AI 辅助学术写作（五）：模块化论文撰写与开源交付——从草稿到可复现研究包

这两个部分放在最后写，因为它们是对全文的精炼，而不是提前预设的框架。请基于以下信息，撰写一个150-200字的学术摘要。【摘要必须包含的五个要素】1. 研究问题（一句话）：[你的核心研究问题]2. 研究方法（一句话）：[数据来源 + 识别策略]3. 核心发现（两句话）：[主要系数 + 经济含义]4. 异质性/机制（一句话）：[最重要的一个扩展发现]5. 政策含义（一句话）：[对政策制定的启示]【格

AtomGit开源社区

DALI / UMAP / H5

这几个词通常出现在深度学习框架、数据处理库、AI训练平台或代码仓库的功能说明中，表示该系统支持相应的数据处理技术或文件格式。DALI 指的是 NVIDIA DALI（Data Loading Library）。它是 NVIDIA 开发的高性能数据加载与预处理框架，主要用于加速训练过程。例如 ImageNet 训练时，DALI 可以减少 CPU 成为瓶颈的问题。对于大规模视觉训练（ImageNet、