多任务强化学习开源论文代码综述

m0_59012280

340人浏览 · 2026-05-08 11:48:41

m0_59012280 · 2026-05-08 11:48:41 发布

文章目录

整理时间：2026-05-08 | 覆盖方向：组合优化/调度、机器人操控/运动、离线RL、MoE架构、课程学习

多任务强化学习（Multi-Task Reinforcement Learning, MTRL）旨在训练单一智能体高效完成多种任务，核心挑战在于：

挑战	表现	典型解法
负迁移（Negative Transfer）	任务间梯度相互干扰，联合训练反不如单任务	MoE、梯度投影、任务条件化
任务异构性	不同任务的状态/动作空间、奖励尺度差异大	统一编码器、适配器、序列建模
泛化性	训练任务无法覆盖所有测试分布	课程学习、元学习、数据增强
规模化（Scalability）	任务数增多导致参数瓶颈与遗忘	MoE 专家扩展、稀疏激活

本文梳理近两年（2024–2025）具有开源代码的代表性工作，按"Benchmark → 核心方法 → 应用领域 → 工具资源"组织。

一、Benchmark 与通用框架

1.1 RL4CO — RL for Combinatorial Optimization

基本信息

会议：KDD 2025（原始论文 arxiv 2023）

代码：ai4co/rl4co

论文：arxiv 2306.17100

目前最完善的 RL × 组合优化 统一框架，强烈推荐作为 CO 类多任务研究基础。

核心特性：

覆盖 27 个 CO 环境（路由、调度、装箱、图问题等）
内置 23 个 SOTA 基线（Transformer、GNN、REINFORCE 系列）
基于 PyTorch Lightning，四层完全解耦：环境 / 策略架构 / RL 算法 / 评估工具
原生支持多任务联合训练与跨问题迁移

1.2 MetaWorld / MetaWorld+ — 机器人多任务 Benchmark

基本信息

维护方：Farama Foundation（官方接管原 Stanford 版本）

环境代码：Farama-Foundation/Metaworld

算法基线库：facebookresearch/mtrl（含 8 种 MTRL 算法）

算法复现：rainx0r/metaworld-algorithms（MTSAC、MTPPO、MAML 等）

改进版论文：Meta-World+ arxiv 2505.11289（2025）

包含 50 个机器人操控任务，是 MTRL 领域事实标准 benchmark。

[!warning] 使用注意
原版 MetaWorld 存在评估标准不一致、随机种子未固定等问题，导致不同论文结果难以对比。Meta-World+（2025） 修复了这些问题，建议新工作使用改进版协议。

MTRL 基线库支持算法： MTSAC · MTPPO · MAML · PEARL · CAGrad · PCGrad · RotoGrad · Soft Modularization

1.3 MTBench — 大规模并行机器人多任务 Benchmark

基本信息

会议：RLC 2025

论文：arxiv 2507.23172

基于 IsaacGym GPU 加速仿真，首个同时覆盖操控与运动的大规模多任务 benchmark：

域	任务数	来源
操控（Manipulation）	50	Meta-World
运动（Locomotion）	20	Eurekaverse Parkour

适合研究百任务量级的多任务泛化与课程学习，支持自定义任务子集与环境数量配置。

二、核心方法

方法分类导图

多任务 RL 核心方法
├── MoE 专家路由
│   ├── MOORE（正交专家，ICLR 2024）
│   ├── MVMoE（VRP 多变体，ICML 2024）
│   └── M3DT（大规模离线 RL，2025）
├── Transformer / 序列建模
│   ├── HarmoDT（双层优化，ICML 2024）
│   ├── GOAL（通用 CO 适配器，ICLR 2025）
│   └── UniCO（MDP 序列统一，2025）
└── 课程 / 任务调度
    ├── SMT - Hard Tasks First（ICML 2024）
    └── Curriculum RL for Complex Rewards（2024）

2.1 MOORE — 正交专家混合多任务 RL

基本信息

会议：ICLR 2024

代码：AhmedMagdyHendawy/MOORE

论文：arxiv 2311.11385

核心思路： 利用 Gram-Schmidt 正交化约束各专家生成相互正交的表示子空间，从数学上消除专家间的冗余与干扰。

$\text{Loss}_{orth} = \sum_{i \neq j} \left| \langle \mathbf{h}_i, \mathbf{h}_j \rangle \right|^2, \quad \mathbf{h}_i = f_i(s)$

实验：MetaWorld MT10 / MT50 达到 SOTA，同时在 MiniGrid 验证
优点：正交性约束提供理论保证，可解释性强

2.2 MVMoE — 多任务车辆路径求解器

基本信息

会议：ICML 2024

代码：RoyalSkye/Routing-MVMoE

论文：arxiv 2404.03658

将 MoE 引入 车辆路径问题（VRP） 多变体求解，单一模型同时处理 CVRP、VRPTW、VRPB、VRPL 等 16 种变体。

架构要点：

编码器 / 解码器层均插入 MoE 模块
稀疏 Top-k 路由选择激活专家，降低推理开销
层级 MoE（Unified/Hierarchical 两种配置）可调整任务专属化程度

2.3 M3DT — 大规模多任务 MoE Decision Transformer

基本信息

论文：arxiv 2505.24378（2025-05）

在 Decision Transformer 骨干上引入 MoE，专为任务数量规模化（Massive，>> 10 任务）设计：

三阶段训练：通用预训练 → 任务感知微调 → 专家路由联合优化
减少每个专家承担的任务负载，缓解大规模多任务的遗忘与干扰
与 [[#2.4 HarmoDT]] 同属离线多任务 RL 范式，M3DT 重在规模化扩展

2.4 HarmoDT — 和谐多任务 Decision Transformer

基本信息

会议：ICML 2024

代码：charleshsc/HarmoDT

论文：arxiv 2405.18080

扩展版：Task-Aware HarmoDT arxiv 2411.01146（2024-11）

核心思路： 将多任务离线 RL 建模为双层优化（Bi-Level Optimization）——外层寻找各任务专属的"和谐参数子空间"，内层用 Decision Transformer 优化策略。

$\min_{\Phi} \sum_{i=1}^{N} \mathcal{L}_i\!\left(\theta + \Delta\theta_i(\Phi)\right), \quad \text{s.t.} \; \Delta\theta_i(\Phi) = \text{GradProj}(\nabla_\theta \mathcal{L}_i, \Phi)$

使用梯度投影（基于 MAML 思路）在任务间找到"冲突最小"的参数更新方向
Task-Aware 扩展版引入任务 ID 条件化，增强任务区分能力

2.5 GOAL — 通用 CO 智能体学习器

基本信息

会议：ICLR 2025

代码：naver/goal-co

论文：arxiv 2406.15079

目标：单一 Transformer 主干 + 轻量任务适配器，解决 16 类标准 CO 问题。

架构设计：

新型 Mixed-Attention Block：统一处理节点、边、实例级特征（解决不同 CO 问题图结构的异构性）
共享骨干 + 问题专属输入/输出适配器（参数量极小）
支持零样本迁移和针对新问题的快速微调

支持的问题类型（16类）
TSP · CVRP · JSSP · FJSP · OP · PCTSP · SPCTSP · MIS · MVC · MCut · MClique · Graph Coloring · ATSP · CVRPTW · SDVRP · PDTSP

2.6 UniCO — 基于序列建模的统一 CO 求解

基本信息

论文：arxiv 2505.06290（2025-05，最新）

受 LLM next-token prediction 启发，将所有 CO 问题建模为统一 MDP 轨迹序列：

CO-prefix 设计：将静态问题特征聚合为前缀 token，显著压缩序列长度
两阶段自监督：阶段一学状态表示，阶段二学动作生成，解决状态/动作 token 异构性
无需任何问题特定的架构设计，真正的统一求解范式

[!note] 与 GOAL 对比
GOAL 依赖手工设计的任务适配器；UniCO 完全序列化，理论上可扩展到任意 MDP 可表达的 CO 问题。

2.7 SMT — Hard Tasks First 课程调度

基本信息

会议：ICML 2024

论文：PMLR proceedings

全称：Scheduled Multi-Task Training (SMT)

多任务 RL 中简单任务往往主导训练，导致困难任务欠拟合（简单性偏置问题）。SMT 提出：

动态任务优先级：设计难度度量指标，动态评估各任务当前难度
参数重置机制：定期重新初始化部分网络参数，缓解简单性偏置累积
可作为即插即用模块与任意多任务策略结合

[!tip] 与本项目的关联
SMT 的"困难任务优先"思路与复杂度感知混合调度框架中的动态段切换逻辑高度相近，值得深入参考。

2.8 Curriculum RL for Complex Rewards

基本信息

论文：arxiv 2410.16790（2024-10）

针对复杂/稀疏奖励函数的两阶段课程方法：

阶段一：使用简化替代奖励（如稠密奖励代理）最大化探索覆盖
阶段二：切换到完整复杂奖励，利用阶段一获得的策略初始化加速收敛

有效解决奖励工程难度大、初始探索困难的问题。

三、应用方向一：调度优化

3.1 论文速览对比

论文	会议/期刊	问题	技术路线	代码
Wheatley	CPAIOR 2024	JSSP（含不确定性）	GNN + RL	jolibrain/wheatley
DAN-FJSP	IEEE TNNLS 2023	FJSP	双注意力 + RL	arxiv
ReSched	2025	FJSP/JSSP/FFSP	Transformer + 简化状态	arxiv 2603.07020
MARLSIO	Frontiers 2025	大规模 FJSP	MA-PPO + 结构信息	综述
RL-Scheduling	—	多智能体 FJSP	MARL	MZhouke/RL-Scheduling
End-to-end DRL FJSP	—	FJSP	多动作 DRL	Lei-Kun/End-to-end-DRL-for-FJSP

3.2 Wheatley — 不确定性 Job Shop 调度（重点推荐）

基本信息

会议：CPAIOR 2024

代码：jolibrain/wheatley（持续维护，star 数持续增长）

核心特性：

GNN 对析取图（Disjunctive Graph）建模，RL 学习调度决策
支持有界不确定处理时间的鲁棒调度训练
可在随机生成问题上训练，直接泛化到固定 benchmark 实例（如 Taillard）

图建模方式：

3.3 DAN-FJSP — 双注意力网络

双注意力机制解耦两个决策：

操作选择注意力：从等待队列中选取下一个操作
机器分配注意力：为选中操作分配最优机器

端到端 RL（REINFORCE），无需人工启发式规则，单模型泛化多规模实例。

3.4 ReSched — 零样本跨问题泛化

在 FJSP 上训练的 Transformer 策略，无需微调直接泛化到：

Job Shop Scheduling Problem（JSSP）
Flexible Flow Shop Scheduling Problem（FFSP）

体现了调度领域多任务泛化的最新趋势：一个求解器解决多个调度变体。

四、应用方向二：机器人学习

4.1 Q-Transformer — 多任务机器人策略

基本信息

项目主页：qtransformer.github.io

论文：arxiv 2309.10150（Google DeepMind）

核心贡献：

将 Q-Learning（离线 RL）与 Transformer 序列建模结合
将连续动作空间离散化分词，用自回归方式逐维度生成动作
可从混合数据集（人类演示 + 自主采集）中同时学习多任务策略
在真实机器人上验证 700+ 条指令的多任务执行

意义
Q-Transformer 是机器人多任务 RL 领域将 LLM 序列建模范式引入连续控制的早期代表工作。

4.2 资源列表

资源	说明	链接
Awesome Robotics Manipulation	机器人操控论文全量列表	GitHub
Awesome Humanoid Robot Learning	人形机器人学习论文	GitHub
Awesome Loco-Manipulation	运动 + 操控跨域论文	GitHub

五、离线多任务 RL 专题

三重挑战
离线多任务 RL 需同时应对：① 分布外泛化（OOD）、② 多任务数据异构性、③ 任务标识符设计。

5.1 方法对比

方法	骨干	多任务机制	规模	代码
HarmoDT (ICML 2024)	Decision Transformer	Bi-level 参数子空间	中等（~10任务）	GitHub
M3DT (2025)	DT + MoE	稀疏专家路由	大规模（百任务）	arxiv
Task-Aware HarmoDT (2024)	Decision Transformer	任务ID条件化	中等	arxiv
Text2Decision Agent	Transformer	自然语言任务描述	中等	OpenReview
Continual DT	Decision Transformer	持续学习防遗忘	中等	OpenReview

5.2 关键设计问题

任务标识符如何提供给策略？

方式一：One-hot task ID → 简单但任务间无关系编码
方式二：自然语言描述 → Text2Decision Agent 方案，泛化性强
方式三：历史轨迹推断 → PEARL 系列，适合元学习场景
方式四：Return conditioning → DT 系列，无需显式任务ID

六、工具与资源导航

6.1 Awesome 论文列表

列表	维护方	核心内容
awesome-ml4co	交大 Thinklab	ML for CO 全量论文，含 2025 最新
awesome-fm4co	ai4co	Foundation Models for CO
awesome-decision-transformer	OpenDILab	DT 系列论文持续跟踪
awesome-multi-task-learning	清华 THUML	MTL 通用论文 + 代码库
awesome-offline-rl	hanjuku-kaso	离线 RL 算法索引

6.2 全局论文速查表

论文	会议	方向	代码可用性
RL4CO	KDD 2025	CO 框架	✅ 完整
MOORE	ICLR 2024	多任务 RL / MoE	✅ 完整
MVMoE	ICML 2024	多任务 VRP / MoE	✅ 完整
HarmoDT	ICML 2024	离线多任务 RL	✅ 完整
GOAL	ICLR 2025	通用 CO	✅ 完整
SMT (Hard Tasks First)	ICML 2024	课程多任务 RL	⚠️ PMLR 无独立仓库
Q-Transformer	CoRL 2023	机器人多任务	⚠️ 项目页面，无完整代码
Wheatley	CPAIOR 2024	JSSP 调度	✅ 完整
DAN-FJSP	IEEE TNNLS	FJSP 调度	⚠️ arxiv，部分代码
ReSched	2025	FJSP 跨变体	⚠️ arxiv 预印本
UniCO	2025.05	通用 CO	⚠️ 最新，代码待发布
M3DT	2025.05	大规模离线多任务	⚠️ 最新，代码待发布
Meta-World+	2025	机器人 Benchmark	✅ 含于 metaworld-algorithms
MTBench	RLC 2025	机器人 Benchmark	✅ 论文附代码

6.3 快速上手路径

七、趋势总结与展望

2024–2025 多任务 RL 五大趋势

① 统一化（Unification）
GOAL、UniCO 等尝试单模型解决所有同类问题，打破"一问题一模型"范式。关键推动力：Transformer 的强大表达能力 + 大规模数据集联合训练。

② MoE 成为标配
从 MOORE、MVMoE（CO 领域）到 M3DT（离线 RL），MoE 已成为解决负迁移的主流方案。稀疏激活兼顾参数共享与任务专属化，规模化优势明显。

③ 序列建模范式渗透 RL
Decision Transformer 系列将 CO/控制统一为序列预测，避免了传统 RL 中的价值函数设计复杂性。UniCO 将这一思路推向极致——所有 CO 问题 = MDP 轨迹 token 序列。

④ 泛化性从目标变为基线要求
ReSched 的零样本跨调度变体泛化、GOAL 的跨 CO 问题迁移，说明"训练一个问题、测试另一个"已成为新的评估标准，而非额外贡献。

⑤ 大规模基础设施驱动
GPU 加速仿真（IsaacGym/MTBench）+ 分布式训练框架，推动从"十任务"到"百任务"量级的实验成为可行，催生了 M3DT 等针对规模化的新方法。

开放问题

如何在任务数量动态增长（持续学习场景）下保持多任务性能？

MoE 路由的可解释性：路由决策是否真正对应语义上有意义的任务分组？

多任务 RL 与基础模型（Foundation Model） 的结合：能否用预训练的世界模型初始化多任务策略？

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

靠技术能力能在职场干一辈子吗？

AtomGit开源社区

昨天刷抖音有个伙计说用VibeCoding赚了1000万一年？深度拆解这背后的真相与陷阱

AtomGit开源社区

【EI复现】基于元模型优化算法的主从博弈多虚拟电厂动态定价和能量管理(Matlab代码实现）

基于元模型的优化算法是一种基于历史数据来驱动样本点的加入从而逼近局部或全局最优解的优化机制，能够改善传统启发式智能算法需要繁复数值模拟的缺陷，目前在飞行器设计等航空航天领域的应用[20]最为广泛，在电力系统方面也有初步的应用。提出基于 Kriging 元模型的博弈均衡算法，在求解过程中建立 Kriging 元模型替代 VPP 内部的能量管理模型，利用粒子群优化算法搜索优异采样点，更新修正 Krig