多任务强化学习开源论文代码综述
整理时间:2026-05-08 | 覆盖方向:组合优化/调度、机器人操控/运动、离线RL、MoE架构、课程学习
多任务强化学习(Multi-Task Reinforcement Learning, MTRL)旨在训练单一智能体高效完成多种任务,核心挑战在于:
| 挑战 | 表现 | 典型解法 |
|---|---|---|
| 负迁移(Negative Transfer) | 任务间梯度相互干扰,联合训练反不如单任务 | MoE、梯度投影、任务条件化 |
| 任务异构性 | 不同任务的状态/动作空间、奖励尺度差异大 | 统一编码器、适配器、序列建模 |
| 泛化性 | 训练任务无法覆盖所有测试分布 | 课程学习、元学习、数据增强 |
| 规模化(Scalability) | 任务数增多导致参数瓶颈与遗忘 | MoE 专家扩展、稀疏激活 |
本文梳理近两年(2024–2025)具有开源代码的代表性工作,按"Benchmark → 核心方法 → 应用领域 → 工具资源"组织。
一、Benchmark 与通用框架
1.1 RL4CO — RL for Combinatorial Optimization
基本信息
- 会议:KDD 2025(原始论文 arxiv 2023)
- 代码:ai4co/rl4co
- 论文:arxiv 2306.17100
目前最完善的 RL × 组合优化 统一框架,强烈推荐作为 CO 类多任务研究基础。
核心特性:
- 覆盖 27 个 CO 环境(路由、调度、装箱、图问题等)
- 内置 23 个 SOTA 基线(Transformer、GNN、REINFORCE 系列)
- 基于 PyTorch Lightning,四层完全解耦:环境 / 策略架构 / RL 算法 / 评估工具
- 原生支持多任务联合训练与跨问题迁移
1.2 MetaWorld / MetaWorld+ — 机器人多任务 Benchmark
基本信息
- 维护方:Farama Foundation(官方接管原 Stanford 版本)
- 环境代码:Farama-Foundation/Metaworld
- 算法基线库:facebookresearch/mtrl(含 8 种 MTRL 算法)
- 算法复现:rainx0r/metaworld-algorithms(MTSAC、MTPPO、MAML 等)
- 改进版论文:Meta-World+ arxiv 2505.11289(2025)
包含 50 个机器人操控任务,是 MTRL 领域事实标准 benchmark。
[!warning] 使用注意
原版 MetaWorld 存在评估标准不一致、随机种子未固定等问题,导致不同论文结果难以对比。Meta-World+(2025) 修复了这些问题,建议新工作使用改进版协议。
MTRL 基线库支持算法: MTSAC · MTPPO · MAML · PEARL · CAGrad · PCGrad · RotoGrad · Soft Modularization
1.3 MTBench — 大规模并行机器人多任务 Benchmark
基本信息
- 会议:RLC 2025
- 论文:arxiv 2507.23172
基于 IsaacGym GPU 加速仿真,首个同时覆盖操控与运动的大规模多任务 benchmark:
| 域 | 任务数 | 来源 |
|---|---|---|
| 操控(Manipulation) | 50 | Meta-World |
| 运动(Locomotion) | 20 | Eurekaverse Parkour |
适合研究百任务量级的多任务泛化与课程学习,支持自定义任务子集与环境数量配置。
二、核心方法
方法分类导图
多任务 RL 核心方法 ├── MoE 专家路由 │ ├── MOORE(正交专家,ICLR 2024) │ ├── MVMoE(VRP 多变体,ICML 2024) │ └── M3DT(大规模离线 RL,2025) ├── Transformer / 序列建模 │ ├── HarmoDT(双层优化,ICML 2024) │ ├── GOAL(通用 CO 适配器,ICLR 2025) │ └── UniCO(MDP 序列统一,2025) └── 课程 / 任务调度 ├── SMT - Hard Tasks First(ICML 2024) └── Curriculum RL for Complex Rewards(2024)
2.1 MOORE — 正交专家混合多任务 RL
基本信息
- 会议:ICLR 2024
- 代码:AhmedMagdyHendawy/MOORE
- 论文:arxiv 2311.11385
核心思路: 利用 Gram-Schmidt 正交化约束各专家生成相互正交的表示子空间,从数学上消除专家间的冗余与干扰。
Loss o r t h = ∑ i ≠ j ∣ ⟨ h i , h j ⟩ ∣ 2 , h i = f i ( s ) \text{Loss}_{orth} = \sum_{i \neq j} \left| \langle \mathbf{h}_i, \mathbf{h}_j \rangle \right|^2, \quad \mathbf{h}_i = f_i(s) Lossorth=i=j∑∣⟨hi,hj⟩∣2,hi=fi(s)
- 实验:MetaWorld MT10 / MT50 达到 SOTA,同时在 MiniGrid 验证
- 优点:正交性约束提供理论保证,可解释性强
2.2 MVMoE — 多任务车辆路径求解器
基本信息
- 会议:ICML 2024
- 代码:RoyalSkye/Routing-MVMoE
- 论文:arxiv 2404.03658
将 MoE 引入 车辆路径问题(VRP) 多变体求解,单一模型同时处理 CVRP、VRPTW、VRPB、VRPL 等 16 种变体。
架构要点:
- 编码器 / 解码器层均插入 MoE 模块
- 稀疏 Top-k 路由选择激活专家,降低推理开销
- 层级 MoE(Unified/Hierarchical 两种配置)可调整任务专属化程度
2.3 M3DT — 大规模多任务 MoE Decision Transformer
基本信息
- 论文:arxiv 2505.24378(2025-05)
在 Decision Transformer 骨干上引入 MoE,专为任务数量规模化(Massive,>> 10 任务)设计:
- 三阶段训练:通用预训练 → 任务感知微调 → 专家路由联合优化
- 减少每个专家承担的任务负载,缓解大规模多任务的遗忘与干扰
- 与 [[#2.4 HarmoDT]] 同属离线多任务 RL 范式,M3DT 重在规模化扩展
2.4 HarmoDT — 和谐多任务 Decision Transformer
基本信息
- 会议:ICML 2024
- 代码:charleshsc/HarmoDT
- 论文:arxiv 2405.18080
- 扩展版:Task-Aware HarmoDT arxiv 2411.01146(2024-11)
核心思路: 将多任务离线 RL 建模为双层优化(Bi-Level Optimization)——外层寻找各任务专属的"和谐参数子空间",内层用 Decision Transformer 优化策略。
min Φ ∑ i = 1 N L i ( θ + Δ θ i ( Φ ) ) , s.t. Δ θ i ( Φ ) = GradProj ( ∇ θ L i , Φ ) \min_{\Phi} \sum_{i=1}^{N} \mathcal{L}_i\!\left(\theta + \Delta\theta_i(\Phi)\right), \quad \text{s.t.} \; \Delta\theta_i(\Phi) = \text{GradProj}(\nabla_\theta \mathcal{L}_i, \Phi) Φmini=1∑NLi(θ+Δθi(Φ)),s.t.Δθi(Φ)=GradProj(∇θLi,Φ)
- 使用梯度投影(基于 MAML 思路)在任务间找到"冲突最小"的参数更新方向
- Task-Aware 扩展版引入任务 ID 条件化,增强任务区分能力
2.5 GOAL — 通用 CO 智能体学习器
基本信息
- 会议:ICLR 2025
- 代码:naver/goal-co
- 论文:arxiv 2406.15079
目标:单一 Transformer 主干 + 轻量任务适配器,解决 16 类标准 CO 问题。
架构设计:
- 新型 Mixed-Attention Block:统一处理节点、边、实例级特征(解决不同 CO 问题图结构的异构性)
- 共享骨干 + 问题专属输入/输出适配器(参数量极小)
- 支持零样本迁移和针对新问题的快速微调
支持的问题类型(16类)
TSP · CVRP · JSSP · FJSP · OP · PCTSP · SPCTSP · MIS · MVC · MCut · MClique · Graph Coloring · ATSP · CVRPTW · SDVRP · PDTSP
2.6 UniCO — 基于序列建模的统一 CO 求解
基本信息
- 论文:arxiv 2505.06290(2025-05,最新)
受 LLM next-token prediction 启发,将所有 CO 问题建模为统一 MDP 轨迹序列:
- CO-prefix 设计:将静态问题特征聚合为前缀 token,显著压缩序列长度
- 两阶段自监督:阶段一学状态表示,阶段二学动作生成,解决状态/动作 token 异构性
- 无需任何问题特定的架构设计,真正的统一求解范式
[!note] 与 GOAL 对比
GOAL 依赖手工设计的任务适配器;UniCO 完全序列化,理论上可扩展到任意 MDP 可表达的 CO 问题。
2.7 SMT — Hard Tasks First 课程调度
基本信息
- 会议:ICML 2024
- 论文:PMLR proceedings
- 全称:Scheduled Multi-Task Training (SMT)
多任务 RL 中简单任务往往主导训练,导致困难任务欠拟合(简单性偏置问题)。SMT 提出:
- 动态任务优先级:设计难度度量指标,动态评估各任务当前难度
- 参数重置机制:定期重新初始化部分网络参数,缓解简单性偏置累积
- 可作为即插即用模块与任意多任务策略结合
[!tip] 与本项目的关联
SMT 的"困难任务优先"思路与复杂度感知混合调度框架中的动态段切换逻辑高度相近,值得深入参考。
2.8 Curriculum RL for Complex Rewards
基本信息
- 论文:arxiv 2410.16790(2024-10)
针对复杂/稀疏奖励函数的两阶段课程方法:
- 阶段一:使用简化替代奖励(如稠密奖励代理)最大化探索覆盖
- 阶段二:切换到完整复杂奖励,利用阶段一获得的策略初始化加速收敛
有效解决奖励工程难度大、初始探索困难的问题。
三、应用方向一:调度优化
3.1 论文速览对比
| 论文 | 会议/期刊 | 问题 | 技术路线 | 代码 |
|---|---|---|---|---|
| Wheatley | CPAIOR 2024 | JSSP(含不确定性) | GNN + RL | jolibrain/wheatley |
| DAN-FJSP | IEEE TNNLS 2023 | FJSP | 双注意力 + RL | arxiv |
| ReSched | 2025 | FJSP/JSSP/FFSP | Transformer + 简化状态 | arxiv 2603.07020 |
| MARLSIO | Frontiers 2025 | 大规模 FJSP | MA-PPO + 结构信息 | 综述 |
| RL-Scheduling | — | 多智能体 FJSP | MARL | MZhouke/RL-Scheduling |
| End-to-end DRL FJSP | — | FJSP | 多动作 DRL | Lei-Kun/End-to-end-DRL-for-FJSP |
3.2 Wheatley — 不确定性 Job Shop 调度(重点推荐)
基本信息
- 会议:CPAIOR 2024
- 代码:jolibrain/wheatley(持续维护,star 数持续增长)
核心特性:
- GNN 对析取图(Disjunctive Graph)建模,RL 学习调度决策
- 支持有界不确定处理时间的鲁棒调度训练
- 可在随机生成问题上训练,直接泛化到固定 benchmark 实例(如 Taillard)
图建模方式:
3.3 DAN-FJSP — 双注意力网络
双注意力机制解耦两个决策:
- 操作选择注意力:从等待队列中选取下一个操作
- 机器分配注意力:为选中操作分配最优机器
端到端 RL(REINFORCE),无需人工启发式规则,单模型泛化多规模实例。
3.4 ReSched — 零样本跨问题泛化
在 FJSP 上训练的 Transformer 策略,无需微调直接泛化到:
- Job Shop Scheduling Problem(JSSP)
- Flexible Flow Shop Scheduling Problem(FFSP)
体现了调度领域多任务泛化的最新趋势:一个求解器解决多个调度变体。
四、应用方向二:机器人学习
4.1 Q-Transformer — 多任务机器人策略
基本信息
- 项目主页:qtransformer.github.io
- 论文:arxiv 2309.10150(Google DeepMind)
核心贡献:
- 将 Q-Learning(离线 RL)与 Transformer 序列建模结合
- 将连续动作空间离散化分词,用自回归方式逐维度生成动作
- 可从混合数据集(人类演示 + 自主采集)中同时学习多任务策略
- 在真实机器人上验证 700+ 条指令的多任务执行
意义
Q-Transformer 是机器人多任务 RL 领域将 LLM 序列建模范式引入连续控制的早期代表工作。
4.2 资源列表
| 资源 | 说明 | 链接 |
|---|---|---|
| Awesome Robotics Manipulation | 机器人操控论文全量列表 | GitHub |
| Awesome Humanoid Robot Learning | 人形机器人学习论文 | GitHub |
| Awesome Loco-Manipulation | 运动 + 操控跨域论文 | GitHub |
五、离线多任务 RL 专题
三重挑战
离线多任务 RL 需同时应对:① 分布外泛化(OOD)、② 多任务数据异构性、③ 任务标识符设计。
5.1 方法对比
| 方法 | 骨干 | 多任务机制 | 规模 | 代码 |
|---|---|---|---|---|
| HarmoDT (ICML 2024) | Decision Transformer | Bi-level 参数子空间 | 中等(~10任务) | GitHub |
| M3DT (2025) | DT + MoE | 稀疏专家路由 | 大规模(百任务) | arxiv |
| Task-Aware HarmoDT (2024) | Decision Transformer | 任务ID条件化 | 中等 | arxiv |
| Text2Decision Agent | Transformer | 自然语言任务描述 | 中等 | OpenReview |
| Continual DT | Decision Transformer | 持续学习防遗忘 | 中等 | OpenReview |
5.2 关键设计问题
任务标识符如何提供给策略?
方式一:One-hot task ID → 简单但任务间无关系编码
方式二:自然语言描述 → Text2Decision Agent 方案,泛化性强
方式三:历史轨迹推断 → PEARL 系列,适合元学习场景
方式四:Return conditioning → DT 系列,无需显式任务ID
六、工具与资源导航
6.1 Awesome 论文列表
| 列表 | 维护方 | 核心内容 |
|---|---|---|
| awesome-ml4co | 交大 Thinklab | ML for CO 全量论文,含 2025 最新 |
| awesome-fm4co | ai4co | Foundation Models for CO |
| awesome-decision-transformer | OpenDILab | DT 系列论文持续跟踪 |
| awesome-multi-task-learning | 清华 THUML | MTL 通用论文 + 代码库 |
| awesome-offline-rl | hanjuku-kaso | 离线 RL 算法索引 |
6.2 全局论文速查表
| 论文 | 会议 | 方向 | 代码可用性 |
|---|---|---|---|
| RL4CO | KDD 2025 | CO 框架 | ✅ 完整 |
| MOORE | ICLR 2024 | 多任务 RL / MoE | ✅ 完整 |
| MVMoE | ICML 2024 | 多任务 VRP / MoE | ✅ 完整 |
| HarmoDT | ICML 2024 | 离线多任务 RL | ✅ 完整 |
| GOAL | ICLR 2025 | 通用 CO | ✅ 完整 |
| SMT (Hard Tasks First) | ICML 2024 | 课程多任务 RL | ⚠️ PMLR 无独立仓库 |
| Q-Transformer | CoRL 2023 | 机器人多任务 | ⚠️ 项目页面,无完整代码 |
| Wheatley | CPAIOR 2024 | JSSP 调度 | ✅ 完整 |
| DAN-FJSP | IEEE TNNLS | FJSP 调度 | ⚠️ arxiv,部分代码 |
| ReSched | 2025 | FJSP 跨变体 | ⚠️ arxiv 预印本 |
| UniCO | 2025.05 | 通用 CO | ⚠️ 最新,代码待发布 |
| M3DT | 2025.05 | 大规模离线多任务 | ⚠️ 最新,代码待发布 |
| Meta-World+ | 2025 | 机器人 Benchmark | ✅ 含于 metaworld-algorithms |
| MTBench | RLC 2025 | 机器人 Benchmark | ✅ 论文附代码 |
6.3 快速上手路径
七、趋势总结与展望
2024–2025 多任务 RL 五大趋势
① 统一化(Unification)
GOAL、UniCO 等尝试单模型解决所有同类问题,打破"一问题一模型"范式。关键推动力:Transformer 的强大表达能力 + 大规模数据集联合训练。
② MoE 成为标配
从 MOORE、MVMoE(CO 领域)到 M3DT(离线 RL),MoE 已成为解决负迁移的主流方案。稀疏激活兼顾参数共享与任务专属化,规模化优势明显。
③ 序列建模范式渗透 RL
Decision Transformer 系列将 CO/控制 统一为序列预测,避免了传统 RL 中的价值函数设计复杂性。UniCO 将这一思路推向极致——所有 CO 问题 = MDP 轨迹 token 序列。
④ 泛化性从目标变为基线要求
ReSched 的零样本跨调度变体泛化、GOAL 的跨 CO 问题迁移,说明"训练一个问题、测试另一个"已成为新的评估标准,而非额外贡献。
⑤ 大规模基础设施驱动
GPU 加速仿真(IsaacGym/MTBench)+ 分布式训练框架,推动从"十任务"到"百任务"量级的实验成为可行,催生了 M3DT 等针对规模化的新方法。
开放问题
- 如何在任务数量动态增长(持续学习场景)下保持多任务性能?
- MoE 路由的可解释性:路由决策是否真正对应语义上有意义的任务分组?
- 多任务 RL 与基础模型(Foundation Model) 的结合:能否用预训练的世界模型初始化多任务策略?
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)