整理时间:2026-05-08 | 覆盖方向:组合优化/调度、机器人操控/运动、离线RL、MoE架构、课程学习

多任务强化学习(Multi-Task Reinforcement Learning, MTRL)旨在训练单一智能体高效完成多种任务,核心挑战在于:

挑战 表现 典型解法
负迁移(Negative Transfer) 任务间梯度相互干扰,联合训练反不如单任务 MoE、梯度投影、任务条件化
任务异构性 不同任务的状态/动作空间、奖励尺度差异大 统一编码器、适配器、序列建模
泛化性 训练任务无法覆盖所有测试分布 课程学习、元学习、数据增强
规模化(Scalability) 任务数增多导致参数瓶颈与遗忘 MoE 专家扩展、稀疏激活

本文梳理近两年(2024–2025)具有开源代码的代表性工作,按"Benchmark → 核心方法 → 应用领域 → 工具资源"组织。


一、Benchmark 与通用框架

1.1 RL4CO — RL for Combinatorial Optimization

基本信息

目前最完善的 RL × 组合优化 统一框架,强烈推荐作为 CO 类多任务研究基础

核心特性:

  • 覆盖 27 个 CO 环境(路由、调度、装箱、图问题等)
  • 内置 23 个 SOTA 基线(Transformer、GNN、REINFORCE 系列)
  • 基于 PyTorch Lightning,四层完全解耦:环境 / 策略架构 / RL 算法 / 评估工具
  • 原生支持多任务联合训练与跨问题迁移

1.2 MetaWorld / MetaWorld+ — 机器人多任务 Benchmark

基本信息

包含 50 个机器人操控任务,是 MTRL 领域事实标准 benchmark。

[!warning] 使用注意
原版 MetaWorld 存在评估标准不一致、随机种子未固定等问题,导致不同论文结果难以对比。Meta-World+(2025) 修复了这些问题,建议新工作使用改进版协议。

MTRL 基线库支持算法: MTSAC · MTPPO · MAML · PEARL · CAGrad · PCGrad · RotoGrad · Soft Modularization


1.3 MTBench — 大规模并行机器人多任务 Benchmark

基本信息

基于 IsaacGym GPU 加速仿真,首个同时覆盖操控与运动的大规模多任务 benchmark

任务数 来源
操控(Manipulation) 50 Meta-World
运动(Locomotion) 20 Eurekaverse Parkour

适合研究百任务量级的多任务泛化与课程学习,支持自定义任务子集与环境数量配置。


二、核心方法

方法分类导图

多任务 RL 核心方法
├── MoE 专家路由
│   ├── MOORE(正交专家,ICLR 2024)
│   ├── MVMoE(VRP 多变体,ICML 2024)
│   └── M3DT(大规模离线 RL,2025)
├── Transformer / 序列建模
│   ├── HarmoDT(双层优化,ICML 2024)
│   ├── GOAL(通用 CO 适配器,ICLR 2025)
│   └── UniCO(MDP 序列统一,2025)
└── 课程 / 任务调度
    ├── SMT - Hard Tasks First(ICML 2024)
    └── Curriculum RL for Complex Rewards(2024)

2.1 MOORE — 正交专家混合多任务 RL

基本信息

核心思路: 利用 Gram-Schmidt 正交化约束各专家生成相互正交的表示子空间,从数学上消除专家间的冗余与干扰。

Loss o r t h = ∑ i ≠ j ∣ ⟨ h i , h j ⟩ ∣ 2 , h i = f i ( s ) \text{Loss}_{orth} = \sum_{i \neq j} \left| \langle \mathbf{h}_i, \mathbf{h}_j \rangle \right|^2, \quad \mathbf{h}_i = f_i(s) Lossorth=i=jhi,hj2,hi=fi(s)

  • 实验:MetaWorld MT10 / MT50 达到 SOTA,同时在 MiniGrid 验证
  • 优点:正交性约束提供理论保证,可解释性强

2.2 MVMoE — 多任务车辆路径求解器

基本信息

将 MoE 引入 车辆路径问题(VRP) 多变体求解,单一模型同时处理 CVRP、VRPTW、VRPB、VRPL 等 16 种变体。

架构要点:

  • 编码器 / 解码器层均插入 MoE 模块
  • 稀疏 Top-k 路由选择激活专家,降低推理开销
  • 层级 MoE(Unified/Hierarchical 两种配置)可调整任务专属化程度

2.3 M3DT — 大规模多任务 MoE Decision Transformer

基本信息

在 Decision Transformer 骨干上引入 MoE,专为任务数量规模化(Massive,>> 10 任务)设计:

  • 三阶段训练:通用预训练 → 任务感知微调 → 专家路由联合优化
  • 减少每个专家承担的任务负载,缓解大规模多任务的遗忘与干扰
  • 与 [[#2.4 HarmoDT]] 同属离线多任务 RL 范式,M3DT 重在规模化扩展

2.4 HarmoDT — 和谐多任务 Decision Transformer

基本信息

核心思路: 将多任务离线 RL 建模为双层优化(Bi-Level Optimization)——外层寻找各任务专属的"和谐参数子空间",内层用 Decision Transformer 优化策略。

min ⁡ Φ ∑ i = 1 N L i  ⁣ ( θ + Δ θ i ( Φ ) ) , s.t.    Δ θ i ( Φ ) = GradProj ( ∇ θ L i , Φ ) \min_{\Phi} \sum_{i=1}^{N} \mathcal{L}_i\!\left(\theta + \Delta\theta_i(\Phi)\right), \quad \text{s.t.} \; \Delta\theta_i(\Phi) = \text{GradProj}(\nabla_\theta \mathcal{L}_i, \Phi) Φmini=1NLi(θ+Δθi(Φ)),s.t.Δθi(Φ)=GradProj(θLi,Φ)

  • 使用梯度投影(基于 MAML 思路)在任务间找到"冲突最小"的参数更新方向
  • Task-Aware 扩展版引入任务 ID 条件化,增强任务区分能力

2.5 GOAL — 通用 CO 智能体学习器

基本信息

目标:单一 Transformer 主干 + 轻量任务适配器,解决 16 类标准 CO 问题

架构设计:

  • 新型 Mixed-Attention Block:统一处理节点、边、实例级特征(解决不同 CO 问题图结构的异构性)
  • 共享骨干 + 问题专属输入/输出适配器(参数量极小)
  • 支持零样本迁移和针对新问题的快速微调

支持的问题类型(16类)
TSP · CVRP · JSSP · FJSP · OP · PCTSP · SPCTSP · MIS · MVC · MCut · MClique · Graph Coloring · ATSP · CVRPTW · SDVRP · PDTSP


2.6 UniCO — 基于序列建模的统一 CO 求解

基本信息

受 LLM next-token prediction 启发,将所有 CO 问题建模为统一 MDP 轨迹序列

  • CO-prefix 设计:将静态问题特征聚合为前缀 token,显著压缩序列长度
  • 两阶段自监督:阶段一学状态表示,阶段二学动作生成,解决状态/动作 token 异构性
  • 无需任何问题特定的架构设计,真正的统一求解范式

[!note] 与 GOAL 对比
GOAL 依赖手工设计的任务适配器;UniCO 完全序列化,理论上可扩展到任意 MDP 可表达的 CO 问题。


2.7 SMT — Hard Tasks First 课程调度

基本信息

  • 会议:ICML 2024
  • 论文PMLR proceedings
  • 全称:Scheduled Multi-Task Training (SMT)

多任务 RL 中简单任务往往主导训练,导致困难任务欠拟合(简单性偏置问题)。SMT 提出:

  • 动态任务优先级:设计难度度量指标,动态评估各任务当前难度
  • 参数重置机制:定期重新初始化部分网络参数,缓解简单性偏置累积
  • 可作为即插即用模块与任意多任务策略结合

[!tip] 与本项目的关联
SMT 的"困难任务优先"思路与复杂度感知混合调度框架中的动态段切换逻辑高度相近,值得深入参考。


2.8 Curriculum RL for Complex Rewards

基本信息

针对复杂/稀疏奖励函数的两阶段课程方法:

  1. 阶段一:使用简化替代奖励(如稠密奖励代理)最大化探索覆盖
  2. 阶段二:切换到完整复杂奖励,利用阶段一获得的策略初始化加速收敛

有效解决奖励工程难度大、初始探索困难的问题。


三、应用方向一:调度优化

3.1 论文速览对比

论文 会议/期刊 问题 技术路线 代码
Wheatley CPAIOR 2024 JSSP(含不确定性) GNN + RL jolibrain/wheatley
DAN-FJSP IEEE TNNLS 2023 FJSP 双注意力 + RL arxiv
ReSched 2025 FJSP/JSSP/FFSP Transformer + 简化状态 arxiv 2603.07020
MARLSIO Frontiers 2025 大规模 FJSP MA-PPO + 结构信息 综述
RL-Scheduling 多智能体 FJSP MARL MZhouke/RL-Scheduling
End-to-end DRL FJSP FJSP 多动作 DRL Lei-Kun/End-to-end-DRL-for-FJSP

3.2 Wheatley — 不确定性 Job Shop 调度(重点推荐)

基本信息

  • 会议:CPAIOR 2024
  • 代码jolibrain/wheatley(持续维护,star 数持续增长)

核心特性:

  • GNN 对析取图(Disjunctive Graph)建模,RL 学习调度决策
  • 支持有界不确定处理时间的鲁棒调度训练
  • 可在随机生成问题上训练,直接泛化到固定 benchmark 实例(如 Taillard)

图建模方式:

precedence

precedence

disjunctive

disjunctive

Operation 1

Operation 2

Operation 3

Operation 4


3.3 DAN-FJSP — 双注意力网络

双注意力机制解耦两个决策:

  1. 操作选择注意力:从等待队列中选取下一个操作
  2. 机器分配注意力:为选中操作分配最优机器

端到端 RL(REINFORCE),无需人工启发式规则,单模型泛化多规模实例。


3.4 ReSched — 零样本跨问题泛化

在 FJSP 上训练的 Transformer 策略,无需微调直接泛化到:

  • Job Shop Scheduling Problem(JSSP)
  • Flexible Flow Shop Scheduling Problem(FFSP)

体现了调度领域多任务泛化的最新趋势:一个求解器解决多个调度变体。


四、应用方向二:机器人学习

4.1 Q-Transformer — 多任务机器人策略

基本信息

核心贡献:

  • 将 Q-Learning(离线 RL)与 Transformer 序列建模结合
  • 将连续动作空间离散化分词,用自回归方式逐维度生成动作
  • 可从混合数据集(人类演示 + 自主采集)中同时学习多任务策略
  • 在真实机器人上验证 700+ 条指令的多任务执行

意义
Q-Transformer 是机器人多任务 RL 领域将 LLM 序列建模范式引入连续控制的早期代表工作。


4.2 资源列表

资源 说明 链接
Awesome Robotics Manipulation 机器人操控论文全量列表 GitHub
Awesome Humanoid Robot Learning 人形机器人学习论文 GitHub
Awesome Loco-Manipulation 运动 + 操控跨域论文 GitHub

五、离线多任务 RL 专题

三重挑战
离线多任务 RL 需同时应对:① 分布外泛化(OOD)② 多任务数据异构性③ 任务标识符设计

5.1 方法对比

方法 骨干 多任务机制 规模 代码
HarmoDT (ICML 2024) Decision Transformer Bi-level 参数子空间 中等(~10任务) GitHub
M3DT (2025) DT + MoE 稀疏专家路由 大规模(百任务) arxiv
Task-Aware HarmoDT (2024) Decision Transformer 任务ID条件化 中等 arxiv
Text2Decision Agent Transformer 自然语言任务描述 中等 OpenReview
Continual DT Decision Transformer 持续学习防遗忘 中等 OpenReview

5.2 关键设计问题

任务标识符如何提供给策略?

方式一:One-hot task ID → 简单但任务间无关系编码
方式二:自然语言描述 → Text2Decision Agent 方案,泛化性强
方式三:历史轨迹推断 → PEARL 系列,适合元学习场景
方式四:Return conditioning → DT 系列,无需显式任务ID

六、工具与资源导航

6.1 Awesome 论文列表

列表 维护方 核心内容
awesome-ml4co 交大 Thinklab ML for CO 全量论文,含 2025 最新
awesome-fm4co ai4co Foundation Models for CO
awesome-decision-transformer OpenDILab DT 系列论文持续跟踪
awesome-multi-task-learning 清华 THUML MTL 通用论文 + 代码库
awesome-offline-rl hanjuku-kaso 离线 RL 算法索引

6.2 全局论文速查表

论文 会议 方向 代码可用性
RL4CO KDD 2025 CO 框架 ✅ 完整
MOORE ICLR 2024 多任务 RL / MoE ✅ 完整
MVMoE ICML 2024 多任务 VRP / MoE ✅ 完整
HarmoDT ICML 2024 离线多任务 RL ✅ 完整
GOAL ICLR 2025 通用 CO ✅ 完整
SMT (Hard Tasks First) ICML 2024 课程多任务 RL ⚠️ PMLR 无独立仓库
Q-Transformer CoRL 2023 机器人多任务 ⚠️ 项目页面,无完整代码
Wheatley CPAIOR 2024 JSSP 调度 ✅ 完整
DAN-FJSP IEEE TNNLS FJSP 调度 ⚠️ arxiv,部分代码
ReSched 2025 FJSP 跨变体 ⚠️ arxiv 预印本
UniCO 2025.05 通用 CO ⚠️ 最新,代码待发布
M3DT 2025.05 大规模离线多任务 ⚠️ 最新,代码待发布
Meta-World+ 2025 机器人 Benchmark ✅ 含于 metaworld-algorithms
MTBench RLC 2025 机器人 Benchmark ✅ 论文附代码

6.3 快速上手路径

组合优化/调度

机器人操控/运动

离线数据/无在线交互

我想研究多任务RL

主要应用场景?

从 RL4CO 入手

MetaWorld + MTRL 基线库

HarmoDT + awesome-offline-rl

读 GOAL/UniCO 了解统一化前沿

Wheatley/DAN-FJSP 调度专项

MTBench 扩展到大规模评测

Q-Transformer 离线机器人策略

M3DT 扩展到百任务规模

结合 MoE: MOORE / MVMoE 解决负迁移

加入课程调度: SMT / Curriculum RL


七、趋势总结与展望

2024–2025 多任务 RL 五大趋势

① 统一化(Unification)
GOAL、UniCO 等尝试单模型解决所有同类问题,打破"一问题一模型"范式。关键推动力:Transformer 的强大表达能力 + 大规模数据集联合训练。

② MoE 成为标配
从 MOORE、MVMoE(CO 领域)到 M3DT(离线 RL),MoE 已成为解决负迁移的主流方案。稀疏激活兼顾参数共享与任务专属化,规模化优势明显。

③ 序列建模范式渗透 RL
Decision Transformer 系列将 CO/控制 统一为序列预测,避免了传统 RL 中的价值函数设计复杂性。UniCO 将这一思路推向极致——所有 CO 问题 = MDP 轨迹 token 序列。

④ 泛化性从目标变为基线要求
ReSched 的零样本跨调度变体泛化、GOAL 的跨 CO 问题迁移,说明"训练一个问题、测试另一个"已成为新的评估标准,而非额外贡献。

⑤ 大规模基础设施驱动
GPU 加速仿真(IsaacGym/MTBench)+ 分布式训练框架,推动从"十任务"到"百任务"量级的实验成为可行,催生了 M3DT 等针对规模化的新方法。

开放问题

  • 如何在任务数量动态增长(持续学习场景)下保持多任务性能?
  • MoE 路由的可解释性:路由决策是否真正对应语义上有意义的任务分组?
  • 多任务 RL 与基础模型(Foundation Model) 的结合:能否用预训练的世界模型初始化多任务策略?
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐