【深度强化学习精通】第16讲 | Transformer遇见RL：序列决策的新范式

所谓伊人，在水一方333

392人浏览 · 2026-03-17 08:04:56

所谓伊人，在水一方333 · 2026-03-17 08:04:56 发布

环境声明

Python 版本：Python 3.10+
核心依赖：PyTorch 2.0+、Gymnasium、Transformers、NumPy
开发工具：VS Code / PyCharm
硬件建议：NVIDIA GPU（推荐，用于加速Transformer训练）

1. 引言：当Transformer遇见强化学习

自从2017年Transformer架构在机器翻译领域横空出世以来，这一基于自注意力机制的神经网络结构已经彻底改变了自然语言处理、计算机视觉、语音识别等多个领域。然而，Transformer的影响力远不止于此。近年来，研究者们开始探索将Transformer应用于强化学习领域，开创了一系列令人瞩目的新范式。

传统的强化学习方法，无论是基于价值函数的Q学习系列，还是基于策略梯度的策略优化系列，都遵循着马尔可夫决策过程的形式化框架。这些方法在处理高维状态空间和复杂动作空间时面临着诸多挑战：价值函数估计的不稳定性、信用分配的长程依赖问题、以及多任务学习的困难等。

Transformer的引入为这些问题提供了全新的解决思路。通过将强化学习问题重新建模为序列建模问题，研究者们发现可以利用Transformer强大的长程依赖建模能力和可扩展性，实现更加稳定和高效的强化学习。Decision Transformer的提出标志着这一范式的正式确立，它将强化学习从回报最大化问题转化为条件序列生成问题，完全摒弃了传统强化学习中的价值函数估计和策略优化。

进入2024-2025年，Transformer与强化学习的结合呈现出爆发式的发展态势。DeepMind的Gato模型展示了单一Transformer架构可以处理数百种不同的任务，从游戏到机器人控制再到自然语言处理。Multi-Game Decision Transformer进一步证明了跨任务迁移的可行性。在多智能体领域，Transformer被用于建模智能体之间的复杂交互，推动了多智能体强化学习的新突破。

本讲将系统性地介绍Transformer在强化学习中的应用。我们将深入剖析Decision Transformer的核心原理，探讨Gato通用智能体的设计理念，分析Multi-Game Decision Transformer的跨任务迁移能力，研究自回归模型与强化学习的深度融合，以及Transformer在多智能体强化学习中的创新应用。最后，我们将通过完整的代码实现和实战实验，帮助读者掌握这一前沿技术。

2. Decision Transformer详解

2.1 从回报最大化到序列建模

传统强化学习的核心目标是最大化累积回报，这一目标通过价值函数估计和策略优化来实现。然而，这种范式存在着固有的不稳定性：价值函数的估计误差会传播和放大，策略梯度的方差可能导致训练发散，信用分配问题使得长程依赖难以学习。

Decision Transformer提出了一种革命性的思路：将强化学习问题转化为标准的序列建模问题。在这种新范式下，我们不再关心如何估计价值函数或优化策略，而是直接学习一个生成模型，该模型能够根据期望的回报生成相应的动作序列。

这种转化的核心洞察是：强化学习中的轨迹（trajectory）本质上就是一个序列。一个完整的轨迹包含了从初始状态到终止状态的完整交互历史：状态、动作、奖励。如果我们能够建模这一序列的联合分布，就可以通过条件生成的方式控制智能体的行为。

2.2 轨迹表示与输入格式

Decision Transformer将轨迹表示为一个交错的序列，包含三种类型的元素：回报-to-go（return-to-go）、状态（state）和动作（action）。对于一条轨迹，其序列表示为：

[R_1, s_1, a_1, R_2, s_2, a_2, ..., R_T, s_T, a_T]

其中，R_t表示从时间步t开始的累积回报，即return-to-go。这种表示方式的一个关键特点是：回报-to-go作为条件信息，指导模型生成能够达到该回报水平的动作。

在实际实现中，Decision Transformer使用固定长度的上下文窗口（通常为10到20个时间步）。对于每个训练样本，我们从数据集中随机采样一条轨迹，然后从中截取连续的K个时间步作为输入序列。这种设计使得模型可以处理不同长度的轨迹，同时保持计算效率。

三种模态（回报、状态、动作）分别通过独立的线性层嵌入到相同的维度空间。此外，Decision Transformer还使用了可学习的位置编码来区分不同时间步和不同模态的信息。

2.3 因果Transformer架构

Decision Transformer采用标准的GPT架构，即仅解码器的Transformer（decoder-only Transformer）。这种架构使用因果掩码（causal masking）确保模型在预测当前元素时只能看到之前的信息，而不能看到未来的信息。

具体来说，对于输入序列中的第i个元素，模型只能使用第1到第i-1个元素的信息来预测它。这种因果约束对于强化学习至关重要，因为它保证了模型不会使用未来的信息来做当前决策，符合强化学习的时序逻辑。

Transformer层的核心是自注意力机制。对于序列中的每个位置，自注意力机制计算该位置与序列中所有先前位置的注意力权重，然后基于这些权重聚合信息。这种机制使得模型可以捕捉序列中的长程依赖关系，对于信用分配问题尤为重要。

2.4 训练目标与推理过程

Decision Transformer的训练采用标准的监督学习目标。给定一个轨迹片段，模型的任务是预测每个时间步的动作。具体来说，对于输入序列中的每个状态-回报对，模型输出一个预测动作，损失函数为预测动作与真实动作之间的均方误差（对于连续动作空间）或交叉熵（对于离散动作空间）。

L_DT = E[(pi_DT(R_{1:K}, s_{1:K}, a_{1:K-1}) - a_K)^2]

在推理阶段，用户首先需要指定一个目标回报（target return）。这个回报作为条件信息输入模型，模型根据历史信息生成动作序列。在每个时间步，模型输出一个动作，环境执行该动作并返回新的状态和奖励，我们更新return-to-go并继续生成下一个动作。

这种条件生成机制是Decision Transformer的一个独特优势。用户可以通过调整目标回报来控制策略的行为：较高的目标回报会引导模型生成更激进、更高风险的动作序列，而较低的目标回报则会生成更保守的行为。

2.5 Decision Transformer的理论分析

从理论角度看，Decision Transformer实际上是在学习行为策略的条件分布。给定一个目标回报，模型学习的是数据集中能够达到该回报的动作分布。这与传统强化学习中的策略优化有着本质的不同：Decision Transformer不进行任何显式的策略改进，而是完全依赖于数据集中的经验。

这种设计带来了一个重要的理论性质：Decision Transformer的性能上限是数据集中最优轨迹的回报。如果数据集中没有高回报的轨迹，模型无法生成高回报的行为。这与传统离线强化学习算法（如CQL、IQL）形成对比，后者理论上可以通过价值函数估计来发现数据集中未出现但价值较高的动作。

然而，Decision Transformer的优势在于其稳定性和可扩展性。监督学习的稳定性使得训练过程更加可靠，而Transformer架构的可扩展性使得模型可以轻松地扩展到更大的规模，利用更多的数据。

3. Gato通用智能体

3.1 Gato的设计愿景

2022年，DeepMind发布了Gato（Generalist Agent）模型，展示了单一Transformer架构处理多种任务的惊人能力。Gato能够执行超过600种不同的任务，涵盖了从游戏（Atari、DMLab）到机器人控制（RGB堆叠、关节力矩控制）再到自然语言处理（对话、文本摘要）的广泛领域。

Gato的核心理念是：一个通用的序列建模架构可以处理多种不同类型的任务，只要这些任务能够被统一地表示为序列生成问题。这一理念与Decision Transformer一脉相承，但Gato将其推向了更广阔的领域。

3.2 统一任务表示

Gato的关键创新在于统一了不同任务的表示方式。无论是游戏画面、机器人传感器读数还是文本token，Gato都将它们转化为统一的token序列。具体来说：

对于图像输入，Gato使用预训练的图像编码器（如VQ-VAE）将图像离散化为token序列。对于连续控制任务中的向量和力矩，Gato将它们离散化为固定数量的bins。对于文本，Gato使用标准的文本tokenization。

所有类型的token都被映射到一个共享的嵌入空间，然后输入到Transformer模型中。这种统一表示使得Gato可以在不同类型的任务之间共享知识，实现跨模态的迁移学习。

3.3 多任务训练策略

Gato采用多任务训练策略，从所有任务的混合数据集中采样进行训练。在每个训练步骤，从某个任务中采样一个批次的数据，然后更新模型参数。这种训练方式使得模型能够学习到跨任务的通用表示。

为了区分不同任务，Gato在输入序列的开头添加一个任务标识符（task ID）。这个标识符告诉模型当前处理的是哪种任务，使得模型可以根据任务类型调整其行为。

Gato的训练数据集包含了大量的专家演示和次优演示。这种多样化的数据来源使得模型不仅能够学习专家行为，还能够适应不同质量的数据。

3.4 Gato的架构特点

Gato采用标准的Transformer解码器架构，包含大约12亿参数。模型的输入是token序列，输出是下一个token的预测分布。对于控制任务，输出的是离散化动作空间的概率分布；对于文本任务，输出的是词汇表上的概率分布。

Gato使用因果掩码确保模型只能看到当前位置之前的信息。此外，Gato还使用了相对位置编码来更好地处理长序列。

在推理阶段，Gato使用自回归生成的方式逐个预测token。对于控制任务，模型根据当前状态和历史信息预测下一个动作token，然后将预测的token重新输入模型，继续预测后续动作。

3.5 Gato的意义与局限

Gato的发布在人工智能领域引起了广泛关注。它展示了单一模型处理多种任务的潜力，为通用人工智能的研究提供了新的思路。Gato的成功表明，通过适当的任务表示和足够的数据，Transformer架构可以实现令人惊讶的通用性。

然而，Gato也存在一些局限性。首先，Gato的性能在各个任务上并不总是达到专家水平，在某些复杂任务上甚至不如专门训练的模型。其次，Gato的训练需要大量的计算资源，12亿参数的模型训练成本高昂。第三，Gato缺乏在线学习的能力，无法通过与环境的交互来持续改进。

尽管如此，Gato代表了Transformer与强化学习结合的重要里程碑，为后续研究指明了方向。

4. Multi-Game Decision Transformer与跨任务迁移

4.1 跨任务学习的动机

传统的强化学习方法通常为每个任务单独训练一个智能体。这种做法在任务数量增加时面临着严重的可扩展性问题：每个任务都需要独立的训练过程、独立的模型参数和独立的存储空间。更重要的是，不同任务之间可能存在着共享的结构和知识，独立训练无法利用这些共性。

Multi-Game Decision Transformer（MGDT）旨在解决这一问题。MGDT扩展了Decision Transformer的框架，使其能够同时学习多个相关任务，并在这些任务之间实现知识迁移。

4.2 MGDT的架构设计

MGDT的核心思想是在Decision Transformer的基础上添加任务特定的条件信息。具体来说，MGDT在输入序列中添加了任务嵌入（task embedding），用于标识当前轨迹来自哪个任务。

任务嵌入可以是简单的one-hot编码，也可以是学习得到的连续向量。在训练过程中，模型学习到不同任务的嵌入表示，这些表示捕捉了任务之间的相似性和差异性。

MGDT的Transformer架构与标准Decision Transformer相同，但输入维度增加了任务嵌入的维度。模型通过自注意力机制自动学习任务之间的关系，实现跨任务的知识共享。

4.3 训练数据与采样策略

MGDT的训练数据集包含来自多个任务的轨迹。与单任务Decision Transformer不同，MGDT需要从不同任务中平衡采样，确保每个任务都有足够的训练样本。

实践中发现，简单的均匀采样往往效果不佳，因为不同任务的难度和数据量可能差异很大。更优的策略是根据任务的性能或数据量进行加权采样，或者使用课程学习的方式逐渐增加任务的难度。

MGDT的训练目标与标准Decision Transformer相同，即预测给定回报条件下的动作。任务嵌入作为输入的一部分，指导模型生成适合当前任务的动作。

4.4 跨任务迁移的效果

实验表明，MGDT在多个Atari游戏上同时训练时，其性能显著优于在每个游戏上单独训练的Decision Transformer。这种性能提升来自于跨任务的知识迁移：模型在一个游戏上学到的技能（如目标追踪、避障）可以迁移到其他游戏上。

更有趣的是，MGDT展现出了零样本迁移的能力。当在训练时未见过的游戏上测试时，MGDT仍然能够取得不错的性能，尽管不如专门训练的模型。这表明MGDT学习到了一些通用的游戏技能，而不仅仅是记忆了特定游戏的策略。

4.5 任务关系的学习

通过分析学习到的任务嵌入，我们可以发现MGDT自动学习到了任务之间的关系。相似的游戏（如不同版本的打砖块游戏）在嵌入空间中距离较近，而差异较大的游戏（如射击游戏和迷宫游戏）距离较远。

这种任务关系的自动学习是MGDT的一个重要特性。它意味着模型不需要显式的任务描述或任务关系标注，仅通过多任务训练就能发现任务之间的结构。

5. 自回归与强化学习的结合

5.1 自回归模型的优势

自回归模型（Autoregressive Model）是一类通过预测序列中下一个元素来建模序列联合分布的模型。GPT系列语言模型就是自回归模型的典型代表。自回归模型具有以下优势：

第一，训练稳定性。自回归模型使用最大似然估计进行训练，这是一个凸优化问题，训练过程稳定可靠。相比之下，传统强化学习中的策略梯度方法面临着高方差和训练不稳定的问题。

第二，可扩展性。自回归模型可以轻松地扩展到更大的模型规模和更多的训练数据。近年来的研究表明，模型规模的增加往往带来性能的显著提升。

第三，灵活性。自回归模型可以生成任意长度的序列，并且可以通过条件控制来引导生成过程。

5.2 轨迹Transformer

Trajectory Transformer（TT）是另一个将自回归模型应用于强化学习的代表性工作。与Decision Transformer不同，Trajectory Transformer不仅预测动作，还预测状态和奖励。

具体来说，Trajectory Transformer将轨迹离散化为token序列，然后使用Transformer建模这一序列的联合分布。在推理阶段，模型可以自回归地生成完整的轨迹，包括状态、动作和奖励序列。

这种设计的优势在于可以进行基于模型的规划。给定一个初始状态，Trajectory Transformer可以生成多条可能的未来轨迹，然后选择回报最高的轨迹执行。这种规划能力在需要长期推理的任务中尤为重要。

5.3 自回归策略的价值估计

自回归模型不仅可以用于动作生成，还可以用于价值估计。通过生成多条可能的未来轨迹并计算它们的回报，我们可以估计当前状态-动作对的价值。

这种方法被称为自回归价值估计（Autoregressive Value Estimation）。与传统的时间差分方法相比，自回归价值估计具有以下特点：

第一，无需引导（bootstrapping）。自回归价值估计直接生成完整轨迹来计算回报，不需要使用价值函数的估计值作为目标，避免了引导带来的偏差。

第二，可以建模多模态分布。传统价值函数输出一个标量值，而自回归模型可以生成多条可能的轨迹，捕捉未来回报的不确定性。

第三，计算开销较大。生成多条轨迹需要大量的计算资源，这在实时决策场景中可能是一个问题。

5.4 结合在线学习

虽然Decision Transformer和Trajectory Transformer主要用于离线强化学习，但研究者们也在探索如何将它们与在线学习结合。

一种思路是在线收集新的轨迹数据，然后使用这些数据继续训练自回归模型。由于自回归模型的训练是稳定的，这种在线更新不会导致传统强化学习中的训练发散问题。

另一种思路是使用自回归模型作为策略初始化，然后使用传统强化学习方法进行微调。自回归模型学到的良好初始化可以加速在线学习的收敛。

6. Transformer在多智能体强化学习中的应用

6.1 多智能体强化学习的挑战

多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）是强化学习的一个重要分支，研究多个智能体在同一环境中交互的问题。MARL面临着比单智能体场景更复杂的挑战：

第一，非平稳性。在多智能体环境中，每个智能体的策略都在不断变化，导致环境对其他智能体来说是非平稳的。这使得学习变得困难，因为智能体需要不断适应其他智能体的变化。

第二，信用分配。在多智能体协作任务中，团队奖励需要分配给各个智能体。确定每个智能体对团队成功的贡献是一个困难的信用分配问题。

第三，通信与协调。智能体之间需要进行有效的通信和协调才能实现协作。设计通信协议和学习协调策略是MARL的核心问题。

6.2 Transformer作为智能体架构

Transformer的引入为MARL带来了新的解决思路。研究者们发现，Transformer架构特别适合处理多智能体场景中的复杂交互。

首先，自注意力机制可以自然地建模智能体之间的关系。通过将每个智能体的观测作为序列中的一个元素，自注意力机制可以计算智能体之间的注意力权重，捕捉它们之间的相互影响。

其次，Transformer可以处理变长的智能体集合。在多智能体环境中，智能体的数量可能动态变化，传统架构难以处理这种变长输入，而Transformer通过自注意力机制可以自然地处理任意数量的智能体。

第三，Transformer可以建模智能体之间的通信。通过将通信消息作为序列的一部分，Transformer可以学习智能体之间的高效通信协议。

6.3 Multi-Agent Transformer

Multi-Agent Transformer（MAT）是一种将Transformer应用于多智能体强化学习的代表性方法。MAT使用Transformer编码器处理所有智能体的观测，然后为每个智能体生成动作。

具体来说，MAT首先将每个智能体的观测嵌入为向量，然后将这些向量输入Transformer编码器。编码器通过自注意力机制计算智能体之间的关系，输出每个智能体的表示。最后，每个智能体的表示被输入到对应的策略网络中，生成动作。

MAT的优势在于：

第一，参数共享。所有智能体共享同一个Transformer编码器，大大减少了参数数量，提高了样本效率。

第二，关系建模。自注意力机制自动学习智能体之间的关系，无需显式地定义通信拓扑。

第三，可扩展性。MAT可以轻松扩展到更多的智能体，而传统方法往往需要重新设计架构。

6.4 Transformer与值分解

值分解（Value Decomposition）是MARL中的一类重要方法，它将团队价值函数分解为各个智能体的局部价值函数之和。Transformer可以与值分解方法结合，提升性能。

具体来说，我们可以使用Transformer来建模值分解网络。Transformer编码器处理所有智能体的观测，输出每个智能体的局部价值函数。由于自注意力机制可以捕捉智能体之间的关系，这种设计可以更准确地分解团队价值。

QMIX是一种流行的值分解方法，它将单调性约束引入值分解。我们可以将QMIX的混合网络替换为Transformer架构，利用自注意力机制学习更复杂的混合函数。

6.5 通信学习

在多智能体系统中，智能体之间的通信对于协作至关重要。Transformer为通信学习提供了自然的框架。

一种方法是使用Transformer作为通信协议学习器。每个智能体的消息作为序列中的一个token，Transformer学习如何生成和解释这些消息。自注意力机制可以决定哪些消息是重要的，以及如何组合来自多个智能体的信息。

另一种方法是使用Transformer处理接收到的消息。智能体接收到来自其他智能体的消息后，使用Transformer编码器处理这些消息，提取有用的信息用于决策。

研究表明，基于Transformer的通信学习方法可以学到高效的通信协议，在某些任务上甚至超过人工设计的协议。

7. Decision Transformer完整实现

下面是Decision Transformer的完整PyTorch实现，包含模型定义、训练循环和推理逻辑。

import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np
from typing import Dict, List, Tuple
import math


class TrajectoryDataset:
    """轨迹数据集，用于Decision Transformer训练"""
    
    def __init__(self, trajectories: List[Dict], context_len: int = 20):
        """
        参数:
            trajectories: 轨迹列表，每条轨迹包含observations, actions, rewards
            context_len: 上下文窗口长度
        """
        self.trajectories = trajectories
        self.context_len = context_len
        
        # 计算所有轨迹的return-to-go
        for traj in self.trajectories:
            rewards = traj['rewards']
            returns = np.zeros_like(rewards)
            returns[-1] = rewards[-1]
            for t in range(len(rewards) - 2, -1, -1):
                returns[t] = rewards[t] + returns[t + 1]
            traj['returns'] = returns
        
        # 计算数据集中的统计信息用于归一化
        all_returns = np.concatenate([traj['returns'] for traj in self.trajectories])
        self.return_mean = np.mean(all_returns)
        self.return_std = np.std(all_returns) + 1e-6
        
        all_states = np.concatenate([traj['observations'] for traj in self.trajectories])
        self.state_mean = np.mean(all_states, axis=0)
        self.state_std = np.std(all_states, axis=0) + 1e-6
    
    def __len__(self):
        return sum(len(traj['observations']) for traj in self.trajectories)
    
    def __getitem__(self, idx):
        # 随机选择一条轨迹
        traj = np.random.choice(self.trajectories)
        traj_len = len(traj['observations'])
        
        # 随机选择起始位置
        if traj_len <= self.context_len:
            start_idx = 0
            end_idx = traj_len
        else:
            start_idx = np.random.randint(0, traj_len - self.context_len + 1)
            end_idx = start_idx + self.context_len
        
        # 提取序列
        states = (traj['observations'][start_idx:end_idx] - self.state_mean) / self.state_std
        actions = traj['actions'][start_idx:end_idx]
        returns = (traj['returns'][start_idx:end_idx] - self.return_mean) / self.return_std
        rewards = traj['rewards'][start_idx:end_idx]
        
        # 填充到固定长度
        mask = np.ones(self.context_len)
        actual_len = end_idx - start_idx
        if actual_len < self.context_len:
            pad_len = self.context_len - actual_len
            states = np.concatenate([np.zeros((pad_len, states.shape[1])), states], axis=0)
            actions = np.concatenate([np.zeros((pad_len, actions.shape[1])), actions], axis=0)
            returns = np.concatenate([np.zeros(pad_len), returns], axis=0)
            rewards = np.concatenate([np.zeros(pad_len), rewards], axis=0)
            mask[:pad_len] = 0
        
        return {
            'states': torch.FloatTensor(states),
            'actions': torch.FloatTensor(actions),
            'returns': torch.FloatTensor(returns),
            'rewards': torch.FloatTensor(rewards),
            'mask': torch.FloatTensor(mask),
            'timesteps': torch.LongTensor(np.arange(start_idx, end_idx))
        }


class DecisionTransformer(nn.Module):
    """Decision Transformer模型"""
    
    def __init__(
        self,
        state_dim: int,
        action_dim: int,
        hidden_dim: int = 128,
        num_layers: int = 3,
        num_heads: int = 4,
        context_len: int = 20,
        dropout: float = 0.1,
        max_timestep: int = 4096
    ):
        """
        参数:
            state_dim: 状态维度
            action_dim: 动作维度
            hidden_dim: 隐藏层维度
            num_layers: Transformer层数
            num_heads: 注意力头数
            context_len: 上下文窗口长度
            dropout: Dropout概率
            max_timestep: 最大时间步数（用于位置编码）
        """
        super().__init__()
        
        self.state_dim = state_dim
        self.action_dim = action_dim
        self.hidden_dim = hidden_dim
        self.context_len = context_len
        
        # 嵌入层
        self.return_embed = nn.Linear(1, hidden_dim)
        self.state_embed = nn.Linear(state_dim, hidden_dim)
        self.action_embed = nn.Linear(action_dim, hidden_dim)
        
        # 时间步嵌入
        self.timestep_embed = nn.Embedding(max_timestep, hidden_dim)
        
        # 位置编码（可学习）
        self.pos_embed = nn.Parameter(torch.zeros(1, 3 * context_len, hidden_dim))
        
        # Dropout
        self.embed_dropout = nn.Dropout(dropout)
        
        # Transformer编码器
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=hidden_dim,
            nhead=num_heads,
            dim_feedforward=4 * hidden_dim,
            dropout=dropout,
            activation='gelu',
            batch_first=True
        )
        self.transformer = nn.TransformerEncoder(encoder_layer, num_layers=num_layers)
        
        # 输出层
        self.action_predictor = nn.Sequential(
            nn.Linear(hidden_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, action_dim),
            nn.Tanh()
        )
        
        self._init_weights()
    
    def _init_weights(self):
        """初始化权重"""
        nn.init.normal_(self.pos_embed, std=0.02)
        nn.init.normal_(self.timestep_embed.weight, std=0.02)
    
    def forward(
        self,
        states: torch.Tensor,
        actions: torch.Tensor,
        returns: torch.Tensor,
        timesteps: torch.Tensor,
        mask: torch.Tensor = None
    ) -> torch.Tensor:
        """
        前向传播
        
        参数:
            states: [batch_size, seq_len, state_dim]
            actions: [batch_size, seq_len, action_dim]
            returns: [batch_size, seq_len]
            timesteps: [batch_size, seq_len]
            mask: [batch_size, seq_len]
        
        返回:
            actions: [batch_size, seq_len, action_dim] 预测的动作
        """
        batch_size, seq_len = states.shape[0], states.shape[1]
        
        # 嵌入
        return_embeddings = self.return_embed(returns.unsqueeze(-1))
        state_embeddings = self.state_embed(states)
        action_embeddings = self.action_embed(actions)
        time_embeddings = self.timestep_embed(timesteps)
        
        # 添加时间嵌入
        return_embeddings = return_embeddings + time_embeddings
        state_embeddings = state_embeddings + time_embeddings
        action_embeddings = action_embeddings + time_embeddings
        
        # 交错排列: [R_1, s_1, a_1, R_2, s_2, a_2, ...]
        stacked_inputs = torch.stack(
            [return_embeddings, state_embeddings, action_embeddings], dim=2
        ).reshape(batch_size, 3 * seq_len, self.hidden_dim)
        
        # 添加位置编码
        stacked_inputs = stacked_inputs + self.pos_embed[:, :3 * seq_len, :]
        stacked_inputs = self.embed_dropout(stacked_inputs)
        
        # 创建因果掩码
        # 确保每个token只能看到它之前的token
        causal_mask = torch.triu(
            torch.ones(3 * seq_len, 3 * seq_len, device=states.device),
            diagonal=1
        ).bool()
        
        # Transformer前向传播
        transformer_outputs = self.transformer(
            stacked_inputs,
            mask=causal_mask
        )
        
        # 提取状态对应的输出（用于预测动作）
        # 状态位于索引 1, 4, 7, ... (3*t + 1)
        state_indices = torch.arange(1, 3 * seq_len, 3, device=states.device)
        state_outputs = transformer_outputs[:, state_indices, :]
        
        # 预测动作
        action_preds = self.action_predictor(state_outputs)
        
        return action_preds
    
    def get_action(
        self,
        states: torch.Tensor,
        actions: torch.Tensor,
        returns: torch.Tensor,
        timesteps: torch.Tensor
    ) -> torch.Tensor:
        """
        获取单个动作（用于推理）
        
        参数:
            states: [1, seq_len, state_dim]
            actions: [1, seq_len, action_dim]
            returns: [1, seq_len]
            timesteps: [1, seq_len]
        
        返回:
            action: [action_dim] 预测的动作
        """
        with torch.no_grad():
            action_preds = self.forward(states, actions, returns, timesteps)
            return action_preds[0, -1]  # 返回最后一个时间步的动作


class DecisionTransformerTrainer:
    """Decision Transformer训练器"""
    
    def __init__(
        self,
        model: DecisionTransformer,
        dataset: TrajectoryDataset,
        lr: float = 1e-4,
        batch_size: int = 64,
        device: str = 'cuda' if torch.cuda.is_available() else 'cpu'
    ):
        self.model = model.to(device)
        self.dataset = dataset
        self.batch_size = batch_size
        self.device = device
        
        self.optimizer = torch.optim.AdamW(model.parameters(), lr=lr, weight_decay=1e-4)
        self.scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(
            self.optimizer, T_max=100000
        )
    
    def train_step(self) -> Dict[str, float]:
        """执行一次训练步骤"""
        self.model.train()
        
        # 采样批次数据
        batch = [self.dataset[i] for i in range(self.batch_size)]
        
        states = torch.stack([b['states'] for b in batch]).to(self.device)
        actions = torch.stack([b['actions'] for b in batch]).to(self.device)
        returns = torch.stack([b['returns'] for b in batch]).to(self.device)
        mask = torch.stack([b['mask'] for b in batch]).to(self.device)
        timesteps = torch.stack([b['timesteps'] for b in batch]).to(self.device)
        
        # 前向传播
        action_preds = self.model(states, actions, returns, timesteps, mask)
        
        # 计算损失（只计算有效时间步）
        loss = F.mse_loss(action_preds, actions, reduction='none')
        loss = (loss * mask.unsqueeze(-1)).mean()
        
        # 反向传播
        self.optimizer.zero_grad()
        loss.backward()
        torch.nn.utils.clip_grad_norm_(self.model.parameters(), 0.25)
        self.optimizer.step()
        self.scheduler.step()
        
        return {
            'loss': loss.item(),
            'lr': self.scheduler.get_last_lr()[0]
        }
    
    def train(self, num_steps: int, log_interval: int = 1000):
        """训练模型"""
        for step in range(num_steps):
            metrics = self.train_step()
            
            if (step + 1) % log_interval == 0:
                print(f"Step {step + 1}/{num_steps}: Loss = {metrics['loss']:.4f}, "
                      f"LR = {metrics['lr']:.6f}")


class DecisionTransformerAgent:
    """Decision Transformer智能体（用于推理）"""
    
    def __init__(
        self,
        model: DecisionTransformer,
        dataset: TrajectoryDataset,
        target_return: float,
        device: str = 'cuda' if torch.cuda.is_available() else 'cpu'
    ):
        self.model = model.to(device)
        self.model.eval()
        self.dataset = dataset
        self.target_return = (target_return - dataset.return_mean) / dataset.return_std
        self.device = device
        
        self.context_len = model.context_len
        self.state_dim = model.state_dim
        self.action_dim = model.action_dim
        
        # 重置历史
        self.reset()
    
    def reset(self):
        """重置历史记录"""
        self.states = []
        self.actions = []
        self.returns = []
        self.timesteps = []
        self.current_return = self.target_return
    
    def select_action(self, state: np.ndarray) -> np.ndarray:
        """选择动作"""
        # 归一化状态
        state = (state - self.dataset.state_mean) / self.dataset.state_std
        
        # 更新历史
        self.states.append(state)
        self.returns.append(self.current_return)
        self.timesteps.append(len(self.states) - 1)
        
        # 保持历史长度不超过上下文窗口
        if len(self.states) > self.context_len:
            self.states = self.states[-self.context_len:]
            self.actions = self.actions[-(self.context_len - 1):]
            self.returns = self.returns[-self.context_len:]
            self.timesteps = self.timesteps[-self.context_len:]
        
        # 准备输入
        states = np.array(self.states)
        actions = np.array(self.actions) if self.actions else np.zeros((0, self.action_dim))
        returns = np.array(self.returns)
        timesteps = np.array(self.timesteps)
        
        # 填充到固定长度
        if len(states) < self.context_len:
            pad_len = self.context_len - len(states)
            states = np.concatenate([np.zeros((pad_len, self.state_dim)), states], axis=0)
            actions = np.concatenate([np.zeros((pad_len, self.action_dim)), actions], axis=0)
            returns = np.concatenate([np.zeros(pad_len), returns], axis=0)
            timesteps = np.concatenate([np.zeros(pad_len, dtype=int), timesteps], axis=0)
        
        # 转换为张量
        states_tensor = torch.FloatTensor(states).unsqueeze(0).to(self.device)
        actions_tensor = torch.FloatTensor(actions).unsqueeze(0).to(self.device)
        returns_tensor = torch.FloatTensor(returns).unsqueeze(0).to(self.device)
        timesteps_tensor = torch.LongTensor(timesteps).unsqueeze(0).to(self.device)
        
        # 获取动作
        with torch.no_grad():
            action = self.model.get_action(
                states_tensor, actions_tensor, returns_tensor, timesteps_tensor
            )
        
        action = action.cpu().numpy()
        self.actions.append(action)
        
        return action
    
    def update_return(self, reward: float):
        """更新return-to-go"""
        normalized_reward = reward / self.dataset.return_std
        self.current_return -= normalized_reward


# 辅助函数：生成示例轨迹数据
def generate_dummy_trajectories(num_trajectories: int = 100, 
                                 traj_len: int = 100,
                                 state_dim: int = 11,
                                 action_dim: int = 3) -> List[Dict]:
    """生成示例轨迹数据（用于测试）"""
    trajectories = []
    for _ in range(num_trajectories):
        observations = np.random.randn(traj_len, state_dim)
        actions = np.random.uniform(-1, 1, (traj_len, action_dim))
        rewards = np.random.randn(traj_len) * 10
        
        trajectories.append({
            'observations': observations,
            'actions': actions,
            'rewards': rewards
        })
    
    return trajectories


# 示例用法
if __name__ == "__main__":
    # 生成示例数据
    print("生成示例轨迹数据...")
    trajectories = generate_dummy_trajectories(num_trajectories=50)
    
    # 创建数据集
    dataset = TrajectoryDataset(trajectories, context_len=20)
    print(f"数据集大小: {len(dataset)}")
    
    # 创建模型
    state_dim = 11
    action_dim = 3
    model = DecisionTransformer(
        state_dim=state_dim,
        action_dim=action_dim,
        hidden_dim=128,
        num_layers=3,
        num_heads=4,
        context_len=20
    )
    
    # 创建训练器
    trainer = DecisionTransformerTrainer(
        model=model,
        dataset=dataset,
        lr=1e-4,
        batch_size=32
    )
    
    # 训练
    print("开始训练...")
    trainer.train(num_steps=5000, log_interval=500)
    
    # 创建智能体
    agent = DecisionTransformerAgent(
        model=model,
        dataset=dataset,
        target_return=1000.0
    )
    
    # 测试推理
    print("测试推理...")
    state = np.random.randn(state_dim)
    action = agent.select_action(state)
    print(f"预测动作: {action}")
    
    print("训练完成！")

8. 多任务学习实验

下面是使用Decision Transformer进行多任务学习的完整实验代码。

import gymnasium as gym
import numpy as np
import torch
from typing import List, Dict, Tuple
from dataclasses import dataclass
import random


@dataclass
class TaskConfig:
    """任务配置"""
    name: str
    env_id: str
    state_dim: int
    action_dim: int
    target_return: float


class MultiTaskTrajectoryDataset:
    """多任务轨迹数据集"""
    
    def __init__(self, task_trajectories: Dict[str, List[Dict]], context_len: int = 20):
        """
        参数:
            task_trajectories: 字典，键为任务名，值为该任务的轨迹列表
            context_len: 上下文窗口长度
        """
        self.task_trajectories = task_trajectories
        self.context_len = context_len
        self.tasks = list(task_trajectories.keys())
        
        # 为每个任务计算统计信息
        self.task_stats = {}
        for task_name, trajectories in task_trajectories.items():
            # 计算return-to-go
            for traj in trajectories:
                rewards = traj['rewards']
                returns = np.zeros_like(rewards)
                returns[-1] = rewards[-1]
                for t in range(len(rewards) - 2, -1, -1):
                    returns[t] = rewards[t] + returns[t + 1]
                traj['returns'] = returns
            
            # 计算统计信息
            all_returns = np.concatenate([traj['returns'] for traj in trajectories])
            all_states = np.concatenate([traj['observations'] for traj in trajectories])
            
            self.task_stats[task_name] = {
                'return_mean': np.mean(all_returns),
                'return_std': np.std(all_returns) + 1e-6,
                'state_mean': np.mean(all_states, axis=0),
                'state_std': np.std(all_states, axis=0) + 1e-6
            }
        
        # 计算全局统计信息（用于跨任务归一化）
        all_returns_global = np.concatenate([
            np.concatenate([traj['returns'] for traj in trajectories])
            for trajectories in task_trajectories.values()
        ])
        all_states_global = np.concatenate([
            np.concatenate([traj['observations'] for traj in trajectories])
            for trajectories in task_trajectories.values()
        ])
        
        self.global_return_mean = np.mean(all_returns_global)
        self.global_return_std = np.std(all_returns_global) + 1e-6
        self.global_state_mean = np.mean(all_states_global, axis=0)
        self.global_state_std = np.std(all_states_global, axis=0) + 1e-6
    
    def __len__(self):
        return sum(
            sum(len(traj['observations']) for traj in trajectories)
            for trajectories in self.task_trajectories.values()
        )
    
    def __getitem__(self, idx):
        # 随机选择任务
        task_name = random.choice(self.tasks)
        trajectories = self.task_trajectories[task_name]
        
        # 随机选择轨迹
        traj = random.choice(trajectories)
        traj_len = len(traj['observations'])
        
        # 随机选择起始位置
        if traj_len <= self.context_len:
            start_idx = 0
            end_idx = traj_len
        else:
            start_idx = random.randint(0, traj_len - self.context_len)
            end_idx = start_idx + self.context_len
        
        # 提取序列（使用全局归一化）
        states = (traj['observations'][start_idx:end_idx] - self.global_state_mean) / self.global_state_std
        actions = traj['actions'][start_idx:end_idx]
        returns = (traj['returns'][start_idx:end_idx] - self.global_return_mean) / self.global_return_std
        
        # 填充到固定长度
        mask = np.ones(self.context_len)
        actual_len = end_idx - start_idx
        if actual_len < self.context_len:
            pad_len = self.context_len - actual_len
            states = np.concatenate([np.zeros((pad_len, states.shape[1])), states], axis=0)
            actions = np.concatenate([np.zeros((pad_len, actions.shape[1])), actions], axis=0)
            returns = np.concatenate([np.zeros(pad_len), returns], axis=0)
            mask[:pad_len] = 0
        
        # 任务ID（one-hot编码）
        task_id = self.tasks.index(task_name)
        
        return {
            'states': torch.FloatTensor(states),
            'actions': torch.FloatTensor(actions),
            'returns': torch.FloatTensor(returns),
            'mask': torch.FloatTensor(mask),
            'timesteps': torch.LongTensor(np.arange(start_idx, end_idx)),
            'task_id': task_id,
            'task_name': task_name
        }


class MultiTaskDecisionTransformer(nn.Module):
    """多任务Decision Transformer"""
    
    def __init__(
        self,
        state_dim: int,
        action_dim: int,
        num_tasks: int,
        hidden_dim: int = 128,
        num_layers: int = 3,
        num_heads: int = 4,
        context_len: int = 20,
        dropout: float = 0.1,
        max_timestep: int = 4096,
        task_embed_dim: int = 32
    ):
        super().__init__()
        
        self.state_dim = state_dim
        self.action_dim = action_dim
        self.hidden_dim = hidden_dim
        self.context_len = context_len
        self.num_tasks = num_tasks
        
        # 任务嵌入
        self.task_embed = nn.Embedding(num_tasks, task_embed_dim)
        
        # 嵌入层（包含任务信息）
        self.return_embed = nn.Linear(1, hidden_dim)
        self.state_embed = nn.Linear(state_dim, hidden_dim)
        self.action_embed = nn.Linear(action_dim + task_embed_dim, hidden_dim)
        
        # 时间步嵌入
        self.timestep_embed = nn.Embedding(max_timestep, hidden_dim)
        
        # 位置编码
        self.pos_embed = nn.Parameter(torch.zeros(1, 3 * context_len, hidden_dim))
        
        # Dropout
        self.embed_dropout = nn.Dropout(dropout)
        
        # Transformer
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=hidden_dim,
            nhead=num_heads,
            dim_feedforward=4 * hidden_dim,
            dropout=dropout,
            activation='gelu',
            batch_first=True
        )
        self.transformer = nn.TransformerEncoder(encoder_layer, num_layers=num_layers)
        
        # 输出层
        self.action_predictor = nn.Sequential(
            nn.Linear(hidden_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, action_dim),
            nn.Tanh()
        )
        
        self._init_weights()
    
    def _init_weights(self):
        nn.init.normal_(self.pos_embed, std=0.02)
        nn.init.normal_(self.timestep_embed.weight, std=0.02)
        nn.init.normal_(self.task_embed.weight, std=0.02)
    
    def forward(
        self,
        states: torch.Tensor,
        actions: torch.Tensor,
        returns: torch.Tensor,
        timesteps: torch.Tensor,
        task_ids: torch.Tensor,
        mask: torch.Tensor = None
    ) -> torch.Tensor:
        """
        前向传播
        
        参数:
            states: [batch_size, seq_len, state_dim]
            actions: [batch_size, seq_len, action_dim]
            returns: [batch_size, seq_len]
            timesteps: [batch_size, seq_len]
            task_ids: [batch_size]
            mask: [batch_size, seq_len]
        """
        batch_size, seq_len = states.shape[0], states.shape[1]
        
        # 任务嵌入
        task_embeddings = self.task_embed(task_ids)  # [batch_size, task_embed_dim]
        task_embeddings = task_embeddings.unsqueeze(1).expand(-1, seq_len, -1)
        
        # 将任务嵌入与动作拼接
        actions_with_task = torch.cat([actions, task_embeddings], dim=-1)
        
        # 嵌入
        return_embeddings = self.return_embed(returns.unsqueeze(-1))
        state_embeddings = self.state_embed(states)
        action_embeddings = self.action_embed(actions_with_task)
        time_embeddings = self.timestep_embed(timesteps)
        
        # 添加时间嵌入
        return_embeddings = return_embeddings + time_embeddings
        state_embeddings = state_embeddings + time_embeddings
        action_embeddings = action_embeddings + time_embeddings
        
        # 交错排列
        stacked_inputs = torch.stack(
            [return_embeddings, state_embeddings, action_embeddings], dim=2
        ).reshape(batch_size, 3 * seq_len, self.hidden_dim)
        
        # 添加位置编码
        stacked_inputs = stacked_inputs + self.pos_embed[:, :3 * seq_len, :]
        stacked_inputs = self.embed_dropout(stacked_inputs)
        
        # 因果掩码
        causal_mask = torch.triu(
            torch.ones(3 * seq_len, 3 * seq_len, device=states.device),
            diagonal=1
        ).bool()
        
        # Transformer
        transformer_outputs = self.transformer(stacked_inputs, mask=causal_mask)
        
        # 提取状态输出
        state_indices = torch.arange(1, 3 * seq_len, 3, device=states.device)
        state_outputs = transformer_outputs[:, state_indices, :]
        
        # 预测动作
        action_preds = self.action_predictor(state_outputs)
        
        return action_preds


class MultiTaskTrainer:
    """多任务训练器"""
    
    def __init__(
        self,
        model: MultiTaskDecisionTransformer,
        dataset: MultiTaskTrajectoryDataset,
        lr: float = 1e-4,
        batch_size: int = 64,
        device: str = 'cuda' if torch.cuda.is_available() else 'cpu'
    ):
        self.model = model.to(device)
        self.dataset = dataset
        self.batch_size = batch_size
        self.device = device
        
        self.optimizer = torch.optim.AdamW(model.parameters(), lr=lr, weight_decay=1e-4)
        self.scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(
            self.optimizer, T_max=100000
        )
    
    def train_step(self) -> Dict[str, float]:
        """执行一次训练步骤"""
        self.model.train()
        
        # 采样批次
        batch = [self.dataset[i] for i in range(self.batch_size)]
        
        states = torch.stack([b['states'] for b in batch]).to(self.device)
        actions = torch.stack([b['actions'] for b in batch]).to(self.device)
        returns = torch.stack([b['returns'] for b in batch]).to(self.device)
        mask = torch.stack([b['mask'] for b in batch]).to(self.device)
        timesteps = torch.stack([b['timesteps'] for b in batch]).to(self.device)
        task_ids = torch.LongTensor([b['task_id'] for b in batch]).to(self.device)
        
        # 前向传播
        action_preds = self.model(states, actions, returns, timesteps, task_ids, mask)
        
        # 计算损失
        loss = F.mse_loss(action_preds, actions, reduction='none')
        loss = (loss * mask.unsqueeze(-1)).mean()
        
        # 反向传播
        self.optimizer.zero_grad()
        loss.backward()
        torch.nn.utils.clip_grad_norm_(self.model.parameters(), 0.25)
        self.optimizer.step()
        self.scheduler.step()
        
        return {
            'loss': loss.item(),
            'lr': self.scheduler.get_last_lr()[0]
        }
    
    def train(self, num_steps: int, log_interval: int = 1000):
        """训练模型"""
        for step in range(num_steps):
            metrics = self.train_step()
            
            if (step + 1) % log_interval == 0:
                print(f"Step {step + 1}/{num_steps}: Loss = {metrics['loss']:.4f}, "
                      f"LR = {metrics['lr']:.6f}")


def collect_trajectories(env, policy, num_trajectories: int, max_steps: int = 1000) -> List[Dict]:
    """使用策略收集轨迹"""
    trajectories = []
    
    for _ in range(num_trajectories):
        observations = []
        actions = []
        rewards = []
        
        state, _ = env.reset()
        done = False
        steps = 0
        
        while not done and steps < max_steps:
            # 简单随机策略（示例）
            action = env.action_space.sample()
            
            observations.append(state)
            actions.append(action)
            
            state, reward, terminated, truncated, _ = env.step(action)
            done = terminated or truncated
            
            rewards.append(reward)
            steps += 1
        
        trajectories.append({
            'observations': np.array(observations),
            'actions': np.array(actions),
            'rewards': np.array(rewards)
        })
    
    return trajectories


def run_multitask_experiment():
    """运行多任务实验"""
    print("=" * 60)
    print("多任务Decision Transformer实验")
    print("=" * 60)
    
    # 定义任务
    tasks = [
        TaskConfig("HalfCheetah", "HalfCheetah-v4", 17, 6, 5000.0),
        TaskConfig("Hopper", "Hopper-v4", 11, 3, 3600.0),
    ]
    
    # 为每个任务生成/收集轨迹数据
    print("\n收集轨迹数据...")
    task_trajectories = {}
    
    for task in tasks:
        print(f"  任务: {task.name}")
        # 这里使用随机数据作为示例
        # 实际应用中应该使用真实的环境交互数据
        trajectories = []
        for _ in range(20):  # 每个任务20条轨迹
            traj_len = np.random.randint(50, 200)
            observations = np.random.randn(traj_len, task.state_dim)
            actions = np.random.uniform(-1, 1, (traj_len, task.action_dim))
            # 模拟不同质量的奖励
            rewards = np.random.randn(traj_len) * 10 + task.target_return / traj_len
            
            trajectories.append({
                'observations': observations,
                'actions': actions,
                'rewards': rewards
            })
        
        task_trajectories[task.name] = trajectories
        print(f"    收集了 {len(trajectories)} 条轨迹")
    
    # 创建多任务数据集
    print("\n创建多任务数据集...")
    dataset = MultiTaskTrajectoryDataset(task_trajectories, context_len=20)
    print(f"数据集总大小: {len(dataset)}")
    
    # 创建多任务模型
    print("\n创建多任务Decision Transformer模型...")
    model = MultiTaskDecisionTransformer(
        state_dim=17,  # 使用最大状态维度
        action_dim=6,  # 使用最大动作维度
        num_tasks=len(tasks),
        hidden_dim=128,
        num_layers=3,
        num_heads=4,
        context_len=20
    )
    
    # 创建训练器
    trainer = MultiTaskTrainer(
        model=model,
        dataset=dataset,
        lr=1e-4,
        batch_size=32
    )
    
    # 训练
    print("\n开始训练...")
    trainer.train(num_steps=3000, log_interval=500)
    
    print("\n" + "=" * 60)
    print("实验完成！")
    print("=" * 60)


if __name__ == "__main__":
    run_multitask_experiment()

9. 离线到在线迁移能力分析

9.1 迁移学习的必要性

纯粹的离线强化学习虽然避免了在线交互的风险，但其性能受限于数据集中最优轨迹的质量。如果数据集中缺乏高回报的行为示例，离线强化学习算法无法发现更优的策略。此外，离线学习的策略无法适应环境的变化，一旦环境动态发生改变，离线策略可能完全失效。

离线到在线（Offline-to-Online）迁移学习正是为了解决这些问题。这种范式分为两个阶段：首先使用离线数据训练初始策略，然后在真实环境中进行在线微调。这种方法结合了离线学习的安全性和在线学习的探索能力。

9.2 Decision Transformer的迁移特性

Decision Transformer作为一种基于监督学习的方法，其在线迁移具有独特的特点。由于Decision Transformer本质上是学习数据分布的条件生成模型，在线迁移可以看作是对这一生成模型的持续更新。

具体来说，在线迁移阶段可以采用以下策略：

第一，继续训练。使用在线收集的新数据继续训练Decision Transformer模型。由于训练目标是监督学习损失，这种更新是稳定的，不会出现传统强化学习中的训练发散问题。

第二，数据混合。将离线数据和在线数据混合进行训练，保持对离线数据的记忆，防止灾难性遗忘。

第三，回报调整。随着在线学习的进行，策略可能发现比离线数据更高的回报。此时需要调整目标回报，使模型能够学习这些更优的行为。

9.3 序列建模的迁移优势

相比于传统强化学习方法，基于Transformer的序列建模方法在迁移学习中具有以下优势：

第一，稳定性。监督学习的训练目标比策略梯度或Q学习更加稳定，在线更新不容易发散。

第二，样本效率。Transformer可以通过自注意力机制高效利用数据，在线阶段需要的样本量相对较少。

第三，可扩展性。Transformer架构可以轻松扩展到更大的模型规模，随着在线数据的积累，可以持续增加模型容量。

第四，多任务迁移。在多任务场景下，Transformer学到的通用表示可以促进跨任务的迁移。

9.4 实验观察

实验研究表明，Decision Transformer在离线到在线迁移中表现出色。在D4RL基准测试上，使用Decision Transformer进行离线预训练，然后使用在线强化学习进行微调，通常能够取得比纯离线学习或纯在线学习更好的性能。

特别值得注意的是，Decision Transformer在迁移初期的性能往往优于传统方法。这是因为离线预训练已经学到了良好的策略初始化，在线阶段只需要进行小幅调整即可。

然而，Decision Transformer的迁移能力也受限于其条件生成的特性。如果在线阶段发现的更优行为超出了离线数据的分布范围，Decision Transformer可能难以学习这些行为。这是因为模型被训练为生成与离线数据相似的动作序列。

10. 序列建模优势深度分析

10.1 长程依赖建模

强化学习中的信用分配问题（Credit Assignment Problem）是指如何将长期回报归因于早期的决策。在具有延迟奖励的任务中，智能体需要理解早期动作如何影响最终结果，这是一个极具挑战性的问题。

Transformer的自注意力机制为长程依赖建模提供了强大的工具。与传统的循环神经网络（RNN）相比，Transformer可以直接计算序列中任意两个位置之间的关系，不受距离的限制。这使得Transformer特别适合处理需要长期规划的任务。

在Decision Transformer中，自注意力机制可以捕捉轨迹中任意两个时间步之间的关系。这意味着模型可以直接学习早期动作与远期回报之间的关联，无需通过多步的信用分配传播。

10.2 上下文学习能力

Transformer的一个显著特点是其上下文学习能力（In-Context Learning）。给定一个序列的前缀，Transformer可以根据上下文推断出后续的内容，而无需对模型参数进行更新。

在强化学习中，上下文学习表现为：模型可以根据历史轨迹自动调整其行为。如果历史轨迹显示当前策略正在获得高回报，模型会继续执行类似的策略；如果历史轨迹显示策略效果不佳，模型会自动调整以寻求改进。

这种上下文学习能力使得Decision Transformer具有很强的适应性。即使在推理阶段遇到训练时未见过的情况，模型也可以根据上下文做出合理的决策。

10.3 可扩展性与大模型趋势

近年来，人工智能领域的一个显著趋势是模型规模的持续增长。从GPT-3的1750亿参数到GPT-4的万亿级参数，大模型展现出了惊人的能力。Transformer架构的可扩展性是实现这一趋势的关键。

Decision Transformer继承了Transformer的可扩展性。研究表明，随着模型规模和数据量的增加，Decision Transformer的性能持续提升。这为强化学习的发展指明了方向：通过构建更大规模的模型，利用更多的离线数据，可以实现更强的决策能力。

10.4 与生成式AI的融合

2024-2025年，生成式AI（Generative AI）成为了人工智能领域的热点。大语言模型（LLM）、扩散模型（Diffusion Model）等生成式模型展现出了强大的生成能力。

Decision Transformer可以看作是强化学习领域的生成式模型。它将决策问题转化为生成问题，利用生成式建模的能力来学习策略。这种视角使得Decision Transformer可以借鉴生成式AI领域的最新进展，如更好的训练技巧、更高效的采样方法等。

未来，我们可能会看到更多将生成式AI与强化学习结合的工作。例如，使用扩散模型生成动作序列，或者使用大语言模型作为决策的推理引擎。

11. 避坑小贴士

避坑1：数据归一化的重要性

Decision Transformer对输入数据的尺度非常敏感。回报、状态和动作的数值范围差异很大，如果不进行适当的归一化，训练可能会不稳定或收敛缓慢。

建议对回报、状态和动作都进行标准化处理，使其均值为0，标准差为1。特别要注意回报的范围可能很大，归一化尤为重要。

# 正确的归一化
states = (states - state_mean) / state_std
returns = (returns - return_mean) / return_std

避坑2：上下文长度的选择

上下文长度（context length）是Decision Transformer的关键超参数。过短的上下文无法捕捉足够的时序信息，过长的上下文会增加计算开销并可能引入无关信息。

建议从较小的上下文长度（如10-20）开始，根据任务特点逐步调整。对于需要长期记忆的任务，可以适当增加上下文长度；对于短期决策任务，较短的上下文可能更合适。

避坑3：目标回报的设置

在推理阶段，目标回报（target return）的设置对性能影响很大。设置过高的目标回报可能导致模型生成不切实际的动作序列，设置过低则无法发挥模型的潜力。

建议根据训练数据中的回报分布来设置目标回报。可以使用数据集中最高回报的某个比例（如80%-90%）作为初始目标回报，然后根据实际表现进行调整。

避坑4：因果掩码的实现

Decision Transformer必须使用因果掩码（causal masking），确保模型在预测当前动作时只能看到历史信息。如果因果掩码实现错误，模型可能会使用未来信息，导致训练和推理不一致。

# 正确的因果掩码
causal_mask = torch.triu(
    torch.ones(seq_len, seq_len, device=device),
    diagonal=1
).bool()

避坑5：多任务训练的数据平衡

在多任务训练中，不同任务的数据量和难度可能差异很大。简单的均匀采样可能导致某些任务训练不足或过度训练。

建议使用基于任务难度或性能的采样策略，确保每个任务都有足够的训练机会。也可以考虑使用课程学习，逐渐增加任务的难度。

避坑6：GPU内存管理

Transformer模型的内存消耗随序列长度和批次大小快速增长。对于长序列或大模型，可能会遇到GPU内存不足的问题。

建议：

使用梯度累积来模拟大批次训练
使用混合精度训练（FP16）减少内存占用
适当减小上下文长度或批次大小
使用梯度检查点（gradient checkpointing）技术

12. 延伸阅读

核心论文

Decision Transformer: Reinforcement Learning via Sequence Modeling (Chen et al., NeurIPS 2021)
Decision Transformer的原始论文，开创了将强化学习转化为序列建模的新范式。
A Generalist Agent (Reed et al., 2022)
DeepMind的Gato模型论文，展示了单一Transformer处理600多种任务的能力。
Multi-Game Decision Transformers (Lee et al., NeurIPS 2022)
将Decision Transformer扩展到多任务场景，实现跨任务迁移学习。
Offline Reinforcement Learning as One Big Sequence Modeling Problem (Janner et al., NeurIPS 2021)
Trajectory Transformer论文，提出了基于自回归模型的轨迹生成方法。
Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms (Zhang et al., 2021)
多智能体强化学习综述，介绍了Transformer在MARL中的应用。

扩展阅读

Transformers in Reinforcement Learning: A Survey (2024)
全面综述Transformer在强化学习中的应用，涵盖单智能体和多智能体场景。
Diffuser: Diffusion Models as Policy Learners (Janner et al., 2022)
将扩散模型应用于强化学习，作为Decision Transformer的替代方案。
Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions (Chebotar et al., 2023)
结合Q学习和Transformer，实现可扩展的离线强化学习。
Multi-Agent Transformer for Multi-Agent Reinforcement Learning (Wen et al., 2022)
将Transformer应用于多智能体强化学习，实现参数共享和关系建模。

开源资源

Decision Transformer官方实现
https://github.com/kzl/decision-transformer
d3rlpy：离线强化学习库
https://github.com/takuseno/d3rlpy
包含Decision Transformer、CQL、IQL等多种算法的实现。
CORL：基于PyTorch的离线强化学习框架
https://github.com/tinkoff-ai/CORL
Hugging Face Transformers
https://github.com/huggingface/transformers
提供了Transformer模型的标准实现，可以作为构建Decision Transformer的基础。

13. 小结

本讲系统性地介绍了Transformer与强化学习的结合，这一领域代表了深度强化学习的重要发展方向。

核心知识点回顾：

Decision Transformer：将强化学习问题转化为条件序列建模问题，利用Transformer的自回归能力直接生成动作序列，避免了传统强化学习中的价值函数估计和策略优化。
Gato通用智能体：展示了单一Transformer架构处理数百种不同任务的潜力，通过统一的任务表示和多任务训练实现了令人惊讶的通用性。
Multi-Game Decision Transformer：将Decision Transformer扩展到多任务场景，通过任务嵌入实现了跨任务的知识迁移和零样本泛化。
自回归与强化学习的结合：Trajectory Transformer等方法将自回归模型应用于轨迹生成，实现了基于模型的规划和多模态价值估计。
Transformer在多智能体强化学习中的应用：利用自注意力机制建模智能体之间的关系，实现参数共享、通信学习和值分解。
离线到在线迁移：结合离线预训练和在线微调，兼顾安全性和性能，是实际应用中的主流方案。
序列建模优势：Transformer的长程依赖建模能力、上下文学习能力和可扩展性，为强化学习带来了新的可能性。