手写 Transformer：从零实现多头注意力机制与完整架构（附完整代码）

picture_share

628人浏览 · 2026-05-19 07:00:57

picture_share · 2026-05-19 07:00:57 发布

一、引言：为什么 Transformer 是 AI 的"地基"

如果你在 2024-2025 年间关注过 AI 领域，几乎每个突破性进展——GPT-4o、DeepSeek-V3/R1、Claude 3.5、Llama 3——背后都站着同一个架构：Transformer。

Transformer 有多重要？Google Scholar 数据显示，2017 年那篇名为《Attention Is All You Need》的论文目前已被引用超过 14 万次，是计算机科学史上被引用最多的论文之一。它不是某个模型，也不是某个算法，而是整个 AI 领域的底层基础设施架构。

从 NLP 到 CV，从语音到多模态，所有最前沿的模型都在 Transformer 的基础上搭建。了解 Transformer 的内部原理，不再是"选修课"，而是 AI 开发者的"必修课"。

但很多开发者在学习 Transformer 时，常常陷入两个极端：

极端一：只调 API，完全不懂内部机制。 调用 HuggingFace 的 transformers 库的确方便——三行代码就能加载一个 BERT 或 GPT 模型。但当你需要调试推理性能、定制特殊注意力模式、或者将 Transformer 应用到非标准场景时，黑盒式的使用方式让你寸步难行。

极端二：只看公式，不写代码。 不少教程从矩阵求导开始讲 Attention，公式推导写得密密麻麻，读者看完还是一头雾水。"qkv = xW" 的数学形式很简单，但实际代码中为什么要 reshape、为什么要 transpose、mask 到底怎么加？这些工程细节是数学公式不会告诉你的。

本文的目标是：用更少的公式、更多的代码，让你真正理解 Transformer。

我们会用纯 PyTorch 从零搭建一个完整的 Transformer，包括：
- Scaled Dot-Product Attention 的完整实现与数值稳定性
- Multi-Head Attention 的拆分、计算、合并全流程
- Positional Encoding 为什么重要以及如何实现
- 完整的 Encoder、Decoder 与 Transformer 架构
- 一个端到端的机器翻译训练 demo

全程可运行、可调试、可扩展。读完本文，你不仅能彻底搞懂 Transformer 的内部机制，还能用它来做你自己的实验。

二、Transformer 宏观架构速览

在逐行写代码之前，我们先从 10000 米高空俯瞰一下 Transformer 的整体结构。

Transformer 的原始设计是序列到序列（Seq2Seq）架构，包含两个主要部分：

                    输出序列
                       ↑
                 ┌───────────┐
                 │  Decoder  │
                 │  (N层)    │
                 └───────────┘
                       ↑
                 ┌───────────┐
                 │  Encoder  │
                 │  (N层)    │
                 └───────────┘
                       ↑
                    输入序列

2.1 Encoder（编码器）

Encoder 负责将输入序列映射为一系列隐藏表示（hidden states）。它的核心组件包括：

Multi-Head Self-Attention（多头自注意力）：让每个位置关注输入序列中的所有其他位置
Feed-Forward Network（前馈网络）：每个位置的独立非线性变换
Layer Normalization + Residual Connection：稳定训练、防止梯度消失
Positional Encoding：为模型注入序列位置信息

每个 Encoder 层的结构如下：

输入 → LayerNorm → Multi-Head Attention → Residual(+) → LayerNorm → FFN → Residual(+) → 输出

2.2 Decoder（解码器）

Decoder 负责基于 Encoder 的输出和已经生成的部分序列，逐 token 生成目标序列。它的核心组件多了两个关键点：

Masked Multi-Head Self-Attention（掩码自注意力）：防止当前位置"看到"未来的 token
Cross-Attention（交叉注意力）：让 Decoder 关注 Encoder 的输出

每个 Decoder 层的结构：

输入 → LayerNorm → Masked Self-Attention → Residual(+) 
     → LayerNorm → Cross-Attention (K,V来自Encoder) → Residual(+) 
     → LayerNorm → FFN → Residual(+) → 输出

2.3 为什么这个架构如此强大？

三个核心设计理念：

并行计算：不同于 RNN 必须逐个 token 串行处理，Self-Attention 可以一次性处理整个序列。这让 Transformer 能够充分利用 GPU 的并行能力。
长程依赖：在 RNN 中，距离越远的 token 越难互相影响（梯度消失）；在 Self-Attention 中，任意两个位置的 token 都只有一步之遥，可以"直接对话"。
可扩展性：Transformer 层层堆叠（原始论文用了 6 层 Encoder + 6 层 Decoder），今天的模型动辄 32/40/80 层，但基本架构没变。这种"堆叠更多层 = 更强能力"的特性，正是 Scaling Law 得以成立的基础。

现在，让我们从最核心的组件开始，逐块实现。

三、Scaled Dot-Product Attention：一切的基础

3.1 数学原理

Attention 的核心理念极其直观：当模型在处理某个位置的信息时，它应该"看向"序列的其他位置，并决定哪些位置对当前任务更重要。

Attention 的计算可以概括为三个步骤：

Attention(Q, K, V) = softmax(QK^T / √d_k) V

其中：
- Q（Query，查询）：当前位置发出的查询向量
- K（Key，键）：序列中每个位置的标识向量
- V（Value，值）：序列中每个位置的实际信息
- d_k：Q 和 K 的维度，用于缩放防止 softmax 梯度消失

用"文件检索"来类比更容易理解：
- Query 就像你输入搜索框的关键词
- Key 就像每份文件的标题
- 匹配过程（QK^T）计算关键词与每个标题的相似度
- Scaling（除以 √d_k）确保相似度分数不会太大
- Softmax 将相似度转换为权重分布（"这份文件 80% 匹配，那份 20%"）
- Value 就是文件的实际内容
- 输出 = 所有文件内容的加权平均

3.2 为什么需要 Scaling？

这是很多初学者忽略的关键点。如果不除以 √d_k，当 d_k 较大时，QK^T 点积结果会变得非常大，导致 softmax 进入"饱和区"——某个位置的权重接近 1，其他位置接近 0。此时梯度会变得非常小（几乎为 0），模型无法学习。

让我们看看实际效果：

import torch
import torch.nn as nn
import torch.nn.functional as F
import math
import numpy as np

# 演示：大维度的 QK^T 导致 softmax 梯度消失
def softmax_grad_demo(dim):
    q = torch.randn(1, 1, dim)
    k = torch.randn(1, 1, dim)
    scores = torch.mm(q.squeeze(), k.squeeze().T)  # QK^T
    scaled = scores / math.sqrt(dim)

    # 计算 softmax 结果的方差
    # 如果方差接近 0，说明进入饱和区
    softmax_vals = F.softmax(torch.tensor([[1.0, 2.0, 3.0, 4.0]]), dim=-1)
    print(f"Softmax 示例: {softmax_vals}")

    # 模拟大 scores 时的 softmax
    large_scores = torch.tensor([[100.0, 101.0, 102.0, 300.0]])
    print(f"大 scores 的 softmax: {F.softmax(large_scores, dim=-1)}")
    # 300 的权重会接近 1，其他接近 0，梯度 ≈ 0

softmax_grad_demo(64)

你会看到当 scores 很大时，softmax 输出变得"硬"（几乎 one-hot），梯度消失。√d_k 这个缩放因子看似简单，但对训练稳定性至关重要。

3.3 代码实现

def scaled_dot_product_attention(
    Q: torch.Tensor,
    K: torch.Tensor,
    V: torch.Tensor,
    mask: torch.Tensor = None,
    dropout: float = 0.0
) -> tuple:
    """
    缩放点积注意力机制

    参数:
        Q: Query  形状 (batch_size, n_heads, seq_len, d_k)
        K: Key    形状 (batch_size, n_heads, seq_len, d_k)
        V: Value  形状 (batch_size, n_heads, seq_len, d_v)
        mask: 掩码 (可选)，通常用于 Decoder 防止看到未来位置
        dropout: Dropout 概率

    返回:
        output: (batch_size, n_heads, seq_len, d_v)
        attention_weights: (batch_size, n_heads, seq_len, seq_len)
    """
    d_k = Q.size(-1)  # 最后一个维度是 d_k

    # 1. 计算注意力分数：Q @ K^T
    # 形状: (batch, n_heads, seq_len_Q, seq_len_K)
    scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(d_k)

    # 2. 应用掩码（如果有）
    # 掩码位置用 -1e9 填充，这样 softmax 后这些位置的权重 ≈ 0
    if mask is not None:
        scores = scores.masked_fill(mask == 0, -1e9)

    # 3. Softmax 归一化
    attention_weights = F.softmax(scores, dim=-1)

    # 4. Dropout（训练时使用）
    if dropout > 0:
        attention_weights = F.dropout(attention_weights, p=dropout)

    # 5. 加权求和
    output = torch.matmul(attention_weights, V)

    return output, attention_weights

这段代码只有十几行，但所有 attention 的核心逻辑都在里面了。让我逐一解释：

为什么用 -1e9 而不是 float('-inf')？
float('-inf') 理论上是对的（softmax(e^-∞) = 0），但在混合精度训练（FP16/BF16）中，-inf 可能导致 NaN。-1e9 足够小，保证 softmax 结果 ≈ 0，但不会产生 NaN。

transpose(-2, -1) 在做什么？
K 的原始形状是 (batch, n_heads, seq_len, d_k)，我们需要的是 (batch, n_heads, d_k, seq_len)，这样才能做 Q @ K^T 矩阵乘法，得到 (batch, n_heads, seq_len_Q, seq_len_K)。

3.4 单元测试

写一个快速测试来验证我们的实现是否正确：

def test_attention():
    batch_size, n_heads, seq_len, d_k = 2, 8, 10, 64

    Q = torch.randn(batch_size, n_heads, seq_len, d_k)
    K = torch.randn(batch_size, n_heads, seq_len, d_k)
    V = torch.randn(batch_size, n_heads, seq_len, d_k)

    output, weights = scaled_dot_product_attention(Q, K, V)

    print(f"输出形状: {output.shape}")   # (2, 8, 10, 64)
    print(f"权重形状: {weights.shape}")   # (2, 8, 10, 10)
    print(f"权重每行之和: {weights[0, 0, 0].sum():.4f}")  # 应该是 1.0

    # 验证 softmax 性质：每行权重和为 1
    assert torch.allclose(weights.sum(dim=-1), torch.ones_like(weights.sum(dim=-1)))
    print("✅ 测试通过！softmax 权重归一化正确")

test_attention()

输出：

输出形状: torch.Size([2, 8, 10, 64])
权重形状: torch.Size([2, 8, 10, 10])
权重每行之和: 1.0000
✅ 测试通过！softmax 权重归一化正确

四、Multi-Head Attention：并行关注不同角度

4.1 为什么需要多头？

单一 attention 的问题是：每次注意力计算只能"看到"一种关系模式。比如在处理句子 "The animal didn't cross the street because it was too tired" 时，"it" 指代 "animal" 还是 "street"？单一 attention 很难同时把握语法关系、语义距离、实体指代等多种不同的关系。

Multi-Head Attention 的解决方案很聪明：用多组独立的 Q、K、V 并行计算 attention，每组关注不同的关系子空间。最后把所有头的结果拼接起来。

原始论文发现 8 个头效果很好，每个头的维度 d_k = d_model / n_heads = 512 / 8 = 64。

4.2 代码实现

关键工程细节：
1. 用一个大的线性变换同时计算出所有头的 Q、K、V（比逐个头计算更高效）
2. 将结果拆分为多个头
3. 对每个头独立计算 attention
4. 将所有头的结果拼接并通过输出投影

class MultiHeadAttention(nn.Module):
    """
    多头注意力机制

    参数:
        d_model: 模型维度（输入和输出的维度）
        n_heads: 注意力头的数量
        dropout: Dropout 概率
    """
    def __init__(self, d_model: int, n_heads: int, dropout: float = 0.1):
        super().__init__()
        assert d_model % n_heads == 0, "d_model 必须能被 n_heads 整除"

        self.d_model = d_model
        self.n_heads = n_heads
        self.d_k = d_model // n_heads  # 每个头的维度

        # 线性变换：同时计算 Q、K、V
        self.W_q = nn.Linear(d_model, d_model)
        self.W_k = nn.Linear(d_model, d_model)
        self.W_v = nn.Linear(d_model, d_model)

        # 输出投影
        self.W_o = nn.Linear(d_model, d_model)

        self.dropout = dropout

    def forward(self, Q, K, V, mask=None):
        """
        参数:
            Q: Query  形状 (batch_size, seq_len_Q, d_model)
            K: Key    形状 (batch_size, seq_len_K, d_model)
            V: Value  形状 (batch_size, seq_len_K, d_model)
            mask: 可选掩码

        返回:
            output: (batch_size, seq_len_Q, d_model)
            attention_weights: (batch_size, n_heads, seq_len_Q, seq_len_K)
        """
        batch_size = Q.size(0)

        # 1. 线性变换 + 拆分多头
        # Q/K/V 形状: (batch, seq_len, d_model) → (batch, seq_len, d_model)
        Q = self.W_q(Q)
        K = self.W_k(K)
        V = self.W_v(V)

        # 2. 重塑为多头形式
        # (batch, seq_len, d_model) → (batch, seq_len, n_heads, d_k)
        # → (batch, n_heads, seq_len, d_k)
        Q = Q.view(batch_size, -1, self.n_heads, self.d_k).transpose(1, 2)
        K = K.view(batch_size, -1, self.n_heads, self.d_k).transpose(1, 2)
        V = V.view(batch_size, -1, self.n_heads, self.d_k).transpose(1, 2)

        # 3. 计算多头注意力
        output, attention_weights = scaled_dot_product_attention(
            Q, K, V, mask, self.dropout
        )

        # 4. 合并所有头的结果
        # (batch, n_heads, seq_len, d_k) → (batch, seq_len, n_heads, d_k)
        # → (batch, seq_len, d_model)
        output = output.transpose(1, 2).contiguous().view(batch_size, -1, self.d_model)

        # 5. 输出投影
        output = self.W_o(output)

        return output, attention_weights

4.3 对初学者最容易出错的尺寸转换

很多人在理解 view + transpose 这里卡住。让我们用一张"数据流图"来理解：

输入: (batch_size=2, seq_len=4, d_model=8), n_heads=2, d_k=4

1. 线性变换后: (2, 4, 8)

2. view: → (2, 4, 2, 4)
   # 把最后的 8 拆成 2 个头 × 每个头 4 维
   # 注意：view 不改变内存布局

3. transpose(1,2): → (2, 2, 4, 4)
   # 交换 seq_len 和 n_heads 两个维度
   # 现在: (batch, n_heads, seq_len, d_k)
   # 每个头可以独立计算 attention 了

4. attention 计算: → (2, 2, 4, 4)
   # 每个头内部做 QK^T

5. transpose(1,2): → (2, 4, 2, 4)
   # 换回来

6. contiguous().view(batch, -1, d_model): → (2, 4, 8)
   # 拼接所有头的结果

为什么要调用 .contiguous()？
transpose 不改变内存布局，只改变张量的"视图"。连续两次 transpose 后的张量在内存中可能不是连续的，此时 view() 会报错。.contiguous() 在内存中重新排列数据。

4.4 掩码机制详解

Decoder 的 Self-Attention 有一个特殊要求：当前位置不能看到未来的 token。这是通过一个上三角掩码（upper triangular mask）实现的：

def create_causal_mask(seq_len: int, device="cuda"):
    """
    创建因果掩码（上三角矩阵）
    确保 position i 只能看到 positions ≤ i
    """
    # 下三角矩阵（包括对角线）= 1，上三角 = 0
    mask = torch.tril(torch.ones(seq_len, seq_len, device=device))
    return mask.view(1, 1, seq_len, seq_len)

# 示例：seq_len=4 的因果掩码
mask = create_causal_mask(4)
print(mask.squeeze())
# tensor([[1, 0, 0, 0],
#         [1, 1, 0, 0],
#         [1, 1, 1, 0],
#         [1, 1, 1, 1]])

在 Decoder 训练时，这个掩码被传递给 attention 函数。当 mask 中某个位置为 0，该位置的 attention score 被设置为 -1e9，softmax 后权重 ≈ 0，模型"看不到"未来的 token。

五、Positional Encoding：给序列注入"位置感"

5.1 为什么 Self-Attention 需要位置编码？

这是理解 Transformer 最关键的一点：Self-Attention 是排列不变的（permutation invariant）。

什么意思？假设输入序列是 "I love AI"，Attention 计算 "love" 和 "I"、"AI" 的关系。但如果输入换成 "AI love I"（重新排列），Attention 的计算结果完全一样——因为 Attention 只关心"谁和谁相关"，不关心它们在序列中的位置。

但语言是顺序敏感的！"猫追老鼠"和"老鼠追猫"是完全不同的意思。没有位置信息，Transformer 就无法区分这两个句子。

解决方案：在输入嵌入中加入位置编码。

原始论文使用的是正弦位置编码（Sinusoidal Positional Encoding）：

PE(pos, 2i)   = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

其中 pos 是位置索引（0, 1, 2, ...），i 是维度索引。

5.2 正弦编码的巧妙设计

这个公式有两层精妙之处：

第一层：每个位置都有一个唯一的编码模式。 不同位置的正弦波频率不同——低维度波频高（变化快，区分相邻位置），高维度波频低（变化慢，编码全局位置）。不同位置的编码向量在高维空间中形成了一张"位置地图"，每个点都有独特坐标。

第二层：相对位置信息可以线性表达。 通过三角恒等式 sin(α+β) = sinα cosβ + cosα sinβ，模型可以学到用当前位置的编码线性地"偏移"到另一个位置的编码。这意味着模型天然地能够捕捉"相对位置"关系——这对语言理解至关重要。

5.3 代码实现

class PositionalEncoding(nn.Module):
    """
    正弦位置编码（非可学习，计算后缓存）

    参数:
        d_model: 模型维度
        max_len: 最大序列长度
        dropout: Dropout 概率
        device: 设备
    """
    def __init__(self, d_model: int, max_len: int = 5000, dropout: float = 0.1, device="cpu"):
        super().__init__()
        self.dropout = nn.Dropout(p=dropout)

        # 创建位置编码矩阵
        pe = torch.zeros(max_len, d_model, device=device)
        position = torch.arange(0, max_len, device=device).unsqueeze(1)  # (max_len, 1)

        # 计算除数项：10000^(2i/d_model)
        # 注意：这里用 exp(log) 的方式计算是为了数值稳定性
        div_term = torch.exp(
            torch.arange(0, d_model, 2, device=device) * 
            (-math.log(10000.0) / d_model)
        )

        # 偶数维度用 sin，奇数维度用 cos
        pe[:, 0::2] = torch.sin(position * div_term)  # 偶数索引
        pe[:, 1::2] = torch.cos(position * div_term)  # 奇数索引

        # 注册为 buffer（会随模型移动但不会参与梯度计算）
        self.register_buffer('pe', pe.unsqueeze(0))  # (1, max_len, d_model)

    def forward(self, x):
        """
        x: (batch_size, seq_len, d_model)
        """
        # 将位置编码加到输入上
        x = x + self.pe[:, :x.size(1), :]
        return self.dropout(x)

5.4 可视化不同位置的编码

让我们可视化不同位置和不同维度的编码值：

import matplotlib.pyplot as plt

pe = PositionalEncoding(d_model=128, max_len=100, device="cpu")
encoding = pe.pe.squeeze(0).numpy()  # (100, 128)

plt.figure(figsize=(12, 8))
plt.imshow(encoding.T, aspect='auto', cmap='RdBu')
plt.colorbar(label='Encoding Value')
plt.xlabel('Position')
plt.ylabel('Dimension')
plt.title('Positional Encoding Visualization')
plt.show()

这个可视化会显示一个条带状图案——低维度（顶部）变化快（高频），高维度（底部）变化慢（低频），每个位置的编码向量都独一无二。

六、Feed-Forward Network：非线性变换层

Attention 层本质上是一个"加权求和"操作——它只是把信息从其他位置搬过来，没有做任何非线性变换。如果没有 FFN，堆叠多个 Attention 层等同于在做一系列线性变换，表达能力极其有限。

FFN 的作用是在每个位置独立地对特征进行非线性变换：

class PositionwiseFFN(nn.Module):
    """
    逐位置前馈网络

    结构: Linear → ReLU → Linear

    参数:
        d_model: 输入输出维度
        d_ff: 隐藏层维度（通常是 d_model 的 4 倍）
        dropout: Dropout 概率
    """
    def __init__(self, d_model: int, d_ff: int = 2048, dropout: float = 0.1):
        super().__init__()
        self.linear1 = nn.Linear(d_model, d_ff)
        self.linear2 = nn.Linear(d_ff, d_model)
        self.dropout = nn.Dropout(dropout)
        self.activation = nn.ReLU()

    def forward(self, x):
        """
        x: (batch_size, seq_len, d_model)
        返回: (batch_size, seq_len, d_model)
        """
        x = self.linear1(x)        # (batch, seq_len, d_model) → (batch, seq_len, d_ff)
        x = self.activation(x)     # ReLU
        x = self.dropout(x)        # Dropout
        x = self.linear2(x)        # (batch, seq_len, d_ff) → (batch, seq_len, d_model)
        return x

为什么 d_ff 通常是 d_model 的 4 倍？

这是一种"先展开再压缩"的设计：把 d_model 维的向量映射到 4 倍大的空间，做非线性变换，再映射回原来的大小。这个过程类似于 SVM 的核技巧——在高维空间中数据更可能线性可分。实际模型也验证了这一点：BERT-base (d_model=768, d_ff=3072)、GPT-2 (d_model=768, d_ff=3072)、GPT-3 175B (d_model=12288, d_ff=49152) 都是 4:1 的比例。

现代 Transformer 也有一些变体，比如 GLU 变体（GPT-4 使用的 SwiGLU）用门控机制替代了 ReLU，效果更好但参数量更大。

七、Layer Normalization：稳定训练的基石

Layer Normalization 是 Transformer 中不可或缺的组件，它的作用是对每一层的输出进行归一化，防止激活值过大或过小。

7.1 LayerNorm vs BatchNorm

BatchNorm 对每个特征维度在所有样本上做归一化，依赖 batch size，在 NLP 中表现不佳（序列长度变化大，不同位置统计分布不同）。LayerNorm 对每个样本的所有特征维度做归一化，不受 batch size 和序列长度的限制，更适合 NLP。

BatchNorm: 对 batch 中所有样本的"同一特征"归一化
LayerNorm: 对一个样本的"所有特征"归一化

7.2 代码实现

class LayerNorm(nn.Module):
    """
    Layer Normalization

    LayerNorm(x) = γ ⊙ ((x - μ) / √(σ² + ε)) + β

    其中 γ 是 gain（缩放），β 是 bias（偏移），都是可学习参数
    """
    def __init__(self, d_model: int, eps: float = 1e-6):
        super().__init__()
        self.eps = eps
        self.gamma = nn.Parameter(torch.ones(d_model))  # 可学习的缩放
        self.beta = nn.Parameter(torch.zeros(d_model))   # 可学习的偏移

    def forward(self, x):
        # x: (batch, seq_len, d_model)
        mean = x.mean(dim=-1, keepdim=True)      # 沿 d_model 维度计算均值
        std = x.std(dim=-1, keepdim=True, unbiased=False)  # 沿 d_model 维度计算标准差
        x_norm = (x - mean) / (std + self.eps)
        return self.gamma * x_norm + self.beta

Pre-LN vs Post-LN 的演进

原始 Transformer 使用 Post-LN（LayerNorm 放在残差连接之后），但在深层网络中训练不稳定。现代模型（GPT、LLaMA 等）普遍采用 Pre-LN（LayerNorm 放在子层之前），训练更稳定：

Post-LN: x → Attention(x) → LayerNorm(+) → ...  (原始论文)
Pre-LN:  x → LayerNorm → Attention(x) → Residual(+) → ...  (现代实践)

Pre-LN 的好处是梯度可以直接通过残差路径流动，不受 LayerNorm 的缩放影响，训练更加稳定。

八、完整的 Encoder Layer

现在我们把所有组件组装成一个完整的 Encoder 层：

class EncoderLayer(nn.Module):
    """
    单个 Encoder 层

    结构: Self-Attention → Residual + LayerNorm → FFN → Residual + LayerNorm
    """
    def __init__(self, d_model: int, n_heads: int, d_ff: int, dropout: float = 0.1):
        super().__init__()

        # 自注意力子层
        self.self_attention = MultiHeadAttention(d_model, n_heads, dropout)
        self.norm1 = LayerNorm(d_model)
        self.dropout1 = nn.Dropout(dropout)

        # 前馈网络子层
        self.ffn = PositionwiseFFN(d_model, d_ff, dropout)
        self.norm2 = LayerNorm(d_model)
        self.dropout2 = nn.Dropout(dropout)

    def forward(self, x, mask=None):
        """
        x: (batch_size, seq_len, d_model)
        mask: 可选 padding mask

        返回: (batch_size, seq_len, d_model)
        """
        # 子层 1: Self-Attention + Residual
        attn_out, _ = self.self_attention(x, x, x, mask)
        x = x + self.dropout1(attn_out)
        x = self.norm1(x)

        # 子层 2: FFN + Residual
        ffn_out = self.ffn(x)
        x = x + self.dropout2(ffn_out)
        x = self.norm2(x)

        return x

Encoder 把 N 个这样的层堆叠起来：

class Encoder(nn.Module):
    """N 层 Encoder 堆叠"""
    def __init__(self, vocab_size: int, d_model: int, n_heads: int, 
                 d_ff: int, n_layers: int, max_len: int, dropout: float = 0.1):
        super().__init__()

        # Token Embedding（将 token ID 映射为向量）
        self.token_embedding = nn.Embedding(vocab_size, d_model)

        # Positional Encoding
        self.pos_encoding = PositionalEncoding(d_model, max_len, dropout)

        # N 层 Encoder Layer
        self.layers = nn.ModuleList([
            EncoderLayer(d_model, n_heads, d_ff, dropout)
            for _ in range(n_layers)
        ])

        self.dropout = nn.Dropout(dropout)

    def forward(self, x, mask=None):
        """
        x: (batch_size, seq_len) — token IDs
        mask: (batch_size, 1, 1, seq_len) — padding mask

        返回: (batch_size, seq_len, d_model)
        """
        # Token Embedding
        x = self.token_embedding(x)  # (batch, seq_len) → (batch, seq_len, d_model)
        x = x * math.sqrt(self.token_embedding.embedding_dim)  # 论文中的缩放

        # Positional Encoding
        x = self.pos_encoding(x)
        x = self.dropout(x)

        # 通过 N 个 Encoder Layer
        for layer in self.layers:
            x = layer(x, mask)

        return x

注意 x * math.sqrt(d_model) 这步：原始论文中，Embedding 层的输出要乘以 √d_model，目的是让 Embedding 的范数与 Positional Encoding 的范数在同一个量级，防止 Positional Encoding 被"淹没"。

九、完整的 Decoder Layer

Decoder 的核心差异是三层架构（比 Encoder 多一层 Cross-Attention）：

class DecoderLayer(nn.Module):
    """
    单个 Decoder 层

    结构: Masked Self-Attention → Residual + LayerNorm 
         → Cross-Attention → Residual + LayerNorm
         → FFN → Residual + LayerNorm
    """
    def __init__(self, d_model: int, n_heads: int, d_ff: int, dropout: float = 0.1):
        super().__init__()

        # 掩码自注意力（防止看到未来位置）
        self.masked_self_attention = MultiHeadAttention(d_model, n_heads, dropout)
        self.norm1 = LayerNorm(d_model)
        self.dropout1 = nn.Dropout(dropout)

        # 交叉注意力（Q 来自 Decoder，K、V 来自 Encoder）
        self.cross_attention = MultiHeadAttention(d_model, n_heads, dropout)
        self.norm2 = LayerNorm(d_model)
        self.dropout2 = nn.Dropout(dropout)

        # 前馈网络
        self.ffn = PositionwiseFFN(d_model, d_ff, dropout)
        self.norm3 = LayerNorm(d_model)
        self.dropout3 = nn.Dropout(dropout)

    def forward(self, x, encoder_output, src_mask=None, tgt_mask=None):
        """
        x: (batch_size, tgt_seq_len, d_model) — Decoder 输入
        encoder_output: (batch_size, src_seq_len, d_model) — Encoder 输出
        src_mask: Encoder 侧的 padding mask
        tgt_mask: Decoder 侧的因果掩码 (防止看到未来)
        """
        # 子层 1: Masked Self-Attention
        attn_out, _ = self.masked_self_attention(x, x, x, tgt_mask)
        x = x + self.dropout1(attn_out)
        x = self.norm1(x)

        # 子层 2: Cross-Attention
        # Q → Decoder 的 x, K,V → Encoder 的 encoder_output
        cross_out, _ = self.cross_attention(x, encoder_output, encoder_output, src_mask)
        x = x + self.dropout2(cross_out)
        x = self.norm2(x)

        # 子层 3: FFN
        ffn_out = self.ffn(x)
        x = x + self.dropout3(ffn_out)
        x = self.norm3(x)

        return x


class Decoder(nn.Module):
    """N 层 Decoder 堆叠"""
    def __init__(self, vocab_size: int, d_model: int, n_heads: int,
                 d_ff: int, n_layers: int, max_len: int, dropout: float = 0.1):
        super().__init__()

        self.token_embedding = nn.Embedding(vocab_size, d_model)
        self.pos_encoding = PositionalEncoding(d_model, max_len, dropout)

        self.layers = nn.ModuleList([
            DecoderLayer(d_model, n_heads, d_ff, dropout)
            for _ in range(n_layers)
        ])

        self.dropout = nn.Dropout(dropout)

        # 输出投影：将隐藏状态映射回 vocabulary
        self.output_projection = nn.Linear(d_model, vocab_size)

    def forward(self, x, encoder_output, src_mask=None, tgt_mask=None):
        """
        x: (batch_size, tgt_seq_len) — Decoder 输入的 token IDs
        encoder_output: (batch_size, src_seq_len, d_model)
        """
        x = self.token_embedding(x)
        x = x * math.sqrt(self.token_embedding.embedding_dim)
        x = self.pos_encoding(x)
        x = self.dropout(x)

        for layer in self.layers:
            x = layer(x, encoder_output, src_mask, tgt_mask)

        # 输出投影到词汇表
        logits = self.output_projection(x)
        return logits

十、组装完整 Transformer

class Transformer(nn.Module):
    """
    完整的 Transformer (Seq2Seq)

    参数:
        src_vocab_size: 源语言词汇表大小
        tgt_vocab_size: 目标语言词汇表大小
        d_model: 模型维度 (default: 512)
        n_heads: 注意力头数 (default: 8)
        d_ff: 前馈网络隐藏维度 (default: 2048 = 4 * d_model)
        n_layers: Encoder/Decoder 层数 (default: 6)
        max_len: 最大序列长度 (default: 5000)
        dropout: Dropout 概率 (default: 0.1)
    """
    def __init__(self, src_vocab_size: int, tgt_vocab_size: int,
                 d_model: int = 512, n_heads: int = 8, d_ff: int = 2048,
                 n_layers: int = 6, max_len: int = 5000, dropout: float = 0.1):
        super().__init__()

        self.encoder = Encoder(src_vocab_size, d_model, n_heads, 
                               d_ff, n_layers, max_len, dropout)
        self.decoder = Decoder(tgt_vocab_size, d_model, n_heads,
                               d_ff, n_layers, max_len, dropout)

        # 参数初始化（对训练收敛很重要）
        self._init_parameters()

    def forward(self, src, tgt, src_mask=None, tgt_mask=None):
        """
        src: (batch_size, src_seq_len)
        tgt: (batch_size, tgt_seq_len)
        """
        encoder_output = self.encoder(src, src_mask)
        logits = self.decoder(tgt, encoder_output, src_mask, tgt_mask)
        return logits

    def _init_parameters(self):
        """Xavier 初始化"""
        for p in self.parameters():
            if p.dim() > 1:
                nn.init.xavier_uniform_(p)


def create_padding_mask(seq: torch.Tensor, pad_idx: int = 0):
    """
    创建 Padding Mask
    用于忽略序列中的 <pad> token

    参数:
        seq: (batch_size, seq_len)
        pad_idx: <pad> 的索引

    返回: (batch_size, 1, 1, seq_len)
    """
    mask = (seq != pad_idx).unsqueeze(1).unsqueeze(2)
    return mask  # (batch, 1, 1, seq_len)

十一、端到端训练 Demo：英法翻译

我们来跑一个完整的训练 demo，用一个简化的小数据集验证实现的正确性。

11.1 准备数据

# 迷你英法词典数据
src_sentences = [
    "I love AI",
    "the cat is on the mat",
    "hello world",
    "I am a student",
]

tgt_sentences = [
    "j adore l IA",
    "le chat est sur le tapis",
    "bonjour le monde",
    "je suis etudiant",
]

# 构建词汇表
def build_vocab(sentences, pad_token="<pad>", sos_token="<sos>", eos_token="<eos>"):
    vocab = {pad_token: 0, sos_token: 1, eos_token: 2}
    idx = 3
    for sent in sentences:
        for word in sent.lower().split():
            if word not in vocab:
                vocab[word] = idx
                idx += 1
    # 构建 id → token 映射
    id_to_token = {id: token for token, id in vocab.items()}
    return vocab, id_to_token

src_vocab, src_id_to_token = build_vocab(src_sentences)
tgt_vocab, tgt_id_to_token = build_vocab(tgt_sentences)

print(f"源语言词汇表大小: {len(src_vocab)}")
print(f"目标语言词汇表大小: {len(tgt_vocab)}")
print(f"源词汇表: {src_vocab}")

11.2 训练循环

import torch.optim as optim

def train_transformer():
    d_model = 128      # 减小模型维度以便快速实验
    n_heads = 4        # 128 / 4 = 32 每个头维度
    d_ff = 512         # 4 * d_model
    n_layers = 3       # 减少层数
    max_len = 50
    dropout = 0.1
    n_epochs = 200
    batch_size = 2

    model = Transformer(
        src_vocab_size=len(src_vocab),
        tgt_vocab_size=len(tgt_vocab),
        d_model=d_model,
        n_heads=n_heads,
        d_ff=d_ff,
        n_layers=n_layers,
        max_len=max_len,
        dropout=dropout,
    )

    optimizer = optim.Adam(model.parameters(), lr=0.0005, betas=(0.9, 0.98), eps=1e-9)
    criterion = nn.CrossEntropyLoss(ignore_index=0)  # 忽略 <pad> 位置

    def prepare_batch(src_texts, tgt_texts, src_vocab, tgt_vocab, max_len=20):
        src_ids, tgt_ids_in, tgt_ids_out = [], [], []
        for src, tgt in zip(src_texts, tgt_texts):
            src_tokens = [src_vocab[w] for w in src.lower().split()]
            tgt_tokens = [tgt_vocab[w] for w in tgt.lower().split()]

            # 加 <sos> 和 <eos>
            src_tokens = [1] + src_tokens + [2]  # <sos> ... <eos>
            tgt_in = [1] + tgt_tokens             # Decoder 输入: <sos> ... tokens
            tgt_out = tgt_tokens + [2]            # 目标输出: tokens ... <eos>

            # Padding 到 max_len
            src_tokens = src_tokens[:max_len] + [0] * (max_len - len(src_tokens[:max_len]))
            tgt_in = tgt_in[:max_len] + [0] * (max_len - len(tgt_in[:max_len]))
            tgt_out = tgt_out[:max_len] + [0] * (max_len - len(tgt_out[:max_len]))

            src_ids.append(src_tokens)
            tgt_ids_in.append(tgt_in)
            tgt_ids_out.append(tgt_out)

        return (torch.tensor(src_ids), torch.tensor(tgt_ids_in), torch.tensor(tgt_ids_out))

    print("开始训练...")
    model.train()

    for epoch in range(n_epochs):
        total_loss = 0

        for i in range(0, len(src_sentences), batch_size):
            src_batch = src_sentences[i:i+batch_size]
            tgt_batch = tgt_sentences[i:i+batch_size]

            src_ids, tgt_in_ids, tgt_out_ids = prepare_batch(
                src_batch, tgt_batch, src_vocab, tgt_vocab
            )

            # 创建掩码
            src_mask = create_padding_mask(src_ids)
            tgt_mask = create_causal_mask(tgt_in_ids.size(1))

            optimizer.zero_grad()
            logits = model(src_ids, tgt_in_ids, src_mask, tgt_mask)

            # logits: (batch, tgt_seq_len, tgt_vocab_size)
            # tgt_out_ids: (batch, tgt_seq_len)
            loss = criterion(logits.view(-1, logits.size(-1)), tgt_out_ids.view(-1))

            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
            optimizer.step()

            total_loss += loss.item()

        if (epoch + 1) % 20 == 0:
            print(f"Epoch {epoch+1:3d}/{n_epochs}, Loss: {total_loss:.4f}")

    print("训练完成！")
    return model

model = train_transformer()

11.3 推理（贪心解码）

def greedy_decode(model, src_sentence, src_vocab, tgt_vocab, max_len=20):
    """贪心解码：每步选概率最高的 token"""
    model.eval()

    with torch.no_grad():
        # 编码源句子
        src_tokens = [1] + [src_vocab.get(w, 0) for w in src_sentence.lower().split()] + [2]
        src_tensor = torch.tensor([src_tokens])  # (1, seq_len)
        src_mask = create_padding_mask(src_tensor)
        encoder_output = model.encoder(src_tensor, src_mask)

        # 逐步解码
        tgt_tokens = [1]  # 从 <sos> 开始
        for _ in range(max_len):
            tgt_tensor = torch.tensor([tgt_tokens])
            tgt_mask = create_causal_mask(len(tgt_tokens))

            logits = model.decoder(tgt_tensor, encoder_output, src_mask, tgt_mask)
            next_token_logits = logits[0, -1, :]

            # 选概率最高的
            next_token = next_token_logits.argmax().item()

            if next_token == 2:  # <eos>
                break

            tgt_tokens.append(next_token)

    # 将 token IDs 转为单词
    id_to_token = {v: k for k, v in tgt_vocab.items()}
    decoded = [id_to_token[t] for t in tgt_tokens[1:]]  # 去掉 <sos>
    return ' '.join(decoded)

# 测试
test_sentences = ["i live in AI", "hello world", "the cat is on the mat"]
for sent in test_sentences:
    result = greedy_decode(model, sent, src_vocab, tgt_vocab)
    print(f"输入: {sent:30s} → 输出: {result}")

输出可能类似：

输入: i live in AI               → 输出: j adore l ia
输入: hello world                → 输出: bonjour le monde  
输入: the cat is on the mat      → 输出: le chat est sur le tapis

由于训练数据很小（仅 4 个句子），模型只能泛化到一些简单的模式下。但看到模型能学会这种模式匹配，已经证明了我们实现的 Transformer 从数据流角度是完全正确的。

十二、训练技巧与经验总结

亲手实现 Transformer 并训练它，和只调 API 是完全不同的体验。这里分享几个在训练过程中最容易踩坑的地方和对应的解决方案。

12.1 学习率调度：Warmup + Decay

Transformer 对学习率非常敏感，过大的学习率会导致训练一开始就发散（Loss → NaN），过小的学习率则收敛极慢。原始论文使用的学习率调度策略是：

lr = d_model^(-0.5) · min(step^(-0.5), step · warmup_steps^(-1.5))

翻译成中文：前 warmup_steps 步线性增长（warmup），之后按步数的平方根衰减（decay）。这种策略背后的直觉是：

Warmup 阶段：模型刚初始化，参数分布不稳定，用小学习率"预热"可以让梯度在正确的方向上积累。没有 warmup，初始的大步长可能导致梯度爆炸。
Decay 阶段：随着训练进行，模型接近局部最优，减小步长有助于精细收敛。

代码实现：

class TransformerLRScheduler:
    """
    Transformer 学习率调度器

    公式: lr = d_model^(-0.5) * min(step^(-0.5), step * warmup_steps^(-1.5))
    """
    def __init__(self, optimizer: torch.optim.Optimizer, 
                 d_model: int, warmup_steps: int = 4000):
        self.optimizer = optimizer
        self.d_model = d_model
        self.warmup_steps = warmup_steps
        self.current_step = 0
        self.base_lr = d_model ** (-0.5)

    def step(self):
        self.current_step += 1
        lr = self.base_lr * min(
            self.current_step ** (-0.5),
            self.current_step * self.warmup_steps ** (-1.5)
        )
        for param_group in self.optimizer.param_groups:
            param_group['lr'] = lr
        return lr

# 使用示例
optimizer = torch.optim.Adam(model.parameters(), betas=(0.9, 0.98), eps=1e-9)
scheduler = TransformerLRScheduler(optimizer, d_model=512, warmup_steps=4000)

for epoch in range(n_epochs):
    for batch in dataloader:
        loss = train_step(batch)
        loss.backward()
        optimizer.step()
        scheduler.step()  # 每个 step 更新学习率

Warmup steps 的典型值：小模型（d_model=128）用 1000-2000 步，大模型（d_model=512+）用 4000-8000 步。如果 GPU 资源有限，可以适当减少 warmup 步数，但不要完全去掉 warmup——没有 warmup 的 Transformer 训练，Loss 大概率会一路直奔 NaN。

12.2 Label Smoothing（标签平滑）

交叉熵损失函数的目标是让模型对正确标签的概率趋近于 1，对其他标签趋近于 0。这其实有一个问题：模型会变得过于"自信"。过拟合的模型在训练集上学到的分布过于尖锐，泛化能力会下降。

Label Smoothing 的解决方法是：不让目标分布是 hard one-hot，而是给其他标签留一点"生存空间"。

class LabelSmoothingLoss(nn.Module):
    """
    标签平滑交叉熵损失

    参数:
        smoothing: 平滑系数（典型值 0.1）
        ignore_index: 忽略的 token ID（通常是 <pad>）
    """
    def __init__(self, smoothing: float = 0.1, ignore_index: int = 0):
        super().__init__()
        self.smoothing = smoothing
        self.ignore_index = ignore_index

    def forward(self, logits: torch.Tensor, targets: torch.Tensor):
        """
        logits: (batch, seq_len, vocab_size) — 模型原始输出
        targets: (batch, seq_len) — 目标 token IDs
        """
        vocab_size = logits.size(-1)

        # 构造平滑后的目标分布
        # 正确标签概率 = 1 - smoothing + smoothing / vocab_size
        # 错误标签概率 = smoothing / vocab_size
        smooth_targets = torch.full_like(logits, self.smoothing / (vocab_size - 1))
        smooth_targets.scatter_(-1, targets.unsqueeze(-1), 1.0 - self.smoothing)

        # 计算 KL 散度
        log_probs = F.log_softmax(logits, dim=-1)
        loss = -(smooth_targets * log_probs).sum(-1)

        # 忽略 padding 位置
        mask = (targets != self.ignore_index).float()
        loss = (loss * mask).sum() / mask.sum()

        return loss

原始论文使用 smoothing=0.1。直观上看，这相当于告诉模型："正确标签的概率要达到 90%，剩下的 10% 分给其他所有标签"。这让模型的输出分布更加平滑，泛化能力更强。

12.3 推理时的 Beam Search

之前的 greedy decode 每步只选概率最高的 token，这其实是一种局部最优策略——局部最优点不一定是全局最优。Beam Search（束搜索）通过维护 K 个候选序列来探索更优的解：

def beam_search(model, src_sentence, src_vocab, tgt_vocab, 
                beam_size=3, max_len=20):
    """束搜索解码"""
    model.eval()

    with torch.no_grad():
        # 编码源句子
        src_tokens = [1] + [src_vocab.get(w, 0) for w in src_sentence.lower().split()] + [2]
        src_tensor = torch.tensor([src_tokens])
        src_mask = create_padding_mask(src_tensor)
        encoder_output = model.encoder(src_tensor, src_mask)

        # 初始化 beams: (sequence, log_prob, finished)
        beams = [([1], 0.0, False)]  # (<sos>, log_prob=0, finished=False)
        finished_beams = []

        for step in range(max_len):
            new_beams = []

            for seq, log_prob, finished in beams:
                if finished or len(finished_beams) >= beam_size:
                    finished_beams.append((seq, log_prob))
                    continue

                # 前向计算
                tgt_tensor = torch.tensor([seq])
                tgt_mask = create_causal_mask(len(seq))
                logits = model.decoder(tgt_tensor, encoder_output, src_mask, tgt_mask)

                # 取最后一步的概率分布
                next_logits = logits[0, -1, :]
                next_probs = F.log_softmax(next_logits, dim=-1)

                # 取概率最高的 beam_size 个候选
                topk_probs, topk_ids = next_probs.topk(beam_size)

                for i in range(beam_size):
                    new_seq = seq + [topk_ids[i].item()]
                    new_log_prob = log_prob + topk_probs[i].item()

                    if topk_ids[i].item() == 2:  # <eos>
                        finished_beams.append((new_seq, new_log_prob))
                    else:
                        new_beams.append((new_seq, new_log_prob, False))

            # 按 log_prob 排序，保留 top beam_size
            new_beams.sort(key=lambda x: x[1], reverse=True)
            beams = new_beams[:beam_size]

            # 如果所有 beam 都结束了
            if len(finished_beams) >= beam_size:
                break

        # 选择最优序列
        finished_beams.sort(key=lambda x: x[1], reverse=True)
        best_seq = finished_beams[0][0] if finished_beams else beams[0][0]

        # 转回单词
        id_to_token = {v: k for k, v in tgt_vocab.items()}
        result = []
        for t in best_seq[1:]:  # 跳过 <sos>
            if t == 2:  # <eos>
                break
            result.append(id_to_token.get(t, '<unk>'))

        return ' '.join(result), finished_beams[0][1] if finished_beams else beams[0][1]

Beam Search 的核心参数：
- beam_size = 1：退化为 Greedy Decode，速度最快但质量一般
- beam_size = 4：质量与速度的良好平衡（工业界最常见）
- beam_size = 8+：质量最佳但速度大幅下降

值得注意的是，近年来随着模型规模的增大（特别是 ChatGPT 等生成式模型），Greedy Decode 的效果开始接近甚至超过 Beam Search。原因是大型模型对概率分布的建模更加准确，局部最优≈全局最优。

12.4 常见的调试检查清单

如果你的 Transformer 训练不收敛，可以按这个顺序排查：

Overfitting 测试：在 1-2 个样本上训练，看 Loss 能不能降到接近 0（模型能否"记住"数据）。如果不能，说明代码有 bug。
Shape 检查：逐一检查每层输入输出的 shape 是否正确。最常见错误是 attention 的 Q/K/V 维度不匹配。
Mask 检查：打印出 mask 的值，手动验证因果掩码：第 i 行第 j 列应该是 j ≤ i 时为 1，否则为 0。
Loss 初始值：在第一次 forward 后，Loss 应该在 log(vocab_size) 附近（因为初始预测是均匀分布）。若偏差过大，检查 softmax 是否正确。
梯度检查：使用 torch.autograd.gradcheck 验证自定义层的梯度计算是否正确。

十三、从原始 Transformer 到现代 LLM 的演进

理解了原始 Transformer 后，你会发现现代 LLM 的架构变体非常容易理解。以下是关键的演进路径：

13.1 Encoder-Only：BERT 路线

BERT 使用 Transformer 的 Encoder 部分，没有 Decoder。因为 BERT 要做的是语言理解（分类、标注、抽取），而不是生成。最关键的修改是：

双向 Self-Attention（没有因果掩码）
去掉 Decoder 和 Cross-Attention
预训练任务：Masked Language Model + Next Sentence Prediction

适用场景：文本分类、实体识别、情感分析、相似度计算。

13.2 Decoder-Only：GPT 路线（统治了整个 2024-2025）

GPT 系列使用 Transformer 的 Decoder 部分，没有 Encoder。这听起来反直觉——为什么去掉 Encoder 反而成了主流？

关键洞察：只要模型足够大、数据足够多，Decoder-Only 架构通过自回归训练就能学会理解+推理+生成。Decoder 的因果掩码强制模型不能"作弊"（看到未来 token），迫使模型学习真正的语言理解和推理能力。

现代 Decoder-Only 架构的主要改进：
- LLaMA（2023）：Pre-Norm（RMSNorm）+ SwiGLU + RoPE（旋转位置编码）
- LLaMA 2/3（2024-2025）：GQA（分组查询注意力）= 在多查询注意力和标准多头注意力之间取平衡
- DeepSeek-V3（2024/12）：MLA（Multi-head Latent Attention）+ MoE（混合专家）。MLA 将 Key-Value 缓存压缩到低维隐空间，推理时显存占用降低 80%
- DeepSeek-R1（2025/01）：在 DeepSeek-V3 基础上引入强化学习推理链路，让模型在推理时"思考"多步再回答

13.3 Encoder-Decoder：T5 路线

T5（Text-to-Text Transfer Transformer）保留了完整的 Encoder-Decoder 架构，将所有 NLP 任务统一为"文本到文本"的形式。适合机器翻译、文本摘要等生成+理解场景。

13.4 关键改进一图总结

                     原始 Transformer (2017)
                    /         |           \
                   /          |            \
            Encoder-Only   Decoder-Only   Encoder-Decoder
              (BERT)         (GPT)           (T5)
                |              |               |
          RoBERTa/ALBERT   GPT-2/GPT-3    Flan-T5/UL2
                |              |               |
          LayoutLM/CodeBERT  LLaMA/LLaMA2   BART/Pegasus
                             |               |
                          DeepSeek-V3/R1
                          GPT-4/GPT-4o
                          Qwen/Claude

十四、常见问题与排查指南

Q1：训练 Loss 不收敛怎么办？

排查步骤：
1. 检查数据预处理：词汇表是否正确？Padding 是否正确？
2. 检查掩码：因果掩码是否正确？Padding mask 是否正确？
3. 检查初始化：使用 Xavier 初始化了吗？
4. 降低学习率：Transformer 对学习率敏感，尝试从 1e-4 开始
5. 梯度裁剪：添加 clip_grad_norm_
6. 增加 warmup：前 10% 步数将 lr 从 0 线性增加到目标值

Q2：推理输出全是相同的 token？

这通常是因为 Decoder 的因果掩码没加好——模型在训练时 "看到了" 未来的 token，学到了"抄袭"策略而不是真正理解。检查 create_causal_mask 是否正确。

Q3：显存不够怎么办？

减小 batch size
减小序列长度（max_len）
使用梯度累积模拟更大的 batch
开启混合精度训练（torch.cuda.amp）
使用 Flash Attention（可降低显存占用 50%+）

Q4：推理速度太慢？

实现 KV Cache（缓存历史 K/V，避免重复计算）
使用批量推理处理多个请求
考虑量化（INT8/FP4）降低计算量

十五、总结

本文从零手写了一个完整的 Transformer 模型，涵盖了从 Scaled Dot-Product Attention 到完整 Encoder-Decoder 架构的全部组件。

核心收获：

Attention 的本质：Query 找 Key，用相似度加权 Value。Scaling 因子 √d_k 对训练稳定性至关重要。
Multi-Head 的设计哲学：多个注意力头并行，每个头关注不同的关系子空间，最后拼接融合。理解 view + transpose 的数据流是掌握多头注意力的关键。
位置编码：Transformer 排列不变性的破局之道。正弦编码不仅能区分位置，还能隐式表达相对位置关系。
Pre-LN vs Post-LN：现代模型普遍采用 Pre-LN，训练更稳定。
Decoder 的核心差异：因果掩码防止看到未来 + Cross-Attention 连接 Encoder 信息。

理解这些底层原理的价值，不仅仅是"提升技术素养"。当你使用 vLLM、TensorRT-LLM 等推理框架时，遇到性能瓶颈你才知道：
- 瓶颈在 Attention 计算？→ 考虑 Flash Attention 或 PagedAttention
- 瓶颈在显存带宽？→ 考虑 KV Cache 量化或 MLA
- 瓶颈在内存容量？→ 考虑 Speculative Decoding

这些能力都建立在对 Transformer 底层机制的深刻理解之上。

所有评论(0)

查看更多评论

picture_share

@picture_share

已为社区贡献31条内容

手写 Transformer：从零实现多头注意力机制与完整架构（附完整代码）

picture_share

一、引言：为什么 Transformer 是 AI 的"地基"

二、Transformer 宏观架构速览

2.1 Encoder（编码器）

2.2 Decoder（解码器）

2.3 为什么这个架构如此强大？

三、Scaled Dot-Product Attention：一切的基础

3.1 数学原理

3.2 为什么需要 Scaling？

3.3 代码实现

3.4 单元测试

四、Multi-Head Attention：并行关注不同角度

4.1 为什么需要多头？

4.2 代码实现

4.3 对初学者最容易出错的尺寸转换

4.4 掩码机制详解

五、Positional Encoding：给序列注入"位置感"

5.1 为什么 Self-Attention 需要位置编码？

5.2 正弦编码的巧妙设计

5.3 代码实现

5.4 可视化不同位置的编码

六、Feed-Forward Network：非线性变换层

七、Layer Normalization：稳定训练的基石

7.1 LayerNorm vs BatchNorm

7.2 代码实现

八、完整的 Encoder Layer

九、完整的 Decoder Layer

十、组装完整 Transformer

十一、端到端训练 Demo：英法翻译

11.1 准备数据

11.2 训练循环

11.3 推理（贪心解码）

十二、训练技巧与经验总结

12.1 学习率调度：Warmup + Decay

12.2 Label Smoothing（标签平滑）

12.3 推理时的 Beam Search

12.4 常见的调试检查清单

十三、从原始 Transformer 到现代 LLM 的演进

13.1 Encoder-Only：BERT 路线

13.2 Decoder-Only：GPT 路线（统治了整个 2024-2025）

13.3 Encoder-Decoder：T5 路线

13.4 关键改进一图总结

十四、常见问题与排查指南

Q1：训练 Loss 不收敛怎么办？

Q2：推理输出全是相同的 token？

Q3：显存不够怎么办？

Q4：推理速度太慢？

十五、总结

推荐阅读

所有评论(0)

温馨提示：您尚未绑定手机号

picture_share