003、大模型原理初探：Transformer架构与注意力机制详解

xiaoyaohou11

148人浏览 · 2026-03-27 09:15:34

xiaoyaohou11 · 2026-03-27 09:15:34 发布

从一次诡异的文本生成bug说起

上周在调试一个中文对话模型时，遇到个怪事：输入“我喜欢北京的春天和上海的秋天”，模型生成的回复里总把“北京”和“上海”搞混。用传统RNN的思路去查位置编码，折腾半天没找到问题。直到我把注意力权重矩阵可视化出来——好家伙，模型在解码“春天”时，居然给“上海”分配了0.3的注意力权重。这个反直觉的现象，让我重新审视了Transformer里那个看似简单的注意力机制。

Transformer不是“变形金刚”，是特征搅拌机

很多人第一次看Transformer论文，都被那个左右对称的架构图唬住了。其实抛开那些花哨的连线，它的核心就是个多轮特征搅拌系统。Encoder把输入序列搅拌成稠密特征汤，Decoder用这锅汤熬出输出序列。而搅拌勺，就是今天要细说的注意力机制。

注意力：模型自己的“重点标记笔”

想象你在读一篇技术文档，眼睛会自动跳转到关键术语上。注意力机制干的就是这事——让模型自己决定该看哪里。

# 简化版注意力计算（实际用torch实现，这里展示逻辑）
def naive_attention(query, key, value):
    # query: 当前要处理的token [1, dim]
    # key: 所有可供参考的token [seq_len, dim]  
    # value: 实际要提取的信息 [seq_len, dim]
    
    scores = query @ key.T  # 相似度打分
    # 这里踩过坑：不加缩放，softmax后梯度容易消失
    scores = scores / (dim ** 0.5)  
    
    weights = softmax(scores)  # 归一化成概率分布
    # 可视化这个weights，能看到模型到底在关注谁
    
    output = weights @ value  # 加权求和
    return output  # [1, dim]

关键在哪？每个token都能直接看到序列中任何位置的token，不用像RNN那样一步步传。这种“全连接视野”带来了两个实际好处：并行计算爽快了，长距离依赖建模容易了。

多头注意力：多视角交叉验证

但只用一套注意力太武断——就像只用一个关键词搜索文档，容易漏信息。Transformer用了“多头”设计：

# 伪代码示意多头
head1 = attention(query_part1, key_part1, value_part1)  # 关注语法结构
head2 = attention(query_part2, key_part2, value_part2)  # 关注语义关联
head3 = attention(query_part3, key_part3, value_part3)  # 关注指代关系
# ... 通常8个头或更多

# 把多个头的输出拼接起来
combined = concat([head1, head2, head3, ...])
# 再做个线性变换调整维度
output = linear(combined)

每个头学习不同的关注模式。实际调试时你会发现，有的头专盯局部语法（比如动词和宾语的搭配），有的头负责长距离指代（比如“它”指代前面哪个名词）。这种分工不是预设的，是训练中自发形成的——模型自己找到了高效的特征分解方式。

位置编码：给无序的注意力加上顺序感

注意力本身是位置无关的——“我喜欢北京”和“北京喜欢我”在它看来没区别。这显然不行。Transformer的解决方案很巧妙：给每个token嵌入一个位置信号。

# 正弦版本的位置编码（原始论文方案）
def get_position_encoding(seq_len, dim):
    pos = arange(seq_len).reshape(-1, 1)  # 位置序号
    # 用不同频率的正余弦函数
    angles = pos / (10000 ** (arange(dim) // 2 * 2 / dim))
    
    encoding = zeros((seq_len, dim))
    encoding[:, 0::2] = sin(angles[:, 0::2])  # 偶数维用sin
    encoding[:, 1::2] = cos(angles[:, 1::2])  # 奇数维用cos
    
    return encoding  # [seq_len, dim]

为什么用三角函数？因为它能天然地表示相对位置——位置12和位置13的编码差异，与位置25和位置26的编码差异是相似的。模型能学到“相邻位置”这个概念。

不过在实际工程中，现在更常用可学习的位置编码（直接训练一个位置嵌入表）。效果差不多，但实现简单，尤其适合变长序列。

Encoder-Decoder：两阶段特征蒸馏

理解了注意力，再看整体架构就清晰了：

Encoder层（通常堆叠12-24层）：

多头注意力搅拌输入特征
前馈网络进一步变换（两个线性层夹个ReLU）
每步都有残差连接和LayerNorm——这两个是训练稳定的关键，别随便去掉

Decoder层（与Encoder层数相同）：

带掩码的多头注意力：防止看到未来信息（训练时）
交叉注意力：这是连接Encoder输出的关键！Query来自Decoder，Key/Value来自Encoder最后一层输出
前馈网络

那个掩码注意力值得多说一句：训练时，解码是并行的（整个目标序列一次输入），但每个位置只能看到它之前的位置。实现时加个上三角掩码矩阵（对角线以上全为负无穷），softmax后就变成0了。

实战中的几个坑

注意力权重可视化是调试神器：当你发现生成文本胡言乱语时，可视化Encoder的注意力图，经常能看到某些头已经“坏掉”（权重均匀分布或聚焦在无关位置）。这时候可能需要检查梯度或降低学习率。
Key的序列长度影响计算量：交叉注意力中，Key来自Encoder输出。如果输入序列很长（比如一篇文档），内存和计算量会暴涨。这就是后来各种改进架构（如Longformer、Reformer）要解决的核心问题。
位置编码的溢出问题：用可学习位置编码时，如果推理时输入长度超过训练时的最大长度，需要外推。三角函数式的外推性稍好，但也不是无限。实际做法是训练时就把最大长度设得足够大。
Decoder的缓存技巧：推理时，Decoder每步的Key/Value可以缓存起来，避免重复计算。这是推理加速的常用手段，但实现时要小心内存管理。