《Attention Is All You Need》读书报告

the lion of March · 2026-04-05 11:33:03 发布

论文标题：Attention Is All You Need
作者团队：Ashish Vaswani, Llion Jones, Noam Shazeer 等（主要来自 Google Brain 和 Google Research）
发表时间：2017年（NIPS 2017）
核心贡献：提出了一种全新的、完全基于注意力机制（Attention Mechanism）的网络架构——Transformer，彻底抛弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）。

在 Transformer 提出之前，主流的序列转录模型（如机器翻译）严重依赖于复杂的循环神经网络（RNN，如 LSTM、GRU）或卷积神经网络（CNN），并采用 Encoder-Decoder（编码器-解码器）架构。

传统架构的痛点：

难以并行化（RNN的致命伤）：RNN 的本质是序列计算，计算当前状态 必须依赖上一个状态 。这种顺序特性导致模型无法在训练样本内部进行高度并行化，严重限制了计算效率，尤其是在处理长序列时。
长距离依赖问题：虽然 LSTM 缓解了梯度消失问题，但在极长的序列中，相隔很远的两个词建立联系仍然非常困难。
CNN的局限性：虽然基于 CNN 的模型（如 ByteNet, ConvS2S）可以并行计算，但关联两个相距较远的输入位置需要堆叠大量的卷积层，导致长距离依赖的学习变得极其困难。

为了解决这些问题，作者提出了**“仅仅需要注意力机制”**的破局思路。

Transformer 依然采用了 Encoder-Decoder 的整体架构，但内部的子层发生了翻天覆地的变化。

这是 Transformer 的最小运算单元。它将输入映射为三个向量：Query (Q，查询), Key (K，键) 和 Value (V，值)。

其数学表达式为：

为什么要除以 （缩放因子）？
作者发现在（Key的维度）较大时，点积的结果会变得非常大，导致传入 softmax 函数后落入梯度极小的区域（梯度消失）。除以维度的平方根可以平滑 softmax 的输出，保持梯度的稳定。

作者没有直接对整个高维向量做一次 Attention，而是将 Q、K、V 通过不同的线性变换投影到多个低维子空间中，分别计算 Attention，最后再拼接起来。

优势：允许模型在不同的表示子空间（Representation Subspaces）中并行地关注不同位置的信息。例如，有的“头”可能关注语法结构，有的“头”可能关注指代消解。

编码器自注意力 (Encoder Self-Attention)：Q, K, V 均来自编码器的上一层。序列中的每个词都可以关注序列中的所有其他词。
解码器自注意力 (Decoder Self-Attention)：加入了一个 Mask（掩码）机制。为了保持自回归特性（预测当前词时不能“偷看”未来的词），模型将未来位置的注意力得分设为。
编码器-解码器注意力 (Encoder-Decoder Attention)：Q 来自上一个解码器层，而 K 和 V 来自编码器的输出。这让解码器在生成每个词时，都能去关注输入序列中最相关的部分。