Transformer大模型学习必备：揭秘被低估的残差连接，助你轻松收藏与掌握！

嘴巴吃糖了

411人浏览 · 2026-04-29 11:56:19

嘴巴吃糖了 · 2026-04-29 11:56:19 发布

一个被低估的设计

有时候觉得看模型架构，就好像在拆一个高达，当我拆 Transformer 拆到残差连接的时候，我停下来想了一会儿。

原因很简单：它太不起眼了。

比起 Self-Attention 那套“每个词注意到所有词”的惊艳直觉，比起多头注意力那种并行计算的优雅，残差连接看起来就像一个偷懒的加法操作：y = F(x) + x。把输入绕个圈加回来(如下图所示的add&Norm，就是残差连接)，没了。

Transformer功能架构中残差所处的位置

但 Transformer 如果没有这个加法，就像高楼没有地基，上面再漂亮的 Attention 结构，也堆不了几层。说到底，这可能是深度学习里最被低估的一个设计。

关于抄近道的故事

说起来这残差连接，最早不是为 Transformer 设计的。它来自 2015 年的 ResNet（残差网络），那一年 ImageNet 竞赛上，一个 152 层的网络震惊了计算机视觉界。

为什么 152 层是件大事？因为在那之前，网络一深就废。

道理很朴素：你把 10 层网络叠成 50 层，按理说更深的网络表达能力更强，效果应该更好吧？但实际训练时发现，50 层的误差反而比 20 层的还大。不是过拟合，就是单纯训不动。

问题出在一个叫梯度消失的现象上。

想象一下，你在一栋 50 层的大楼里喊话（正向传播），信息一层层传上去。然后你要从 50 楼跑下来，告诉每一层怎么调整（反向传播）。但每下一层，你的声音就弱一分，等到一楼的时候几乎听不见了。这就是梯度消失：越靠前的层，学到的东西越少。

怎么解决？ResNet 的答案简单到让人怀疑：给每层旁边修一条直达通道。

传统网络和带残差连接网络的区别

这样一来，梯度信号可以从输出层直接跳回输入层，完全绕过中间的弯弯绕绕。数学上，反向传播时梯度路径上多了一个 +1——这个 +1 就是那条「高速公路」。

残差连接到底在做什么？

公式极其简单：y = F(x) + x ，x是输入，F(x) 是经过 Attention 或 Feed Forward 变换后的结果。但这里的哲学很有意思。传统网络的思路是：你要学会从输入到输出的完整映射。就像一个学生要从零开始学做一道菜，每一个步骤都不能错。

残差连接的思路是：你只需要学会输入和输出之间的差距。学生只需要关注自己这一层的“贡献”：原材料已经在那里了，你往上面加料就行。

这种设计的好处是什么？

梯度有了专用通道。前面说了，反向传播时梯度路径上有个 +1，相当于给梯度修了一条紧急通道，不管中间变换多复杂，梯度都能直达前层。
网络层可以“偷懒”。如果某一层发现自己不太需要改变什么（比如某个特征已经足够好了），它可以直接学习到，输出几乎等于输入。网络不会因为“必须做点什么”而引入噪声。
信息不容易串味。Attention 负责捕捉词之间的交互关系，残差连接保留了原始输入信息。两者相加，各司其职——Attention 做“精加工”，残差通道做“保真”。

我自己的理解：残差连接像极了代码里的 immutable update 模式——你不修改原始数据，而是在原始数据的基础上叠加增量，最终得到一个新旧融合的结果。这种模式在复杂系统中天然稳定，因为它保证了原始信息通路始终存在，不会因为中间处理而丢失。

Transformer 里的两条传送带

如果你打开一个标准的 Transformer Encoder 层，你会看到两条残差连接：一条在 Attention 子层之后，一条在 Feed Forward 子层之后（正如开头那张经典架构图）。

可以看到残差连接在架构中的作用明显

残差①：把原始输入和 Attention 输出相加。Attention 负责建立 token 之间的语义关系，残差负责：我记得你本来长什么样。两者加起来就是：从原始词义出发，带上上下文信息。

残差②：把 Attention 子层的输出和 FFN 输出相加。FFN 负责对每个 token 做独立变换，残差负责“我记得上下文关系”。两者加起来就是：在已知上下文的基础上，做特征增强。

还有一点值得注意：现代 Transformer（GPT、LLaMA 系列）普遍用了 Pre-LayerNorm——把 LayerNorm 放在子层之前而不是之后。这个设计改动和残差连接关系很大。Pre-LN 让残差路径上的信息流动更干净，不受 Normalization 干扰，训练更稳定。

残差连接的“天花板”与 mHC

残差连接解决了能不能堆深的问题，但新的问题又来了：当模型堆到几千亿参数时，简单的加法还够用吗？

DeepSeek 的研究者们发现了一个微妙的现象：在极深网络中，传统残差连接的自由流动模式反而成了问题。信息每经过一层虽然名义上保留了恒等路径，但几百层的累积效应下，有效信息被逐层稀释——有点像信号在长电缆中的衰减，虽然理论上有直连通道，但实际传输中仍然有损耗。

他们提出了 mHc(流形约束超连接)，思路很巧妙：

传统残差连接是一个简单的加法：
mHC 给这个加法加了一个约束，强制残差路径上的变换保持某种数学结构

具体来说，他们用 Sinkhorn-Knopp 算法迭代 20 次，把残差投影矩阵约束到接近双随机矩阵（行和列的和都接近 1），达到 99.6% 的约束度。这样做的好处是：信息在残差路径上流动时，不会因为不同维度的权重差异而产生扭曲。

这相当于在“高速公路”上加了一道护栏，车可以跑得很快，但不会偏出车道。

Kimi（Moonshot AI）也在探索类似的方向，用可学习的注意力权重来替代简单加法。这说明一个趋势：残差连接这个看似已经解决的问题，在大模型时代又被重新打开了。

一点真实的感受

了解了残差连接，也切实理解了这种思想在是深度学习里也是必要的存在。Attention 让人兴奋，因为它直觉上就聪明，“让每个词关注所有相关词，一听就合理。但残差连接给人的第一印象是这也太简单了吧，简单到让人怀疑它是否真的有用。然而正是这种简单，折射出了一个深层道理：一个系统要想变得复杂，必须先解决最基础的信息传递问题。

没有残差连接，Transformer 堆不到那么多层，也就不可能通过深度来获得表达能力。没有恒等映射路径，反向传播在 50+ 层的网络中就是纸上谈兵。

这让我想起计算机科学里一个经典的设计原则——不要打破抽象层。每一层只做自己的事，然后把结果传给下一层。残差连接本质上就是在保证：无论中间层做了多复杂的变换，原始信息始终有一条不受干扰的通道。这和分离关注点（Separation of Concerns）的哲学如出一辙。