论文标题:Technical report of Attention Residuals

(注意力残差技术报告)

论文主题:用“注意力残差”(AttnRes)替代传统的“残差连接”(Residual Connections),让模型在深度堆叠时能更智能地选择和利用信息。

论文链接↓↓↓

https://arxiv.org/pdf/2603.15031

《注意力残差 (Attention Residuals)》论文解读

1. 一句话总结

Kimi 团队提出了一种名为“注意力残差 (Attention Residuals,简称AttnRes)”的新型网络连接范式,利用“时间与深度的对偶性”,将 Transformer 中的注意力机制从“序列维度”迁移到“深度维度”,用可学习的 Softmax 权重替代传统的固定残差累加,解决了深层网络中的信息稀释 (Dilution) 问题,在几乎不增加推理成本的情况下显著提升了模型性能。

2. 背景与问题:标准残差的“阿喀琉斯之踵”

现代大模型(LLM)普遍采用 PreNorm + 残差连接 (Residual Connection) 的结构。虽然残差连接解决了梯度消失问题,但随着模型层数   的增加,它暴露出了严重的局限性:

  • 信息稀释 (Dilution): 标准残差公式为 。展开后,第   层的输入实际上是所有前面层输出的等权重累加。随着深度增加,隐藏状态的幅度   线性增长,导致每一层的相对贡献被无限稀释(就像一滴墨水滴入不断变大的湖泊中)。
  • 缺乏选择性: 传统残差像一个“无脑搬运工”,不管前面层的信息是否有用,都一股脑加进来。它无法像注意力机制那样,根据内容选择关注哪些 Token。
  • PreNorm 的副作用: 为了稳定训练,PreNorm 强制隐藏状态归一化,这导致深层网络必须输出巨大的梯度才能对抗归一化,造成训练动态极不均衡(深层梯度大,浅层梯度小)。

3. 核心方法:从 RNN 到 Transformer 的深度复刻

“将注意力旋转 90°”——论文作者之一 Yulun Du

论文的核心洞察是:“序列维度 (Time) 的 RNN 到 Transformer 的演进,应该在深度维度 (Depth) 上复刻一遍。”

  • 直觉类比:
    • 序列维度: RNN 通过隐藏状态传递信息(容易遗忘长距离信息)   
                         Transformer 通过 Self-Attention 全局关注所有 Token。
    • 深度维度: 残差连接通过累加传递信息(容易稀释长距离层信息)   
                         Attention Residuals 注意力残差全局关注所有前层的输出。

关键公式与架构对比

特性

标准残差 (Standard Residual)

全注意力残差 (Full AttnRes)

公式

 

 

权重

固定权重 1

Softmax 权重  

计算逻辑

简单求和

 

  • V (Value) 前面每一层的实际输出
  • K (Key) 前面每一层的输出表示(通常经过 RMSNorm)。
  • Q (Query) w_l 这是核心创新点。 每一层  拥有一个与输入无关的可学习参数向量 。它不依赖于当前的 Token,而是代表了“这一层”的偏好,询问:“我应该从历史层中提取什么信息?”

工程化方案:分块注意力残差 (Block AttnRes)

为了防止  的计算爆炸,论文提出了 Block AttnRes

  1. 将  层网络分成  个块(例如 )。
  2. 块内使用标准残差累加。
  3. 块间使用注意力机制。即每一层关注的是前面所有“块”的摘要表示。
  4. 复杂度优化: 从  降至 ,且  通常很小,计算成本几乎可以忽略。

区别:

  • Full AttnRes(全注意力残差)
    每一层都能通过‌注意力机制‌,动态地、有选择地回顾并聚合‌之前所有层的输出‌。就像一个“全知型记忆系统”,可以随时调取任意早期信息。

  • Block AttnRes(块注意力残差)
    为了降低计算开销,将网络的多层划分为若干“块”(block),‌块内使用传统残差连接‌,而‌块之间‌才使用注意力机制进行信息聚合。相当于“摘要式记忆”,只记住每个块的“重点”,跨块时再做选择性回顾。

维度 Full AttnRes Block AttnRes
信息聚合范围 每层可访问所有前序层的输出 仅聚合各“块”的摘要信息
内存与通信开销 高,复杂度为 O(Ld)(L为层数) 低,复杂度降至 O(Nd)(N为块数)
适用场景 理想理论设计,适合小规模验证 大规模模型训练的实用方案
性能表现 理论最优,信息利用最充分 接近 Full AttnRes,实测损耗更低(如1.692 vs 1.714)
工程可行性 显存和通信压力大,难落地 可作为“即插即用”模块,额外开销不足4%
  • Full AttnRes‌ 像一个过目不忘的学者,每读一页书都完整存档,随时翻阅任意章节。但书越多,记忆负担越重。
  • Block AttnRes‌ 像一个聪明的学生,每读完一章写个摘要,后续只根据摘要决定是否回看,既省力又高效。

如图,该图为核心结论图。证明 AttnRes(Full 和 Block)(全量注意力残差与块注意力残差)在整个计算预算范围内一致优于 Baseline,且 Block AttnRes 的性能非常接近 Full 版本。

  • 核心结论:损失随 S 增大缓慢退化,S=2/4/8 时损失均接近 1.746(远优于 Baseline 的 1.766),而 S=1 时等价于 Full AttnRes(损失最低 1.737);
  • 工程指导:实际训练中固定块数 N≈8即可恢复 Full AttnRes 的绝大部分收益,兼顾性能与基础设施效率。

4. 工程优化:如何实现“零成本”落地?

为了让 Block AttnRes 在数千亿参数的大模型上训练,团队设计了精妙的系统级优化:

  1. 两阶段计算策略 (Two-phase Computation):
    • Phase 1 (并行): 计算所有块之间的注意力。因为 Query   是与输入无关的参数,这一阶段可以批量计算,极大减少了内存读写。
    • Phase 2 (串行): 计算块内的残差连接,并通过 Online-Softmax 将块内信息与块间注意力结果合并。
    • 效果: 推理延迟增加 < 2%
  2. 跨阶段缓存 (Cross-stage Caching):
    • 在流水线并行 (Pipeline Parallelism) 训练中,通常需要在不同 GPU 阶段传输激活值。
    • AttnRes 利用缓存机制,只传输增量的块摘要,而不是每一层的输出,消除了冗余通信。
    • 效果: 训练开销增加 < 4%

5. 实验结果:数据不会说谎

论文在 Kimi Linear 架构(48B 总参数 / 3B 激活参数)上进行了 1.4T token 的预训练验证:

  • 缩放定律 (Scaling Laws): Block AttnRes 的效果等同于标准残差模型使用 1.25 倍计算量训练出来的效果。这意味着它直接帮你节省了 20% 的训练成本。

在所有 5 个不同规模的模型上,Block AttnRes 和 Full AttnRes 的验证损失(Val. Loss)都低于基线(Baseline)。这再次证实了方法的鲁棒性。

  • 训练稳定性:
    • 隐藏状态幅度: 标准残差随深度线性爆炸,而 AttnRes 保持稳定。
    • 梯度分布: 标准残差的梯度集中在深层,而 AttnRes 的梯度在整个网络深度上分布均匀,证明了信息流动更通畅。

  • 下游任务提升 (48B 模型):
    • 数学与推理: GSM8K (+4.3), Math (+3.6)。这是最大的收益来源,因为注意力机制能更好地捕捉深层的逻辑链条。
    • 代码生成: HumanEval (+3.1)。
    • 知识理解: MMLU (+1.1)。

这是一张残差连接方法的“全家福”。

  • 总结了从传统的标准残差连接到 mHC 再到 AttnRes 的数学公式
  • 分类: 将它们分为“单状态递归”(如标准残差)、“多状态递归”(如 mHC)和“跨层连接”(如 AttnRes),确立了 AttnRes 在理论谱系中的位置。AttnRes (ours) 也被归入了跨层连接这一类。

6. 个人思考:亮点与局限

  • 最大亮点:架构的“优雅”与“必然”
  • 这项工作最大的价值在于它揭示了“序列-深度对偶性”。它证明了 Transformer 成功的核心——Softmax 注意力,不仅在序列上有效,在网络深度上同样有效。这不仅仅是修修补补,而是对神经网络信息聚合方式的根本性修正。
  • 潜在局限:
    • 从结构化矩阵的角度看,标准残差和 AttnRes 都可以看作是特殊的线性注意力。AttnRes 的核心优势在于引入了 Softmax 的非线性竞争机制,但这是否是唯一的解法仍有待观察。
    • 虽然通信优化做得很好,但在极深网络(>1000层)且不使用分块策略时,显存占用依然较高。

提出的问题

1. 宏观洞察与类比理解

  • 序列-深度对偶性: 想象一下,RNN 就像一个人在读一本书,读完一页就把内容总结成一句话记在便签上,然后翻页。读到第 100 页时,他只记得第 99 页的便签,完全忘了第 1 页的内容(长期依赖丢失)。Transformer 解决了这个问题,它把所有页的内容都摊开在桌上,随时可以看任何一页(Self-Attention)。“序列-深度对偶性” 指出,传统的残差连接在“层与层之间”的传递,其实和 RNN 的“页与页之间”传递是一模一样的问题。因此,我们也要把“便签纸”换成“摊开的桌面”,这就是在深度维度上应用注意力机制。
  • 信息稀释: 就像一个微信群里,每个人都按同样的音量说话。如果群里只有 3 个人,你能听清。如果群里有 1000 个人同时说话(深度增加),每个人为了让你听到,都得扯着嗓子喊(输出幅度 增长),结果就是一片嘈杂,谁也听不清谁(信息稀释)。
  • AttnRes 的解决之道: AttnRes 就像给群聊加了一个“静音”和“提神”的功能。每一层都可以选择性地把想听的那几层声音放大,把无关的噪音关掉,这样即使群里人再多,也能清晰地听到重点。

2. 核心算法与数学拆解

  • 标准残差缺陷: 展开公式  
  • 缺陷在于权重恒为 1。这导致模型无法区分哪些层的特征重要,且随着  L 增加,求和项爆炸。
  • Full AttnRes 公式推导:
  • 其中权重   由 Softmax 计算:
    • Query (q_l) 第  层的可学习偏好向量(Pseudo-query)。它代表了“第  层想要什么”。
    • Key (k_i) / Value (v_i) 第  层的实际输出。Key 用于计算匹配度,Value 用于加权求和。
  • 为何 Query 与输入无关? 如果 Query 依赖于当前输入 Token(Input-dependent),那么在计算时必须等待当前层的输入计算完毕,这会破坏模型的并行计算能力,导致训练速度变慢。Kimi 团队发现,使用与输入无关的参数化 Query(每层一个向量),既能通过 Softmax 实现层间的“竞争选择”机制,又能保持极高的计算并行效率。

3. 工程优化与系统设计

  • 引入 Block 的原因: 在千亿参数大模型训练中,显存和通信是瓶颈。Full AttnRes 需要保存每一层的中间状态(KV Cache),显存开销是  OLd。如果模型有 100 层,显存占用就是 100 份;如果分成了 8 个 Block,显存占用就只有 8 份,极大地降低了门槛。
  • 两阶段计算策略:
    • Phase 1 (并行): 利用 Query 是参数的特性,一次性计算当前块对所有历史块摘要的注意力权重。这一步是“粗筛选”。
    • Phase 2 (串行): 在块内部,像传统残差一样累加,但最后会将 Phase 1 的结果与块内累加结果通过 Online Softmax 合并。这一步是“精加工”。
  • 跨阶段缓存: 在流水线并行中,GPU 之间需要传输数据。如果没有缓存,每次传输都要把所有历史块的摘要传一遍。有了跨阶段缓存,GPU 会记住之前收到的块摘要,每次只传输“新产生的块摘要”。这就像同步文件夹,只传增量,不传全量,极大降低了通信量。

4. 批判性对比与评估

  • 对比分析:
    • Highway Networks 使用 Sigmoid 门控,权重是输入依赖的,但本质上还是线性组合,没有 Softmax 的竞争机制。
    • DenseNet 直接拼接所有层,参数量爆炸,无法扩展到大模型。
    • DeepSeek 的 MHC: 使用多流和约束矩阵,虽然也解决了部分信息流问题,但引入了复杂的矩阵运算和额外的流管理。AttnRes 仅引入了一个 Softmax 归一化的权重矩阵,形式上更接近 Transformer 的原始美学。
  • N=8 的甜点效应: 消融实验表明,当分块数  N 增加到 8 以上时,性能提升几乎停滞。 N=8 既能保留大部分历史信息的细粒度,又能将显存和通信开销压到最低。
  • 下游收益: 在 GSM8K(数学推理)上提升显著。这证明了 AttnRes 帮助模型建立了一条从浅层(提取数字)到深层(进行逻辑推导)的“信息高速公路”,让模型在做复杂数学题时,不会忘了题目里最初的数字。

一句话总结数学原理:该论文核心数学原理是基于 “时间与深度的对偶性”,将注意力机制从序列维度拓展至深度维度:通过每层独立的可学习查询向量 wl​,对前层输出 vi​ 做 RMSNorm 归一化后计算相似度,经 softmax 得到动态注意力权重 αi→l​,再通过

实现层间信息的选择性聚合,替代标准残差

的固定累加;同时为降低 O (L²d) 的复杂度,提出分块策略将层划分为 N 个块,通过块内累加、块间注意力将复杂度降至 O (N²d),配合跨阶段缓存与两阶段计算优化,在几乎不增加开销的前提下,解决了 PreNorm 稀释效应、梯度分布不均等问题,实现 1.25 倍计算效率提升与下游任务全面优化,为大模型残差连接提供了兼具理论与工程价值的升级方案。

工程实践:在工程实践与系统设计中,核心优化逻辑在于通过分治策略(Block Partitioning)将原本随深度二次增长的计算复杂度O(L^2) 降为可控的常数级开销,同时利用跨阶段缓存(Cross-stage Caching)与两阶段计算流水线消除分布式训练中的通信瓶颈,最终在几乎不增加显存与推理成本的前提下,实现了深度维度上的全局信息交互。


参考链接:

注意力残差论文原文https://arxiv.org/pdf/2603.15031

【AI】kimi2.5核心技术:注意力残差

【闪客】深入解读 Kimi 爆火论文,马斯克都转了!到底什么是注意力残差?白话解读哟_哔哩哔哩_bilibili

Kimi Team 最新论文《Attention Residuals》残差连接 | 动画讲解_哔哩哔哩_bilibili

260322 直播回放-Attention Residuals_哔哩哔哩_bilibili

【注意力残差】10分钟看懂 马斯克盛赞的Kimi最新技术_哔哩哔哩_bilibili

一起读论文01:注意力残差 | Attention Residuals | Kimi最新技术_哔哩哔哩_bilibili

练习两天半,从零实现kimi注意力残差,让马斯克点赞的kimi最新架构_哔哩哔哩_bilibili

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐