Gated DeltaNet 线性注意力：揭秘大模型算力魔咒的破局之道！

AI-椰子不椰

394人浏览 · 2026-03-31 19:55:24

AI-椰子不椰 · 2026-03-31 19:55:24 发布

文章深入探讨了线性注意力机制在大模型中的重要性，特别是Gated DeltaNet如何通过改变运算顺序，将Transformer的注意力计算复杂度从平方级降低到线性级，从而打破算力瓶颈。文中对比了阿里Qwen、Kimi Linear等模型的线性架构应用，以及MiniMax的转向，并详细解析了从Softmax Attention的局限到Gated DeltaNet的演进过程，揭示了其在保持高性能的同时降低计算需求的潜力。

芳树无人花自落，春山一路鸟空啼。小伙伴们好，我是"小窗幽记机器学习"的小编卖铁观音的小男孩。纵观近期爆发的开源大模型潮，一条隐秘的底层暗线已然浮出水面：以 Gated DeltaNet 为代表的线性注意力（Linear Attention），正在迅速“夺权”。

阿里系率先扛旗。从去年的 Qwen-next 到不久前发布的 Qwen 3.5，彻底告别纯全局注意力，杀入 3:1 混合架构（3 层 Gated DeltaNet + 1 层标准 Attention）。凭借近乎线性的复杂度，Qwen 硬生生把超长上下文塞进了消费级显卡的极限。

月之暗面紧随其后。去年底重磅发布的 Kimi Linear，同样以 Gated DeltaNet 为底座，甚至将其魔改到了极度精细的“特征通道级遗忘（Channel-wise KDA）”。他们向世人宣告：要支撑百万级 Token，线性模型也能拥有媲美 Full Attention 的变态级检索精度。

然而，就在阿里与Kimi高歌猛进之时，却有人突然紧急“跳车”。

曾经的“线性急先锋” MiniMax，曾激进地用 7:1 的闪电注意力（Lightning Attention）死磕百万 Token；却在最新的 M2 与 M2.5 版本中上演了极致的改旗易帜——出人意料地彻底抛弃线性架构，全面退回传统的纯 Softmax 多头注意力。为此，官方还专门写了一篇博客进行说明，感兴趣的小伙伴可以前往围观。

巨头们的激进与反水，将一个巨大的悬念直接拍在桌面上：线性注意力，究竟是打破算力魔咒的终极解药，还是极度难以调教的“炼金术”？

接下来，本文将带你从 Softmax 的历史死局出发，一路推演到 RNN 架构，最终揭开当下最硬核的终极形态——Gated DeltaNet。

全局符号约定

为了推导清晰，我们先统一以下符号：

：序列长度（Sequence Length）。
：隐藏层特征维度（Hidden Dimension）。
：注意力机制中的 Query, Key, Value 矩阵。
：代表第个 Token 对应的查询、键、值列向量。
：代表第步的输出列向量。

第一步：Softmax Attention 的“死局”

在深入枯燥的数学推导前，我们需要建立一个直观的“上帝视角”：Transformer 为什么会慢？

本质上，是因为标准注意力计算过程选择了的运算顺序。由于先计算出了一个的 Attention Map，这正是导致显存与计算量随序列长度 二次方（）增长的元凶。尽管像 FlashAttention 这样的工程优化显著降低了显存读写压力，但并没有改变其平方级的计算复杂度底色。

线性注意力的核心直觉，就是利用矩阵乘法的结合律“偷天换日”，将运算顺序强行调整为：

计算顺序变更：不再计算完整的矩阵，而是先计算（直接得到一个极小的状态矩阵），再让 Query 与这个状态相乘。
复杂度剧变：由于特征维度通常远小于序列长度（例如而），计算量瞬间从与相关降为与线性相关，从而彻底打破了的魔咒。

那么，这种“改变乘法顺序”的操作，在数学公式上到底该如何严谨地实现呢？我们从标准的因果注意力公式切入。

标准的因果注意力（Causal Attention）计算第个 token 的输出，公式是计算与历史所有的内积，经过 Softmax 得到权重，再对加权求和：

瓶颈在哪里？ 为了算出全局的输出，模型在底层必须执行矩阵乘法，计算出一个的庞大 Attention Map 矩阵，再对其做指数运算。空间和时间复杂度死死卡在。当极长时，显存直接撑爆。

第二步：破局——去掉 Softmax，化身线性 RNN

为了打破的魔咒，最早的 Linear Attention 提出了最暴力的解法：直接干掉公式里的函数和归一化分母（或者用其他线性函数替代）。

去掉后，第步的输出公式简化为：

在数学中，标量与向量相乘满足交换律。

的结果是一个标量（比如数值）。
是一个向量（比如维度为的列向量）。

所以：

因此，调整一下顺序：

注意，因为向量内积满足交换律，即，我们将其改写为：

核心魔法开始：标量与矩阵的结合律变换

在上述公式中，是的行向量，是的列向量，两者的乘积是一个标量（一个具体的数字）。把一个数字乘在向量上，相当于对进行了缩放。根据线性代数结合律，我们可以改变括号的位置：

这里的性质发生了奇妙的变化：是的列向量，是的行向量。两者相乘 变成了一个的矩阵！

把这个变换代回求和公式，并且由于对求和的过程中，是不随变化的常数向量，我们可以把 整体提取到求和符号的外面：

现在，我们令括号里的这堆东西为状态矩阵：

我们惊喜地发现，这个居然可以通过加上当前步的递归得来！于是我们得到了最基础的线性 RNN 形式：

为什么说复杂度变成了线性？在推理（生成）时，我们不需要像传统 Transformer 那样保存所有过去的和（即大家所熟悉的 KV Cache），我们只需要维护一个固定大小的矩阵。每输入一个新的 token，只做一次外积并加到上即可，每步计算量是，处理个 token 的总复杂度变成了，成功实现了与的线性关系！

第三步：引入遗忘机制（RetNet 的雏形）

基础版本有一个致命缺陷：随着序列越来越长，是无数个的等权重无脑累加。旧的信息和新的信息混杂在一起，导致模型产生“记忆模糊”。

为了符合语言模型“就近原则”（最近的词通常对当前预测更重要），学者们给隐状态的更新加上了一个遗忘因子（衰减因子） ，其中。公式进化为：

这样一来，经过多步迭代，早期的记忆会被不断衰减，模型就能保持对近期上下文的高分辨率。

第四步：从“测试时训练 (TTT)”视角推导 DeltaNet

学术界并不满足于人工硬凑出一个衰减因子。近年来的 Test-Time Training (TTT) 理论提出了一种降维打击般的理解思路： RNN 的本质，其实就是一个把历史序列压缩成模型权重的在线学习（Online Learning）过程！

我们把想象成一个小小的线性回归模型的“参数矩阵”，输入是，我们希望模型能精准预测出对应的。即：

预测值

既然是预测，就该有损失函数。最经典的回归损失就是均方误差（MSE）：

接下来，我们就像训练神经网络一样，用梯度下降（SGD） 来更新参数。对上述损失函数求关于参数的梯度：

(注：这里应用了矩阵求导法则，标量对矩阵的导数。直观理解：误差输入的转置。至于详细的推导见文章尾部的补充)

根据梯度下降法则，用旧参数减去梯度更新新参数（假设学习率）：

把括号展开：

提取公因式，我们就得到了著名的 DeltaNet 更新法则：

公式解读：什么是 Delta Rule (除旧迎新)？

除旧：的作用是把中关于当前特征的旧认知“擦除”掉。
迎新：则是强行把新的特征映射关系写进状态矩阵里。这种基于梯度的更新法则，比简单的相加（）具备了更精准、更有目的性的“状态追踪”能力。

补遗与启发：Mamba 的高光与遗憾

在学术界推演 Delta Rule 的同时，另一条基于状态空间模型（SSM）的路线诞生了耀眼的明星——Mamba。 Mamba 向世界证明了一件事：RetNet 那种固定的常数衰减率是不够的，真正强大的是与输入数据相关的动态遗忘门（Data-dependent Decay, ）——遇到没用的废话就疯狂遗忘，遇到关键信息就牢牢记住。但 Mamba 也有其局限性，其初代非外积的形式难以把 GPU 的矩阵乘法算力榨干（直至 Mamba2 才向线性 Attention 的外积形式妥协），且它依旧没有解决“精准状态追踪”的问题。这引发了学者们的终极思考：如果我们把 Mamba 引以为傲的“动态门控（）”，与 DeltaNet 极其科学的“除旧迎新（Delta Rule）”结合起来，再加上 GPU 高效的外积并行形式，会发生什么？

于是，大一统——Gated DeltaNet 诞生了！

第五步：大一统——Gated DeltaNet 的诞生

既然遗忘门（衰减因子）对语言模型有效，而 Delta Rule 对状态更新更加科学，那能不能把它们两者结合起来？答案是肯定的，这就是最终的 Gated DeltaNet。

我们在 DeltaNet 的梯度下降更新公式中，引入两个动态标量门控：

数据依赖的衰减因子 ：用来控制对全局过去状态的保留程度（相当于带权重的记忆衰减）。
动态学习率 ：用来控制当前步“除旧迎新”特征的更新力度。

将其代入我们第四步推导的梯度下降法：

为了符号好看，我们将减号吃进括号里换位：

至此，我们就成功推演出了 Gated DeltaNet 的终极 RNN 更新形式。

(补充说明：在某些论文中，你可能会看到它的形式写成。别慌，如果你把这个式子展开，并令以及，再将进行简单的系数缩放替代，就会发现它在数学本质上跟我们推导出来的公式是完全等价的，只是套了一层不同的马甲而已。)

总结归纳

起点：为了消灭复杂度，去掉了 Softmax 非线性枷锁。
第一形态 (Linear RNN) ：通过提取公因式，实现了，。
第二形态 (RetNet) ：为了防止记忆混浊，加上了常数衰减率。
第三形态 (DeltaNet) ：从在线学习视角出发，使用 MSE 损失求导，推导出了“除旧迎新”的 Delta Rule。
终极形态 (Gated DeltaNet) ：融合了动态衰减与 Delta Rule，成为了当下线性 Transformer 领域的性能霸主。

2026年AI行业最大的机会，毫无疑问就在应用层！

字节跳动已有7个团队全速布局Agent

大模型岗位暴增69%，年薪破百万！

腾讯、京东、百度开放招聘技术岗，80%与AI相关……

如今，超过60%的企业都在推进AI产品落地，而真正能交付项目的 大模型应用开发工程师 **，**却极度稀缺！

落地AI应用绝对不是写几个prompt，调几个API就能搞定的，企业真正需要的，是能搞定这三项核心能力的人：

✅RAG：融入外部信息，修正模型输出，给模型装靠谱大脑

✅Agent智能体：让AI自主干活，通过工具调用（Tools）环境交互，多步推理完成复杂任务。比如做智能客服等等……

✅微调：针对特定任务优化，让模型适配业务

目前，脉脉上有超过1000家企业发布大模型相关岗位，人工智能岗平均月薪7.8w！实习生日薪高达4000！远超其他行业收入水平！

技术的稀缺性，才是你「值钱」的关键！

具备AI能力的程序员，比传统开发高出不止一截！有的人早就转行AI方向，拿到百万年薪！👇🏻👇🏻

AI浪潮，正在重构程序员的核心竞争力！现在入场，仍是最佳时机！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

⭐️从大模型微调到AI Agent智能体搭建

剖析AI技术的应用场景，用实战经验落地AI技术。从GPT到最火的开源模型，让你从容面对AI技术革新！

大模型微调

掌握主流大模型（如DeepSeek、Qwen等）的微调技术，针对特定场景优化模型性能。
学习如何利用领域数据（如制造、医药、金融等）进行模型定制，提升任务准确性和效率。

RAG应用开发

深入理解检索增强生成（Retrieval-Augmented Generation, RAG）技术，构建高效的知识检索与生成系统。
应用于垂类场景（如法律文档分析、医疗诊断辅助、金融报告生成等），实现精准信息提取与内容生成。

AI Agent智能体搭建

学习如何设计和开发AI Agent，实现多任务协同、自主决策和复杂问题解决。
构建垂类场景下的智能助手（如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等）。

如果你也有以下诉求：

快速链接产品/业务团队，参与前沿项目

构建技术壁垒，从竞争者中脱颖而出

避开35岁裁员危险期，顺利拿下高薪岗

迭代技术水平，延长未来20年的新职业发展！

……

那这节课你一定要来听！

因为，留给普通程序员的时间真的不多了！

立即扫码，即可免费预约

「AI技术原理 + 实战应用 + 职业发展」

「大模型应用开发实战公开课」

👇👇

在这里插入图片描述

👍🏻还有靠谱的内推机会+直聘权益！！

完课后赠送：大模型应用案例集、AI商业落地白皮书

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

为什么很多人会误以为“麦克风越多，拾音效果越好”

AtomGit开源社区

AI辅助需求分析工作流 SOP

2026-05-13。

AtomGit开源社区

手把手：如何用AI 10分钟生成100+条高覆盖测试数据

刚入职就接手智能WiFi插座的定时开关功能测试，面对时间边界、非法字符、硬件断电等上百条测试数据的需求，我一度头大。后来试着把数据生成的活儿交给AI，四轮对话、不到10分钟，竟然拿到了一份120多条的高覆盖测试数据表——正常流程、边界值、安全注入字符、硬件异常全都有。这篇博客完整复盘了我向AI提问的每一步话术，也聊了一个物联网新人用AI偷师的真实感受：省下的不只是时间，还有一种结构化拆解测试点的思