大模型系列（掩码注意力，KV Cache，GQA）

redemptiv

866人浏览 · 2026-04-05 18:03:22

redemptiv · 2026-04-05 18:03:22 发布

文章目录

一. 掩码注意力
二. KV Cache
三. GQA (Grouped-Query Attention，分组查询注意力)

一. 掩码注意力

假设我们正在训练一个语言模型（比如GPT），当前抓取到的一条训练数据是一句话：bos 我爱吃苹果（bos 代表句子开头）。在传统的RNN（循环神经网络）时代，GPU只能这样按顺序“排队”干活：

（1）看到 bos，去预测“我”。

（2）等第1步算完，把和“我”拼起来，再去预测“爱吃”。

（3）接着排队……
但是，在Transformer的GPU现场，情况是完全不同的。所有词是“并排”站着，同时开始干活的。GPU不会一个一个读取词，它是一次性把bos , 我, 爱吃, 苹果这4个词的Embedding向量全部装进显存，拼成一个 $\times d$ 的矩阵 $X$ 。紧接着，GPU一声令下，执行一次矩阵乘法。一瞬间，4个词同时变身，各自生成了自己的 $Q$ （查询）、 $K$ （键）、 $V$ （值）向量。此时，显存里有4个 $Q$ 、4个 $K$ 、4个 $V$ 。
在这里插入图片描述
现在，每个词（作为 $Q$ ）都要去和其他所有词（作为 $K$ ）计算相关性得分。如果没有Mask，4个词就会互相看光光。Mask 就像是给每个词发了一个不同形状的“眼罩”。在GPU进行 $\times K^T$ 这个巨大的矩阵运算并加上 Mask 后，我们得到了一个 $\times 4$ 的注意力权重矩阵。让我们一行一行地看这个矩阵，这正是“拆解为无数个已知上文”的真相：
（1）第 1 行（主角是）：它的眼罩遮挡了后面所有的词。它的注意力权重是 [1.0, 0, 0, 0]。这代表的任务： “已知上文只有 bos”。它拿着这个权重去乘 $V$ 矩阵，提取出的特征 $V_{\text{新1}}$ 只包含的信息。
（2）第 2 行（主角是我）：它的眼罩遮挡了它后面的词。它的注意力权重可能是 [0.4, 0.6, 0, 0]。这代表的任务： “已知上文是 bos, 我”。它去乘 $V$ 矩阵，提取出的特征 $V_{\text{新2}}$ 融合了和我的信息，绝不包含未来的词。
（3）第 3 行（主角是爱吃）：注意力权重可能是 [0.2, 0.3, 0.5, 0]。这代表的任务： “已知上文是 bos, 我, 爱吃”。它提取出的特征 $V_{\text{新3}}$ 融合了前三个词的信息。
（4）第 4 行（主角是苹果）：它的眼罩没有遮挡任何词。注意力权重没有 $0$ 。这代表的任务： “已知上文是完整的 bos, 我, 爱吃, 苹果”。提取出的特征 $V_{\text{新4}}$ 融合了整句话的信息。
极其关键的一点：这4行的计算，在GPU中是绝对同时发生的！第3行的计算完全不需要等待第1行或第2行算完。Mask 矩阵通过数学手段（把特定位置强行置为 $-\infty$ ），在一次并行的矩阵运算中，硬生生地切分出了4个不同长度的历史上下文。
在这里插入图片描述
现在，GPU的手里握着4个全新的特征向量： $V_{\text{新1}}, V_{\text{新2}}, V_{\text{新3}}, V_{\text{新4}}$ 。这4个向量会同时通过模型后面的前馈神经网络（FFN），最后输出4个词表概率分布。在训练阶段的最后，模型会同时进行4次“对答案”：拿 $V_{\text{新1}}$ 的预测结果，去和标签 “我” 对答案，算出 Loss 1。拿 $V_{\text{新2}}$ 的预测结果，去和标签 “爱吃” 对答案，算出 Loss 2。拿 $V_{\text{新3}}$ 的预测结果，去和标签 “苹果” 对答案，算出 Loss 3。拿 $V_{\text{新4}}$ 的预测结果，去和标签（结束符）对答案，算出 Loss 4。最后，把这4个Loss加起来求平均，执行一次反向传播，更新所有的参数。
总结：模型输入的虽然是一整句话，但它在内部通过 Mask 机制并行地把它拆解成了无数个“已知上文，预测下一个词”的小任务。

二. KV Cache

为什么只存 K 和 V，不存 Q？在生成新词时，当前的 Query（Q）只代表最新生成的那个词，它要去和历史所有词的 Key（K）匹配。过去的词已经成为了“历史背景”（K 和 V），它们不会再主动去查询别人了，所以过去的 Q 毫无用处，直接丢弃即可。
带有 KV Cache 的工作流程：
时刻 $t - 1$ （历史已经缓存）：假设模型已经处理了前面的文本，显存中已经保存了过去的 K 和 V 矩阵（记作 $K_{past}$ 和 $V_{past}$ ）。时刻 $t$ （当前步生成）：现在输入最新生成的一个 Token（例如 $x_t$ ）。计算当前步的特征：仅仅计算这个新 Token 的 $q_t$ 、 $k_t$ 和 $v_t$ 。 $q_t = x_t W_q$ $k_t = x_t W_k$ $v_t = x_t W_v$ 更新缓存：将新算出来的 $k_t$ 和 $v_t$ 拼接到之前的缓存中。 $K_{cache} = [K_{past}; k_t]$ $V_{cache} = [V_{past}; v_t]$ 计算注意力：用当前唯一的 $q_t$ ，去乘以拼接好的长串 $K_{cache}$ ，得到注意力得分，再乘以 $V_{cache}$ 。 $Output_t = softmax(\frac{q_t K_{cache}^T}{\sqrt{d_k}}) V_{cache}$ 通过这种方式，每生成一个新的 Token，我们只需要做一次针对该 Token 的特征提取运算，极大地节省了算力。
在这里插入图片描述

三. GQA (Grouped-Query Attention，分组查询注意力)

在这里插入图片描述
阶段一：MHA (Multi-Head Attention - 多头注意力)
在多头注意力机制（MHA）的初始阶段，模型中 Query、Key 和 Value 的头数是完全相等的。这种设计的核心优势在于它赋予了模型极强的特征表达能力，因为每一个 Query 头都能在一个完整且独立的 Key 和 Value 特征子空间中进行信息提取，从而充分捕捉极高维度的复杂语义特征。然而，这种设计的代价也是极其高昂的。在模型进行自回归生成的推理阶段，必须缓存的所有历史 Key 和 Value 数据（即 KV Cache）会随着序列长度呈线性暴涨。这种极其庞大的显存占用直接导致显存带宽 成为致命瓶颈，严重限制了模型的生成速度以及能够同时处理的并发任务量。
阶段二：MQA (Multi-Query Attention - 多查询注意力)
为了彻底解决 MHA 带来的显存危机，多查询注意力机制（MQA）走向了另一个极端。在 MQA 的架构中，虽然 Query 依然保持着原有的多头状态，但 Key 和 Value 被强制压缩到仅剩一个全局头。这就意味着，所有的 Query 头在计算注意力分数和聚合特征时，只能被迫共享这同一组 Key 和 Value 矩阵。这种极端的压缩方案带来了立竿见影的工程收益，KV Cache 的体积被骤减了数十倍，从根本上释放了显存带宽的压力，让推理速度得到了极大的提升。但其弊端也随之暴露，由于丧失了独立的特征检索空间，模型在处理复杂逻辑或长文本时的特征多样性严重流失，导致生成质量出现明显的“容量衰减”。
阶段三：GQA (Grouped-Query Attention - 分组查询注意力)
GQA 依然保留了多头的 Query，但不再将 Key 和 Value 缩减为单一头，而是将其头数设定为一个大于 1 却远小于 Query 头数的参数。在具体运行机制上，模型会将所有的 Query 头按固定数量划分为若干个独立的分组，让每一组内的 Query 头共享专属的一个 Key 头和一个 Value 头。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【RKAIQ ISP21】RK3568 平台 LSC_V2 镜头阴影校正模块参数详解（GC2053 实战）

本文基于GC2053传感器在RK3568平台的实战调试经验，详细解析了RKAIQ ISP21框架中的LSC_V2（镜头阴影校正）模块。文章系统介绍了LSC_V2的工作原理、整体结构、配置参数及调试方法，重点阐述了如何通过uCoeff增益系数校正镜头暗角和边缘偏色问题。调试经验部分提供了角部发暗、边缘偏色等常见问题的解决方案，并强调了LSC与其他模块的协同关系。文章最后总结了LSC调试的核心原则：自