三种 Norm 一张图读懂：LayerNorm、RMSNorm、AdaRMS

leo0308

536人浏览 · 2026-05-27 15:19:44

leo0308 · 2026-05-27 15:19:44 发布

为什么需要归一化？

训练大模型时，每一层的激活值容易忽大忽小，梯度不稳定。
归一化（Normalization） 把每个 token 的 $D$ 维向量 $x\mathbf{x}$ 拉到合适尺度，再让网络学习如何缩放、平移。

下面三个名字最常一起出现：

方法	一句话
LayerNorm（LN）	先减均值，再除以标准差
RMSNorm	不减均值，除以均方的平方根
AdaRMS	分母同 RMS，缩放/平移由条件 $c\mathbf{c}$ 决定

前提

对 单个 token 的向量 $x∈RD\mathbf{x} \in \mathbb{R}^D$ ，在 $D$ 维内部做统计（不跨 token、不跨 batch）。
$ε\varepsilon$ 为极小常数（如 $10^{-6}$ ），防止除零。

一、LayerNorm

先 中心化（减均值），再按 标准差 缩放，最后用可学习参数 $γ,β\boldsymbol{\gamma}, \boldsymbol{\beta}$ 做仿射变换。

$μ=1D∑i=1Dxi,x^=x−μVar(x)+ε,y=γ⊙x^+β \mu = \frac{1}{D}\sum_{i=1}^{D} x_i, \qquad \hat{\mathbf{x}} = \frac{\mathbf{x} - \mu}{\sqrt{\mathrm{Var}(\mathbf{x}) + \varepsilon}}, \qquad \mathbf{y} = \boldsymbol{\gamma} \odot \hat{\mathbf{x}} + \boldsymbol{\beta}$

有减均值 $x−μ\mathbf{x}-\mu$
分母是 $Var+ε\sqrt{\mathrm{Var}+\varepsilon}$ （标准差），不是方差本身
可学习参数约 $2 D$ 个（ $γ\boldsymbol{\gamma}$ 与 $β\boldsymbol{\beta}$ 各 $D$ 维）

常见于 Transformer、ViT。

二、RMSNorm

不减均值，用各维平方的平均值 $m$ 开根号作为尺度，把 $x\mathbf{x}$ 除过去，再可学习缩放。

$m=1D∑i=1Dxi2,x^=xm+ε,y=(1+w)⊙x^ m = \frac{1}{D}\sum_{i=1}^{D} x_i^2, \qquad \hat{\mathbf{x}} = \frac{\mathbf{x}}{\sqrt{m + \varepsilon}}, \qquad \mathbf{y} = (1 + \mathbf{w}) \odot \hat{\mathbf{x}}$

亦有实现写 $y=w⊙x^\mathbf{y} = \mathbf{w} \odot \hat{\mathbf{x}}$ 。

正确与错误写法：

$x^=xm+ε错误： x^=xm+ε \boxed{ \text{正确：}\ \hat{\mathbf{x}} = \frac{\mathbf{x}}{\sqrt{m + \varepsilon}} \qquad \text{错误：}\ \hat{\mathbf{x}} = \frac{\mathbf{x}}{m + \varepsilon} }$

$x⋅rsqrt(m+ε)\mathbf{x} \cdot \mathrm{rsqrt}(m+\varepsilon)$ 与上式等价。
LLaMA、Gemma 等常用 RMSNorm，比 LayerNorm 少算一步均值，往往略快。

三、AdaRMS

去噪、流匹配等场景里，网络要在不同噪声水平 $t$ 下表现不同。AdaRMS 在 每一层 用条件 $c\mathbf{c}$ （如时间步嵌入）调节归一化后的向量，思路类似扩散模型中的 AdaLN。

RMS 归一化（与 RMSNorm 相同）：

$x^=xmean(x2)+ε \hat{\mathbf{x}} = \frac{\mathbf{x}}{\sqrt{\mathrm{mean}(\mathbf{x}^2) + \varepsilon}}$

条件仿射：

$g]=f(c),y=x^⊙(1+s)+t [\mathbf{s},\, \mathbf{t},\, \mathbf{g}] = f(\mathbf{c}), \qquad \mathbf{y} = \hat{\mathbf{x}} \odot (1 + \mathbf{s}) + \mathbf{t}$

可选门控残差：

$\mathbf{h}_{\mathrm{out}} = \mathbf{h}_{\mathrm{in}} + \mathbf{g} \odot \mathrm{Sublayer}(\cdot)$

$x^\hat{\mathbf{x}}$ 的分母与 RMSNorm 相同； $s,t\mathbf{s}, \mathbf{t}$ 随 $c\mathbf{c}$ 变化，而非全局固定的 $γ,β\boldsymbol{\gamma}, \boldsymbol{\beta}$ 。

四、并排对照

$LayerNorm:x^=x−μmean((x−μ)2)+ε,y=γ⊙x^+βRMSNorm:x^=xmean(x2)+ε,y=(1+w)⊙x^AdaRMS:x^=xmean(x2)+ε,y=x^⊙(1+s(c))+t(c) \begin{aligned} \textbf{LayerNorm:} \quad & \hat{\mathbf{x}} = \dfrac{\mathbf{x}-\mu}{\sqrt{\mathrm{mean}((\mathbf{x}-\mu)^2)+\varepsilon}}, \quad \mathbf{y} = \boldsymbol{\gamma}\odot\hat{\mathbf{x}}+\boldsymbol{\beta} \\[0.6em] \textbf{RMSNorm:} \quad & \hat{\mathbf{x}} = \dfrac{\mathbf{x}}{\sqrt{\mathrm{mean}(\mathbf{x}^2)+\varepsilon}}, \quad \mathbf{y} = (1+\mathbf{w})\odot\hat{\mathbf{x}} \\[0.6em] \textbf{AdaRMS:} \quad & \hat{\mathbf{x}} = \dfrac{\mathbf{x}}{\sqrt{\mathrm{mean}(\mathbf{x}^2)+\varepsilon}}, \quad \mathbf{y} = \hat{\mathbf{x}}\odot(1+\mathbf{s}(\mathbf{c}))+\mathbf{t}(\mathbf{c}) \end{aligned}$

	减均值？	$x^\hat{\mathbf{x}}$ 分母	输出
LayerNorm	✓	$Var+ε\sqrt{\mathrm{Var}+\varepsilon}$	$γ⊙x^+β\boldsymbol{\gamma}\odot\hat{\mathbf{x}}+\boldsymbol{\beta}$
RMSNorm	✗	$mean(x2)+ε\sqrt{\mathrm{mean}(\mathbf{x}^2)+\varepsilon}$	$(1+w)⊙x^(1+\mathbf{w})\odot\hat{\mathbf{x}}$
AdaRMS	✗	同 RMS	$x^⊙(1+s)+t\hat{\mathbf{x}}\odot(1+\mathbf{s})+\mathbf{t}$

五、数值例子

设 $x=[1,2,3,4]⊤\mathbf{x} = [1,2,3,4]^\top$ ：

LayerNorm： $μ=2.5\mu=2.5$ ， $x^\hat{\mathbf{x}}$ 大致正负对称
RMSNorm： $m = 7.5$ ， $x^=x/7.5\hat{\mathbf{x}} = \mathbf{x}/\sqrt{7.5}$ ，分量同向拉伸

二者 $x^\hat{\mathbf{x}}$ 不同——不仅是否减均值不同，分母用的统计量也不同。RMSNorm 并不是「不减均值的 LayerNorm」。

六、选用建议

经典结构、生态成熟 → LayerNorm
大语言模型、略省计算 → RMSNorm
强条件生成（时间步、类别等），希望每层注入条件 → AdaRMS（或 AdaLN）

小结

$LN:x^=x−μVar(x)+ε, y=γ⊙x^+β \textbf{LN:}\quad \hat{\mathbf{x}}=\frac{\mathbf{x}-\mu}{\sqrt{\mathrm{Var}(\mathbf{x})+\varepsilon}},\; \mathbf{y}=\boldsymbol{\gamma}\odot\hat{\mathbf{x}}+\boldsymbol{\beta}$

$RMS:x^=xmean(x2)+ε, y=(1+w)⊙x^ \textbf{RMS:}\quad \hat{\mathbf{x}}=\frac{\mathbf{x}}{\sqrt{\mathrm{mean}(\mathbf{x}^2)+\varepsilon}},\; \mathbf{y}=(1+\mathbf{w})\odot\hat{\mathbf{x}}$

$AdaRMS:x^=xmean(x2)+ε, y=x^⊙(1+s(c))+t(c) \textbf{AdaRMS:}\quad \hat{\mathbf{x}}=\frac{\mathbf{x}}{\sqrt{\mathrm{mean}(\mathbf{x}^2)+\varepsilon}},\; \mathbf{y}=\hat{\mathbf{x}}\odot(1+\mathbf{s}(\mathbf{c}))+\mathbf{t}(\mathbf{c})$

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

迁移学习落地实战：从场景匹配到价值验证

《迁移学习实战：破解小样本困境的工程指南》摘要面对机器学习落地中的数据短缺难题，本文系统介绍了迁移学习在小样本场景下的实战应用方案。针对冷启动问题，提出"冻结-解冻"分阶段策略和语义保持的数据增强方法；针对跨领域迁移，详细解析域适应技术和特征通道重组策略。文章还涵盖预训练模型选型、异构数据处理、资源受限优化等关键环节，通过电商推荐和工业检测等案例验证效果，并给出负迁移风险识别方法和生产环境过渡方