【DL】信息注入
在多模态生成(如文生图、3D生成)和视觉语言模型(VLM/VLA)的架构设计中,如何将外部条件(如文本、音频、时间步、控制信号)优雅且高效地“注入”到主干网络(Backbone)中,是决定模型性能的核心。
以下是深度整合了底层张量维度差异的 5 大类主流信息注入方法全景指南:
第一类:特征调制 (Feature Modulation)
核心逻辑:不改变主干特征的维度(不增加新的 Token 或通道),而是通过改变特征的统计分布(均值和方差)或通道激活状态来注入全局条件。
此类方法在数学上都遵循仿射变换(Affine Transformation)的范式:
y=γ(c)⋅Φ(x)+β(c)y = \gamma(c) \cdot \Phi(x) + \beta(c)y=γ(c)⋅Φ(x)+β(c)
其中,xxx 是主干特征,ccc 是外部条件,γ(c)\gamma(c)γ(c) 和 β(c)\beta(c)β(c) 是由条件映射出的缩放(Scale)和平移(Shift)参数。Φ(x)\Phi(x)Φ(x) 代表对特征的处理(可以是恒等映射,也可以是特定维度的归一化)。
根据 Φ(x)\Phi(x)Φ(x) 处理的张量物理维度不同,这个家族演化出了四大经典变体:
1. FiLM (Feature-wise Linear Modulation) —— 纯调制的开山鼻祖
- 计算维度:Φ(x)=x\Phi(x) = xΦ(x)=x(无强制归一化)。对于 [N,C,H,W][N, C, H, W][N,C,H,W] 的特征,条件网络输出 [N,C][N, C][N,C] 维度的 γ\gammaγ 和 β\betaβ,直接在空间维度跨 [H,W][H, W][H,W] 广播并乘加。
- 物理意义:直接作为一个“通道激活门”。根据外部条件,决定主干网络中哪些语义通道应该被激活,哪些应该被抑制(例如听到“红色”条件,就激活提红色的通道)。
- 经典模型:早期的 VQA(视觉问答)模型。
2. AdaIN (Adaptive Instance Normalization) —— 风格迁移王者
- 计算维度:Φ(x)=InstanceNorm(x)\Phi(x) = \text{InstanceNorm}(x)Φ(x)=InstanceNorm(x)。在 [H,W][H, W][H,W] 维度上计算均值/方差。即每个样本的每个通道独立计算。
- 物理意义:在视觉中,单通道的空间统计量代表“风格”。AdaIN 先抹除原图的固有风格,再用条件 ccc 注入全新的风格(如纹理、色调)。
- 经典模型:StyleGAN(通过注入 Latent Code 控制生成画风)。
3. AdaGN (Adaptive Group Normalization) —— U-Net 扩散引擎的中流砥柱
- 计算维度:Φ(x)=GroupNorm(x)\Phi(x) = \text{GroupNorm}(x)Φ(x)=GroupNorm(x)。在 [H,W]×CG[H, W] \times \frac{C}{G}[H,W]×GC(通道分组)维度上计算。
- 物理意义:生成模型对特征分布极度敏感,FiLM 直接调制容易崩溃,必须先“洗白(Norm)”。AdaGN 在小 Batch Size 下保持稳定,同时让全局状态(如时间步 ttt)均匀影响特征的不同语义通道组,控制全局去噪进度。
- 经典模型:Stable Diffusion (v1.5, SDXL) 的 U-Net 主干。
4. adaLN (Adaptive Layer Normalization) —— 大一统时代的 Transformer 标配
- 计算维度:Φ(x)=LayerNorm(x)\Phi(x) = \text{LayerNorm}(x)Φ(x)=LayerNorm(x)。在 [C][C][C] 或 [D][D][D] 维度上计算。对于序列中的每一个 Token 独立计算。
- 物理意义:当生成范式全面拥抱 Transformer 序列建模 [N,L,D][N, L, D][N,L,D] 时,LayerNorm 成为标配。对于探索连续时间轨迹(如 Flow Matching)的研究来说,adaLN 是将全局指令(时间积分、全局文本)注入主干序列的最佳实践。
- 经典模型:DiT, Sora, Stable Diffusion 3 (MM-DiT)。
第二类:交叉注意力机制 (Cross-Attention)
核心逻辑:主干特征作为查询,去外部条件序列中检索并聚合相关信息。这是目前处理变长序列、实现细粒度空间与语义对齐的最强大手段。
- 数学定义:
将主干特征映射为 QQQ,将外部条件序列映射为 KKK 和 VVV:
Attention(Q,K,V)=softmax(QxKcTdk)Vc\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{Q_x K_c^T}{\sqrt{d_k}}\right) V_cAttention(Q,K,V)=softmax(dkQxKcT)Vc
-
物理意义与应用:能够让主模态按需精准“吸收”条件模态的特征。例如在文生图中让画布的左上角去匹配“太阳”的 Token;或在音频驱动动作生成中,让特定骨骼节点的特征去对齐特定的音频频段。
-
经典模型:
-
Stable Diffusion(文本引导图像局部生成)。
-
Flamingo / BLIP-2(视觉特征对齐到 LLM)。
-
关注点:控制精度极高,但计算复杂度随序列长度呈平方级增长 O(N2)O(N^2)O(N2)。
第三类:通道拼接 (Concatenation-based Fusion)
核心逻辑:最直观、最原始的方法。通过在通道维度叠加信息,让后续的卷积或线性层自行学习如何融合。
- 数学定义:
将特征 xxx 和条件 ccc(需对齐空间分辨率)在通道维度拼接:
y=Layer([x;c])y = \text{Layer}([x; c])y=Layer([x;c])
其中 Layer\text{Layer}Layer 通常是卷积或线性变换,用于压缩通道。
- 物理意义与应用:适合强空间对应的简单任务(如把 Mask 拼在原图后),或者离散编码器的早期条件引入。
- 经典模型:Pix2Pix, VQGAN。
- 关注点:简单暴力,但容易造成主干特征的“过载”,对于跨模态的高级语义融合效率远不如 Attention 和特征调制。
第四类:零卷积与侧分支 (Zero-Convolutions / Side-Branching)
核心逻辑:冻结预训练的主模型,增加一个可训练的平行副本(侧分支)来处理强结构化的控制条件,最后将增量加回到主网络中。
- 数学定义:
y=F(x;Θ)+Z(G(x,c;Θcopy))y = F(x; \Theta) + \mathcal{Z}(G(x, c; \Theta_{copy}))y=F(x;Θ)+Z(G(x,c;Θcopy))
其中 FFF 是冻结的主干,GGG 是可训练分支,Z\mathcal{Z}Z 是零卷积(权重初始化为 0 的卷积层)。
- 物理意义与应用:提供了极高的训练稳定性。由于初始阶段零卷积输出为 0,模型从最原始的生成状态平滑开始,绝不会破坏预训练模型原有的高质量先验知识。
- 经典模型:ControlNet, T2I-Adapter。
- 关注点:专门用于应对空间强依赖的结构化控制信号(如 Canny 边缘、深度图、人体骨架)。
第五类:门控注入 (Gated Injection / Resampler)
核心逻辑:一种带“安全阀门”的注入机制,通常结合 Cross-Attention 使用,常用于 VLM 中将大量视觉 Token 安全地送入语言大模型。
- 数学定义:
引入一个可学习的门控参数 α\alphaα(初始为 0):
y=x+α⋅tanh(ϕ)⋅Mechanism(x,c)y = x + \alpha \cdot \text{tanh}(\phi) \cdot \text{Mechanism}(x, c)y=x+α⋅tanh(ϕ)⋅Mechanism(x,c)
- 物理意义与应用:在将多模态感知能力接入 LLM 时,防止突如其来的异构特征瞬间摧毁语言模型极其脆弱的逻辑推理能力。通过从 0 开始的门控机制,让主干网络“循序渐进”地接纳新模态。
- 经典模型:Flamingo, Qwen-VL, LLaVA(利用 Abstractor/Resampler)。
- 关注点:保护预训练语言权重的逻辑链条不断裂,是当前训练多模态大模型(VLM)的工业界标准做法。
终极全景总结表
| 注入范式 | 具体机制 | 核心逻辑 / 数学本质 | 适用场景与控制粒度 | 经典架构代表 |
|---|---|---|---|---|
| 特征调制 | FiLM | 纯粹的通道缩放与平移 | 跨空间维度直接激活/抑制特定语义通道 | VQA 早期模型 |
| 特征调制 | AdaIN | 实例归一化 + 仿射变换 | 抹除原有空间风格,注入全新的全局风格 | StyleGAN |
| 特征调制 | AdaGN | 分组归一化 + 仿射变换 | 注入全局去噪状态,兼顾小Batch稳定与语义保留 | SD (U-Net主干) |
| 特征调制 | adaLN | 层归一化 + 仿射变换 | 为Transformer抹平数值差异,注入连续轨迹/指令 | DiT, Sora, SD3 |
| 交叉注意力 | Cross-Attn | Q,K,VQ, K, VQ,K,V 细粒度语义检索 | 变长序列(文本/音频)的跨模态空间精准对齐 | SD, Flamingo |
| 通道拼接 | Concat | 通道维度暴力堆叠 | 简单的空间对齐融合,离散生成器的基础条件引入 | Pix2Pix, VQGAN |
| 零卷积侧分支 | Zero-Conv | 冻结主干 + 零初始化残差 | 强结构控制(骨架、边缘图),绝对保护原始生成先验 | ControlNet |
| 门控注入 | Gating | 步进式可学习门控阀门 | VLM 视觉特征重采样接入,保护 LLM 内部逻辑不崩溃 | Qwen-VL, LLaVA |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)