[AVSR_论文精读]CAV2vec:Multi-Task Corrupted Prediction for Learning Robust AVSR

myj2343

86人浏览 · 2026-05-30 15:27:11

myj2343 · 2026-05-30 15:27:11 发布

CAV2vec 论文解读：用多任务干扰预测，学出鲁棒的视听语音表征

一、论文背景介绍

论文标题：Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation
简称：CAV2vec
发表会议：ICLR 2025
作者：Sungnyun Kim, Sungwoo Cho, Sangmin Bae, Kangwook Jang, Se-Young Yun（韩国 KAIST AI）

视听语音识别（AVSR）领域近年来涌现了大量自监督方法，如 AV-HuBERT、AV-data2vec、RAVEn/BRAVEn 等。但这些方法存在一个共同的盲区：它们只关注音频噪声，完全忽略了视觉干扰——唇部遮挡、面部像素化、运动模糊等。真实场景中，音频和视觉可能同时被干扰，此时传统方法的视听融合反而可能被错误的视觉信息误导。

CAV2vec 是首个在自监督 AVSR 中同时处理音频-视觉联合干扰的工作。它不引入任何新模块，仅靠一个巧妙的训练目标——多任务干扰预测（Multi-Task Corrupted Prediction）——就让模型学会了跨模态的鲁棒表征。

二、Abstract — 摘要

AVSR 领域的自监督方法长期存在以下默认认知：

增强鲁棒性 = 加更多数据增强（噪声增强训练）。
AVSR 融合的质量取决于两个模态各自特征的好坏。
鲁棒的视听表征需要复杂的生成模型或对抗训练。
自监督预训练非常昂贵，从头训练 325M 参数的 AV-HuBERT 需要大量资源。

CAV2vec 逐一挑战了这些认知：

数据增强不够：仅仅是给训练数据加干扰（corrupted data uptraining），提升有限。关键在于让学生以干净的跨模态表征作为预测目标。
跨模态对齐比模态内去噪更重要：核心创新 ACP/VCP 直接学习"被干扰的视觉 → 干净的音频"和"被干扰的音频 → 干净的视觉"的映射，迫使模型学习跨模态语义对应。
不需要额外模块：整个框架仅靠 Teacher-Student 自蒸馏 + MSE 损失，推理时零额外开销。
训练成本极低：从 noise-augmented AV-HuBERT checkpoint 出发，uptraining 成本仅为完整预训练的 ~2%（60k steps，4×RTX A6000，8-10 小时）。

三、方法介绍

3.1 整体框架：Teacher-Student Self-Distillation

CAV2vec 基于 AV-HuBERT Large（325M 参数，24 层 Transformer Encoder + 9 层 Decoder），核心框架是教师-学生自蒸馏：

Teacher 接收干净的音频和视频输入，通过 EMA 方式更新，产生干净的目标表征。Teacher 目标不是单层输出，而是 top-k Transformer blocks 的平均表征。
Student 接收被干扰（corrupted）或被掩码（masked）的输入，通过 MSE 学习预测 Teacher 的干净输出。

在这里插入图片描述

图-1 CAV2vec 框架示意图。Teacher 输入 clean audio-visual，Student 输入 corrupted/masked audio-visual，Student 通过 MSE 学习预测 Teacher 的干净表征。

Teacher 更新规则为 EMA：

$\leftarrow \eta \cdot f + (1 - \eta) \cdot f_\theta$

其中 $η\eta$ 从 0.99 增长到 0.999，确保 Teacher 稳定更新。

3.2 关键机制：从 AVCP 到 ACP+VCP

CAV2vec 定义了三种 corrupted prediction 任务，层层递进：

AVCP（Audio-Visual Corrupted Prediction）—— 基线

最直观的做法：Student 输入被干扰的音频+视频，预测 Teacher 的干净多模态表征。

$LAVCP=∑t∈Ca∪Cv∥[fθ(A~;V~)]t−[f(A;V)]t∥22L_{AVCP} = \sum_{t \in C^a \cup C^v} \left\| \left[f_\theta(\tilde{A}; \tilde{V})\right]_t - \left[f(A; V)\right]_t \right\|_2^2$

问题：输入和 target 都是多模态混合表征，无法显式建模"哪个模态在为另一个模态提供补偿信息"。

ACP（Audio Corrupted Prediction）—— 核心创新 1

Student 仅输入被干扰的视频（音频置零），Teacher 仅输入干净的音频（视频置零）：

$LACP=∑t∈Cv∥[fθ(0;V~)]t−[f(A;0)]t∥22L_{ACP} = \sum_{t \in C^v} \left\| \left[f_\theta(0; \tilde{V})\right]_t - \left[f(A; 0)\right]_t \right\|_2^2$

直觉：嘴唇被遮挡时，模型必须依赖清晰的声音信号才能还原语音内容——这隐式蒸馏出了音频知识。

VCP（Visual Corrupted Prediction）—— 核心创新 2

Student 仅输入被干扰的音频（视频置零），Teacher 仅输入干净的视频（音频置零）：

$LVCP=∑t∈Ca∥[fθ(A~;0)]t−[f(0;V)]t∥22L_{VCP} = \sum_{t \in C^a} \left\| \left[f_\theta(\tilde{A}; 0)\right]_t - \left[f(0; V)\right]_t \right\|_2^2$

直觉：环境嘈杂时，模型必须依赖清晰的唇动画面才能还原视觉语义——这隐式蒸馏出了视觉知识。

ACP + VCP = uMTL（Unimodal Multi-Task Learning），这就是 CAV2vec 的核心贡献。

在这里插入图片描述

图-2 不同 corrupted prediction 任务的输入与目标设计。这里最值得注意的是 ACP/VCP：输入和 target 都是单模态，但方向是跨模态的，因此它比 AVCP 更直接地约束 audio-video alignment。

3.3 为什么 ACP+VCP 优于 AVCP？

三者的关键区别总结如下：

任务	Student 输入	Teacher Target	核心作用
AVCP	干扰 AV	干净 AV	学多模态鲁棒性（隐式）
mACP	干扰 AV	干净 A only	用单模态 target 约束多模态输入
mVCP	干扰 AV	干净 V only	同上
ACP	干扰 V only	干净 A only	直接学 V→A 跨模态对齐
VCP	干扰 A only	干净 V only	直接学 A→V 跨模态对齐

AVCP 本质上是一种"隐式数据增强"——让学生学会容忍干扰。但 ACP/VCP 更进一步：

它迫使模型学习跨模态语义对应——“被干扰的唇动"应该对应什么"干净的音频内容”，反之亦然。这种跨模态对齐才是视听融合的本质，比简单的去噪更根本。

3.4 总损失函数

最终的训练目标为四个损失之和：

$LCAV2vec=λACPLACP+λVCPLVCP+λMASKLMASK+λMLMLMLML_{CAV2vec} = \lambda_{ACP} L_{ACP} + \lambda_{VCP} L_{VCP} + \lambda_{MASK} L_{MASK} + \lambda_{MLM} L_{MLM}$

其中 $L_{MASK}$ 为标准的掩码预测损失（masked audio-visual → clean AV target）， $L_{MLM}$ 为掩码语言模型损失。实验中 $λACP=λVCP=λMASK=1\lambda_{ACP} = \lambda_{VCP} = \lambda_{MASK} = 1$ ， $λMLM=2\lambda_{MLM} = 2$ 。

关键实现细节：

所有 loss 仅在受干扰/被掩码的帧索引上计算，不对干净帧施加损失。
掩码（mask）和干扰（corruption）的帧索引互不重叠，确保两类 loss 的语义干净分离。
Student 端每个任务有独立的单层 MLP predictor，训练后移除。

四、实验设置

4.1 数据集

数据集	时长	说明
LRS2	224h（BBC 节目）	主要训练和评测集
LRS3-TED	438h（TED 演讲）	泛化评测集

4.2 模型规格

组件	配置
Backbone	AV-HuBERT Large（24 层 Transformer Encoder + 9 层 Decoder）
参数量	325M
视觉特征提取	改进的 ResNet-18
音频特征提取	线性投影层
融合方式	Audio/Video feature 拼接后送入多模态 Transformer
Teacher 更新	Student 参数的 EMA
初始化	Noise-Augmented AV-HuBERT checkpoint
训练成本	仅 ~2% 的 AV-HuBERT 完整预训练成本（60k steps，4×A6000，8-10h）

4.3 干扰设计

在这里插入图片描述

图-3 论文中的 seen/unseen corruption 设置。它把训练中见过的干扰和只在测试时出现的干扰分开，后续泛化实验正是围绕这个划分展开。

视觉干扰：

类型	训练/测试	说明
Object Occlusion	训练	COCO 物体覆盖嘴部区域
Gaussian Noise	训练	逐帧高斯噪声
Blurring	训练	视频帧模糊
Hands Occlusion	测试（unseen）	11k-Hands 真实手部遮挡
Face Pixelation	测试（unseen）	3×3 像素块插值，模拟低分辨率

音频干扰：

类型	训练/测试	说明
MUSAN (babble/music/natural)	训练 + 测试	嘈杂人声、音乐、自然噪声
LRS3 held-out speech	训练 + 测试	语音干扰
DEMAND (8 种真实环境)	测试（unseen）	公园、河流、咖啡厅、餐厅、食堂、地铁、车站、会议室

训练中强干扰使用 -10 dB SNR（噪声功率超过语音信号），unseen 干扰用于检验泛化能力。

4.4 训练流程

Uptraining（表征学习）：从 noise-augmented AV-HuBERT Large checkpoint 初始化，60k steps 自蒸馏训练。音频掩码率 80%，视频掩码率 30%（掩码在干扰后应用，互不重叠）。
CFT（Corrupted-data Fine-Tuning）：注入干扰数据的监督微调。Encoder 前 48k steps 冻结，仅训练 Decoder；然后整体再训练 12k steps。使用 BPE tokenizer + seq2seq 解码。

五、实验结果与分析

5.1 LRS2 主要结果：全面超越所有基线

在 LRS2 上，对象遮挡 + 各类音频噪声条件下的 WER 对比：

方法	Babble	Speech	Music	Natural	Clean
AV-HuBERT	11.6	5.3	6.1	6.0	3.0
AV-data2vec	11.5	5.6	6.5	6.2	3.0
AV-RelScore	11.1	4.8	5.9	5.5	2.9
CAV2vec	8.9	4.4	5.1	4.9	2.7

相对 AV-HuBERT 的提升：

噪声类型	Babble	Speech	Music	Natural	Clean
相对提升	-23.3%	-17.0%	-16.4%	-18.3%	-10.0%

两个观察：

所有场景下全面超越所有基线，干扰越严重的场景提升越显著（Babble -23.3% 最为突出）。
Clean 场景也提升 10.0%：多任务训练改善了整体的 audio-video alignment，即使没有干扰，融合表征也更可靠。

5.2 LRS3 泛化结果：未见干扰也能泛化

在 LRS3 上的 joint corruption（双模态同时干扰）评估：

场景	AV-HuBERT	CAV2vec	相对提升
Clean	2.2	1.5	-31.8%
Noise-dominant (N≥S)	8.9	6.5	-27.0%
Clean-dominant (N<S)	2.8	1.9	-32.1%

更重要的是对 unseen corruption 的泛化：

Unseen 干扰组合	CAV2vec WER
Object Occl. + DEMAND	4.3
Hands Occlusion + MUSAN	5.2
Hands Occlusion + DEMAND	4.3
Pixelated Face + MUSAN	5.1
Pixelated Face + DEMAND	4.2

模型在从未见过的手部遮挡、像素化人脸、真实环境噪声上均展现了强泛化能力。这证明 CAV2vec 学到的是通用的跨模态鲁棒表征，而非对特定干扰模式的记忆。

5.3 消融实验：ACP+VCP 即最优

这是整篇论文最关键的实验证据。在 LRS3 joint corruption 设置下，逐一拆解各任务组件的贡献：

在这里插入图片描述

图-4 消融实验原表。相比只看改写后的数字表，原表能更直观看到 best/second-best 的分布：ACP+VCP 不是只在单一场景胜出，而是在不同 unseen corruption 组合下整体更稳定。

配置	O/MS	O/DM	H/MS	H/DM	P/MS	P/DM
No CRL（仅 CFT）	6.2	5.1	6.5	5.5	6.0	4.9
AVCP only	5.3	4.5	5.6	4.7	5.6	4.8
mACP + mVCP	5.1	4.2	5.4	4.5	5.3	4.3
ACP + VCP	5.1	4.3	5.2	4.3	5.1	4.2
ACP + VCP + AVCP	5.2	4.4	5.6	4.6	5.3	4.6

O=Object Occlusion, H=Hands Occlusion, P=Pixelation, MS=MUSAN+Speech, DM=DEMAND

核心结论：

No CRL 最差：说明仅仅在微调时注入干扰数据是不够的，表征学习阶段的 corrupted prediction 必不可少。
AVCP 有提升但不充分：corrupted input → clean target 的思路有效，但多模态混合 target 不够精确。
mACP+mVCP 优于 AVCP：单模态 target 比混合 target 提供了更清晰的监督信号。
ACP+VCP 最优且最稳定：单模态输入 + 跨模态 target，直接建模 audio-video alignment。
添加 AVCP 无额外收益，甚至变差：在已有 ACP+VCP 和 masked prediction 的情况下，AVCP 变得冗余——说明 ACP+VCP 已经充分捕捉了跨模态关系。

5.4 表征空间分析：uMTL 减小模态鸿沟

论文通过 t-SNE 可视化和 modality gap 分析展示了 ACP+VCP 的深层效果：

在这里插入图片描述

图-5 clean 与 corrupted 表征的相似度对比。CAV2vec 的平均距离更小，说明干扰后表征更接近干净表征，这支撑了「uMTL 缩小模态鸿沟」这一解释。

无 uMTL 时：干扰导致 audio 和 visual 的 latent representation 分散（scattered），交叉散布、难以对齐，融合层难以提取有效信息。
有 uMTL 时：表征聚集良好（clustered），audio 和 visual 的语义对应更紧密。AV-data2vec 的 modality gap 更大，而 CAV2vec 的 modality gap 显著更小。

这解释了为什么 uMTL 能让 AVSR 在 joint corruption 下依然鲁棒——跨模态预测迫使模型在干扰条件下仍保持不同模态 latent representation 的语义对齐。

5.5 训练效率：仅 2% 的成本

方法	训练范式	训练成本
AV-HuBERT	完整自监督预训练	100%（基准）
CAV2vec	从 AV-HuBERT checkpoint uptraining	~2%（60k steps, 4×A6000, 8-10h）

这意味着：不需要从头训练，任意 pretrained AV-HuBERT 模型都可以高效地 adapt 到 robust AVSR 场景。且推理时 predictor heads 被移除，结构和原 AV-HuBERT 完全一致，没有任何额外推理开销。

六、讨论与未来方向

作者在论文中列出了几个有前景的后续方向：

生成式干扰合成：当前训练的视觉干扰仅 3 种（物体遮挡、高斯噪声、模糊），真实场景中还有压缩伪影、低帧率、恶劣光照、音画不同步等。用生成模型合成更多样、更逼真的训练干扰可能进一步提升泛化性。
扩展到其他多模态任务：ACP/VCP 的核心思想——跨模态 corrupted prediction——可以迁移到视频-文本、音频-图像等多种多模态场景中。
动态干扰调度：当前干扰比例是固定的。课程学习或自适应干扰比例可能进一步提升训练效率和最终性能。消融中已观察到干扰比例是 Clean WER vs Noise WER 之间的 trade-off 超参数。
多语言鲁棒 AVSR：论文仅验证了英语数据（LRS2/LRS3）。不同语言的 viseme-phoneme mapping 不同，跨语言的泛化能力有待探索。

七、个人思考与总结

这篇论文改变了什么认知？

CAV2vec 和 MultiAVSR 虽然方法不同，但有一种相似的"气质"：做减法而非做加法。它不需要生成模型、不需要对抗训练、不需要额外的网络模块——仅靠设计精巧的训练目标，就实现了全面的鲁棒性提升。

具体来说，它挑战了 AVSR 领域的几个默认设定：

默认认知	CAV2vec 的回应
鲁棒性 = 加更多数据增强	数据增强是输入扰动，关键在于让模型以干净的跨模态表征为目标
AVSR 需要复杂的鲁棒性机制	不需要额外模块，Teacher-Student + MSE 足够
自监督预训练一定很贵	从已有 checkpoint uptraining 仅需 ~2% 的成本
视觉干扰不重要/不需要专门处理	视觉干扰同样致命，且跨模态预测是同时解决两种干扰的关键

最精妙的设计：ACP/VCP 的跨模态 target

这篇论文最让我印象深刻的点是 ACP/VCP 的 target 设计。直觉上，“被干扰的音频 → 干净的音频”（同模态去噪）似乎更自然。但论文反其道而行之，让 target 变成另一个模态：

$fθ(0;V~)→f(A;0)f_\theta(0; \tilde{V}) \rightarrow f(A; 0)$

这让任务的本质从"去噪"变成了"跨模态翻译"——模型不是在修图/修音，而是在学唇动到语音的语义映射和语音到唇动的语义映射。这种映射恰好是 AVSR 融合的根本前提。所以我理解这篇文章的核心洞察是：鲁棒视听融合的瓶颈不是去噪能力，而是跨模态对齐能力。

与 MultiAVSR 的异曲同工

两篇论文都发表在 2025 年前后，都是 AVSR 领域的重要工作，都包含"多任务"关键词，但思路不同：

维度	MultiAVSR	CAV2vec
训练范式	纯监督多任务	自监督表征学习 + 监督微调
核心机制	共享 Conformer 编码器	ACP/VCP 跨模态 corrupted prediction
多任务含义	ASR + VSR + AVSR 三任务联合	AVCP + ACP + VCP + Mask 四任务联合
关键洞察	任务难度差异 = 天然的损失权重	跨模态对齐 > 模态内去噪
哲学	做减法（共享编码器、不加权重）	做减法（无需额外模块、仅改训练目标）