[AVSR_论文精读]CAV2vec:Multi-Task Corrupted Prediction for Learning Robust AVSR
CAV2vec 论文解读:用多任务干扰预测,学出鲁棒的视听语音表征
一、论文背景介绍
- 论文标题:Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation
- 简称:CAV2vec
- 发表会议:ICLR 2025
- 作者:Sungnyun Kim, Sungwoo Cho, Sangmin Bae, Kangwook Jang, Se-Young Yun(韩国 KAIST AI)
视听语音识别(AVSR)领域近年来涌现了大量自监督方法,如 AV-HuBERT、AV-data2vec、RAVEn/BRAVEn 等。但这些方法存在一个共同的盲区:它们只关注音频噪声,完全忽略了视觉干扰——唇部遮挡、面部像素化、运动模糊等。真实场景中,音频和视觉可能同时被干扰,此时传统方法的视听融合反而可能被错误的视觉信息误导。
CAV2vec 是首个在自监督 AVSR 中同时处理音频-视觉联合干扰的工作。它不引入任何新模块,仅靠一个巧妙的训练目标——多任务干扰预测(Multi-Task Corrupted Prediction)——就让模型学会了跨模态的鲁棒表征。
二、Abstract — 摘要
AVSR 领域的自监督方法长期存在以下默认认知:
- 增强鲁棒性 = 加更多数据增强(噪声增强训练)。
- AVSR 融合的质量取决于两个模态各自特征的好坏。
- 鲁棒的视听表征需要复杂的生成模型或对抗训练。
- 自监督预训练非常昂贵,从头训练 325M 参数的 AV-HuBERT 需要大量资源。
CAV2vec 逐一挑战了这些认知:
- 数据增强不够:仅仅是给训练数据加干扰(corrupted data uptraining),提升有限。关键在于让学生以干净的跨模态表征作为预测目标。
- 跨模态对齐比模态内去噪更重要:核心创新 ACP/VCP 直接学习"被干扰的视觉 → 干净的音频"和"被干扰的音频 → 干净的视觉"的映射,迫使模型学习跨模态语义对应。
- 不需要额外模块:整个框架仅靠 Teacher-Student 自蒸馏 + MSE 损失,推理时零额外开销。
- 训练成本极低:从 noise-augmented AV-HuBERT checkpoint 出发,uptraining 成本仅为完整预训练的 ~2%(60k steps,4×RTX A6000,8-10 小时)。
三、方法介绍
3.1 整体框架:Teacher-Student Self-Distillation
CAV2vec 基于 AV-HuBERT Large(325M 参数,24 层 Transformer Encoder + 9 层 Decoder),核心框架是教师-学生自蒸馏:
- Teacher 接收干净的音频和视频输入,通过 EMA 方式更新,产生干净的目标表征。Teacher 目标不是单层输出,而是 top-k Transformer blocks 的平均表征。
- Student 接收被干扰(corrupted)或被掩码(masked)的输入,通过 MSE 学习预测 Teacher 的干净输出。

图-1 CAV2vec 框架示意图。Teacher 输入 clean audio-visual,Student 输入 corrupted/masked audio-visual,Student 通过 MSE 学习预测 Teacher 的干净表征。
Teacher 更新规则为 EMA:
f←η⋅f+(1−η)⋅fθf \leftarrow \eta \cdot f + (1 - \eta) \cdot f_\thetaf←η⋅f+(1−η)⋅fθ
其中 η\etaη 从 0.99 增长到 0.999,确保 Teacher 稳定更新。
3.2 关键机制:从 AVCP 到 ACP+VCP
CAV2vec 定义了三种 corrupted prediction 任务,层层递进:
AVCP(Audio-Visual Corrupted Prediction)—— 基线
最直观的做法:Student 输入被干扰的音频+视频,预测 Teacher 的干净多模态表征。
LAVCP=∑t∈Ca∪Cv∥[fθ(A~;V~)]t−[f(A;V)]t∥22L_{AVCP} = \sum_{t \in C^a \cup C^v} \left\| \left[f_\theta(\tilde{A}; \tilde{V})\right]_t - \left[f(A; V)\right]_t \right\|_2^2LAVCP=t∈Ca∪Cv∑ [fθ(A~;V~)]t−[f(A;V)]t 22
问题:输入和 target 都是多模态混合表征,无法显式建模"哪个模态在为另一个模态提供补偿信息"。
ACP(Audio Corrupted Prediction)—— 核心创新 1
Student 仅输入被干扰的视频(音频置零),Teacher 仅输入干净的音频(视频置零):
LACP=∑t∈Cv∥[fθ(0;V~)]t−[f(A;0)]t∥22L_{ACP} = \sum_{t \in C^v} \left\| \left[f_\theta(0; \tilde{V})\right]_t - \left[f(A; 0)\right]_t \right\|_2^2LACP=t∈Cv∑ [fθ(0;V~)]t−[f(A;0)]t 22
直觉:嘴唇被遮挡时,模型必须依赖清晰的声音信号才能还原语音内容——这隐式蒸馏出了音频知识。
VCP(Visual Corrupted Prediction)—— 核心创新 2
Student 仅输入被干扰的音频(视频置零),Teacher 仅输入干净的视频(音频置零):
LVCP=∑t∈Ca∥[fθ(A~;0)]t−[f(0;V)]t∥22L_{VCP} = \sum_{t \in C^a} \left\| \left[f_\theta(\tilde{A}; 0)\right]_t - \left[f(0; V)\right]_t \right\|_2^2LVCP=t∈Ca∑ [fθ(A~;0)]t−[f(0;V)]t 22
直觉:环境嘈杂时,模型必须依赖清晰的唇动画面才能还原视觉语义——这隐式蒸馏出了视觉知识。
ACP + VCP = uMTL(Unimodal Multi-Task Learning),这就是 CAV2vec 的核心贡献。

图-2 不同 corrupted prediction 任务的输入与目标设计。这里最值得注意的是 ACP/VCP:输入和 target 都是单模态,但方向是跨模态的,因此它比 AVCP 更直接地约束 audio-video alignment。
3.3 为什么 ACP+VCP 优于 AVCP?
三者的关键区别总结如下:
| 任务 | Student 输入 | Teacher Target | 核心作用 |
|---|---|---|---|
| AVCP | 干扰 AV | 干净 AV | 学多模态鲁棒性(隐式) |
| mACP | 干扰 AV | 干净 A only | 用单模态 target 约束多模态输入 |
| mVCP | 干扰 AV | 干净 V only | 同上 |
| ACP | 干扰 V only | 干净 A only | 直接学 V→A 跨模态对齐 |
| VCP | 干扰 A only | 干净 V only | 直接学 A→V 跨模态对齐 |
AVCP 本质上是一种"隐式数据增强"——让学生学会容忍干扰。但 ACP/VCP 更进一步:
它迫使模型学习跨模态语义对应——“被干扰的唇动"应该对应什么"干净的音频内容”,反之亦然。这种跨模态对齐才是视听融合的本质,比简单的去噪更根本。
3.4 总损失函数
最终的训练目标为四个损失之和:
LCAV2vec=λACPLACP+λVCPLVCP+λMASKLMASK+λMLMLMLML_{CAV2vec} = \lambda_{ACP} L_{ACP} + \lambda_{VCP} L_{VCP} + \lambda_{MASK} L_{MASK} + \lambda_{MLM} L_{MLM}LCAV2vec=λACPLACP+λVCPLVCP+λMASKLMASK+λMLMLMLM
其中 LMASKL_{MASK}LMASK 为标准的掩码预测损失(masked audio-visual → clean AV target),LMLML_{MLM}LMLM 为掩码语言模型损失。实验中 λACP=λVCP=λMASK=1\lambda_{ACP} = \lambda_{VCP} = \lambda_{MASK} = 1λACP=λVCP=λMASK=1,λMLM=2\lambda_{MLM} = 2λMLM=2。
关键实现细节:
- 所有 loss 仅在受干扰/被掩码的帧索引上计算,不对干净帧施加损失。
- 掩码(mask)和干扰(corruption)的帧索引互不重叠,确保两类 loss 的语义干净分离。
- Student 端每个任务有独立的单层 MLP predictor,训练后移除。
四、实验设置
4.1 数据集
| 数据集 | 时长 | 说明 |
|---|---|---|
| LRS2 | 224h(BBC 节目) | 主要训练和评测集 |
| LRS3-TED | 438h(TED 演讲) | 泛化评测集 |
4.2 模型规格
| 组件 | 配置 |
|---|---|
| Backbone | AV-HuBERT Large(24 层 Transformer Encoder + 9 层 Decoder) |
| 参数量 | 325M |
| 视觉特征提取 | 改进的 ResNet-18 |
| 音频特征提取 | 线性投影层 |
| 融合方式 | Audio/Video feature 拼接后送入多模态 Transformer |
| Teacher 更新 | Student 参数的 EMA |
| 初始化 | Noise-Augmented AV-HuBERT checkpoint |
| 训练成本 | 仅 ~2% 的 AV-HuBERT 完整预训练成本(60k steps,4×A6000,8-10h) |
4.3 干扰设计

图-3 论文中的 seen/unseen corruption 设置。它把训练中见过的干扰和只在测试时出现的干扰分开,后续泛化实验正是围绕这个划分展开。
视觉干扰:
| 类型 | 训练/测试 | 说明 |
|---|---|---|
| Object Occlusion | 训练 | COCO 物体覆盖嘴部区域 |
| Gaussian Noise | 训练 | 逐帧高斯噪声 |
| Blurring | 训练 | 视频帧模糊 |
| Hands Occlusion | 测试(unseen) | 11k-Hands 真实手部遮挡 |
| Face Pixelation | 测试(unseen) | 3×3 像素块插值,模拟低分辨率 |
音频干扰:
| 类型 | 训练/测试 | 说明 |
|---|---|---|
| MUSAN (babble/music/natural) | 训练 + 测试 | 嘈杂人声、音乐、自然噪声 |
| LRS3 held-out speech | 训练 + 测试 | 语音干扰 |
| DEMAND (8 种真实环境) | 测试(unseen) | 公园、河流、咖啡厅、餐厅、食堂、地铁、车站、会议室 |
训练中强干扰使用 -10 dB SNR(噪声功率超过语音信号),unseen 干扰用于检验泛化能力。
4.4 训练流程
- Uptraining(表征学习):从 noise-augmented AV-HuBERT Large checkpoint 初始化,60k steps 自蒸馏训练。音频掩码率 80%,视频掩码率 30%(掩码在干扰后应用,互不重叠)。
- CFT(Corrupted-data Fine-Tuning):注入干扰数据的监督微调。Encoder 前 48k steps 冻结,仅训练 Decoder;然后整体再训练 12k steps。使用 BPE tokenizer + seq2seq 解码。
五、实验结果与分析
5.1 LRS2 主要结果:全面超越所有基线
在 LRS2 上,对象遮挡 + 各类音频噪声条件下的 WER 对比:
| 方法 | Babble | Speech | Music | Natural | Clean |
|---|---|---|---|---|---|
| AV-HuBERT | 11.6 | 5.3 | 6.1 | 6.0 | 3.0 |
| AV-data2vec | 11.5 | 5.6 | 6.5 | 6.2 | 3.0 |
| AV-RelScore | 11.1 | 4.8 | 5.9 | 5.5 | 2.9 |
| CAV2vec | 8.9 | 4.4 | 5.1 | 4.9 | 2.7 |
相对 AV-HuBERT 的提升:
| 噪声类型 | Babble | Speech | Music | Natural | Clean |
|---|---|---|---|---|---|
| 相对提升 | -23.3% | -17.0% | -16.4% | -18.3% | -10.0% |
两个观察:
- 所有场景下全面超越所有基线,干扰越严重的场景提升越显著(Babble -23.3% 最为突出)。
- Clean 场景也提升 10.0%:多任务训练改善了整体的 audio-video alignment,即使没有干扰,融合表征也更可靠。
5.2 LRS3 泛化结果:未见干扰也能泛化
在 LRS3 上的 joint corruption(双模态同时干扰)评估:
| 场景 | AV-HuBERT | CAV2vec | 相对提升 |
|---|---|---|---|
| Clean | 2.2 | 1.5 | -31.8% |
| Noise-dominant (N≥S) | 8.9 | 6.5 | -27.0% |
| Clean-dominant (N<S) | 2.8 | 1.9 | -32.1% |
更重要的是对 unseen corruption 的泛化:
| Unseen 干扰组合 | CAV2vec WER |
|---|---|
| Object Occl. + DEMAND | 4.3 |
| Hands Occlusion + MUSAN | 5.2 |
| Hands Occlusion + DEMAND | 4.3 |
| Pixelated Face + MUSAN | 5.1 |
| Pixelated Face + DEMAND | 4.2 |
模型在从未见过的手部遮挡、像素化人脸、真实环境噪声上均展现了强泛化能力。这证明 CAV2vec 学到的是通用的跨模态鲁棒表征,而非对特定干扰模式的记忆。
5.3 消融实验:ACP+VCP 即最优
这是整篇论文最关键的实验证据。在 LRS3 joint corruption 设置下,逐一拆解各任务组件的贡献:

图-4 消融实验原表。相比只看改写后的数字表,原表能更直观看到 best/second-best 的分布:ACP+VCP 不是只在单一场景胜出,而是在不同 unseen corruption 组合下整体更稳定。
| 配置 | O/MS | O/DM | H/MS | H/DM | P/MS | P/DM |
|---|---|---|---|---|---|---|
| No CRL(仅 CFT) | 6.2 | 5.1 | 6.5 | 5.5 | 6.0 | 4.9 |
| AVCP only | 5.3 | 4.5 | 5.6 | 4.7 | 5.6 | 4.8 |
| mACP + mVCP | 5.1 | 4.2 | 5.4 | 4.5 | 5.3 | 4.3 |
| ACP + VCP | 5.1 | 4.3 | 5.2 | 4.3 | 5.1 | 4.2 |
| ACP + VCP + AVCP | 5.2 | 4.4 | 5.6 | 4.6 | 5.3 | 4.6 |
O=Object Occlusion, H=Hands Occlusion, P=Pixelation, MS=MUSAN+Speech, DM=DEMAND
核心结论:
- No CRL 最差:说明仅仅在微调时注入干扰数据是不够的,表征学习阶段的 corrupted prediction 必不可少。
- AVCP 有提升但不充分:corrupted input → clean target 的思路有效,但多模态混合 target 不够精确。
- mACP+mVCP 优于 AVCP:单模态 target 比混合 target 提供了更清晰的监督信号。
- ACP+VCP 最优且最稳定:单模态输入 + 跨模态 target,直接建模 audio-video alignment。
- 添加 AVCP 无额外收益,甚至变差:在已有 ACP+VCP 和 masked prediction 的情况下,AVCP 变得冗余——说明 ACP+VCP 已经充分捕捉了跨模态关系。
5.4 表征空间分析:uMTL 减小模态鸿沟
论文通过 t-SNE 可视化和 modality gap 分析展示了 ACP+VCP 的深层效果:

图-5 clean 与 corrupted 表征的相似度对比。CAV2vec 的平均距离更小,说明干扰后表征更接近干净表征,这支撑了「uMTL 缩小模态鸿沟」这一解释。
- 无 uMTL 时:干扰导致 audio 和 visual 的 latent representation 分散(scattered),交叉散布、难以对齐,融合层难以提取有效信息。
- 有 uMTL 时:表征聚集良好(clustered),audio 和 visual 的语义对应更紧密。AV-data2vec 的 modality gap 更大,而 CAV2vec 的 modality gap 显著更小。
这解释了为什么 uMTL 能让 AVSR 在 joint corruption 下依然鲁棒——跨模态预测迫使模型在干扰条件下仍保持不同模态 latent representation 的语义对齐。
5.5 训练效率:仅 2% 的成本
| 方法 | 训练范式 | 训练成本 |
|---|---|---|
| AV-HuBERT | 完整自监督预训练 | 100%(基准) |
| CAV2vec | 从 AV-HuBERT checkpoint uptraining | ~2%(60k steps, 4×A6000, 8-10h) |
这意味着:不需要从头训练,任意 pretrained AV-HuBERT 模型都可以高效地 adapt 到 robust AVSR 场景。且推理时 predictor heads 被移除,结构和原 AV-HuBERT 完全一致,没有任何额外推理开销。
六、讨论与未来方向
作者在论文中列出了几个有前景的后续方向:
-
生成式干扰合成:当前训练的视觉干扰仅 3 种(物体遮挡、高斯噪声、模糊),真实场景中还有压缩伪影、低帧率、恶劣光照、音画不同步等。用生成模型合成更多样、更逼真的训练干扰可能进一步提升泛化性。
-
扩展到其他多模态任务:ACP/VCP 的核心思想——跨模态 corrupted prediction——可以迁移到视频-文本、音频-图像等多种多模态场景中。
-
动态干扰调度:当前干扰比例是固定的。课程学习或自适应干扰比例可能进一步提升训练效率和最终性能。消融中已观察到干扰比例是 Clean WER vs Noise WER 之间的 trade-off 超参数。
-
多语言鲁棒 AVSR:论文仅验证了英语数据(LRS2/LRS3)。不同语言的 viseme-phoneme mapping 不同,跨语言的泛化能力有待探索。
七、个人思考与总结
这篇论文改变了什么认知?
CAV2vec 和 MultiAVSR 虽然方法不同,但有一种相似的"气质":做减法而非做加法。它不需要生成模型、不需要对抗训练、不需要额外的网络模块——仅靠设计精巧的训练目标,就实现了全面的鲁棒性提升。
具体来说,它挑战了 AVSR 领域的几个默认设定:
| 默认认知 | CAV2vec 的回应 |
|---|---|
| 鲁棒性 = 加更多数据增强 | 数据增强是输入扰动,关键在于让模型以干净的跨模态表征为目标 |
| AVSR 需要复杂的鲁棒性机制 | 不需要额外模块,Teacher-Student + MSE 足够 |
| 自监督预训练一定很贵 | 从已有 checkpoint uptraining 仅需 ~2% 的成本 |
| 视觉干扰不重要/不需要专门处理 | 视觉干扰同样致命,且跨模态预测是同时解决两种干扰的关键 |
最精妙的设计:ACP/VCP 的跨模态 target
这篇论文最让我印象深刻的点是 ACP/VCP 的 target 设计。直觉上,“被干扰的音频 → 干净的音频”(同模态去噪)似乎更自然。但论文反其道而行之,让 target 变成另一个模态:
fθ(0;V~)→f(A;0)f_\theta(0; \tilde{V}) \rightarrow f(A; 0)fθ(0;V~)→f(A;0)
这让任务的本质从"去噪"变成了"跨模态翻译"——模型不是在修图/修音,而是在学唇动到语音的语义映射和语音到唇动的语义映射。这种映射恰好是 AVSR 融合的根本前提。所以我理解这篇文章的核心洞察是:鲁棒视听融合的瓶颈不是去噪能力,而是跨模态对齐能力。
与 MultiAVSR 的异曲同工
两篇论文都发表在 2025 年前后,都是 AVSR 领域的重要工作,都包含"多任务"关键词,但思路不同:
| 维度 | MultiAVSR | CAV2vec |
|---|---|---|
| 训练范式 | 纯监督多任务 | 自监督表征学习 + 监督微调 |
| 核心机制 | 共享 Conformer 编码器 | ACP/VCP 跨模态 corrupted prediction |
| 多任务含义 | ASR + VSR + AVSR 三任务联合 | AVCP + ACP + VCP + Mask 四任务联合 |
| 关键洞察 | 任务难度差异 = 天然的损失权重 | 跨模态对齐 > 模态内去噪 |
| 哲学 | 做减法(共享编码器、不加权重) | 做减法(无需额外模块、仅改训练目标) |
共同启示:在 AVSR 领域,巧妙的训练策略设计比堆算力、堆模块更有效。
局限性
- 依赖 pretrained checkpoint:虽然从 random init 也有提升(附录验证),但主实验依赖 AV-HuBERT 预训练。
- 干扰多样性有限:训练仅使用 3 种视觉 + 4 种音频干扰,真实场景的干扰空间远大于此。
- 仅验证英语:LRS2/LRS3 均来自英语媒体内容。
- 不处理音画不同步:假设预处理后 audio/video 已按 25fps 对齐。
一句话总结
CAV2vec 用 Teacher-Student 自蒸馏 + ACP/VCP 跨模态干扰预测,在仅 ~2% 的预训练成本下,实现了对 seen 和 unseen 联合干扰的全面鲁棒性提升,证明了"跨模态对齐"比"模态内去噪"是更根本的鲁棒 AVSR 方法论。
本博客基于 CAV2vec 论文(ICLR 2025, arXiv:2504.18539)撰写,作者来自 KAIST AI。论文代码开源:https://github.com/sungnyun/cav2vec
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)