CAV2vec 论文解读:用多任务干扰预测,学出鲁棒的视听语音表征

一、论文背景介绍

  • 论文标题:Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation
  • 简称:CAV2vec
  • 发表会议:ICLR 2025
  • 作者:Sungnyun Kim, Sungwoo Cho, Sangmin Bae, Kangwook Jang, Se-Young Yun(韩国 KAIST AI)

视听语音识别(AVSR)领域近年来涌现了大量自监督方法,如 AV-HuBERT、AV-data2vec、RAVEn/BRAVEn 等。但这些方法存在一个共同的盲区:它们只关注音频噪声,完全忽略了视觉干扰——唇部遮挡、面部像素化、运动模糊等。真实场景中,音频和视觉可能同时被干扰,此时传统方法的视听融合反而可能被错误的视觉信息误导。

CAV2vec 是首个在自监督 AVSR 中同时处理音频-视觉联合干扰的工作。它不引入任何新模块,仅靠一个巧妙的训练目标——多任务干扰预测(Multi-Task Corrupted Prediction)——就让模型学会了跨模态的鲁棒表征。

二、Abstract — 摘要

AVSR 领域的自监督方法长期存在以下默认认知:

  1. 增强鲁棒性 = 加更多数据增强(噪声增强训练)。
  2. AVSR 融合的质量取决于两个模态各自特征的好坏。
  3. 鲁棒的视听表征需要复杂的生成模型或对抗训练。
  4. 自监督预训练非常昂贵,从头训练 325M 参数的 AV-HuBERT 需要大量资源。

CAV2vec 逐一挑战了这些认知:

  • 数据增强不够:仅仅是给训练数据加干扰(corrupted data uptraining),提升有限。关键在于让学生以干净的跨模态表征作为预测目标
  • 跨模态对齐比模态内去噪更重要:核心创新 ACP/VCP 直接学习"被干扰的视觉 → 干净的音频"和"被干扰的音频 → 干净的视觉"的映射,迫使模型学习跨模态语义对应。
  • 不需要额外模块:整个框架仅靠 Teacher-Student 自蒸馏 + MSE 损失,推理时零额外开销。
  • 训练成本极低:从 noise-augmented AV-HuBERT checkpoint 出发,uptraining 成本仅为完整预训练的 ~2%(60k steps,4×RTX A6000,8-10 小时)。

三、方法介绍

3.1 整体框架:Teacher-Student Self-Distillation

CAV2vec 基于 AV-HuBERT Large(325M 参数,24 层 Transformer Encoder + 9 层 Decoder),核心框架是教师-学生自蒸馏

  • Teacher 接收干净的音频和视频输入,通过 EMA 方式更新,产生干净的目标表征。Teacher 目标不是单层输出,而是 top-k Transformer blocks 的平均表征。
  • Student 接收被干扰(corrupted)或被掩码(masked)的输入,通过 MSE 学习预测 Teacher 的干净输出。

在这里插入图片描述

图-1 CAV2vec 框架示意图。Teacher 输入 clean audio-visual,Student 输入 corrupted/masked audio-visual,Student 通过 MSE 学习预测 Teacher 的干净表征。

Teacher 更新规则为 EMA:

f←η⋅f+(1−η)⋅fθf \leftarrow \eta \cdot f + (1 - \eta) \cdot f_\thetafηf+(1η)fθ

其中 η\etaη 从 0.99 增长到 0.999,确保 Teacher 稳定更新。

3.2 关键机制:从 AVCP 到 ACP+VCP

CAV2vec 定义了三种 corrupted prediction 任务,层层递进:

AVCP(Audio-Visual Corrupted Prediction)—— 基线

最直观的做法:Student 输入被干扰的音频+视频,预测 Teacher 的干净多模态表征。

LAVCP=∑t∈Ca∪Cv∥[fθ(A~;V~)]t−[f(A;V)]t∥22L_{AVCP} = \sum_{t \in C^a \cup C^v} \left\| \left[f_\theta(\tilde{A}; \tilde{V})\right]_t - \left[f(A; V)\right]_t \right\|_2^2LAVCP=tCaCv [fθ(A~;V~)]t[f(A;V)]t 22

问题:输入和 target 都是多模态混合表征,无法显式建模"哪个模态在为另一个模态提供补偿信息"。

ACP(Audio Corrupted Prediction)—— 核心创新 1

Student 仅输入被干扰的视频(音频置零),Teacher 仅输入干净的音频(视频置零):

LACP=∑t∈Cv∥[fθ(0;V~)]t−[f(A;0)]t∥22L_{ACP} = \sum_{t \in C^v} \left\| \left[f_\theta(0; \tilde{V})\right]_t - \left[f(A; 0)\right]_t \right\|_2^2LACP=tCv [fθ(0;V~)]t[f(A;0)]t 22

直觉:嘴唇被遮挡时,模型必须依赖清晰的声音信号才能还原语音内容——这隐式蒸馏出了音频知识。

VCP(Visual Corrupted Prediction)—— 核心创新 2

Student 仅输入被干扰的音频(视频置零),Teacher 仅输入干净的视频(音频置零):

LVCP=∑t∈Ca∥[fθ(A~;0)]t−[f(0;V)]t∥22L_{VCP} = \sum_{t \in C^a} \left\| \left[f_\theta(\tilde{A}; 0)\right]_t - \left[f(0; V)\right]_t \right\|_2^2LVCP=tCa [fθ(A~;0)]t[f(0;V)]t 22

直觉:环境嘈杂时,模型必须依赖清晰的唇动画面才能还原视觉语义——这隐式蒸馏出了视觉知识。

ACP + VCP = uMTL(Unimodal Multi-Task Learning),这就是 CAV2vec 的核心贡献。

在这里插入图片描述

图-2 不同 corrupted prediction 任务的输入与目标设计。这里最值得注意的是 ACP/VCP:输入和 target 都是单模态,但方向是跨模态的,因此它比 AVCP 更直接地约束 audio-video alignment。

3.3 为什么 ACP+VCP 优于 AVCP?

三者的关键区别总结如下:

任务 Student 输入 Teacher Target 核心作用
AVCP 干扰 AV 干净 AV 学多模态鲁棒性(隐式)
mACP 干扰 AV 干净 A only 用单模态 target 约束多模态输入
mVCP 干扰 AV 干净 V only 同上
ACP 干扰 V only 干净 A only 直接学 V→A 跨模态对齐
VCP 干扰 A only 干净 V only 直接学 A→V 跨模态对齐

AVCP 本质上是一种"隐式数据增强"——让学生学会容忍干扰。但 ACP/VCP 更进一步:

它迫使模型学习跨模态语义对应——“被干扰的唇动"应该对应什么"干净的音频内容”,反之亦然。这种跨模态对齐才是视听融合的本质,比简单的去噪更根本。

3.4 总损失函数

最终的训练目标为四个损失之和:

LCAV2vec=λACPLACP+λVCPLVCP+λMASKLMASK+λMLMLMLML_{CAV2vec} = \lambda_{ACP} L_{ACP} + \lambda_{VCP} L_{VCP} + \lambda_{MASK} L_{MASK} + \lambda_{MLM} L_{MLM}LCAV2vec=λACPLACP+λVCPLVCP+λMASKLMASK+λMLMLMLM

其中 LMASKL_{MASK}LMASK 为标准的掩码预测损失(masked audio-visual → clean AV target),LMLML_{MLM}LMLM 为掩码语言模型损失。实验中 λACP=λVCP=λMASK=1\lambda_{ACP} = \lambda_{VCP} = \lambda_{MASK} = 1λACP=λVCP=λMASK=1λMLM=2\lambda_{MLM} = 2λMLM=2

关键实现细节:

  • 所有 loss 仅在受干扰/被掩码的帧索引上计算,不对干净帧施加损失。
  • 掩码(mask)和干扰(corruption)的帧索引互不重叠,确保两类 loss 的语义干净分离。
  • Student 端每个任务有独立的单层 MLP predictor,训练后移除。

四、实验设置

4.1 数据集

数据集 时长 说明
LRS2 224h(BBC 节目) 主要训练和评测集
LRS3-TED 438h(TED 演讲) 泛化评测集

4.2 模型规格

组件 配置
Backbone AV-HuBERT Large(24 层 Transformer Encoder + 9 层 Decoder)
参数量 325M
视觉特征提取 改进的 ResNet-18
音频特征提取 线性投影层
融合方式 Audio/Video feature 拼接后送入多模态 Transformer
Teacher 更新 Student 参数的 EMA
初始化 Noise-Augmented AV-HuBERT checkpoint
训练成本 仅 ~2% 的 AV-HuBERT 完整预训练成本(60k steps,4×A6000,8-10h)

4.3 干扰设计

在这里插入图片描述

图-3 论文中的 seen/unseen corruption 设置。它把训练中见过的干扰和只在测试时出现的干扰分开,后续泛化实验正是围绕这个划分展开。

视觉干扰

类型 训练/测试 说明
Object Occlusion 训练 COCO 物体覆盖嘴部区域
Gaussian Noise 训练 逐帧高斯噪声
Blurring 训练 视频帧模糊
Hands Occlusion 测试(unseen) 11k-Hands 真实手部遮挡
Face Pixelation 测试(unseen) 3×3 像素块插值,模拟低分辨率

音频干扰

类型 训练/测试 说明
MUSAN (babble/music/natural) 训练 + 测试 嘈杂人声、音乐、自然噪声
LRS3 held-out speech 训练 + 测试 语音干扰
DEMAND (8 种真实环境) 测试(unseen) 公园、河流、咖啡厅、餐厅、食堂、地铁、车站、会议室

训练中强干扰使用 -10 dB SNR(噪声功率超过语音信号),unseen 干扰用于检验泛化能力。

4.4 训练流程

  1. Uptraining(表征学习):从 noise-augmented AV-HuBERT Large checkpoint 初始化,60k steps 自蒸馏训练。音频掩码率 80%,视频掩码率 30%(掩码在干扰后应用,互不重叠)。
  2. CFT(Corrupted-data Fine-Tuning):注入干扰数据的监督微调。Encoder 前 48k steps 冻结,仅训练 Decoder;然后整体再训练 12k steps。使用 BPE tokenizer + seq2seq 解码。

五、实验结果与分析

5.1 LRS2 主要结果:全面超越所有基线

在 LRS2 上,对象遮挡 + 各类音频噪声条件下的 WER 对比:

方法 Babble Speech Music Natural Clean
AV-HuBERT 11.6 5.3 6.1 6.0 3.0
AV-data2vec 11.5 5.6 6.5 6.2 3.0
AV-RelScore 11.1 4.8 5.9 5.5 2.9
CAV2vec 8.9 4.4 5.1 4.9 2.7

相对 AV-HuBERT 的提升:

噪声类型 Babble Speech Music Natural Clean
相对提升 -23.3% -17.0% -16.4% -18.3% -10.0%

两个观察:

  • 所有场景下全面超越所有基线,干扰越严重的场景提升越显著(Babble -23.3% 最为突出)。
  • Clean 场景也提升 10.0%:多任务训练改善了整体的 audio-video alignment,即使没有干扰,融合表征也更可靠。

5.2 LRS3 泛化结果:未见干扰也能泛化

在 LRS3 上的 joint corruption(双模态同时干扰)评估:

场景 AV-HuBERT CAV2vec 相对提升
Clean 2.2 1.5 -31.8%
Noise-dominant (N≥S) 8.9 6.5 -27.0%
Clean-dominant (N<S) 2.8 1.9 -32.1%

更重要的是对 unseen corruption 的泛化:

Unseen 干扰组合 CAV2vec WER
Object Occl. + DEMAND 4.3
Hands Occlusion + MUSAN 5.2
Hands Occlusion + DEMAND 4.3
Pixelated Face + MUSAN 5.1
Pixelated Face + DEMAND 4.2

模型在从未见过的手部遮挡、像素化人脸、真实环境噪声上均展现了强泛化能力。这证明 CAV2vec 学到的是通用的跨模态鲁棒表征,而非对特定干扰模式的记忆。

5.3 消融实验:ACP+VCP 即最优

这是整篇论文最关键的实验证据。在 LRS3 joint corruption 设置下,逐一拆解各任务组件的贡献:

在这里插入图片描述

图-4 消融实验原表。相比只看改写后的数字表,原表能更直观看到 best/second-best 的分布:ACP+VCP 不是只在单一场景胜出,而是在不同 unseen corruption 组合下整体更稳定。

配置 O/MS O/DM H/MS H/DM P/MS P/DM
No CRL(仅 CFT) 6.2 5.1 6.5 5.5 6.0 4.9
AVCP only 5.3 4.5 5.6 4.7 5.6 4.8
mACP + mVCP 5.1 4.2 5.4 4.5 5.3 4.3
ACP + VCP 5.1 4.3 5.2 4.3 5.1 4.2
ACP + VCP + AVCP 5.2 4.4 5.6 4.6 5.3 4.6

O=Object Occlusion, H=Hands Occlusion, P=Pixelation, MS=MUSAN+Speech, DM=DEMAND

核心结论:

  1. No CRL 最差:说明仅仅在微调时注入干扰数据是不够的,表征学习阶段的 corrupted prediction 必不可少。
  2. AVCP 有提升但不充分:corrupted input → clean target 的思路有效,但多模态混合 target 不够精确。
  3. mACP+mVCP 优于 AVCP:单模态 target 比混合 target 提供了更清晰的监督信号。
  4. ACP+VCP 最优且最稳定:单模态输入 + 跨模态 target,直接建模 audio-video alignment。
  5. 添加 AVCP 无额外收益,甚至变差:在已有 ACP+VCP 和 masked prediction 的情况下,AVCP 变得冗余——说明 ACP+VCP 已经充分捕捉了跨模态关系。

5.4 表征空间分析:uMTL 减小模态鸿沟

论文通过 t-SNE 可视化和 modality gap 分析展示了 ACP+VCP 的深层效果:

在这里插入图片描述

图-5 clean 与 corrupted 表征的相似度对比。CAV2vec 的平均距离更小,说明干扰后表征更接近干净表征,这支撑了「uMTL 缩小模态鸿沟」这一解释。

  • 无 uMTL 时:干扰导致 audio 和 visual 的 latent representation 分散(scattered),交叉散布、难以对齐,融合层难以提取有效信息。
  • 有 uMTL 时:表征聚集良好(clustered),audio 和 visual 的语义对应更紧密。AV-data2vec 的 modality gap 更大,而 CAV2vec 的 modality gap 显著更小。

这解释了为什么 uMTL 能让 AVSR 在 joint corruption 下依然鲁棒——跨模态预测迫使模型在干扰条件下仍保持不同模态 latent representation 的语义对齐

5.5 训练效率:仅 2% 的成本

方法 训练范式 训练成本
AV-HuBERT 完整自监督预训练 100%(基准)
CAV2vec 从 AV-HuBERT checkpoint uptraining ~2%(60k steps, 4×A6000, 8-10h)

这意味着:不需要从头训练,任意 pretrained AV-HuBERT 模型都可以高效地 adapt 到 robust AVSR 场景。且推理时 predictor heads 被移除,结构和原 AV-HuBERT 完全一致,没有任何额外推理开销。

六、讨论与未来方向

作者在论文中列出了几个有前景的后续方向:

  1. 生成式干扰合成:当前训练的视觉干扰仅 3 种(物体遮挡、高斯噪声、模糊),真实场景中还有压缩伪影、低帧率、恶劣光照、音画不同步等。用生成模型合成更多样、更逼真的训练干扰可能进一步提升泛化性。

  2. 扩展到其他多模态任务:ACP/VCP 的核心思想——跨模态 corrupted prediction——可以迁移到视频-文本、音频-图像等多种多模态场景中。

  3. 动态干扰调度:当前干扰比例是固定的。课程学习或自适应干扰比例可能进一步提升训练效率和最终性能。消融中已观察到干扰比例是 Clean WER vs Noise WER 之间的 trade-off 超参数。

  4. 多语言鲁棒 AVSR:论文仅验证了英语数据(LRS2/LRS3)。不同语言的 viseme-phoneme mapping 不同,跨语言的泛化能力有待探索。

七、个人思考与总结

这篇论文改变了什么认知?

CAV2vec 和 MultiAVSR 虽然方法不同,但有一种相似的"气质":做减法而非做加法。它不需要生成模型、不需要对抗训练、不需要额外的网络模块——仅靠设计精巧的训练目标,就实现了全面的鲁棒性提升。

具体来说,它挑战了 AVSR 领域的几个默认设定:

默认认知 CAV2vec 的回应
鲁棒性 = 加更多数据增强 数据增强是输入扰动,关键在于让模型以干净的跨模态表征为目标
AVSR 需要复杂的鲁棒性机制 不需要额外模块,Teacher-Student + MSE 足够
自监督预训练一定很贵 从已有 checkpoint uptraining 仅需 ~2% 的成本
视觉干扰不重要/不需要专门处理 视觉干扰同样致命,且跨模态预测是同时解决两种干扰的关键

最精妙的设计:ACP/VCP 的跨模态 target

这篇论文最让我印象深刻的点是 ACP/VCP 的 target 设计。直觉上,“被干扰的音频 → 干净的音频”(同模态去噪)似乎更自然。但论文反其道而行之,让 target 变成另一个模态

fθ(0;V~)→f(A;0)f_\theta(0; \tilde{V}) \rightarrow f(A; 0)fθ(0;V~)f(A;0)

这让任务的本质从"去噪"变成了"跨模态翻译"——模型不是在修图/修音,而是在学唇动到语音的语义映射语音到唇动的语义映射。这种映射恰好是 AVSR 融合的根本前提。所以我理解这篇文章的核心洞察是:鲁棒视听融合的瓶颈不是去噪能力,而是跨模态对齐能力

与 MultiAVSR 的异曲同工

两篇论文都发表在 2025 年前后,都是 AVSR 领域的重要工作,都包含"多任务"关键词,但思路不同:

维度 MultiAVSR CAV2vec
训练范式 纯监督多任务 自监督表征学习 + 监督微调
核心机制 共享 Conformer 编码器 ACP/VCP 跨模态 corrupted prediction
多任务含义 ASR + VSR + AVSR 三任务联合 AVCP + ACP + VCP + Mask 四任务联合
关键洞察 任务难度差异 = 天然的损失权重 跨模态对齐 > 模态内去噪
哲学 做减法(共享编码器、不加权重) 做减法(无需额外模块、仅改训练目标)

共同启示:在 AVSR 领域,巧妙的训练策略设计比堆算力、堆模块更有效

局限性

  • 依赖 pretrained checkpoint:虽然从 random init 也有提升(附录验证),但主实验依赖 AV-HuBERT 预训练。
  • 干扰多样性有限:训练仅使用 3 种视觉 + 4 种音频干扰,真实场景的干扰空间远大于此。
  • 仅验证英语:LRS2/LRS3 均来自英语媒体内容。
  • 不处理音画不同步:假设预处理后 audio/video 已按 25fps 对齐。

一句话总结

CAV2vec 用 Teacher-Student 自蒸馏 + ACP/VCP 跨模态干扰预测,在仅 ~2% 的预训练成本下,实现了对 seen 和 unseen 联合干扰的全面鲁棒性提升,证明了"跨模态对齐"比"模态内去噪"是更根本的鲁棒 AVSR 方法论。


本博客基于 CAV2vec 论文(ICLR 2025, arXiv:2504.18539)撰写,作者来自 KAIST AI。论文代码开源:https://github.com/sungnyun/cav2vec

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐