AAAI 2025 | 用于半监督视频动作检测的稳定均值教师模型

rzxrzx_

372人浏览 · 2026-03-14 20:39:54

rzxrzx_ · 2026-03-14 20:39:54 发布

文章目录

论文信息
论文主要贡献
问题
论文创新点
方法
实验分析
消融实验
泛化能力分析
结论

论文信息

论文题目： Stable Mean Teacher for Semi-supervised Video Action Detection
论文作者： Akash Kumar, Sirshapan Mitra, Yogesh Singh Rawat
发表会议： AAAI 2025
代码链接： https://github.com/AKASH2907/stable-mean-teacher

论文主要贡献

提出了Stable Mean Teacher，这是一种用于半监督视频动作检测的简单端到端方法。
提出了一种新颖的错误恢复（EoR）模块，该模块能从学生的错误中学习，并帮助教师在标记样本有限的情况下提供更好的监督信号。
提出了像素差异（DoP），这是一种简单且新颖的约束条件，它侧重于时间一致性，并能产生连贯的时空预测。
在三个不同的动作检测基准上进行了全面评估。研究表明，与有监督基线相比，该方法有显著改进，在动作检测方面始终优于最先进的方法（如图）。该方法在视频目标分割任务上具有泛化能力。

问题

高质量伪标签生成困难：视频动作检测除了需要进行分类外，还要求实现时空定位，这需要对每个视频帧进行标注，而这既耗费成本又耗时，而有限的标签数量会导致模型容易做出不可靠的预测。
时间一致性问题：现有的时空损失函数没有考虑时间连贯性，容易导致时间上的不一致性。
现有方法不适配时空检测任务：迭代代理标签法虽然有效，但由于训练周期长，并不适用于视频领域。基于一致性的方法提供端到端的解决方案，训练时只需对数据集进行一次遍历。尽管该领域现有的大多数研究都集中在图像分类和目标检测，但在视频领域的研究成果有限，且仅集中在分类任务上

论文创新点

提出了稳定均值教师（Stable Mean Teacher）：这是一种简单的基于学生-教师架构的端到端框架，它得益于经过改进且具有时间一致性的伪标签。
设计了一种新颖的错误恢复（EoR）模块，该模块从学生在带标签样本上的错误中学习，并将这些知识传递给教师，以改进无标签样本的伪标签。
提出了像素差异（DoP）约束，这是一种简单且新颖的、专注于时间一致性的约束，能够实现连贯的时间检测。

方法

整体框架

在这里插入图片描述
Stable Mean Teacher框架的核心逻辑
以均值教师为基础，通过 EMA 生成稳定伪标签；用EoR 模块修正伪标签的空间定位误差，提升精度；用DoP 约束强制帧间像素变化一致，保证时间连贯性；
梯度隔离设计确保模块间互不干扰，最终实现低标签场景下高效、准确的视频动作检测。

Spatio-Temporal Mean Teacher（时空均值教师）：基础师生检测网络

数据输入：数据集包含标注数据和未标注数据，分别进行弱增强（ $x_w$ ）和强增强（ $x_s$ ）。
模型结构：
- 学生模型 $\mathcal{M}_s$ ：接收 $x_s$ ，输出动作分类 logits 和时空定位图，参与梯度更新。
- 教师模型 $\mathcal{M}_t$ ：参数冻结不参与梯度更新，完全由学生模型通过EMA更新，接收 $x_w$ ，生成更稳定的伪标签。
基础损失 $\mathcal{L}_{base}$ ：约束学生模型在标注数据上的分类和定位精度，同时约束师生模型在未标注数据上的预测一致性。
梯度控制：红色梯度截断，防止EoR模块梯度回流到基础检测模型。

Error Recovery (EoR)：错误恢复模块

修正时空伪标签的空间定位误差，无类别偏置，仅关注动作边界精细优化。

模型结构：
- EoR学生模型 $\mathcal{M}_s^{EoR}$ ：接收学生模型 $\mathcal{M}_s$ 的定位图，学习修正标注样本上的定位错误。
- EoR教师模型 $\mathcal{M}_t^{EoR}$ ：参数由EoR学生模型通过EMA更新，接收教师模型 $\mathcal{M}_t$ 的定位图，输出修正后的伪标签。
EoR损失 $\mathcal{L}_{EoR}$ ：约束学生定位图与EoR教师修正后定位图的一致性，梯度仅在EoR模块内传播，不影响基础检测模型。
EoR transfer：将标注样本上的错误修正能力迁移到未标注样本，提升伪标签空间精度。

Difference of Pixels (DoP)：像素差异约束模块

解决时空预测的时间不一致性问题，强制帧间动作边界平滑过渡。

模型结构：
- 计算连续帧定位图的像素差异，分别对基础模型和EoR修正后的模型施加约束。
- 对基础模型：约束 $\mathcal{L}_u^{DoP}$ ，强制师生模型的像素变化趋势一致。
- 对EoR模型：约束 $\mathcal{L}_{EoR}^{DoP}$ ，保证修正后的伪标签也具备时间连贯性。
梯度流向：DoP约束的梯度同时作用于学生模型 $\mathcal{M}_s$ 和EoR学生模型 $\mathcal{M}_s^{EoR}$ ，联合优化空间精度与时间一致性。

DoP可视化：第一行展示RGB帧，第二行展示沿时间维度的真实像素差异图。用来直观证明：
该模型能精准捕捉动作的空间形态；帧间检测结果平滑连贯，验证了 DoP 时间约束的效果；
动作边界精细，体现了 EoR 模块对伪标签的修正能力。

损失函数

在这里插入图片描述
由监督损失和无监督损失两部分加权组成。

$\mathcal{L}_s$ ：监督损失

在有标注的视频数据上，让学生模型学习真实的动作类别和时空定位标签。

$\lambda \mathcal{L}_u$ ：加权无监督损失

$\lambda$ ：权重参数，用来平衡监督学习和无监督学习的权重，控制未标注数据对训练的影响程度。
$\mathcal{L}_u$ ：无监督损失，在未标注视频数据上，让学生模型向更稳定的教师模型学习，由三部分组成：
- $\mathcal{L}_{base}$ ：基础一致性损失
  约束学生模型和教师模型在动作分类、时空定位上的预测一致，是均值教师范式的核心损失。
- $\mathcal{L}_{EoR}$ ：错误恢复损失
  约束学生模型的定位图与EoR教师修正后的定位图一致，提升伪标签的空间定位精度，修正动作边界误差。
- $\mathcal{L}_{dop}$ ：时间一致性损失（DoP约束）
  约束连续帧间定位图的像素变化趋势一致，保证视频动作检测结果在时间上平滑连贯，避免帧间跳变。

实验分析

在这里插入图片描述
该方法在所有阈值下均优于伪标签方法。在有监督场景下，该方法仅使用10%的标记数据，就在v-mAP上超过了所有基于2D的方法，并且在与基于3D的方法的对比中表现出竞争力，优于其中几种。

在这里插入图片描述
采用实时时空方法进行实验，结果表明，在仅使用10%标记数据的情况下，该方法在YOWOv2-N上比有监督方法提高了3.3%。

消融实验

在这里插入图片描述
该表格通过消融实验定量证明：两个损失函数模块与基础损失互补，共同作用时性能达到峰值，完整验证了 Stable Mean Teacher 框架的设计有效性。

在这里插入图片描述
定性分析：DoP使预测在时间上保持连贯，而EoR有助于生成更精细的预测。

在这里插入图片描述
这张图定量验证了Stable Mean Teacher 框架在低标签场景下的优越性：
相比仅用少量标注训练的监督基线，本文半监督方法能充分利用未标注数据，在 10%/15%/20% 标注比例下均实现12% 以上的性能提升。
标签比例越低，性能增益越显著，说明方法特别适合标注成本高昂的视频动作检测任务。
整体结果证明，半监督范式能有效缓解标签稀缺问题，是提升视频动作检测性能的高效方案。

泛化能力分析

在这里插入图片描述
Stable Mean Teacher在视频目标分割（VOS）上的泛化能力：该方法比有监督基线平均高出31%，在所有指标上都比半监督方法（2022年）提高了4-6%。即使只使用5%的标记数据，该方法也超过了（2022年）的方法，这凸显了其在低标记数据场景下的有效性。

结论

本文提出了Stable Mean Teacher，这是一种用于半监督动作检测的新型师生方法。Stable Mean Teacher依赖于一种新颖的错误恢复模块，该模块从学生的错误中学习，并将这些知识传递给教师，以便为学生生成更好的伪标签。它还得益于像素差异，这是一种简单的约束，能在时空预测中增强时间连贯性。本文通过大量实验在三个动作检测数据集上证明了Stable Mean Teacher的有效性。此外，本文还展示了它在VOS任务上的性能，验证了其对视频中其他密集预测任务的泛化能力。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

1999年高教社杯全国大学生数学建模竞赛 B 题:《钻井布局》真题解析与 MATLAB 解决方案

AtomGit开源社区

基于 Sigma 点的高斯假设密度平滑器中线性子结构的拉奥 - 布莱克韦尔化研究（Matlab代码实现）

针对非线性状态空间系统的高精度状态估计需求，高斯假设密度平滑算法凭借稳定的估计性能，成为非线性贝叶斯平滑的主流方法。传统基于Sigma点的高斯平滑算法需对全维度状态空间开展数值积分运算，当系统存在线性子结构时，可解析求解的线性子空间仍会占用大量算力资源，导致算法计算冗余、运行效率低下，难以适配高维线性子空间系统的实时估计场景。为解决这一问题，本文将拉奥-布莱克韦尔降维优化思想引入高斯平滑框架，对两