论文信息

  • 论文题目: Stable Mean Teacher for Semi-supervised Video Action Detection
  • 论文作者: Akash Kumar, Sirshapan Mitra, Yogesh Singh Rawat
  • 发表会议: AAAI 2025
  • 代码链接: https://github.com/AKASH2907/stable-mean-teacher

论文主要贡献

  • 提出了Stable Mean Teacher,这是一种用于半监督视频动作检测的简单端到端方法。
  • 提出了一种新颖的错误恢复(EoR)模块,该模块能从学生的错误中学习,并帮助教师在标记样本有限的情况下提供更好的监督信号。
  • 提出了像素差异(DoP),这是一种简单且新颖的约束条件,它侧重于时间一致性,并能产生连贯的时空预测。
  • 在三个不同的动作检测基准上进行了全面评估。研究表明,与有监督基线相比,该方法有显著改进,在动作检测方面始终优于最先进的方法(如图)。该方法在视频目标分割任务上具有泛化能力。
    在这里插入图片描述

问题

  • 高质量伪标签生成困难:视频动作检测除了需要进行分类外,还要求实现时空定位,这需要对每个视频帧进行标注,而这既耗费成本又耗时,而有限的标签数量会导致模型容易做出不可靠的预测。
  • 时间一致性问题:现有的时空损失函数没有考虑时间连贯性,容易导致时间上的不一致性。
  • 现有方法不适配时空检测任务迭代代理标签法虽然有效,但由于训练周期长,并不适用于视频领域。基于一致性的方法提供端到端的解决方案,训练时只需对数据集进行一次遍历。尽管该领域现有的大多数研究都集中在图像分类和目标检测,但在视频领域的研究成果有限,且仅集中在分类任务上

论文创新点

  • 提出了稳定均值教师(Stable Mean Teacher):这是一种简单的基于学生-教师架构的端到端框架,它得益于经过改进且具有时间一致性的伪标签。
  • 设计了一种新颖的错误恢复(EoR)模块,该模块从学生在带标签样本上的错误中学习,并将这些知识传递给教师,以改进无标签样本的伪标签。
  • 提出了像素差异(DoP)约束,这是一种简单且新颖的、专注于时间一致性的约束,能够实现连贯的时间检测。

方法

整体框架

在这里插入图片描述
Stable Mean Teacher框架的核心逻辑
以均值教师为基础,通过 EMA 生成稳定伪标签;用EoR 模块修正伪标签的空间定位误差,提升精度;用DoP 约束强制帧间像素变化一致,保证时间连贯性
梯度隔离设计确保模块间互不干扰,最终实现低标签场景下高效、准确的视频动作检测。


Spatio-Temporal Mean Teacher(时空均值教师):基础师生检测网络

  • 数据输入:数据集包含标注数据和未标注数据,分别进行弱增强( x w x_w xw强增强( x s x_s xs
  • 模型结构
    • 学生模型 M s \mathcal{M}_s Ms:接收 x s x_s xs,输出动作分类 logits 和时空定位图,参与梯度更新。
    • 教师模型 M t \mathcal{M}_t Mt:参数冻结不参与梯度更新,完全由学生模型通过EMA更新,接收 x w x_w xw,生成更稳定的伪标签。
  • 基础损失 L b a s e \mathcal{L}_{base} Lbase:约束学生模型在标注数据上的分类和定位精度,同时约束师生模型在未标注数据上的预测一致性。
  • 梯度控制:红色梯度截断,防止EoR模块梯度回流到基础检测模型。

Error Recovery (EoR):错误恢复模块

修正时空伪标签的空间定位误差,无类别偏置,仅关注动作边界精细优化。

  • 模型结构
    • EoR学生模型 M s E o R \mathcal{M}_s^{EoR} MsEoR:接收学生模型 M s \mathcal{M}_s Ms 的定位图,学习修正标注样本上的定位错误。
    • EoR教师模型 M t E o R \mathcal{M}_t^{EoR} MtEoR:参数由EoR学生模型通过EMA更新,接收教师模型 M t \mathcal{M}_t Mt 的定位图,输出修正后的伪标签。
  • EoR损失 L E o R \mathcal{L}_{EoR} LEoR:约束学生定位图与EoR教师修正后定位图的一致性,梯度仅在EoR模块内传播,不影响基础检测模型。
  • EoR transfer:将标注样本上的错误修正能力迁移到未标注样本,提升伪标签空间精度。

Difference of Pixels (DoP):像素差异约束模块

解决时空预测的时间不一致性问题,强制帧间动作边界平滑过渡。

  • 模型结构
    • 计算连续帧定位图的像素差异,分别对基础模型和EoR修正后的模型施加约束。
    • 对基础模型:约束 L u D o P \mathcal{L}_u^{DoP} LuDoP,强制师生模型的像素变化趋势一致。
    • 对EoR模型:约束 L E o R D o P \mathcal{L}_{EoR}^{DoP} LEoRDoP,保证修正后的伪标签也具备时间连贯性。
  • 梯度流向:DoP约束的梯度同时作用于学生模型 M s \mathcal{M}_s Ms 和EoR学生模型 M s E o R \mathcal{M}_s^{EoR} MsEoR,联合优化空间精度与时间一致性。
    在这里插入图片描述
    DoP可视化:第一行展示RGB帧,第二行展示沿时间维度的真实像素差异图。用来直观证明:
    该模型能精准捕捉动作的空间形态;帧间检测结果平滑连贯,验证了 DoP 时间约束的效果;
    动作边界精细,体现了 EoR 模块对伪标签的修正能力。

损失函数

在这里插入图片描述
监督损失无监督损失两部分加权组成。

L s \mathcal{L}_s Ls:监督损失

  • 在有标注的视频数据上,让学生模型学习真实的动作类别和时空定位标签。

λ L u \lambda \mathcal{L}_u λLu:加权无监督损失

  • λ \lambda λ:权重参数,用来平衡监督学习和无监督学习的权重,控制未标注数据对训练的影响程度。
  • L u \mathcal{L}_u Lu:无监督损失,在未标注视频数据上,让学生模型向更稳定的教师模型学习,由三部分组成:
    • L b a s e \mathcal{L}_{base} Lbase:基础一致性损失
      约束学生模型和教师模型在动作分类、时空定位上的预测一致,是均值教师范式的核心损失。
    • L E o R \mathcal{L}_{EoR} LEoR:错误恢复损失
      约束学生模型的定位图与EoR教师修正后的定位图一致,提升伪标签的空间定位精度,修正动作边界误差。
    • L d o p \mathcal{L}_{dop} Ldop:时间一致性损失(DoP约束)
      约束连续帧间定位图的像素变化趋势一致,保证视频动作检测结果在时间上平滑连贯,避免帧间跳变。

实验分析

在这里插入图片描述
该方法在所有阈值下均优于伪标签方法。在有监督场景下,该方法仅使用10%的标记数据,就在v-mAP上超过了所有基于2D的方法,并且在与基于3D的方法的对比中表现出竞争力,优于其中几种。


在这里插入图片描述
采用实时时空方法进行实验,结果表明,在仅使用10%标记数据的情况下,该方法在YOWOv2-N上比有监督方法提高了3.3%。

消融实验

在这里插入图片描述
该表格通过消融实验定量证明:两个损失函数模块与基础损失互补,共同作用时性能达到峰值,完整验证了 Stable Mean Teacher 框架的设计有效性。


在这里插入图片描述
定性分析:DoP使预测在时间上保持连贯,而EoR有助于生成更精细的预测。


在这里插入图片描述
这张图定量验证了Stable Mean Teacher 框架在低标签场景下的优越性:
相比仅用少量标注训练的监督基线,本文半监督方法能充分利用未标注数据,在 10%/15%/20% 标注比例下均实现12% 以上的性能提升。
标签比例越低,性能增益越显著,说明方法特别适合标注成本高昂的视频动作检测任务。
整体结果证明,半监督范式能有效缓解标签稀缺问题,是提升视频动作检测性能的高效方案。

泛化能力分析

在这里插入图片描述
Stable Mean Teacher在视频目标分割(VOS)上的泛化能力:该方法比有监督基线平均高出31%,在所有指标上都比半监督方法(2022年)提高了4-6%。即使只使用5%的标记数据,该方法也超过了(2022年)的方法,这凸显了其在低标记数据场景下的有效性。

结论

本文提出了Stable Mean Teacher,这是一种用于半监督动作检测的新型师生方法。Stable Mean Teacher依赖于一种新颖的错误恢复模块,该模块从学生的错误中学习,并将这些知识传递给教师,以便为学生生成更好的伪标签。它还得益于像素差异,这是一种简单的约束,能在时空预测中增强时间连贯性。本文通过大量实验在三个动作检测数据集上证明了Stable Mean Teacher的有效性。此外,本文还展示了它在VOS任务上的性能,验证了其对视频中其他密集预测任务的泛化能力

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐