论文信息

  • 论文题目:SpikingYOLOX: Improved YOLOX Object Detection with Fast Fourier Convolution and Spiking Neural Networks
  • 论文作者:Wei Miao,Jiangrong Shen, Qi Xu,Timo Hamalainen,Yi Xu5,Fengyu Cong
  • 发表单位:School of Computer Science and Technology, Dalian University of Technology, Faculty of Information Technology, University of Jyv¨askyl¨a, School of Computer Science and Technology, Xi’an Jiaotong University, State Key Lab of Brain-Machine Intelligence, Zhejiang University, School of Control Science and Engineering, Dalian University of Technology, School of Biomedical Engineering, Dalian University of Technology
  • 发表会议:AAAI2025

论文主要贡献

  • 提出SpikingYOLOX,将脉冲神经网络(SNN)与 YOLOX 结合,实现端到端训练的低能耗高精度目标检测。
  • 提出了两种新颖的脉冲神经网络(SNN)模块:
    CSP-FFC-SNN模块:融入了快速傅里叶卷积(FFC),提供全局感受野,增强特征提取并提升目标检测性能;
    SPP-SNN模块:将空间金字塔池化(SPP)与脉冲神经元相结合,进一步优化检测能力。
  • 提出三元符号脉冲神经元,提供更丰富的特征信息,这使得网络能够捕捉更复杂的模式,并提高整体检测精度。
  • 在 COCO2017 数据集上取得 SNN 目标检测 SOTA,全面超越现有同类方法。

论文创新点

  1. 首次将 SNN 集成至 YOLOX 架构
    提出 SpikingYOLOX,是首个基于 YOLOX 的端到端训练 SNN 目标检测模型,验证了 SNN 在 YOLOX 架构中实现低能耗、高性能目标检测的可行性,为 SNN 与成熟 CNN 检测架构的融合建立了新基准。
  2. 设计两款新型 SNN 融合模块
    提出CSP-FFC-SNN和SPP-SNN模块,分别融合 CSP 层与FFC、SPP 层与 SNN,兼顾 ANN 的特征提取能力和 SNN 的低计算成本,同时利用 FFC 的全局感受野提升检测性能。
  3. 提出三元符号脉冲神经元
    改进传统 0-1 二值 IF 脉冲神经元,设计可生成 -1、0、1 三种输出的三元符号脉冲神经元,解决了二值脉冲对 RGB 图像复杂特征表征不足的问题,保留更丰富的特征信息,提升检测精度。
  4. 优化 SNN 的感受野瓶颈问题
    针对现有 SNN 在目标检测中感受野不足的缺陷,引入 FFC 提供全局感受野,弥补了卷积操作仅能提取局部特征的短板,适配目标检测对全局图像结构理解的需求。

方法

网络结构

仅在骨干网络的深层(dark5 层) 引入脉冲神经元,避免浅层特征因脉冲编码丢失过多信息。损失函数和训练策略沿用 YOLOX(BCE Loss 用于分类 / 目标分支、IoU Loss 用于回归分支),保证训练兼容性。
在这里插入图片描述

浅层骨干网(dark1-dark4)

完全复用 YOLOX 的 DarkNet 骨干网结构
1.输入Image(原始图像)标准 RGB 三通道图像,作为整个网络的特征提取起点。
2.dark1:Focus 模块
YOLOX 的经典预处理模块(将输入图像按像素间隔拆分,再沿通道维度拼接,将空间维度信息转换为通道维度),替代传统下采样卷积,在不损失信息的前提下完成图像下采样,减少计算量。
3.dark2-dark4:Conv-SiLU-CSP 模块
Conv+SiLU:用普通卷积提取局部特征,SiLU 激活函数(Sigmoid 加权的 ReLU)提供平滑梯度,避免梯度消失,提升模型收敛性;
CSPNet:将特征图分为两条分支,一条做卷积计算,一条做捷径连接,最后融合特征,大幅减少计算量,同时增强梯度传播,避免深层网络梯度消失。

深层骨干网(dark5)

核心改造区,用CSP-FFC-SNN和SPP-SNN两大创新模块,融合 SNN 低功耗与 FFC 全局感受野,提取高维全局特征;
Conv-SiLU
作为 dark5 的入口,用普通卷积 + SiLU 激活,对 dark4 输出的特征图做进一步下采样与通道升维,为后续 SNN/FFC 模块提供高维特征输入。

CSP-FFC-SNN

在 YOLOX 原生 CSPNet 结构的基础上,融合了快速傅里叶卷积(FFC)和三值符号脉冲神经元(SignedIF)
1.输入:高维特征图,作为模块的起点

2.左分支:主特征提取分支(全局特征 + FFC 改造)
(1)入口 Conv-SiLU 层:对输入特征图做通道升维 / 下采样,提取基础局部特征,为后续 FFC 模块做预处理
(2)堆叠 FFC-ResBlock:FFC+残差相加
改进FFC:
通道切分:将输入特征图按通道比例分为两部分,25%局部通道和75%全局通道,兼顾目标边缘等局部细节,和目标 - 背景关系等全局上下文。
局部分支:标准 3×3 卷积 + BN + ELU激活,提取局部细节特征。
全局分支:对输入特征图执行二维实值快速傅里叶变换(Real FFT2d),将空间域的实值特征图转换为频域的复值特征图,再将实部和虚部沿通道维度拼接,得到频域特征;对频域特征执行 1×1 卷积 + BN + ELU激活,获得全局感受野(频域的 1×1 卷积等价于空间域的全局卷积);通过逆快速傅里叶变换(iReal FFT2d),将频域特征还原为空间域的实值特征图,保证输出维度与输入一致。(将原 FFC 的 ReLU 激活替换为 ELU,解决 ReLU 的零梯度问题,适配 SNN 深层训练,避免梯度消失)
融合:把局部特征 + 全局特征按通道拼接。

3.右分支:捷径分支(SNN 改造 + 低功耗优化)
(1)Conv-SignedIF层:仅保留 1×1 卷积,将原生 CSPNet 的 SiLU 激活替换为SignedIF(三值符号脉冲神经元),用 SNN 的事件驱动稀疏计算,替代 ANN 的连续值计算,大幅降低该分支的计算量和功耗。

4.特征融合与输出层
在这里插入图片描述

SPP-SNN

将传统 SPP 空间金字塔池化与 SNN 结合
保留 SPP 的多尺度最大池化(如 1×1、5×5、9×9、13×13 池化核),提取不同尺度的全局特征,丰富特征表达;
将 SPP 的输入 / 输出激活函数全部替换为三值符号脉冲神经元,用 SNN 的稀疏脉冲编码替代 ANN 的连续值计算,大幅降低池化过程的计算开销,同时不影响多尺度特征提取能力。

检测头

完全保留 YOLOX 的解耦检测头,不做任何 SNN 改造,是保证检测精度的关键设计
在这里插入图片描述
FPN Features:FPN 特征金字塔输出的多尺度特征图,是整个检测头的输入,包含了图像里不同大小目标的特征信息。
Conv 1×1(Stem 层):用 1×1 卷积压缩特征通道数,减少后续计算量,给分类、回归、目标置信度三个分支做预处理。

三值符号脉冲神经元

1.引入负脉冲:通过负脉冲补充特征信息,让神经元能捕捉更复杂的特征模式;神经元仅在产生正脉冲后,才能触发负脉冲,通过二级阈值控制,避免无效负脉冲产生,保证脉冲的有效性。
脉冲输出函数 Θ:核心是三值输出,由主阈值 θ(正脉冲触发)、二级阈值 θ’(负脉冲触发,设为 1e-3)、正脉冲计数 N(初始化 0,记录神经元产生的正脉冲数)共同控制:在这里插入图片描述
2.修改神经元的膜电位更新公式,让三值脉冲能参与梯度计算,支持端到端训练,无需依赖 ANN-to-SNN 的转换后处理在这里插入图片描述

实验分析

评估

在这里插入图片描述
SpikingYOLOX 各尺度在 COCO2017val 的基础性能:不同尺度模型均实现良好检测效果,L 尺度性能最优,X 尺度因参数量过大收敛速度慢导致性能略低于 L 尺度。
在这里插入图片描述
与传统 YOLO 系列模型的对比(COCO2017val):SpikingYOLOX 在小参数量区间表现最优。
在这里插入图片描述
与其他 SNN 基目标检测方法的对比(COCO2017val):SpikingYOLOX 全尺度实现 SOTA 性能。

检测细节

在这里插入图片描述
骨干网络特征图分析:SpikingYOLOX 能从骨干网络(dark3/dark4/dark5)提取有意义、高精度的图像特征,尤其是引入符号脉冲神经元后,特征图对目标的表征能力显著提升。
在这里插入图片描述
解耦检测头工作细节:检测头最深层输出 85 个通道,与 COCO 数据集检测需求完全匹配;边界框预测结果与检测头输出层精准对应,证明 SpikingYOLOX 骨干网络提取的特征图完全适配高质量目标检测任务。

消融实验

在这里插入图片描述
脉冲神经元位置:当脉冲神经网络应用于最深层时,网络性能最佳。
在这里插入图片描述
IF节点与带符号脉冲神经元:使用我们的带符号脉冲神经元时,性能有适度但稳定的提升。
在这里插入图片描述
FCC设置:将FFC应用于骨干网络的最深层时效果最佳。相反,过度堆叠FFC层会导致性能下降。

个人声明

本文为作者对原论文的学习笔记与心得分享,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。本文仅用于学术交流与传播,内容均由作者独立整理完成,不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议,请及时与作者联系,作者将在第一时间核实并妥善处理。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐