AAAI 2025 | SpikingYOLOX：结合快速傅里叶卷积和脉冲神经网络的改进型YOLOX目标检测

雷阵雨yy

426人浏览 · 2026-03-21 22:49:36

雷阵雨yy · 2026-03-21 22:49:36 发布

论文信息

论文题目：SpikingYOLOX: Improved YOLOX Object Detection with Fast Fourier Convolution and Spiking Neural Networks
论文作者：Wei Miao，Jiangrong Shen， Qi Xu，Timo Hamalainen，Yi Xu5，Fengyu Cong
发表单位：School of Computer Science and Technology, Dalian University of Technology, Faculty of Information Technology, University of Jyv¨askyl¨a, School of Computer Science and Technology, Xi’an Jiaotong University, State Key Lab of Brain-Machine Intelligence, Zhejiang University, School of Control Science and Engineering, Dalian University of Technology, School of Biomedical Engineering, Dalian University of Technology
发表会议：AAAI2025

论文主要贡献

提出SpikingYOLOX，将脉冲神经网络（SNN）与 YOLOX 结合，实现端到端训练的低能耗高精度目标检测。
提出了两种新颖的脉冲神经网络（SNN）模块：
CSP-FFC-SNN模块：融入了快速傅里叶卷积（FFC），提供全局感受野，增强特征提取并提升目标检测性能；
SPP-SNN模块：将空间金字塔池化（SPP）与脉冲神经元相结合，进一步优化检测能力。
提出三元符号脉冲神经元，提供更丰富的特征信息，这使得网络能够捕捉更复杂的模式，并提高整体检测精度。
在 COCO2017 数据集上取得 SNN 目标检测 SOTA，全面超越现有同类方法。

论文创新点

首次将 SNN 集成至 YOLOX 架构
提出 SpikingYOLOX，是首个基于 YOLOX 的端到端训练 SNN 目标检测模型，验证了 SNN 在 YOLOX 架构中实现低能耗、高性能目标检测的可行性，为 SNN 与成熟 CNN 检测架构的融合建立了新基准。
设计两款新型 SNN 融合模块
提出CSP-FFC-SNN和SPP-SNN模块，分别融合 CSP 层与FFC、SPP 层与 SNN，兼顾 ANN 的特征提取能力和 SNN 的低计算成本，同时利用 FFC 的全局感受野提升检测性能。
提出三元符号脉冲神经元
改进传统 0-1 二值 IF 脉冲神经元，设计可生成 -1、0、1 三种输出的三元符号脉冲神经元，解决了二值脉冲对 RGB 图像复杂特征表征不足的问题，保留更丰富的特征信息，提升检测精度。
优化 SNN 的感受野瓶颈问题
针对现有 SNN 在目标检测中感受野不足的缺陷，引入 FFC 提供全局感受野，弥补了卷积操作仅能提取局部特征的短板，适配目标检测对全局图像结构理解的需求。

方法

网络结构

仅在骨干网络的深层（dark5 层）引入脉冲神经元，避免浅层特征因脉冲编码丢失过多信息。损失函数和训练策略沿用 YOLOX（BCE Loss 用于分类 / 目标分支、IoU Loss 用于回归分支），保证训练兼容性。
在这里插入图片描述

浅层骨干网（dark1-dark4）

完全复用 YOLOX 的 DarkNet 骨干网结构
1.输入Image（原始图像）标准 RGB 三通道图像，作为整个网络的特征提取起点。
2.dark1：Focus 模块
YOLOX 的经典预处理模块（将输入图像按像素间隔拆分，再沿通道维度拼接，将空间维度信息转换为通道维度），替代传统下采样卷积，在不损失信息的前提下完成图像下采样，减少计算量。
3.dark2-dark4：Conv-SiLU-CSP 模块
Conv+SiLU：用普通卷积提取局部特征，SiLU 激活函数（Sigmoid 加权的 ReLU）提供平滑梯度，避免梯度消失，提升模型收敛性；
CSPNet：将特征图分为两条分支，一条做卷积计算，一条做捷径连接，最后融合特征，大幅减少计算量，同时增强梯度传播，避免深层网络梯度消失。

深层骨干网（dark5）

核心改造区，用CSP-FFC-SNN和SPP-SNN两大创新模块，融合 SNN 低功耗与 FFC 全局感受野，提取高维全局特征；
Conv-SiLU
作为 dark5 的入口，用普通卷积 + SiLU 激活，对 dark4 输出的特征图做进一步下采样与通道升维，为后续 SNN/FFC 模块提供高维特征输入。

CSP-FFC-SNN

在 YOLOX 原生 CSPNet 结构的基础上，融合了快速傅里叶卷积（FFC）和三值符号脉冲神经元（SignedIF）
1.输入：高维特征图，作为模块的起点

2.左分支：主特征提取分支（全局特征 + FFC 改造）
（1）入口 Conv-SiLU 层：对输入特征图做通道升维 / 下采样，提取基础局部特征，为后续 FFC 模块做预处理
（2）堆叠 FFC-ResBlock：FFC+残差相加
改进FFC：
通道切分：将输入特征图按通道比例分为两部分，25%局部通道和75%全局通道，兼顾目标边缘等局部细节，和目标 - 背景关系等全局上下文。
局部分支：标准 3×3 卷积 + BN + ELU激活，提取局部细节特征。
全局分支：对输入特征图执行二维实值快速傅里叶变换（Real FFT2d），将空间域的实值特征图转换为频域的复值特征图，再将实部和虚部沿通道维度拼接，得到频域特征；对频域特征执行 1×1 卷积 + BN + ELU激活，获得全局感受野（频域的 1×1 卷积等价于空间域的全局卷积）；通过逆快速傅里叶变换（iReal FFT2d），将频域特征还原为空间域的实值特征图，保证输出维度与输入一致。（将原 FFC 的 ReLU 激活替换为 ELU，解决 ReLU 的零梯度问题，适配 SNN 深层训练，避免梯度消失）
融合：把局部特征 + 全局特征按通道拼接。

3.右分支：捷径分支（SNN 改造 + 低功耗优化）
（1）Conv-SignedIF层：仅保留 1×1 卷积，将原生 CSPNet 的 SiLU 激活替换为SignedIF（三值符号脉冲神经元），用 SNN 的事件驱动稀疏计算，替代 ANN 的连续值计算，大幅降低该分支的计算量和功耗。

4.特征融合与输出层
在这里插入图片描述

SPP-SNN

将传统 SPP 空间金字塔池化与 SNN 结合
保留 SPP 的多尺度最大池化（如 1×1、5×5、9×9、13×13 池化核），提取不同尺度的全局特征，丰富特征表达；
将 SPP 的输入 / 输出激活函数全部替换为三值符号脉冲神经元，用 SNN 的稀疏脉冲编码替代 ANN 的连续值计算，大幅降低池化过程的计算开销，同时不影响多尺度特征提取能力。

检测头

完全保留 YOLOX 的解耦检测头，不做任何 SNN 改造，是保证检测精度的关键设计
在这里插入图片描述
FPN Features：FPN 特征金字塔输出的多尺度特征图，是整个检测头的输入，包含了图像里不同大小目标的特征信息。
Conv 1×1（Stem 层）：用 1×1 卷积压缩特征通道数，减少后续计算量，给分类、回归、目标置信度三个分支做预处理。

三值符号脉冲神经元

1.引入负脉冲：通过负脉冲补充特征信息，让神经元能捕捉更复杂的特征模式；神经元仅在产生正脉冲后，才能触发负脉冲，通过二级阈值控制，避免无效负脉冲产生，保证脉冲的有效性。
脉冲输出函数 Θ：核心是三值输出，由主阈值 θ（正脉冲触发）、二级阈值 θ’（负脉冲触发，设为 1e-3）、正脉冲计数 N（初始化 0，记录神经元产生的正脉冲数）共同控制：在这里插入图片描述
2.修改神经元的膜电位更新公式，让三值脉冲能参与梯度计算，支持端到端训练，无需依赖 ANN-to-SNN 的转换后处理

实验分析

评估

在这里插入图片描述
SpikingYOLOX 各尺度在 COCO2017val 的基础性能：不同尺度模型均实现良好检测效果，L 尺度性能最优，X 尺度因参数量过大收敛速度慢导致性能略低于 L 尺度。

与传统 YOLO 系列模型的对比（COCO2017val）：SpikingYOLOX 在小参数量区间表现最优。
在这里插入图片描述
与其他 SNN 基目标检测方法的对比（COCO2017val）：SpikingYOLOX 全尺度实现 SOTA 性能。

检测细节

在这里插入图片描述
骨干网络特征图分析：SpikingYOLOX 能从骨干网络（dark3/dark4/dark5）提取有意义、高精度的图像特征，尤其是引入符号脉冲神经元后，特征图对目标的表征能力显著提升。

解耦检测头工作细节：检测头最深层输出 85 个通道，与 COCO 数据集检测需求完全匹配；边界框预测结果与检测头输出层精准对应，证明 SpikingYOLOX 骨干网络提取的特征图完全适配高质量目标检测任务。

消融实验

在这里插入图片描述
脉冲神经元位置：当脉冲神经网络应用于最深层时，网络性能最佳。

IF节点与带符号脉冲神经元：使用我们的带符号脉冲神经元时，性能有适度但稳定的提升。

FCC设置：将FFC应用于骨干网络的最深层时效果最佳。相反，过度堆叠FFC层会导致性能下降。

个人声明

本文为作者对原论文的学习笔记与心得分享，受个人学识与理解所限，文中对论文内容的解读或有不够周全之处，一切以原论文正式表述为准。本文仅用于学术交流与传播，内容均由作者独立整理完成，不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议，请及时与作者联系，作者将在第一时间核实并妥善处理。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

开题报告基于SSM框架的ACG周边交易商城购物精品开题

AtomGit开源社区

从“解释世界“到“让事情发生“：AI时代最该升级的不是工具，而是你的思维操作系统

在复杂系统中，允许"有效但暂时不可解释"的结果先行发生，再通过快速迭代逼近理解。① 概率思维替代因果思维不再追问"为什么A导致B"，而是评估"如果做A，B发生的概率是多少"。AI输出的置信度分数，比人类的因果叙事更接近真实的不确定性。② 快速验证替代完美论证用最小成本让假设"发生"——一个MVP、一次A/B测试、一轮AI辅助的模拟推演。在行动中收集反馈，而非在论证中消耗机会窗口。③ 事后解释替代事

AtomGit开源社区

基于密集型复杂城市场景下求解无人机三维路径规划的Q-learning 算法研究（Matlab代码实现）

随着无人机在城市环境中应用的不断拓展，如物流配送、航拍测绘、交通监控等，其三维路径规划问题日益受到关注。密集型复杂城市场景具有障碍物密集、三维空间约束复杂、实时性要求高等特点，传统路径规划算法难以满足需求。Q-learning算法作为一种强化学习方法，具有无需环境模型、通过试错学习等优点，适合应用于此类场景。本文深入研究基于Q-learning算法的无人机三维路径规划方法，通过合理定义状态空间、动