YOLO26 全网独家改进创新: MIT 2025 LinOSS/D-LinOSS 振荡状态空间模型:引入可学习的阻尼机制,使模型能够在多个时间尺度上学习潜在状态能量的耗散方式。

关键词:YOLO26、目标检测、LinOSS、D-LinOSS、振荡状态空间模型、MIT 2025、长程依赖、多尺度融合、Backbone 改进、Neck 改进、Detect 前上下文增强


第一节 原文摘要译述与 Introduction 提炼

1.1 来源说明

类型 来源
MIT 新闻 Novel AI model inspired by neural dynamics from the brain
ICLR 2025 Oral Oscillatory State-Space Models, OpenReview
LinOSS 代码 GitHub: tk-rusch/linoss
D-LinOSS 论文 Learning to Dissipate Energy in Oscillatory State-Space Models, arXiv
液态网络谱系背景 Closed-form continuous-time neural networks, Nature Machine Intelligence 2022

因此,本文采用MIT 2025 LinOSS/D-LinOSS 振荡状态空间思想进行 YOLO26 改进,同时把 Nature Machine Intelligence 2022 年 CfC 液态网络作为连续时间神经动力学背景。

1.2 LinOSS 摘要译述

LinOSS 论文提出了一类线性振荡状态空间模型,用于高效处理长序列。其灵感来自生物神经网络中的皮层动态以及物理系统中的受迫谐振子。论文将状态空间模型构造为稳定离散化的振荡系统,并通过快速并行扫描完成时间维度上的状态传播。作者证明 LinOSS 在较简单的参数约束下即可保持稳定动态,并具备逼近连续因果算子的能力。实验部分覆盖时间序列分类、回归和长时预测等任务,结果显示 LinOSS 在长程依赖建模中具有较强性能。

提炼成一句话:

LinOSS 的核心不是简单增加一个注意力模块,而是把序列状态看作一个具有频率、速度和稳定性的振荡动力系统。

1.3 D-LinOSS 摘要译述

D-LinOSS 进一步指出,原始 LinOSS 的能量耗散或遗忘机制与状态演化时间尺度耦合得较紧,这会限制模型在复杂长程推理中的表达能力。D-LinOSS 引入可学习的阻尼机制,使模型能够在多个时间尺度上学习潜在状态能量的耗散方式。论文分析了循环矩阵的谱分布,并给出稳定动态的参数化方式。其目标是在不增加额外复杂度的情况下,让模型具备更灵活的遗忘和稳定建模能力。

提炼成一句话:

D-LinOSS 的关键改进是让模型自己学习“什么时候记住、什么时候耗散”,也就是把阻尼变成可学习的动态控制量。

1.4 Introduction 总结提炼

LinOSS/D-LinOSS 的 Introduction 可以概括为四个动机:

动机 解释
长序列建模需要稳定性 长时预测、信号分析和复杂动态系统中,模型容易出现不稳定或记忆衰减问题。
Transformer 计算代价较高 注意力机制通常随序列长度呈二次复杂度增长。
状态空间模型更适合长程建模 SSM 具备固定状态规模和线性复杂度优势。
振荡系统天然适合表达动态 受迫谐振子在物理、生物和工程系统中普遍存在,具备稳定而丰富的表达能力。

迁移到 YOLO26 的直觉:

LinOSS/D-LinOSS 中的问题 YOLO26 中的对应问题
长序列依赖 大尺度图像中的长程空间依赖
状态稳定性 复杂背景下特征响应稳定性
能量耗散 抑制噪声、纹理和误激活
振荡收敛 多尺度特征从冲突走向一致

第二节 为什么要融合:核心结构合并

2.1 原 YOLO26 的结构特点

YOLO26 的基础结构可以概括为 Backbone、Neck 和 Detect 三部分。

Input

Conv P1/2

Conv P2/4

C3k2

Conv P3/8

C3k2

Conv P4/16

C3k2

Conv P5/32

C3k2

SPPF

C2PSA

Neck: Upsample + Concat + C3k2

Detect P3/P4/P5

原网络优势明显:结构成熟、检测头稳定、训练流程完整。但是在以下场景中仍有提升空间:

场景 原 YOLO26 可能遇到的问题
小目标 P3 细节丰富,但背景纹理也强,容易干扰。
复杂背景 高层语义可能出现误激活。
多尺度目标 Neck 直接 Concat 后固定卷积,尺度信息可能冲突。
密集遮挡 Detect 前局部特征不足以描述长程结构关系。

2.2 LinOSS/D-LinOSS 与 YOLO26 的结构合并思路

LinOSS/D-LinOSS 的基础动力学可以写成:

force = -omega^2 * state - damping * velocity
velocity = velocity + force
state = state + velocity

迁移到图像检测中,我们将:

振荡模型概念 YOLO26 中的对应物
state 特征图 Tensor[B, C, H, W]
velocity 特征变化方向
omega 响应频率,控制特征变化快慢
damping 阻尼,控制噪声和过冲
target 多尺度分支或轴向扫描得到的目标上下文

核心合并方式:

YOLO feature map

Channel reduce

Oscillatory state

omega: response frequency

damping: learned dissipation

Oscillatory update

Channel expand

Gate

Residual add

Refined YOLO feature

2.3 为什么不直接替换 Detect Head

本次改进没有修改 Detect Head、Loss 和 Trainer,原因如下:

设计选择 原因
不改 Detect Head 保留 YOLO26 的检测输出、标签匹配和损失计算稳定性。
不改 Loss 避免把结构增益和损失函数变化混在一起,方便做消融实验。
只新增模块和 YAML 保持与现有改进包兼容,不影响其他方法。
只注册 tasks.py 让新模块可以被 YAML 自动解析。

第三节 三种融合方法总览、优势特点与网络结构图

3.1 三种方法总览

方法 新模块 融合位置 作用对象 核心作用
方法一 DLinOSSBackboneBlock Backbone P3/P4/P5 高层后 语义特征 阻尼振荡残差更新
方法二 LinOSSNeckFusion Neck 每次 Concat 后 多尺度融合特征 振荡式向多尺度目标收敛
方法三 AxialLinOSSScan Detect 前 P3/P4/P5 检测尺度特征 行列双向长程上下文扫描

三种方法不是简单换位置,而是从三个不同层级改进:

Backbone

Neck

Detect Head

D-LinOSS Backbone

LinOSS Neck Fusion

Axial LinOSS Pre-Detect

3.2 方法一:D-LinOSS Backbone 阻尼振荡残差

3.2.1 结构图

Backbone feature

1x1 projection

1x1 reduce

DWConv local state

omega branch

damping branch

oscillatory steps

1x1 expand

global gate

residual add

refined feature

3.2.2 接入位置

- [-1, 2, C3k2, [512, False, 0.25]]
- [-1, 1, DLinOSSBackboneBlock, [512, 0.5, 2, 0.9]]

- [-1, 2, C3k2, [512, True]]
- [-1, 1, DLinOSSBackboneBlock, [512, 0.5, 2, 0.9]]

- [-1, 2, C3k2, [1024, True]]
- [-1, 1, DLinOSSBackboneBlock, [1024, 0.5, 2, 0.9]]

参数解释:

参数 含义
512 / 1024 输出通道数,与 YOLO26 对应阶段一致。
0.5 隐藏通道比例,降低计算量。
2 振荡更新步数,兼顾效果和速度。
0.9 最大阻尼,避免动态更新过冲。

3.2.3 优势

优势 说明
更稳定的高层语义 阻尼项抑制背景误激活。
对复杂纹理更稳 频率和阻尼随输入变化。
保持残差安全性 即使动态分支较弱,也保留原特征。
便于消融 只在 Backbone 插入 3 个模块。

3.3 方法二:LinOSS Neck 振荡多尺度融合

3.3.1 结构图

Concat feature

1x1 projection

DWConv k=3

DWConv k=5

DWConv k=7

global context

softmax branch weights

target fusion

state

initial velocity

omega

damping

oscillatory convergence

output to C3k2

3.3.2 接入位置

- [[-1, 6], 1, Concat, [1]]
- [-1, 1, LinOSSNeckFusion, [512, 3, 0.5, 2]]
- [-1, 2, C3k2, [512, True]]

该结构在 Neck 中重复 4 次,分别作用于 P4、P3、PAN-P4、PAN-P5 融合阶段。

3.3.3 优势

优势 说明
显式多尺度选择 3/5/7 感受野分支通过 softmax 动态加权。
缓解 Concat 冲突 当前融合特征向目标融合特征阻尼收敛。
对小目标友好 P3 融合层可动态保留细节。
计算可控 使用 DWConv 分支,不做昂贵全局注意力。

3.4 方法三:Axial LinOSS Detect 前长程扫描

3.4.1 结构图

P3/P4/P5 feature

projection

reduce

row bidirectional scan

column bidirectional scan

target context

omega + damping

oscillatory update

expand

gate

residual add

Detect

3.4.2 接入位置

- [-1, 2, C3k2, [256, True]]
- [-1, 1, AxialLinOSSScan, [256, 0.5, 2]]

- [-1, 2, C3k2, [512, True]]
- [-1, 1, AxialLinOSSScan, [512, 0.5, 2]]

- [-1, 1, C3k2, [1024, True, 0.5, True]]
- [-1, 1, AxialLinOSSScan, [1024, 0.5, 2]]

3.4.3 优势

优势 说明
增强长程上下文 行列双向扫描让特征看到更远空间关系。
适合密集目标 有助于区分相邻和遮挡目标。
比全局注意力更轻 用 1D depthwise scan 替代高代价 attention。
检测头兼容 Detect Head 不改,只改变输入特征质量。

第四节 适合写进论文的创新点表述

4.1 总体创新点

本文提出一种面向 YOLO26 的振荡状态空间特征增强框架,将 MIT 2025 LinOSS/D-LinOSS 中的受迫谐振子和阻尼能量耗散思想迁移到二维目标检测特征建模中。不同于直接堆叠注意力或卷积模块,本文将特征图视为动态系统状态,引入输入相关的频率项和阻尼项,对 Backbone 语义特征、Neck 多尺度融合特征以及 Detect 前尺度特征分别进行结构化增强,从而提升复杂背景、多尺度目标和遮挡密集场景下的特征稳定性与上下文表达能力。

4.2 分方法创新点

方法 可写进论文的创新点
D-LinOSS Backbone 提出阻尼振荡残差特征更新模块,将高层语义特征建模为具有速度、频率和阻尼的动态状态,在保持 YOLO 残差安全性的同时增强复杂背景下的语义稳定性。
LinOSS Neck Fusion 提出振荡式多尺度特征融合模块,将 Neck 中的 Concat 融合过程转化为当前特征向多分支目标特征的阻尼收敛过程,以缓解浅层细节和深层语义之间的尺度冲突。
Axial LinOSS Head 提出 Detect 前轴向振荡扫描模块,通过行列双向轻量扫描构造长程上下文目标,并利用阻尼振荡更新增强 P3/P4/P5 检测尺度特征。

4.3 论文摘要式表述

为提升 YOLO26 在复杂场景下的多尺度检测能力,本文引入 MIT 2025 LinOSS/D-LinOSS 振荡状态空间思想,构建了一组轻量级动态特征增强模块。首先,在 Backbone 高层语义阶段设计 D-LinOSS 阻尼振荡残差块,通过可学习频率和阻尼控制特征更新过程。其次,在 Neck 多尺度融合阶段设计 LinOSS 振荡融合模块,使拼接特征向输入自适应的多尺度目标特征稳定收敛。最后,在 Detect 前引入 Axial LinOSS 双向扫描模块,增强检测尺度特征的长程空间依赖表达。该框架不修改检测头、损失函数和训练流程,可作为即插即用的 YOLO26 改进模块。


第五节 原网络与融合后特点对比、注意事项

5.1 原网络与三种融合后网络对比

对比项 原 YOLO26 D-LinOSS Backbone LinOSS Neck Fusion Axial LinOSS Head
改动位置 Backbone 高层 Neck Concat 后 Detect 前
核心机制 固定卷积/Concat 阻尼振荡残差 多尺度目标收敛 行列双向扫描
主要收益 基准稳定 语义更稳 多尺度融合更稳 长程上下文更强
小目标 一般依赖 P3 有一定帮助 帮助较明显 有帮助
遮挡密集 依赖局部特征 改善高层语义 改善融合冲突 改善长程关系
计算开销 最低 中等 中等 中等偏低
推荐实验 baseline Backbone 消融 Neck 消融 Head 前消融

5.2 最终结构总图

Method 3

Method 2

Method 1

Original YOLO26

Input

Backbone: Conv + C3k2 + SPPF + C2PSA

Neck: Upsample + Concat + C3k2

Detect P3/P4/P5

D-LinOSS Backbone Blocks

LinOSS Neck Fusion

Axial LinOSS Pre-Detect Context


参考资料

  1. MIT News, Novel AI model inspired by neural dynamics from the brain
    https://news.mit.edu/2025/novel-ai-model-inspired-neural-dynamics-from-brain-0502

  2. T. Konstantin Rusch, Daniela Rus, Oscillatory State-Space Models, ICLR 2025 Oral
    https://openreview.net/forum?id=GRMfXcAAFh

  3. LinOSS 官方代码
    https://github.com/tk-rusch/linoss

  4. Jared Boyer, T. Konstantin Rusch, Daniela Rus, Learning to Dissipate Energy in Oscillatory State-Space Models
    https://arxiv.org/abs/2505.12171

  5. Hasani et al., Closed-form continuous-time neural networks, Nature Machine Intelligence, 2022
    https://www.nature.com/articles/s42256-022-00556-7


结语

本文给出了一套不修改检测头、不修改损失函数、不影响现有 YOLO26 改进包的结构化融合方案。核心思想是将 MIT 2025 LinOSS/D-LinOSS 的振荡状态空间建模迁移到目标检测特征图中:Backbone 负责稳定语义,Neck 负责稳定多尺度融合,Detect 前负责增强长程上下文。三种方法彼此独立,适合分别做消融实验,也适合作为论文中的模块化创新点展开。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐