浅谈 Yolo 26

小拇指～

527人浏览 · 2026-03-21 14:10:09

小拇指～ · 2026-03-21 14:10:09 发布

去年去参加了yolo26的深圳发布会，一直没有时间去把这个做一个总结。现在就来进行一个总结。

Yolo v26网络结构图

Yolo v26的特点

1.架构简化：移除分布焦点损失（DFL），简化边界框回归，提升导出兼容性。

2.端到端推理：采用无NMS设计，直接输出检测结果，降低延迟与部署复杂度。（一个目标预测一个锚框）。

3.训练增强：引入渐进损失平衡（ProgLoss）与小目标感知标签分配（STAL），提升小目标检测稳定性。

ProgLoss：(分阶段动态调权,前期分类占比高，后期回归权重占比高)

STAL：空间域和时间域两个维度优化。多尺度锚点分配，空间位置优先，困难样本挖掘。

4.优化器创新：使用MuSGD优化器，结合SGD与Muon优势，加速模型收敛。

5. 多任务支持：统一框架支持检测、实例分割、姿态估计、定向检测与分类。

6.cpu推理速度提升。

总结:主要是进行了板端优化，为部署板端做铺垫。据说YOLO26在半精度（FP16）和整型（INT8）量化方案下均表现出一致的精度。

Yolo26架构模块：

1Backbone(主干网络提取特征):

总体描述：YOLO26 的 Backbone 由 ConvModule、C3k2 和 SPPF 组成。负责从输入图像中提取多尺度的特征，为后续的融合与检测提供丰富的语义信息。

        ①Conv 模块：Conv2d + BatchNorm + SiLU 激活函数。进行标准的卷积特征提取，同时通过 BN 加速收敛，SiLU 提供非线性，保持梯度流动。

        ②C3K2模块：Conv → Split → Bottleneck → PSABlock → C3k → Concat → Conv。也是沿用yolo11，一种轻量级残差模块，包含瓶颈结构和跨层连接。内部细节：

                1.首先通过一个 ConvModule 调整通道数。

                2.Split 将特征图按通道分为两部分（分流），一部分进入 Bottleneck 与 PSABlock，另一部分进入 C3k。

                3.Bottleneck：标准残差块，由两个 ConvModule 组成，保持输入输出通道一致，增强梯度传播。

                4.PSABlock：Position-Sensitive Attention Block，引入位置敏感的注意力机制，强化关键区域的特征表达。

                5.C3k：内部包含多个 Bottleneck，采用跨阶段部分连接，减少计算量。

                6.最后将分流处理的两部分特征在通道维度拼接，经过一个 ConvModule 输出。

2NecK(PAN-FPN特征融合):

总体描述：Neck 部分采用双向特征金字塔（PAN-FPN），通过上采样、SPPF、C2PSA 等模块实现多尺度特征的深度融合。

        ①自上而下（FPN）：通过上采样将高层语义信息传递给低层，丰富小目标特征。自下而上（PAN）：通过下采样（图中未显式画出，但通常由步长为 2 的卷积实现）将低层的空间细节传递给高层，增强大目标定位。

        ②SPPF（空间金字塔池化，快速版）：Conv → Conv → MaxPool2d → MaxPool2d → MaxPool2d → Concat → Conv。前两个 ConvModule 用于降维与准备。三个 MaxPool2d 串行连接，每个池化核大小可能为 5×5（或与 YOLOv8 相同），步长=1，padding=2。将原始输入与三个池化输出在通道维度拼接，再通过一个 ConvModule 进行特征整合。

        ③C2PSA模块：Conv (1x1) → [PSABlock (Conv + PSA_Attn) ] × N → Concat (所有分支) → Conv (1x1)。首先：Conv：起始和结尾各有一个 ConvModule（Conv2d + BN + SiLU），用于调整通道数，保持特征维度匹配。Split：将输入特征在通道维度上分为两路，一路直接传递（shortcut），另一路进入后续处理，实现跨阶段部分连接。Bottleneck × n：多个（通常 n=2 或 3）标准的残差块，每个 Bottleneck 由两个 ConvModule 组成，保持输入输出通道一致，用于深度特征提取。PSA（Position-Sensitive Attention）：位置敏感注意力模块，在 Bottleneck 处理后的特征上施加注意力，增强对空间位置的编码能力。Concat：将 shortcut 支路与经过 Bottleneck + PSA 处理后的特征在通道维度拼接，实现特征复用。

3Head(检测头):

总体描述：检测头与yolov8，分别对应小目标（80×80）、中目标（40×40）、大目标（20×20）的特征图，但是训练一对多加快收敛，推理的时候一对一头强制为每个目标只选一个最佳框，省去了nms的过程端到端加速后处理仅需设置一个置信度阈值进行过滤，即可得到最终结果。

结构：沿用yolov8 解耦头设计，将分类和回归任务分离为两个独立的分支，减少任务间干扰，Detect 输出形状为 [batch, 类别数+4, H, W]，直接对应最终的检测框坐标和类别置信度。

p3（小目标） 80×80 [1, 84 (4 回归 + 80 分类), 80, 80]

p4（中目标） 40×40 [1, 84, 40, 40]

p5（大目标） 20×20 [1, 84, 20, 20]

总的来说：YOLO26 在 YOLOv8 基础上实现了三大核心革新：训练机制上采用“一对多”与“一对一”双头协同训练，使模型在推理时仅保留一对一预测头，彻底摒弃了传统依赖 NMS 的后处理，实现真正的端到端检测；网络结构上将 Backbone 中的 C2f 升级为引入 PSABlock（位置敏感注意力）的 C3k2 模块，Neck 中增加了融合位置敏感注意力的 C2PSA 模块，并移除了 DFL 分支，回归头直接输出 4 个坐标值，使得输出张量简化为 [4+类别数, H, W]，大幅降低了解码复杂度；部署体验上消除了 NMS 带来的不确定性延迟，在 CPU 等边缘设备上推理速度提升最高 43%，且导出的 ONNX、TensorRT 等模型自包含、无后处理依赖，真正实现“导出即用”。这一系列改进使 YOLO26 在保持高精度的同时，特别适用于自动驾驶、机器人导航、无人机巡检、智能安防等对实时性、延迟稳定性及部署便携性要求严苛的场景，成为边缘端实时目标检测的理想选择。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Claude Code for VS Code 配置 DeepSeek API

本文介绍了如何在VS Code中配置Claude Code插件以使用DeepSeek模型。主要内容包括：安装Claude Code插件、在settings.json中配置DeepSeek环境变量、打开Claude Code面板进行交互，以及通过斜杠命令切换deepseek-v4-pro[1m]和deepseek-v4-flash两种模型。还提供了DeepSeek官方文档和Claude Code插件