YOLO-Next 重磅发布:致力于构建面向下一代的智能化目标检测系统

目标检测是计算机视觉里最经典、也最能体现工程价值的任务之一。从最早的两阶段检测器,到后来以 YOLO 为代表的一阶段实时检测,再到今天的端到端、多任务、端侧部署与动态计算,目标检测的技术路线一直在变化。

YOLO-Next 是我对下一代目标检测范式的一次系统化探索。它不是单纯追求更大的网络,也不是把某个模块直接塞进现有检测器,而是围绕一个更长期的判断展开:

未来的目标检测模型会走向端到端、跨平台、端侧友好、高效部署、动态计算和灵活可扩展。

换句话说,下一代检测系统不仅要“看得准、跑得快”,还要能根据输入场景和设备算力主动调整自己的计算方式。它应该既能在高性能设备上发挥更强表达能力,也能在低算力终端上保持可用性。

YOLO-Next 正是朝着这个方向构建的下一代智能化检测系统。

在这里插入图片描述

一、YOLO 技术范式的演进

YOLO 系列之所以重要,是因为它不断推动目标检测从复杂流程走向实时应用。

早期 YOLO 的核心贡献,是把目标检测变成一次前向传播即可完成的回归问题。相比依赖区域提议的两阶段方法,它大幅简化了检测流程,让实时检测成为可能。

随后 YOLO 系列不断迭代:锚框机制提升召回率,多尺度预测改善小目标检测,特征金字塔增强不同尺度信息融合,CSP 结构与各种训练技巧提升工程可用性,解耦头与动态标签分配改善分类和定位之间的冲突,无锚框方案进一步降低结构复杂度。

再往后,目标检测开始进入更系统化的竞争阶段。模型不再只比较某一个模块,而是比较端到端输出、训练分配、特征融合、部署后处理、硬件适配和多任务扩展的综合能力。

从这个演进过程可以看到几条明确趋势:

  • 检测流程会越来越端到端,减少外部后处理依赖。
  • 模型会越来越重视跨平台部署,不只服务 GPU,也要服务 CPU、NPU等、移动端和嵌入式设备。
  • 端侧计算会变得越来越重要,低功耗、低延迟、小模型将成为真实应用的核心需求。
  • 模型结构会从固定计算走向动态计算,不同输入不应该消耗完全相同的计算量。
  • 检测模型会从单任务工具走向通用视觉基础组件,检测、分割、姿态、旋转框等任务会逐步统一。

YOLO-Next 的设计,就是基于这些趋势做出的技术判断。

二、YOLO-Next 的核心定位

YOLO-Next 的目标不是做一个“更复杂的 YOLO”,而是做一套面向未来部署场景的灵活高可用智能化检测系统。

它重点解决五个问题:

问题 YOLO-Next 的思路
后处理复杂 使用端到端候选输出,降低推理链路复杂度
场景难度差异大 使用场景感知计算路由,让模型按需分配计算
小目标容易漏检 增加浅层检测路径、细节增强和小目标训练分配
端侧算力不足 增加 p/f 超轻量尺度,并支持计算预算切换
多任务维护成本高 在同一体系下扩展检测、分割、姿态和旋转框

它的整体设计理念可以概括为:

用端到端框架简化推理,
用动态能力路径增强表达
用超轻量尺度下探端侧边界
用统一任务接口提升工程可用性。

三、整体架构

YOLO-Next 的主线模型是 yolonext-next.yaml。它由特征提取、场景感知计算、多尺度融合、任务输出和动态预算控制几部分组成。

输入图像

轻量特征提取

场景感知计算路由

多路径能力增强

上下文建模

P2-P5 多尺度特征融合计算

自适应特征融合

任务感知检测头

端到端候选输出

检测 / 分割 / 姿态 / 旋转框

这套结构的重点是“系统协同”。它不是只靠一个模块提升效果,而是把模型结构、训练机制、推理输出和部署策略统一起来。

四、端到端候选输出

传统实时检测模型通常会输出大量候选框,再通过后处理筛掉重复框。这个流程虽然成熟,但在工程部署中会带来几个问题:

  • 不同硬件平台上的后处理性能不一致。
  • 导出到 ONNX、TensorRT、移动端时可能需要额外适配。
  • 后处理耗时在小模型或 CPU 场景中会变得明显。
  • 模型本身没有完全学习“最终保留哪些目标”。

YOLO-Next 更强调端到端候选输出。检测结果形态为:

(B, n, 6)

其中:

B: batch size
n: 每张图保留的候选目标数量
6: xyxy + score + class

这种设计让模型直接输出更接近最终结果的候选集合。它的意义不只是减少一步后处理,而是让检测系统从“模型预测 + 外部筛选”逐步走向“模型内部完成候选决策”。

对真实部署来说,这种方式更容易形成统一接口,也更适合跨平台落地。

五、场景感知动态计算

YOLO-Next 最重要的设计之一,是让模型具备场景感知的动态计算能力。

传统检测器对所有图片执行同样计算。简单背景、单个目标、密集小目标、遮挡复杂场景,都会经过同一套固定路径。这会导致简单图浪费算力,复杂图表达不足。

YOLO-Next 引入了一套动态能力路径机制。模型会先分析当前特征的复杂度,再决定激活多少计算路径、使用哪些能力分支,以及如何聚合这些分支的结果。

输入特征

复杂度评估

动态 Top-K 路径选择

细节感知路径

尺度适配路径

上下文增强路径

结构建模路径

加权聚合

增强特征

这套机制可以理解为模型内部的“智能化动态调度器”:

  • 简单场景:速度优先,降低或减少计算量。
  • 普通场景:保持速度与精度平衡。
  • 复杂场景:激活更多能力路径,提高表达上限。

这样做的价值在于,模型能力不再完全由静态参数量决定。YOLO-Next 可以拥有更丰富的潜在表达能力,但在推理时根据实际输入选择性使用,从而兼顾精度和效率。

这也是 YOLO-Next 相比传统固定计算模型更重要的地方:它让目标检测从“固定网络执行”进入“输入驱动计算”的阶段。

六、小目标增强:从结构到训练的系统优化

小目标检测一直是实时检测中的难点。因为小目标像素少,经过多次下采样后很容易丢失细节。如果只依赖深层语义特征,小目标往往还没到检测头就已经被背景淹没。

YOLO-Next 对小目标做了三层优化。

第一,增加 P2 浅层检测路径。
P2 特征保留更多空间细节,更适合捕捉小目标、远距离目标和细粒度缺陷。

第二,引入局部细节增强模块。
该模块会提取局部残差信息,让浅层特征中容易被忽略的微小变化更加突出。

第三,使用小目标感知标签分配。
训练时,像素尺度较小的目标会获得更多候选正样本,缓解小目标监督信号不足的问题。

这三层机制分别作用于特征、尺度和训练监督,使 YOLO-Next 对小目标不是“补丁式加强”,而是系统性优化。

七、自适应特征融合

目标检测需要同时理解“是什么”和“在哪里”。深层特征语义强,浅层特征定位细节强。如何把它们融合好,直接影响检测效果。

YOLO-Next 在多尺度特征拼接后加入自适应特征融合模块。它会根据当前输入自动调节不同通道和尺度信息的重要性,让有效特征更突出,冗余特征被抑制。

这个模块的特点是轻量、稳定、低侵入。它不改变整体网络接口,却能提升多尺度信息整合质量。

八、轻量注意力与上下文建模

近年来注意力机制在视觉任务中表现很好,但完整自注意力计算成本较高,并不总适合实时检测和端侧部署。

YOLO-Next 采用更务实的轻量注意力设计,通过空间门控和通道门控增强关键区域响应。它保留了注意力机制中“突出重要信息”的优势,同时避免高分辨率特征上的巨大计算开销。

这种思路符合 YOLO-Next 的整体原则:不是盲目追求复杂,而是在可部署的前提下提升表达能力。

九、质量引导的边界框精修

边界框定位质量对检测效果非常关键。YOLO-Next 在检测头中加入了质量引导的轻量精修机制。

它不会引入复杂的外部后处理,而是在网络内部对候选框做小幅、受控的校准:

  • 对困难位置进行局部特征再分析。
  • 预测较小的边界框修正量。
  • 通过质量门控限制修正幅度,避免过度偏移。

这相当于在检测头内部增加一个轻量校准器,让模型对边界细节更敏感,同时保持推理流程简洁。

十、动态预算:同一模型,多种运行模式

YOLO-Next 支持动态预算切换。也就是说,同一套权重可以根据设备和场景选择不同计算模式。

预算模式 行为 适用场景
edge 最少能力路径激活,优先低延迟 CPU、嵌入式、低功耗设备
balanced 速度与精度折中 常规实验和默认部署
accuracy 激活更多能力路径 复杂场景、精度优先
dense 接近全路径计算 消融实验和上限分析

这让 YOLO-Next 不再只是一个固定模型,而是一套可调节的检测系统。

过去我们经常需要训练多个不同模型来适配不同设备。YOLO-Next 希望通过尺度缩放和动态预算两层机制,让模型部署更灵活。

十一、p/f/n/s/m/l/x:下探模型尺度边界

传统 YOLO 模型家族通常是 n/s/m/l/x 五档。YOLO-Next 在此基础上增加了 pf 两个 n 以下尺度。

scales:
  p: [0.33, 0.125, 1024]
  f: [0.33, 0.1875, 1024]
  n: [0.50, 0.25, 1024]
  s: [0.50, 0.50, 1024]
  m: [0.50, 1.00, 512]
  l: [1.00, 1.00, 512]
  x: [1.00, 1.50, 512]

这三个数分别表示:

depth, width, max_channels

p 可以理解为 pico 级别,面向极低算力场景;f 可以理解为 femto 级别,比 p 稍强,但仍小于传统 nano 模型。

全系列模型整体对比如下:

scale width max_channels real_channels
p 0.125 1024 128
f 0.1875 1024 192
n 0.25 1024 256
s 0.50 1024 512
m 1.00 512 512
l 1.00 512 512
x 1.50 512 768

为什么要继续下探模型尺度?因为真实世界里有大量弱算力设备:

  • 低成本摄像头。
  • 边缘计算盒子。
  • 移动端和机器人节点。
  • 工业传感器。
  • 长时间运行的低功耗设备。

这些设备不一定能承受常规 nano 模型,更不适合复杂后处理。YOLO-Next 通过更小尺度模型和动态预算机制,让极低算力场景也有机会使用更完整的智能检测能力。

这也是 YOLO-Next 很重要的一点:能力增强并不一定意味着模型只能变大。通过主动计算调度,模型可以在保持表达潜力的同时继续压缩实际运行成本。

十二、多任务统一扩展

YOLO-Next 不只面向检测任务,也保留了多任务扩展能力。

当前体系支持:

任务 输出形态 说明
检测 (B, n, 6) 边界框、置信度、类别
实例分割 (B, n, 6 + nm) + proto 检测框与掩码系数
姿态估计 (B, n, 57) 17 个关键点,每点 3 个值
旋转框 (B, n, 7) 检测框、类别、角度

这意味着 YOLO-Next 的定位不是单一检测器,而是面向统一实时视觉任务的基础框架。检测是主干能力,分割、姿态、旋转框是自然延展。

十三、训练策略与工程入口

YOLO-Next 的训练目标是稳定收敛、强化困难目标、约束动态路径选择,并保持端到端输出能力。

训练阶段会同时保留更丰富的监督信号,让模型既能学习密集检测能力,也能学习端到端候选决策能力。

训练图像与标注

YOLO-Next 主体网络

场景感知特征

密集监督分支

端到端候选分支

路径选择辅助约束

总损失

工程上提供两个主要训练入口。

单模型训练:

python train.py --cfg yolonext-next.yaml --data self.yaml --epochs 100 --imgsz 640 --batch 8 --device 0,1,2,3

全尺度模型家族训练:

python train_all.py --cfg yolonext-next.yaml --data self.yaml --scales p,f,n,s,m,l,x --device 0,1,2,3

十四、YOLO-Next 的技术亮点

YOLO-Next 的亮点可以概括为六点。

第一,检测流程更端到端。
模型直接输出高质量候选结果,减少对复杂后处理的依赖。

第二,计算方式更智能。
模型可以根据场景复杂度动态选择计算路径,让简单场景更快,复杂场景更强。

第三,小目标能力更完整。
从浅层路径、局部细节增强到小目标标签分配,形成体系化增强。

第四,端侧部署更友好。
新增 p/f 超轻量尺度,并提供 edge 级预算模式,进一步覆盖低算力设备。

第五,模型家族更细。
p/f/n/s/m/l/x 七档尺度可以覆盖从极低功耗到高性能服务器的不同需求。

第六,任务扩展更统一。
检测、分割、姿态、旋转框可以在同一体系下维护,降低工程复杂度。

在这里插入图片描述

十五、适用场景

YOLO-Next 适合以下场景:

  • 边缘摄像头实时检测。
  • 工业质检中的微小缺陷检测。
  • 交通、安防等密集目标场景。
  • 无人机、机器人、移动端等算力受限平台。
  • 需要检测、分割、姿态、旋转框统一部署的视觉系统。
  • 需要根据设备性能动态调整速度和精度的工程场景。

十六、对下一代目标检测的判断

我认为下一代目标检测模型不会只沿着“参数更多、网络更大”的路线发展。真正能落地的检测系统,一定要同时满足几个条件:

  1. 端到端:推理链路足够简单,部署足够稳定。
  2. 跨平台:从服务器到端侧设备都能运行。
  3. 动态计算:能根据输入难度主动分配计算。
  4. 轻量可伸缩:既有大模型上限,也有极小模型下限。
  5. 多任务统一:检测能力可以自然扩展到更多视觉任务。

YOLO-Next 就是沿着这些方向构建的探索系统。

如果说传统检测模型更像一条固定生产线,那么 YOLO-Next 更像一个智能调度系统:它知道什么时候该少算,什么时候该多算;什么时候该关注细节,什么时候该扩大上下文;什么时候该追求极致速度,什么时候该追求更高精度。

这也是 YOLO-Next 这个名字的含义:

Next 不只是下一个模型,而是下一种目标检测范式。

十七、后续展望

YOLO-Next 后续还可以继续沿几个方向推进:

  • 完整训练并评估 p/f/n/s/m/l/x 七档模型。
  • 针对 p/f 超轻量模型加入蒸馏训练,提升极小模型精度。
  • 做 INT8、FP16、ONNX、TensorRT 等部署链路评估。
  • 统计不同预算模式下的真实延迟、显存和精度变化。
  • 可视化动态路径选择,让模型的计算决策更可解释。
  • 扩展更多任务头,构建统一实时视觉基础模型。

YOLO-Next 关注的不是某一个单独指标,而是复杂场景、端侧设备、多任务扩展和长期工程维护中的综合表现。YOLO-Next 是我们深入理解YOLO系列技术范式迭代发展以及对未来技术趋势的综合判断打造的面向下一代面向未来的智能化系统。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐