《博主简介》

小伙伴们好,我是阿旭。
专注于计算机视觉领域,包括目标检测、图像分类、图像分割和目标跟踪等项目开发,提供模型对比实验、答疑辅导等。

《------往期经典推荐------》

一、AI应用软件开发实战专栏【链接】

项目名称 项目名称
1.【人脸识别与管理系统开发 2.【车牌识别与自动收费管理系统开发
3.【手势识别系统开发 4.【人脸面部活体检测系统开发
5.【图片风格快速迁移软件开发 6.【人脸表表情识别系统
7.【YOLOv8多目标识别与自动标注软件开发 8.【基于深度学习的行人跌倒检测系统
9.【基于深度学习的PCB板缺陷检测系统 10.【基于深度学习的生活垃圾分类目标检测系统
11.【基于深度学习的安全帽目标检测系统 12.【基于深度学习的120种犬类检测与识别系统
13.【基于深度学习的路面坑洞检测系统 14.【基于深度学习的火焰烟雾检测系统
15.【基于深度学习的钢材表面缺陷检测系统 16.【基于深度学习的舰船目标分类检测系统
17.【基于深度学习的西红柿成熟度检测系统 18.【基于深度学习的血细胞检测与计数系统
19.【基于深度学习的吸烟/抽烟行为检测系统 20.【基于深度学习的水稻害虫检测与识别系统
21.【基于深度学习的高精度车辆行人检测与计数系统 22.【基于深度学习的路面标志线检测与识别系统
23.【基于深度学习的智能小麦害虫检测识别系统 24.【基于深度学习的智能玉米害虫检测识别系统
25.【基于深度学习的200种鸟类智能检测与识别系统 26.【基于深度学习的45种交通标志智能检测与识别系统
27.【基于深度学习的人脸面部表情识别系统 28.【基于深度学习的苹果叶片病害智能诊断系统
29.【基于深度学习的智能肺炎诊断系统 30.【基于深度学习的葡萄簇目标检测系统
31.【基于深度学习的100种中草药智能识别系统 32.【基于深度学习的102种花卉智能识别系统
33.【基于深度学习的100种蝴蝶智能识别系统 34.【基于深度学习的水稻叶片病害智能诊断系统
35.【基于与ByteTrack的车辆行人多目标检测与追踪系统 36.【基于深度学习的智能草莓病害检测与分割系统
37.【基于深度学习的复杂场景下船舶目标检测系统 38.【基于深度学习的农作物幼苗与杂草检测系统
39.【基于深度学习的智能道路裂缝检测与分析系统 40.【基于深度学习的葡萄病害智能诊断与防治系统
41.【基于深度学习的遥感地理空间物体检测系统 42.【基于深度学习的无人机视角地面物体检测系统
43.【基于深度学习的木薯病害智能诊断与防治系统 44.【基于深度学习的野外火焰烟雾检测系统
45.【基于深度学习的脑肿瘤智能检测系统 46.【基于深度学习的玉米叶片病害智能诊断与防治系统
47.【基于深度学习的橙子病害智能诊断与防治系统 48.【基于深度学习的车辆检测追踪与流量计数系统
49.【基于深度学习的行人检测追踪与双向流量计数系统 50.【基于深度学习的反光衣检测与预警系统
51.【基于深度学习的危险区域人员闯入检测与报警系统 52.【基于深度学习的高密度人脸智能检测与统计系统
53.【基于深度学习的CT扫描图像肾结石智能检测系统 54.【基于深度学习的水果智能检测系统
55.【基于深度学习的水果质量好坏智能检测系统 56.【基于深度学习的蔬菜目标检测与识别系统
57.【基于深度学习的非机动车驾驶员头盔检测系统 58.【太基于深度学习的阳能电池板检测与分析系统
59.【基于深度学习的工业螺栓螺母检测 60.【基于深度学习的金属焊缝缺陷检测系统
61.【基于深度学习的链条缺陷检测与识别系统 62.【基于深度学习的交通信号灯检测识别
63.【基于深度学习的草莓成熟度检测与识别系统 64.【基于深度学习的水下海生物检测识别系统
65.【基于深度学习的道路交通事故检测识别系统 66.【基于深度学习的安检X光危险品检测与识别系统
67.【基于深度学习的农作物类别检测与识别系统 68.【基于深度学习的危险驾驶行为检测识别系统
69.【基于深度学习的维修工具检测识别系统 70.【基于深度学习的维修工具检测识别系统
71.【基于深度学习的建筑墙面损伤检测系统 72.【基于深度学习的煤矿传送带异物检测系统
73.【基于深度学习的老鼠智能检测系统 74.【基于深度学习的水面垃圾智能检测识别系统
75.【基于深度学习的遥感视角船只智能检测系统 76.【基于深度学习的胃肠道息肉智能检测分割与诊断系统
77.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统 78.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统
79.【基于深度学习的果园苹果检测与计数系统 80.【基于深度学习的半导体芯片缺陷检测系统
81.【基于深度学习的糖尿病视网膜病变检测与诊断系统 82.【基于深度学习的运动鞋品牌检测与识别系统
83.【基于深度学习的苹果叶片病害检测识别系统 84.【基于深度学习的医学X光骨折检测与语音提示系统
85.【基于深度学习的遥感视角农田检测与分割系统 86.【基于深度学习的运动品牌LOGO检测与识别系统
87.【基于深度学习的电瓶车进电梯检测与语音提示系统 88.【基于深度学习的遥感视角地面房屋建筑检测分割与分析系统
89.【基于深度学习的医学CT图像肺结节智能检测与语音提示系统 90.【基于深度学习的舌苔舌象检测识别与诊断系统
91.【基于深度学习的蛀牙智能检测与语音提示系统 92.【基于深度学习的皮肤癌智能检测与语音提示系统
93.【基于深度学习的工业压力表智能检测与读数系统 94.【基于深度学习的CT扫描图像肝脏肿瘤智能检测与分析系统】
95.【基于深度学习的CT扫描图像脑肿瘤智能检测与分析系统】 96.【基于深度学习的甲状腺结节智能检测分割与诊断系统】
97.【基于深度学习的车载视角路面病害检测系统】 98.【基于深度学习的宫腔镜病变智能检测与语音提示系统】
99.【基于深度学习的人群密集检测统计分析与报警系统 100.【基于深度学习的路面积水智能检测分割与分析系统】
101.【基于深度学习的钢丝绳缺陷检测与语音提示系统 102.【基于深度学习的无人机视角河道水面垃圾检测系统
103.【基于深度学习的停车场车位智能检测识别系统】 104.【基于深度学习的无人机视角野外搜救人员检测与语音提示系统
105.【基于深度学习的无人机视角路面病害检测识别系统 106.【基于深度学习的无人机红外视角海上搜救人员检测与语音提示系统
107.【基于深度学习的交警手势识别系统 108.【基于深度学习的红外图像光伏板热斑缺陷检测与语音提示系统】
109.【基于深度学习的风力机缺陷检测与语音提示系统】 110.【基于深度学习的茶叶病害智能检测识别系统】
111.【基于深度学习的铁轨部件缺陷检测与语音提示系统】 112.【基于深度学习的无人机视角车辆检测系统】

二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~

《------正文------》

在这里插入图片描述

一、摘要

在这里插入图片描述
传统多模态大模型做视觉定位、目标检测时,大多把检测框坐标拆分成逐个token串行生成,串行推理不仅速度慢,还割裂坐标之间的空间关联,容易出现定位精度不足的问题。来自NVIDIA联合港理工、普林斯顿、南大等多所高校团队提出LocateAnything,核心创新为并行框解码(PBD),将整张检测框视作不可拆分的原子单元,单步并行输出完整坐标。团队自研超大规模数据集LocateAnything-Data(总计1.38亿条标注样本、1200万张独立图片、7.85亿标注框),覆盖六大视觉定位任务。模型设计快/慢/混合三种推理模式,兼顾推理速度与定位精度,在COCO、LVIS、GUI定位、文档解析、OCR、指点定位等海量基准测试中大幅超越现有主流VLMs方案,最高解码吞吐提升2.5倍以上,打通机器人、智能体等低时延落地场景。

二、研究背景

当下视觉语言模型(VLM)已经成为通用感知交互底座,机器人、GUI自动化、文档解析等落地场景,都需要模型依托自然语言指令精准框选图像目标。但现有方案普遍采用逐token自回归(NTP)串行解码:把框坐标拆为数字字符或离散量化token逐个生成(原文图1左侧串行示例)。

这种串行结构存在两大痛点:第一,坐标 ( x 1 , y 1 , x 2 , y 2 ) (x_1,y_1,x_2,y_2) (x1,y1,x2,y2)具备强空间耦合关系,拆分编码破坏几何约束,模型容易输出畸形框、错位框;第二,逐一生成带来巨大推理时延,目标数量越多、解码步数越多,吞吐量暴跌。

现有多token预测(MTP)加速方案多随机划分文本块,无视检测框的结构化特征,容易跨框乱生成token、引入虚假关联,速度提升有限还伴随精度下滑。基于上述痛点,研究团队针对性设计框对齐式并行解码PBD,从编码结构上解决速度-精度矛盾。

三、应用场景

LocateAnything是全任务统一定位通用框架,一套模型兼容六大落地场景,覆盖工业、智能终端、办公自动化、机器人领域:

  1. 通用目标检测:开放集/闭集物体识别、长尾目标检测(LVIS、COCO)、密集小目标检测(无人机图像VisDrone、高密度数据集Dense200);
    在这里插入图片描述

  2. GUI界面定位:电脑/手机界面图标、按钮、输入框查找,赋能桌面智能体、自动化脚本(ScreenSpot-Pro数据集);

  3. 指代理解定位:依托自然语言描述圈定图像指定物体(RefCOCOg、HumanRef等指代数据集);
    在这里插入图片描述

  4. 文档版面解析:PDF、图文文档图表、段落、标题分区检测(DocLayNet、M6Doc);

  5. 场景OCR文字检测:图片内任意印刷/手写文本框提取(TotalText、ICDAR系列OCR数据集);
    在这里插入图片描述

  6. 指点任务:根据文字指令在图像中点选目标点位,适用于机器人视觉交互。

四、模型架构与方法原理介绍

4.1 整体模型架构

在这里插入图片描述

LocateAnything基于成熟VLM改造,视觉编码器选用Moon-ViT(原生分辨率编码,保留精细空间特征),文本解码器基于Qwen2.5,中间通过两层MLP映射层打通图文特征。模型摒弃传统逐坐标输出逻辑,全部输出内容统一封装为固定长度结构化Block,划分为四类功能块:语义块(存储类别/描述文本)、框块(存储完整4维坐标)、负样本块(无目标时输出)、结束块(标识生成终止),单个框Block一次性打包+四个坐标+全部内容,是并行解码的基础。

4.2 三种解码范式对比

在这里插入图片描述

  1. 传统逐字符/量化NTP解码:坐标拆成单个数字依次解码,一个框需要十几步生成,串行耗时极高;
  2. 通用无规则MTP解码:随机切块并行预测,切块边界和检测框边界不匹配,容易出现坐标跨框错乱、空间混乱;
  3. 本文PBD并行框解码单个完整BBox作为最小预测单元,一个Block一次性输出整套坐标,同框内坐标双向注意力互通,天然贴合几何关联约束。

4.3 双分支联合训练策略

在这里插入图片描述

训练阶段采用NTP串行分支+PBD并行分支双损失联合优化( L = L n t p + L b l k L=L_{ntp}+L_{blk} L=Lntp+Lblk),搭配定制异构注意力掩码:

  • NTP分支沿用标准因果注意力,保证模型保留原生大模型文本生成能力;
  • Block跨块使用因果注意力(只能看前文Block),同Block内部开启双向注意力,让模型学习框内坐标联动规律;
    训练配套Stream Packing、MagiAttention两大工程优化,解决变长序列训练显存浪费、不规则注意力加速难题。

4.4 三档自适应推理模式

在这里插入图片描述

模型上线提供三种可切换推理方案,按需调配速度与精度:

  1. 慢速模式(Slow/NTP):原生自回归逐token生成,精度上限最高,用于高精度标注、数据集精加工;
  2. 快速模式(Fast/PBD):全并行Block生成,吞吐量拉满,适用于端侧机器人、实时推理设备;
  3. 混合模式(Hybrid)【生产首选】:默认并行生成,实时校验输出:出现格式错乱、坐标置信度低于阈值时,仅对异常Block退回NTP重生成,兼顾绝大多数加速收益与输出稳定性。

4.5 自建超大训练数据集LocateAnything-Data

在这里插入图片描述

团队搭建自动化数据引擎,依托开源标注数据+无标注原图自动生成海量标注,数据集合计1.38亿条查询文本,分6大任务类目:通用检测(66.9%)、GUI定位(16.5%)、指代定位(7.3%)、OCR(3.6%)、版面解析(3.5%)、指点任务(2.2%),还人工构建海量负样本(无目标查询)抑制模型虚检;数据生成借助Qwen3-VL、Molmo、SAM3等模型自动扩充多样自然语言查询,极大提升模型泛化能力。

五、实验对比结果

5.1 通用目标检测基准

在这里插入图片描述

在COCO通用物体、LVIS长尾物体、VisDrone/Dense200密集小目标数据集上,LocateAnything-3B相较同参数量Rex-Omni、Qwen3-VL、DeepSeek-VL等主流VLM全面领先:

  1. LVIS平均F1相较Rex-Omni提升3.8%,COCO平均F1提升1.8%;
  2. 密集场景VisDrone均值F1达39.9,Dense200达58.7,密集堆叠物体分割效果显著优于竞品;
  3. 吞吐速率碾压基线:混合模式下12.7BPS(每秒处理框数),是Qwen3-VL(1.1BPS)的10倍以上、Rex-Omni(5.0BPS)的2.5倍(原文表1)。

5.2 细分专项任务

  1. GUI界面定位:3B尺寸LocateAnything在ScreenSpot-Pro平均F1=60.3,超越7B~32B规格专用GUI大模型;
    在这里插入图片描述

  2. 文档&OCR:DocLayNet均值F1=76.8、M6Doc=70.1,超过专用文档检测DocLayout-YOLO与各类VLMs;TotalText OCR指标43.3刷新SOTA;
    在这里插入图片描述

  3. 指代定位:HumanRef平均F1=78.7,RefCOCOg测试集77.6,精细文本描述定位优势突出;
    在这里插入图片描述

  4. 指点任务:COCO指点F1=83.9、Dense200=87.6,全品类指点基准全面领先同规格模型。
    在这里插入图片描述

六、总结与展望

6.1 研究总结

  1. 方法创新:首创PBD并行框解码,打破VLM视觉定位串行解码桎梏,以检测框为原子单元并行生成,从结构匹配坐标天然几何关联;
  2. 工程落地优势:快/慢/混合三档推理模式,适配从实时端侧到高精度标注全场景需求;
  3. 数据赋能:自研千万级图片、上亿标注的多领域混合数据集,补齐多场景数据短板,实现开放域全任务定位SOTA;
  4. 泛化可靠:解码架构可插拔适配任意主流VLM骨干,通用性强。

6.2 未来展望

当前模型依靠监督微调完成训练,后续研究方向集中在三点:

  1. 引入强化学习优化Block并行生成策略,进一步降低混合模式退回NTP重解码的概率,持续提升极限推理速度;
  2. 拓展3D空间定位能力(论文同步衍生LocateAnything3D相关工作),落地自动驾驶、3D机器人感知;
  3. 持续扩充多语种、小众行业标注数据,拓展医疗影像、工业质检等垂直场景落地。

在这里插入图片描述

好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐