重磅开源！LocateAnything 一站式搞定全场景视觉定位，解码速度暴涨 10 倍

阿_旭

319人浏览 · 2026-06-05 19:44:43

阿_旭 · 2026-06-05 19:44:43 发布

《博主简介》

小伙伴们好，我是阿旭。
专注于计算机视觉领域，包括目标检测、图像分类、图像分割和目标跟踪等项目开发，提供模型对比实验、答疑辅导等。

《------往期经典推荐------》

一、AI应用软件开发实战专栏【链接】

项目名称	项目名称
1.【人脸识别与管理系统开发】	2.【车牌识别与自动收费管理系统开发】
3.【手势识别系统开发】	4.【人脸面部活体检测系统开发】
5.【图片风格快速迁移软件开发】	6.【人脸表表情识别系统】
7.【YOLOv8多目标识别与自动标注软件开发】	8.【基于深度学习的行人跌倒检测系统】
9.【基于深度学习的PCB板缺陷检测系统】	10.【基于深度学习的生活垃圾分类目标检测系统】
11.【基于深度学习的安全帽目标检测系统】	12.【基于深度学习的120种犬类检测与识别系统】
13.【基于深度学习的路面坑洞检测系统】	14.【基于深度学习的火焰烟雾检测系统】
15.【基于深度学习的钢材表面缺陷检测系统】	16.【基于深度学习的舰船目标分类检测系统】
17.【基于深度学习的西红柿成熟度检测系统】	18.【基于深度学习的血细胞检测与计数系统】
19.【基于深度学习的吸烟/抽烟行为检测系统】	20.【基于深度学习的水稻害虫检测与识别系统】
21.【基于深度学习的高精度车辆行人检测与计数系统】	22.【基于深度学习的路面标志线检测与识别系统】
23.【基于深度学习的智能小麦害虫检测识别系统】	24.【基于深度学习的智能玉米害虫检测识别系统】
25.【基于深度学习的200种鸟类智能检测与识别系统】	26.【基于深度学习的45种交通标志智能检测与识别系统】
27.【基于深度学习的人脸面部表情识别系统】	28.【基于深度学习的苹果叶片病害智能诊断系统】
29.【基于深度学习的智能肺炎诊断系统】	30.【基于深度学习的葡萄簇目标检测系统】
31.【基于深度学习的100种中草药智能识别系统】	32.【基于深度学习的102种花卉智能识别系统】
33.【基于深度学习的100种蝴蝶智能识别系统】	34.【基于深度学习的水稻叶片病害智能诊断系统】
35.【基于与ByteTrack的车辆行人多目标检测与追踪系统】	36.【基于深度学习的智能草莓病害检测与分割系统】
37.【基于深度学习的复杂场景下船舶目标检测系统】	38.【基于深度学习的农作物幼苗与杂草检测系统】
39.【基于深度学习的智能道路裂缝检测与分析系统】	40.【基于深度学习的葡萄病害智能诊断与防治系统】
41.【基于深度学习的遥感地理空间物体检测系统】	42.【基于深度学习的无人机视角地面物体检测系统】
43.【基于深度学习的木薯病害智能诊断与防治系统】	44.【基于深度学习的野外火焰烟雾检测系统】
45.【基于深度学习的脑肿瘤智能检测系统】	46.【基于深度学习的玉米叶片病害智能诊断与防治系统】
47.【基于深度学习的橙子病害智能诊断与防治系统】	48.【基于深度学习的车辆检测追踪与流量计数系统】
49.【基于深度学习的行人检测追踪与双向流量计数系统】	50.【基于深度学习的反光衣检测与预警系统】
51.【基于深度学习的危险区域人员闯入检测与报警系统】	52.【基于深度学习的高密度人脸智能检测与统计系统】
53.【基于深度学习的CT扫描图像肾结石智能检测系统】	54.【基于深度学习的水果智能检测系统】
55.【基于深度学习的水果质量好坏智能检测系统】	56.【基于深度学习的蔬菜目标检测与识别系统】
57.【基于深度学习的非机动车驾驶员头盔检测系统】	58.【太基于深度学习的阳能电池板检测与分析系统】
59.【基于深度学习的工业螺栓螺母检测】	60.【基于深度学习的金属焊缝缺陷检测系统】
61.【基于深度学习的链条缺陷检测与识别系统】	62.【基于深度学习的交通信号灯检测识别】
63.【基于深度学习的草莓成熟度检测与识别系统】	64.【基于深度学习的水下海生物检测识别系统】
65.【基于深度学习的道路交通事故检测识别系统】	66.【基于深度学习的安检X光危险品检测与识别系统】
67.【基于深度学习的农作物类别检测与识别系统】	68.【基于深度学习的危险驾驶行为检测识别系统】
69.【基于深度学习的维修工具检测识别系统】	70.【基于深度学习的维修工具检测识别系统】
71.【基于深度学习的建筑墙面损伤检测系统】	72.【基于深度学习的煤矿传送带异物检测系统】
73.【基于深度学习的老鼠智能检测系统】	74.【基于深度学习的水面垃圾智能检测识别系统】
75.【基于深度学习的遥感视角船只智能检测系统】	76.【基于深度学习的胃肠道息肉智能检测分割与诊断系统】
77.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统】	78.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统】
79.【基于深度学习的果园苹果检测与计数系统】	80.【基于深度学习的半导体芯片缺陷检测系统】
81.【基于深度学习的糖尿病视网膜病变检测与诊断系统】	82.【基于深度学习的运动鞋品牌检测与识别系统】
83.【基于深度学习的苹果叶片病害检测识别系统】	84.【基于深度学习的医学X光骨折检测与语音提示系统】
85.【基于深度学习的遥感视角农田检测与分割系统】	86.【基于深度学习的运动品牌LOGO检测与识别系统】
87.【基于深度学习的电瓶车进电梯检测与语音提示系统】	88.【基于深度学习的遥感视角地面房屋建筑检测分割与分析系统】
89.【基于深度学习的医学CT图像肺结节智能检测与语音提示系统】	90.【基于深度学习的舌苔舌象检测识别与诊断系统】
91.【基于深度学习的蛀牙智能检测与语音提示系统】	92.【基于深度学习的皮肤癌智能检测与语音提示系统】
93.【基于深度学习的工业压力表智能检测与读数系统】	94.【基于深度学习的CT扫描图像肝脏肿瘤智能检测与分析系统】
95.【基于深度学习的CT扫描图像脑肿瘤智能检测与分析系统】	96.【基于深度学习的甲状腺结节智能检测分割与诊断系统】
97.【基于深度学习的车载视角路面病害检测系统】	98.【基于深度学习的宫腔镜病变智能检测与语音提示系统】
99.【基于深度学习的人群密集检测统计分析与报警系统】	100.【基于深度学习的路面积水智能检测分割与分析系统】
101.【基于深度学习的钢丝绳缺陷检测与语音提示系统】	102.【基于深度学习的无人机视角河道水面垃圾检测系统】
103.【基于深度学习的停车场车位智能检测识别系统】	104.【基于深度学习的无人机视角野外搜救人员检测与语音提示系统】
105.【基于深度学习的无人机视角路面病害检测识别系统】	106.【基于深度学习的无人机红外视角海上搜救人员检测与语音提示系统】
107.【基于深度学习的交警手势识别系统】	108.【基于深度学习的红外图像光伏板热斑缺陷检测与语音提示系统】
109.【基于深度学习的风力机缺陷检测与语音提示系统】	110.【基于深度学习的茶叶病害智能检测识别系统】
111.【基于深度学习的铁轨部件缺陷检测与语音提示系统】	112.【基于深度学习的无人机视角车辆检测系统】

二、机器学习实战专栏【链接】，已更新31期，欢迎关注，持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】，持续更新中~~
六、YOLO性能对比专栏【链接】，持续更新中~

《------正文------》

一、摘要

在这里插入图片描述
传统多模态大模型做视觉定位、目标检测时，大多把检测框坐标拆分成逐个token串行生成，串行推理不仅速度慢，还割裂坐标之间的空间关联，容易出现定位精度不足的问题。来自NVIDIA联合港理工、普林斯顿、南大等多所高校团队提出LocateAnything，核心创新为并行框解码（PBD），将整张检测框视作不可拆分的原子单元，单步并行输出完整坐标。团队自研超大规模数据集LocateAnything-Data（总计1.38亿条标注样本、1200万张独立图片、7.85亿标注框），覆盖六大视觉定位任务。模型设计快/慢/混合三种推理模式，兼顾推理速度与定位精度，在COCO、LVIS、GUI定位、文档解析、OCR、指点定位等海量基准测试中大幅超越现有主流VLMs方案，最高解码吞吐提升2.5倍以上，打通机器人、智能体等低时延落地场景。

二、研究背景

当下视觉语言模型（VLM）已经成为通用感知交互底座，机器人、GUI自动化、文档解析等落地场景，都需要模型依托自然语言指令精准框选图像目标。但现有方案普遍采用逐token自回归（NTP）串行解码：把框坐标拆为数字字符或离散量化token逐个生成（原文图1左侧串行示例）。

这种串行结构存在两大痛点：第一，坐标 $x_1,y_1,x_2,y_2)$ 具备强空间耦合关系，拆分编码破坏几何约束，模型容易输出畸形框、错位框；第二，逐一生成带来巨大推理时延，目标数量越多、解码步数越多，吞吐量暴跌。

现有多token预测（MTP）加速方案多随机划分文本块，无视检测框的结构化特征，容易跨框乱生成token、引入虚假关联，速度提升有限还伴随精度下滑。基于上述痛点，研究团队针对性设计框对齐式并行解码PBD，从编码结构上解决速度-精度矛盾。

三、应用场景

LocateAnything是全任务统一定位通用框架，一套模型兼容六大落地场景，覆盖工业、智能终端、办公自动化、机器人领域：

通用目标检测：开放集/闭集物体识别、长尾目标检测（LVIS、COCO）、密集小目标检测（无人机图像VisDrone、高密度数据集Dense200）；
GUI界面定位：电脑/手机界面图标、按钮、输入框查找，赋能桌面智能体、自动化脚本（ScreenSpot-Pro数据集）；
指代理解定位：依托自然语言描述圈定图像指定物体（RefCOCOg、HumanRef等指代数据集）；
文档版面解析：PDF、图文文档图表、段落、标题分区检测（DocLayNet、M6Doc）；
场景OCR文字检测：图片内任意印刷/手写文本框提取（TotalText、ICDAR系列OCR数据集）；
指点任务：根据文字指令在图像中点选目标点位，适用于机器人视觉交互。

四、模型架构与方法原理介绍

4.1 整体模型架构

在这里插入图片描述

LocateAnything基于成熟VLM改造，视觉编码器选用Moon-ViT（原生分辨率编码，保留精细空间特征），文本解码器基于Qwen2.5，中间通过两层MLP映射层打通图文特征。模型摒弃传统逐坐标输出逻辑，全部输出内容统一封装为固定长度结构化Block，划分为四类功能块：语义块（存储类别/描述文本）、框块（存储完整4维坐标）、负样本块（无目标时输出）、结束块（标识生成终止），单个框Block一次性打包+四个坐标+全部内容，是并行解码的基础。

4.2 三种解码范式对比

在这里插入图片描述

传统逐字符/量化NTP解码：坐标拆成单个数字依次解码，一个框需要十几步生成，串行耗时极高；
通用无规则MTP解码：随机切块并行预测，切块边界和检测框边界不匹配，容易出现坐标跨框错乱、空间混乱；
本文PBD并行框解码：单个完整BBox作为最小预测单元，一个Block一次性输出整套坐标，同框内坐标双向注意力互通，天然贴合几何关联约束。

4.3 双分支联合训练策略

在这里插入图片描述

训练阶段采用NTP串行分支+PBD并行分支双损失联合优化（ $L=L_{ntp}+L_{blk}$ ），搭配定制异构注意力掩码：

NTP分支沿用标准因果注意力，保证模型保留原生大模型文本生成能力；
Block跨块使用因果注意力（只能看前文Block），同Block内部开启双向注意力，让模型学习框内坐标联动规律；
训练配套Stream Packing、MagiAttention两大工程优化，解决变长序列训练显存浪费、不规则注意力加速难题。

4.4 三档自适应推理模式

在这里插入图片描述

模型上线提供三种可切换推理方案，按需调配速度与精度：

慢速模式（Slow/NTP）：原生自回归逐token生成，精度上限最高，用于高精度标注、数据集精加工；
快速模式（Fast/PBD）：全并行Block生成，吞吐量拉满，适用于端侧机器人、实时推理设备；
混合模式（Hybrid）【生产首选】：默认并行生成，实时校验输出：出现格式错乱、坐标置信度低于阈值时，仅对异常Block退回NTP重生成，兼顾绝大多数加速收益与输出稳定性。

4.5 自建超大训练数据集LocateAnything-Data

在这里插入图片描述

团队搭建自动化数据引擎，依托开源标注数据+无标注原图自动生成海量标注，数据集合计1.38亿条查询文本，分6大任务类目：通用检测（66.9%）、GUI定位（16.5%）、指代定位（7.3%）、OCR（3.6%）、版面解析（3.5%）、指点任务（2.2%），还人工构建海量负样本（无目标查询）抑制模型虚检；数据生成借助Qwen3-VL、Molmo、SAM3等模型自动扩充多样自然语言查询，极大提升模型泛化能力。

五、实验对比结果

5.1 通用目标检测基准

在这里插入图片描述

在COCO通用物体、LVIS长尾物体、VisDrone/Dense200密集小目标数据集上，LocateAnything-3B相较同参数量Rex-Omni、Qwen3-VL、DeepSeek-VL等主流VLM全面领先：

LVIS平均F1相较Rex-Omni提升3.8%，COCO平均F1提升1.8%；
密集场景VisDrone均值F1达39.9，Dense200达58.7，密集堆叠物体分割效果显著优于竞品；
吞吐速率碾压基线：混合模式下12.7BPS（每秒处理框数），是Qwen3-VL（1.1BPS）的10倍以上、Rex-Omni（5.0BPS）的2.5倍（原文表1）。

5.2 细分专项任务

GUI界面定位：3B尺寸LocateAnything在ScreenSpot-Pro平均F1=60.3，超越7B~32B规格专用GUI大模型；
文档&OCR：DocLayNet均值F1=76.8、M6Doc=70.1，超过专用文档检测DocLayout-YOLO与各类VLMs；TotalText OCR指标43.3刷新SOTA；
指代定位：HumanRef平均F1=78.7，RefCOCOg测试集77.6，精细文本描述定位优势突出；
指点任务：COCO指点F1=83.9、Dense200=87.6，全品类指点基准全面领先同规格模型。