Thinking with Visual Primitives翻译

nopSled

40人浏览 · 2026-05-16 17:54:54

nopSled · 2026-05-16 17:54:54 发布

⚠️ 在开始阅读之前，如果你对 实时 Agent / 数字人 / 多模态系统 / LiveKit 架构 感兴趣，
欢迎先到 GitHub 给项目点一个 ⭐ Star，这是对开源作者最大的支持。

🚀 AlphaAvatar 项目地址（强烈建议先收藏，该项目正在持续更新维护）：
👉 https://github.com/AlphaAvatar/AlphaAvatar
🚀 AIPapers 项目地址（具有更全的有关LLM/Agent/Speech/Visual/Omni论文分类）：
👉 https://github.com/AlphaAvatar/AIPaperNotes

摘要

尽管多模态大型语言模型（MLLM）取得了显著进展，但现有的思维链（CoT）范式仍然主要局限于语言领域。虽然近期的研究进展致力于通过高分辨率裁剪（例如，使用图像进行思考）来弥合 Perception Gap，但它们却忽略了一个更为根本的瓶颈：Reference Gap。自然语言固有的歧义性往往无法提供指向复杂空间布局的精确、明确的指示，从而导致在需要严格依据的任务中出现逻辑崩溃。本文提出了一种名为“Thinking with Visual Primitives”的新型推理框架，它将空间 token（例如点和边界框）提升为“最小思维单元”。通过将这些视觉基元直接融入思维过程，我们的模型可以在“推理”的同时进行“指点”，从而有效地将其认知轨迹锚定在图像的物理坐标系中。值得注意的是，我们的框架构建于一个高度优化的架构之上，具有极高的视觉 token 效率。尽管我们的模型规模紧凑，图像 token 预算也显著降低，但在一系列具有挑战性的视觉问答任务中，我们的模型依然取得了与前沿模型相媲美的性能，其表现与 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等模型相当甚至更优。这为构建更高效、可扩展的类 System-2 多模态智能提供了一条切实可行的途径。

1.Introduction

在这里插入图片描述

大语言模型（LLM）与计算机视觉的融合开启了多模态大语言模型（MLLM）的新时代，使其能够进行复杂的场景理解。然而，当我们推动这些模型进行复杂推理时（通常被概念化为丹尼尔·卡尼曼的“System 2”思维），当前范式的一个根本局限性便显现出来。尽管这些模型的内部推理（通常表现为思维链（CoT））在语言领域变得越来越稳健，但它与视觉领域仍然很大程度上脱节。

近年来，为了增强多模态推理能力，一些研究采用了视觉缩放策略，例如前沿模型中的视觉缩放方法，这些方法主要针对 Perception Gap。通过高分辨率裁剪和动态拼接，这些模型确保能够“看到”图像的精细细节。然而，“看到”并不等同于“推理”。即使感知能力完美，多模态语言模型（MLLM）在处理涉及复杂空间布局或密集对象交互的任务时，也经常出现逻辑崩溃。我们将这种缺陷称为 Reference Gap：自然语言本身无法在连续的视觉空间中作为精确、明确的指针。在诸如密集计数或多步骤空间推理等场景中，模型的语言“思维”会丢失其想要引用的视觉实体，从而导致连锁幻觉。虽然近期的研究探索了将边界框整合到思维链过程中，但它们主要将边界框视为一种事后验证机制，用于增强感知密集型任务的性能。这些方法通常仅限于高分辨率基准测试，其挑战在于“观察”而非“推理”，而且它们对劳动密集型监督的依赖进一步限制了可扩展性。更重要的是，它们无法解决复杂结构推理（例如拓扑导航）中的“参考鸿沟”问题——在这类推理中，视觉 token 必须作为思维的内在媒介，而不仅仅是可验证的证据。

在这项工作中，我们提出了一种范式转变：Thinking with Visual Primitives。我们不再将视觉定位视为次要任务或最终输出，而是将空间 token（点和边界框）提升为“最小思维单元”，并直接将其融入模型的推理轨迹中。这种机制借鉴了人类的认知过程。当人类在复杂的迷宫中导航或清点大量物体时，他们会自然而然地使用指示性指点（例如手指手势）来降低认知负荷并保持逻辑一致性。通过将视觉基元融入思考过程，我们的模型模拟了这种“点到推理”的协同作用，有效地将抽象的语言思维锚定到具体的空间坐标上。

此外，我们的框架构建于一个架构高效的底层结构之上，该结构专为高吞吐量、长上下文的多模态交互而设计。与依赖大量视觉 token 序列来弥补视觉缺陷的传统方法不同，我们的模型利用了 Compressed Sparse Attention 机制，该机制将每 $m$ 个视觉 token 的键值（KV）缓存压缩成一个条目。这种设计使得模型仅需使用其他前沿系统所需视觉 token 的一小部分即可运行，同时保持相当的认知深度。

通过广泛的基准测试，我们证明了 Thinking with Visual Primitives 模型在推理准确率方面实现了显著提升。我们的模型在各种具有挑战性的空间推理和视觉问答任务中均取得了与最新版本的 GPT、Claude 和 Gemini 模型相媲美甚至超越的性能（见图1）。我们的研究结果表明，多模态智能的未来不仅在于识别更多像素，更在于开发更精确、更清晰的指称机制，从而弥合语言与视觉世界之间的鸿沟。

2.Method

2.1 Overview

在这里插入图片描述

本节首先介绍模型架构。接下来，我们将详细阐述训练流程（如图 2 所示），并描述预训练和后训练阶段所使用的相应数据。

2.2 Architecture

我们的模型采用了一种类似于 LLaVA 的标准架构。具体来说，输入图像首先由 Vision Transformer (ViT) 处理以提取视觉特征，然后将这些特征与语言指令连接起来，形成一个交错的视觉-语言 token 序列。该序列随后被输入到大语言模型（LLM）中以生成响应。语言骨干网络由 DeepSeek-V4-Flash 实例化，这是一个混合专家（MoE）模型，包含284B 参数，推理过程中有 13B 激活参数。

对于视觉编码，我们采用了 DeepSeek-ViT，这是一个我们自主开发的视觉编码算法，从零开始训练，支持任意分辨率的输入。它首先使用 14 × 14 的图像块大小对输入图像进行分割，生成图像块 token。随后，在 ViT 的输出端，我们应用 3 × 3 的空间 token 压缩（将每 9 个相邻的图像块标记沿通道维度压缩成一个 token）。此外，利用集成在基础 LLM 中的压缩稀疏注意力 (CSA) 机制，存储在键值 (KV) 缓存中的视觉 token 会被进一步压缩 4 倍。

为了说明这一流程，考虑一幅分辨率为 756 × 756、包含 571,536 个像素的输入图像。图像块嵌入层将其处理成 2,916 个图像块 token，供 ViT 使用。经过 3 × 3 压缩后，在预填充阶段，只有 324 个视觉 token 被送入 LLM。最终，CSA 机制将其减少到 KV 缓存中仅 81 个视觉 KV 条目。从原始像素到最终的 KV 缓存条目，整个过程实现了 7,056 倍的整体压缩比。

2.3 Pretraining

2.3.1 Definition of Visual Primitives

在预训练阶段，我们的目标是使模型具备输出“视觉基元”的基本能力。我们将计算机视觉中两种标准的输出格式定义为基元：边界框和点。这两种表示形式都发挥着空间参照的关键作用。然而，它们各自展现出不同的功能优势：边界框擅长捕捉特定物体的精确位置和尺度，而点则更适合抽象的视觉参照，例如跟踪运动轨迹或解决拓扑推理问题。

2.3.2 Motivation for Large-Scale Data Curation

虽然现有的公共数据集，例如 COCO 和 Pixmo-Points，能够提供相对精确的边界框或点标注，但它们存在规模不足和多样性明显缺乏的问题。为了确保我们提出的“基于视觉基元的思考”范式的普适性，必须构建语义丰富、多样性高的大规模网络数据。我们优先考虑大规模扩展边界框数据，原因如下：

Determinism of Annotations。边界框紧密地包围着一个物体，因此其标注相对确定。相反，点标注则非常模糊；物体边界内的任何坐标都可以作为有效的参考点，导致缺乏严格的真实值。在极端情况下，例如物体被遮挡时，原本应该标注在背景物体上的点可能会落在前景遮挡物上，从而造成严重的标注歧义。
Task Generalizability。经过训练输出边界框的模型可以轻松泛化到基于点的格式。由于边界框可以由两个点（左上角和右下角坐标）定义，因此它本质上包含了点表示。
Information Richness。与点相比，边界框支持更广泛的下游任务。点仅提供空间定位信息，而边界框则包含详细的几何信息（例如宽度和高度）。这种额外的上下文信息使模型能够在“基于视觉基元的思考”框架内执行更复杂的推理。

2.3.3 Large-Scale Web Data Construction

Raw Data Acquisition。我们通过对多个网站进行大规模网络爬虫，获取了与“边界框定位”相关的海量互联网数据。以 Huggingface 为例，我们利用其官方 API 筛选出标记为“物体检测”或“定位”的任务数据。我们首先根据受欢迎程度指标（例如点赞数和下载量排名）进行初步筛选，并严格排除所有验证集和测试集，以防止模型评估过程中潜在的数据污染（即数据泄露）。此外，我们使用基于 LLM 的 Agent 来解析这些存储库的 README.md 文件，自动将各种不同的数据集结构转换为我们预定义的统一存储格式。经过对这些网站的广泛爬取和去重后，我们最终整理出 97,984 个与“边界框定位”相关的数据源。对样本数据的手动检查显示，物体类别非常多样化，涵盖了从常见目标（例如人、脸）到特定领域实体（例如 CT 扫描中的病变区域或特定动漫角色）的各种类型。然而，这些原始的框标注仍然存在语义歧义和几何不准确等各种问题，需要进一步严格的过滤。我们设计了一个两步过滤流程，如下图所示。

Step I: Semantic-based Review。鉴于直接爬取的数据集充斥着不适用于视觉语言对齐训练的噪声标签，我们引入了一种基于机器学习模型（MLLM）的自动化语义审查机制。传统的数据过滤主要关注边界框的几何精度，而本阶段旨在确保语义标签的有效性。具体而言，该审查过程着重于消除三类致命的语义缺陷：

Meaningless Machine Codes and Gibberish：许多原始数据集保留了内部开发代码（例如，纯数值类，如“0”或“1”）。由于这些标签缺乏人类可读的自然语言语义，强迫模型学习此类映射会严重降低其语言生成能力。因此，这些数据集会被直接丢弃。
Ungeneralizable Private Entities：某些数据集使用特定的人称代词（例如，“我的室友”）或私有标识符（例如，“ID_Card_1”）。由于 MLLM 无法从孤立样本中泛化非公众人物的视觉特征（即，“某人”的视觉特征无法概括为普遍概念），因此这类数据会被严格过滤掉。相反，广为人知的名人或公众人物的数据则会被保留。
Ambiguous Abbreviations and Subjective Evaluations：某些特定领域（例如工业检验）常用的标签，例如“OK”（合格）或“NG”（不合格），往往缺乏具体的视觉描述。例如，一个单独的“OK”标签会造成极大的语义歧义，因为“完好的苹果”和“完好的电路板”在视觉上完全没有关联。

对于每个数据集，我们抽取三张图像样本，并让模型根据上述标准计算质量评分（范围从 0 到 10）。然后，模型输出明确的“保留”或“丢弃”决策，并附上清晰的理由。此筛选阶段保留了初始 97,984 个数据源中的 43,141 个，这些数据源随后进入下一阶段的筛选。

Step II: Visual-Geometric Quality Review。我们进一步评估边界框的几何质量和标注完整性，以确保模型能够学习到精确的区域-文本对齐。此过程专门针对三种类型的结构性标注缺陷：

Severe Missing Annotations (Low Recall)：这指的是图像中存在多个与给定标签对应的实例，但只有少数实例被标注的情况。如果在采样过程中检测到大规模标注缺失问题（例如，漏标注率 >50%），则立即丢弃该数据集。
Severe Truncation and Offset：当边界框无法合理地包围目标物体时，就会出现这种情况。在实践中，我们采用差异化容差策略：略微宽松的边界框（包含少量背景噪声）是可以接受的；但是，严重截断物体关键视觉特征（例如，切掉头部或车轮）的情况是绝对不可接受的。
Mega Boxes Issue：如果一个边界框毫无意义地覆盖了图像区域超过 90% 的面积，这通常表明图像分类数据被强制转换为了检测数据。如果这种情况仅在采样批次中偶尔出现，则可将其视为可接受的噪声。但是，如果此类全局边界框持续出现在所有三个采样图像中，则认为该数据集缺乏有意义的定位信息，并将其丢弃。

本次筛选阶段从剩余的 43,141 个数据源中保留了 31,701 个。为了实现数据集的平衡，我们设计了一种基于类别的抽样策略。对于每个数据集中的每个类别，我们随机抽取 $N$ 张与该类别相关的图像（如果某个类别的可用图像总数小于 $N$ ，则保留所有图像）。由于一张图像可能同时属于多个类别，因此在按类别选择图像后，我们对汇总后的数据集进行全局去重。在实际应用中，我们将 $N$ 设置为 1,000，最终获得了超过 4000 万个高质量样本。

2.3.4 Unified Pretraining

对于一般的多模态数据，我们主要使用大规模网络爬取数据，而非通过模型蒸馏生成的合成数据（例如，合成图像描述）。原始数据经过精心整理，我们避免使用 LLM 重写数据内容。对于旨在赋予模型输出视觉基元基础能力的专用数据，除了上述网络爬取和过滤之外，我们还整合了多个高质量的公共数据集，例如 [4, 15, 17, 25, 29, 33]。我们为边界框定位和点定位数据建立了统一的格式标准。对于边界框定位任务，我们设计了多个提示模板，例如“Locate TARGET in this image and report its bounding box coordinates.”，其中 TARGET 用作查询对象的占位符。相应的响应格式如下：<|ref|>TARGET<|/ref|><|box|>[[x1,y1,x2,y2],[x3,y3, x4,y4]…]<|/box|>，其中 <|ref|>、<|/ref|>、<|box|> 和 <|/box|> 是词表中的特殊 token。x1,y1 和 x2,y2 分别表示边界框的左上角和右下角坐标。这些坐标被归一化为 0 到 999 之间的离散整数。在存在多个实例的情况下，边界框从左到右排列。类似地，对于点任务，我们设计了诸如“Help me find TARGET. Give me the center point for each instance.”之类的提示模板。预期响应格式定义为：<|point|>[[x1,y1],[x2,y2]…]<|/point|>，其中 <|point|> 和 <|/point|> 是特殊 token，x1 和 y1 表示点的坐标。值得注意的是，与边界框定位格式不同，点任务的响应范式不需要输出对象名称。这种设计选择旨在将基于点的表示扩展到更抽象的概念，例如使用一系列点来表示轨迹。最终，整个预训练阶段将消耗数万亿个多模态 token。

2.4 Task Design & Cold-Start Data

Cold-Start Data for Post-Training。预训练赋予模型通用的多模态先验知识和基本的视觉基元能力，而后训练（专门的 SFT/RL 以及后续的统一 RFT）则需要一个小型但高精度的冷启动数据集，以便在我们的视觉基元输出接口下引导指令遵循和奖赏学习。具体来说，我们构建冷启动数据时，会考虑以下两点：(i) 从标注（例如，边界框/点）或程序生成的显式监督目标；(ii) 尽可能使用自动验证器（例如，基于规则的检查器）来减少标签噪声。我们选择了能够从基于视觉基元的推理（通过边界框或点）中获益的代表性任务，并围绕四个关键维度设计了我们的冷启动数据：计数、空间推理和通用视觉问答、迷宫导航以及路径追踪。

2.4.1 Counting

在这里插入图片描述

多模态大型语言模型在准确计数方面一直面临挑战，尤其是在物体密集的场景中。与人类通常采用系统性的扫描和累积策略不同，基于语言的模型在物体数量较多时往往无法建立精确的物体对应关系。我们通过使用边界框作为视觉基元来提供明确的参照锚点，从而解决这一根本瓶颈。

Task Decomposition。我们将计数任务分为两类：粗粒度计数和细粒度计数。前者侧重于对一般类别进行计数（例如，“狗”），而后者需要根据特定属性或空间限制来区分对象（例如，“白狗”或“左边的狗”）。

Coarse-Grained Counting。我们聚合了来自多个密集检测数据集的数据，包括 [2, 9, 14, 22, 28, 29, 35]。为了确保数据质量，我们实施了一个基于三个主要标准的过滤过程：避免目标密度过高、确保边界框足够大以便清晰识别，以及保持较高的真实框标注召回率。对于过滤后的样本，我们提示 MLLM，使其基于图像和边界框框标注生成思考内容和简洁的最终响应。思考内容的生成遵循一个结构化的三步流程：（1）意图分析，模型识别目标类别；（2）批量定位，模型利用视觉基元同时定位所有候选对象（我们发现批量定位对于粗粒度任务更高效，因为它利用了模型固有的定位优势，同时避免了重复枚举）；（3）基于视觉基元的统计求和。为了消除冷启动训练期间的噪声，我们实施了严格的验证机制，以确保思维内容中的所有边界框视觉基元都严格与元数据坐标对齐，遵循预定义的语法，并与最终的数值计数相匹配。

Fine-Grained Counting。由于公开可用的细粒度计数数据集稀缺，我们开发了一套专门的数据构建流程。(1) 问题生成：利用 Gqa [10] 中的图像和场景图元数据，我们引导 MLLM 生成信息丰富的细粒度计数问题。无法生成有意义问题的样本将被丢弃。对于每个有效样本，我们记录真实对象 ID、排除的否定候选对象的 ID 以及构建 QA 对的根本原因。(2) 思维内容合成：以图像、场景图和先前生成的问题（及其关联的 ID 和原因）为输入，我们引导 MLLM 合成一个与视觉基元集成的推理链。虽然整体思维结构与粗粒度计数类似，但模型被明确指示执行顺序扫描——根据指定的细粒度约束系统地识别和验证场景中的每个可能对象。我们还应用这种方法构建了真实计数为零的负样本，从而增强了模型对抗幻觉的鲁棒性。

我们总共有大约 10,000 个用于计数任务的冷启动样本。示例见图 3。

2.4.2 Spatial Reasoning and General Visual QA

在这里插入图片描述

我们将空间推理和一般视觉问答（VQA）整合为一个统一的类别。这种整合有效地缓解了纯语言描述中固有的指称歧义和语义漂移。在构建冷启动数据时，我们优先考虑空间推理任务，因为我们假设在此培养的基于视觉基元的思考能力能够自然地推广到更广泛的视觉问答场景。我们的数据收集涵盖了自然场景和合成场景。

Data Construction in Natural Scenes。利用 Gqa [10] 中的图像和场景图，我们提示 MLLM 设计围绕空间关系和物体交互的问题，以及相应的思维内容。生成的思维内容遵循结构化流程，包括意图分析、物体定位和关系推理。为了解决拥挤场景中潜在的歧义，我们指示模型选择独特的物体，并应用多属性约束（例如，结合动作和属性）来唯一地指定目标。然而，由于 GQA 中相对简单的关系结构，大规模生成复杂的多跳推理样本仍然具有挑战性。为了克服这一限制并充分发挥模型的潜力，我们进一步引入了复杂的合成数据。

Data Construction in Synthetic Scenes。我们利用 CLEVR [13] 工具链生成多跳推理数据。该框架支持可控的场景生成，场景中对象密度可控，同时支持问题生成和程序执行轨迹，并将每个推理步骤映射到对象级引用（例如，特定对象 ID）。为了监督视觉基元的生成，我们基于官方工具链将 3D 对象坐标投影到 2D 边界框上。给定渲染图像、场景图、问题、答案和执行轨迹，我们引导 MLLM 合成“基于视觉基元的思考”链，其中包括意图分析、任务分解和多跳具象推理。图 4 展示了一个示例。

Negative Sample Augmentation。为了提高模型的可靠性，我们构建了负样本训练集，其中 query 的对象或关系并不存在。在这种情况下，模型会根据视觉证据给出“忠实的拒绝”，而不是生成虚假的响应。

我们总共为空间推理和一般 VQA 领域生成了 9,000 个冷启动样本。

2.4.3 Maze Navigation

在这里插入图片描述

尽管 MLLM 已展现出解决高级科学问题的能力，但构建稳健的拓扑推理范式仍然困难重重。纯粹基于语言的 CoT 难以准确描述不规则形状的轨迹。为了弥补这一不足，基于视觉基元的思考（Thinking with Visual Primitives）能够以点作为认知单元，因此非常适合应对此类挑战。我们首先引入一个迷宫导航任务，该任务要求模型判断迷宫的可解性——这一过程需要对空间连通性和可达性有深刻的理解。我们通过合成数据生成构建冷启动数据，具体细节如下所述。

Design Methodology。我们使用深度优先搜索（DFS）、Prim 算法和 Kruskal 算法生成可解且具有挑战性的迷宫。这三种算法生成的迷宫都具有挑战性，任意两个单元格之间只有极少数路径，从而确保解无法轻易猜测。我们设计了三种迷宫拓扑结构：矩形网格、由同心圆环和角扇形组成的圆形迷宫以及六边形（蜂窝状）晶格。为了增强模型的鲁棒性，我们还设计了一系列不可解的迷宫。我们首先生成一个可解的迷宫并获得解路径，然后故意在该路径的中间位置周围放置一些墙壁——避开过于靠近起点或终点的区域。这以一种不太明显的方式破坏了连通性，使迷宫乍一看似乎是可解的，但实际上需要进行完整的搜索才能确认不存在有效路径。我们应用了多种视觉风格，包括渐变和加厚的墙壁、不同的背景图案、多种标记类型以及随机的小角度旋转，以防止模型过度拟合特定的视觉模式。图像分辨率随机化，纵横比连续采样，网格尺寸按比例调整。

Difficulty Control。迷宫导航的难度很大程度上取决于模型需要串联多少视觉推理步骤。我们通过改变网格大小来控制这一点。随着网格增大，模型需要解析更多单元格，追踪更长距离的连接，并处理更多需要回溯的死胡同。所有这些都会增加整体推理的复杂性。具体来说，简单的迷宫只需要模型串联少量局部连接检查，而噩梦级迷宫则需要持续地、长距离地组合数百个这样的基本操作，并且不能丢失先前探索过的区域。我们在每个难度级别都强制执行最小分辨率阈值，以确保即使在最难的配置下，视觉基元仍然清晰可辨。这确保了任务难度源于推理的复杂性，而不是视觉上的歧义。

Thinking Content Synthesis。我们设计了多种自然语言格式和模板，用于描述基于深度优先搜索（DFS）的探索过程，包括前向探索和回溯。每个探索步骤都通过指向坐标与图像关联，将视觉基元操作（例如检查单元格的墙壁连通性、前进到相邻单元格或从死胡同撤退）显式地转换为语言化的推理链。这相当于为模型提供冷启动监督，使其能够运用视觉基元进行思考，而不仅仅是感知它们。最终输出指示迷宫是否可解，如果可解，则提供一条经过验证的解路径。

我们总共生成了 46 万个不同难度的迷宫导航任务冷启动样本。图 5 展示了一个示例。

2.4.4 Path Tracing

在这里插入图片描述

除了迷宫导航任务外，我们还设计了一个路径追踪任务，以增强模型利用视觉基元进行推理的能力，使其能够应对各种不同的场景。该任务要求模型沿着指定的曲线穿过交错重叠的线条，最终找到终点。我们将此任务实现为在程序生成的交错曲线图像中进行线条追踪，其中每条线都连接一个唯一标记的起点和一个终点。

Design Methodology。我们生成的图像由多条贝塞尔曲线组成，每条曲线连接一个带标签的起点和一个带标签的终点。核心挑战在于交点消歧：每当两条线相交时，模型必须调用局部几何连续性图元来判断哪条分支继续连接目标曲线。为了确保该图元得到真正有效的测试，我们严格防止任何终点与无关的线重叠或相交，并丢弃和重新生成违反这些约束的配置。此外，我们还提供了一种统一样式模式，其中每条线都具有相同的颜色和笔画宽度，从而消除了基于颜色的捷径，迫使模型仅依赖于交叉点处的曲率连续性——这直接检验了路径追踪图元是否已被内部化，而不是通过颜色匹配进行近似。难度自然地随着线的数量及其曲率幅度而变化：简单的实例呈现几条弯曲度较小的线，交叉点也较少；而较难的实例则在画布上排列了许多紧密弯曲的曲线，从而增加了必须应用图形-背景图元的交点数量。图像分辨率、宽高比和视觉样式（调色板、线条样式、端点标记、背景）均随机化，以防止出现表面模式匹配。

Thinking Content Synthesis。我们将路径追踪过程明确地表示为沿目标曲线采样的一系列坐标，这反映了模型如何关注并跟踪图像中的路径。该过程首先定位查询的起点，然后沿着曲线经过一系列中间点，最终确定到达的终点。重要的是，这些中间点的密度会根据曲线的局部几何形状进行调整。直线段用较少的点表示，而高度弯曲的区域或密集的交叉点则用更精细的坐标描述，这模拟了人类在视觉复杂的区域放慢速度并更加仔细地观察的方式。

我们总共生成了 125,000 个不同难度级别的路径追踪任务冷启动样本。图 6 显示了一个示例。

2.5 Post-Training Pipeline

为了最大限度地提高模型对框和点视觉基元的学习效率，我们的后训练流程采用了“专家训练—然后—合并”的策略，详情如下。

2.5.1 Specialized SFT

在专家 SFT 阶段，整体训练数据由70%的通用多模态和纯文本数据以及30%的专门化“基于视觉基元的思考”数据组成。我们分别使用2.3.4节构建的两种冷启动数据进行SFT训练：边界框（基于定位的思考）和点（基于指向的思考）。这种分离可以避免在专家数据量相对较小时出现模式冲突。经过此训练阶段，我们得到了两个专家模型，分别记为 $F_{TwG}$ 和 $F_{TwP}$ 。

2.5.2 Specialized RL

随后，我们将强化学习（RL）分别应用于 $F_{TwG}$ 和 $F_{TwP}$ 。遵循 [3]，我们采用组相对策略优化（GRPO）算法并遵循其超参数设置。鉴于我们冷启动数据中思维内容的视觉基元（例如，方框和点）已得到严格验证，因此在强化学习阶段，我们不显式监督模型思维过程中生成的视觉基元。这种设计增强了强化学习训练数据的可扩展性。因此，我们在收集强化学习数据时仅需图像、问题和最终答案，这显著拓宽了可获取数据的范围。

在训练过程中，我们设计了多个奖赏模型（RM），从三个方面对每个任务进行同步监督：格式约束、质量约束和准确率约束。前两个约束在不同任务间是通用的，而最后一个准确率约束则需要针对特定任务类型进行专门设计。

Format RM。该奖赏机制 (RM) 基于规则评估输出，生成 0 到 1 之间的奖赏分数。具体来说，它验证模型生成的视觉基元的表示格式是否正确。对于基于定位的思考，该奖励机制还会检查模型输出中的冗余，例如是否生成了重复的边界框；这有效地缓解了 SFT 模型陷入无限循环生成边界框的问题。

Quality RM。这是一个基于 LLM 的生成式奖赏模型（GRM）。该质量奖赏模型以思维内容和模型生成的最终响应作为输入，并从以下几个方面对其进行评估：

模型响应中是否存在冗余。
模型的思考内容是否与其最终响应一致。
在“使用视觉基元进行思考”的过程中是否存在自相矛盾。
当模型以边界框的形式输出视觉基元时，所指涉的对象是否是有意义的实体。
模型是否表现出“奖赏作弊”行为，例如强行捏造一个与其自身预测相同的虚假真实值，以欺骗奖赏模型。

最终，该模型输出一个介于三个离散等级 [0.0, 0.5, 1.0] 之间的分数，并给出该分数的解释。下面，我们将介绍每个任务的具体准确率将赏模型 (Accuracy RM)。

Accuracy RM for Counting。

Accuracy RM for Spatial Reasoning and General VQA。

Accuracy RM for Maze Navigation。

Accuracy RM for Path Tracing。

RL Data。

2.5.3 Unified RFT

借助上述获得的稳健专家模型 $E_{TwG}$ 和 $E_{TwP}$ ，我们将两种基于视觉基元的推理范式——基于基础的思考和基于指向的思考——整合到一个统一的模型中。我们利用这些专家模型对数据池进行 rollout ，生成 RFT 数据。应用先前引入的难度分类标准，我们保留所有被分类为“正常级别”的样本，并随机抽取 5% 的“简单级别”数据（以防止在过于简单的场景中出现灾难性遗忘）。利用这个更大、更多样化的 RFT 数据集，我们从基础预训练模型初始化，训练一个增强的 SFT 模型。我们的 RFT 训练配置与 SFT 冷启动阶段的配置相同（包括训练超参数和初始检查点），唯一的区别在于更新了训练数据混合。按照此步骤，我们得到了统一模型 $F\textbf F$ 。

2.5.4 On-Policy Distillation

尽管 RFT 模型 ( $F\textbf F$ ) 相较于冷启动模型 $FTwGF_{\text{TwG}}$ 和 $FTwPF_{\text{TwP}}$ 在各自领域中展现出了显著提升，但与专家模型 $ETwGE_{\text{TwG}}$ 和 $ETwPE_{\text{TwP}}$ 相比，仍然存在明显的性能差距。为了弥合这一差距，我们遵循 [3]，并采用 On-Policy Distillation（OPD）将专家模型的能力有效整合到一个统一模型中。该蒸馏过程通过让学生模型基于自身生成的轨迹，学习教师模型的输出分布来实现。形式化地，给定一组 $N$ 个专家模型 $,πEN{\pi_{E_1}, \pi_{E_2}, \cdots, \pi_{E_N}}$ ，OPD 目标函数定义如下：

$\mathcal{L}_{\text{OPD}}(\theta) \sum_{i=1}^{N} w_i \cdot D_{\text{KL}}(\pi_{\theta} \parallel \pi_{E_i}), \tag{2}$

其中， $w_i$ 表示分配给每个专家模型的权重， $DKLD_{\text{KL}}$ 表示反向 Kullback-Leibler（KL）散度损失， $πθ\pi_{\theta}$ 表示学生模型。我们在 OPD 实现中采用 full-vocabulary logit distillation。在实践中，我们使用两个教师模型，包括 $ETwGE_{\text{TwG}}$ 和 $ETwPE_{\text{TwP}}$ 。