POINTS-GUI-G 论文详解

Marlowee

456人浏览 · 2026-04-20 11:07:27

Marlowee · 2026-04-20 11:07:27 发布

POINTS-GUI-G 论文详解：GUI Grounding 全流程解析

论文标题： POINTS-GUI-G: GUI-Grounding Journey 论文链接： https://arxiv.org/abs/2602.06391 作者团队： 腾讯（Zhongyin Zhao, Yuan Liu, Yikun Liu 等） 发布时间： 2026年2月6日

一、论文概述

这篇论文来自腾讯的 WePOINTS 系列，提出了 POINTS-GUI-G-8B —— 一个只有 8B 参数但达到 GUI Grounding 领域 SOTA 的模型。

核心问题： 现有的 GUI Agent 研究大多基于已有强空间感知能力的模型（如 Qwen3-VL）进行微调，这跳过了很多关键的技术洞察。本文选择从 几乎没有 Grounding 能力 的 POINTS-1.5 出发，“从零搭建” GUI Grounding 能力，实现全栈技术掌控。

SOTA 成绩一览：

ScreenSpot-Pro: 59.9（超越 GTA1-7B 近10分）
OSWorld-G: 66.0（超越 MAI-UI-8B 约6分，排名第一）
ScreenSpot-v2: 95.7（开源 8B 模型最佳）
UI-Vision: 49.9（大幅领先竞品10分以上）
MMBench-GUI-L2: 87.0（接近 MAI-UI-8B 的 88.8）

二、核心方法：三大支柱

本文的成功归结为三大支柱：精细数据工程 + 改进训练策略 + 强化学习（RLVR）。

2.1 精细数据工程（Data Engineering）

数据工程分三步走：预处理 → 过滤 → 复杂度提升。

第一步：数据预处理（Standardization）

问题： 现有开源 GUI Grounding 数据集格式极度混乱——坐标有的用归一化 [0,1]，有的用原始像素值；标注格式有列表形式，也有 <box></box> 标签形式；指令集风格各异。

解决方案：

将所有坐标统一归一化到 [0,1] 区间，保留三位小数
将所有任务统一为两类：边界框预测（Bounding Box） 和 中心点定位（Center Point）
输出格式统一为一致的列表/元组

这一步的核心哲学：GUI Grounding 本质是感知任务，应该专注于空间定位，不要被指令跟随等辅助能力干扰。

第二步：数据过滤（Noise Reduction）

问题： 现有数据集要么靠 URL 爬取、要么靠模型标注截图，噪声很大。

解决方案： 使用 OmniParser-v2 提取 UI 元素坐标（可点击的文字、图标等），然后计算 覆盖分数 S：

对于点标注 (x,y)，先扩展成边长为 l 的方形框 B_gt，然后计算该框被 OmniParser 检测到的 UI 元素覆盖的比例。只保留 S ≥ τ（可靠性阈值）的样本，过滤掉"幻觉"或对不齐的标注。

第三步：复杂度提升（Complexity Enhancement）

问题： 随着模型能力提升，简单数据（布局稀疏、可点击区域过大）已经无法驱动性能增长。

解决方案一：布局熵过滤。 论文定义了一个 Layout Entropy（布局熵） 指标来衡量界面的几何复杂度：

$Elayout=NwN⋅(w1DHˉ1D+w2DH2DE_{layout} = N^{w_N} \cdot (w_{1D} \bar{H}_{1D} + w_{2D} H_{2D}$

其中：

1D 投影熵：从多个角度投影元素中心点，分 bin 统计概率后算信息熵，再取平均。衡量元素在多方向上的分布密度。
2D 网格熵：将屏幕切分为 M×M 网格，统计每个格子中元素的分布概率，计算空间熵。衡量元素的全局分散程度。
熵越高，界面越复杂。

基于布局熵，将数据集分为三个难度等级：Easy / Medium / Hard。过滤掉简单数据，优先使用高分辨率样本。

解决方案二：数据合成。

GUI-CodeGen：利用 LLM（如 Claude）生成专业软件（VS Code 等）的前端 HTML，渲染成高分辨率图片（1920×2560），提取可操作元素。这些界面组件密度高、元素小。
GUI-Overlay：将多个应用窗口叠加到不同桌面背景上，制造遮挡和视觉干扰，模拟真实场景。

2.2 改进训练策略（Training Strategies）

策略一：解冻 Vision Encoder

之前 WePOINTS 系列（POINTS-Reader、POINTS-1.5）训练时都冻结 Vision Encoder。但 GUI Grounding 是感知密集型任务，图像特征质量直接决定性能。

通用视觉编码器（如 Qwen2VL-ViT）在预训练时 GUI 数据不足，不够"专业"。

解决方案： 全程解冻 Vision Encoder 参与训练。效果：性能显著提升。

策略二：保持分辨率一致性

之前为了省显存、加速训练，图片分辨率上限设为 2000×2000。但推理时没有此限制，导致在高分辨率 benchmark（如 ScreenSpot-Pro）上严重掉分。

解决方案（二选一或组合）：

推理时也限制分辨率不超过 2000×2000，对齐训练
提高训练分辨率上限到 3072×3072

效果：在 ScreenSpot-Pro 上提升超过 10分。

2.3 强化学习 RLVR（Reinforcement Learning with Verifiable Rewards）

这是本文的一大亮点：将 RL 用于感知任务（而非传统的推理任务），效果依然显著。

为什么 GUI Grounding 天然适合 RL？

输出空间高度受限：输出就是一个点坐标或边界框，不像开放式生成
奖励可精确验证：点是否落在标注框内，Yes or No，没有歧义
不需要推理链：不要求模型先输出 Chain-of-Thought 再给坐标

奖励函数

$KaTeX parse error: Unexpected end of input in a macro argument, expected '}' at end of input: …ise} \end{cases$

预测的坐标落在标注框内就得1分，否则0分。简单粗暴，但精准可靠。

训练算法：GRPO

使用 Group Relative Policy Optimization (GRPO)：

每个任务做 8次 rollout
Group size G=8
只保留 pass rate 在 0%~75% 之间的样本（太简单或太难的都丢掉）
采用课程学习策略，逐步增加训练样本难度

三、模型架构与训练细节

架构

基座模型：POINTS-1.5
LLM backbone：Qwen3-8B（替换了原来的 Qwen2.5-7B-Instruct）
Vision Encoder：Qwen2-VL-NaViT（全程解冻）
经过大规模预训练 + 中间训练后，进入 GUI Grounding 专项优化

训练分两阶段

阶段一：有监督学习（SFT）

联合微调 Vision Encoder + Projector + LLM
Vision Encoder 学习率：1×10⁻⁴
Projector & LLM 学习率：5×10⁻⁵

阶段二：强化学习（RL）

8 rollouts/sample
Global batch size: 64
学习率：1×10⁻⁵

训练数据

统一处理的开源 GUI Grounding 数据集（13+个来源）
DataComp 中提取的文本密集子集（GUI-DataComp，用 PaddleOCR 提取框）
自合成的 GUI-CodeGen 和 GUI-Overlay 数据
通用语料（如 Bee）

四、实验结果详细分析

4.1 各因素贡献分析

论文给出了各技术因素对性能的边际贡献（按5个 benchmark 平均分衡量）：

关键发现：

数据工程（DE）：基础且关键，从"没有 GUI Grounding 能力"到"有基本能力"
解冻 Vision Encoder（UVE）：带来显著跃升
分辨率一致性（IR）：在高分辨率 benchmark 上贡献巨大（ScreenSpot-Pro +10 分）
强化学习（RL）：在 SFT 已经很强的基础上仍能持续提升，打破性能天花板

4.2 RL 训练动态

Reward：持续上升后进入稳定平台期
Entropy Loss：波动下降，说明模型在继续探索的同时，逐步增加生成最优 token 的置信度

4.3 各 Benchmark 表现

ScreenSpot-v2（通用 GUI Grounding）

POINTS-GUI-G-8B: 95.7（Mobile/Desktop/Web 全平台强势）
超越所有 7-8B 模型，甚至超越多个 32B 和 72B 模型

ScreenSpot-Pro（高分辨率专业场景）

POINTS-GUI-G-8B: 59.9
超 GTA1-7B 近 10 分，超 GUI-Owl-7B 约 5 分
甚至超越 OpenCUA-32B（55.3）

OSWorld-G（桌面环境）

POINTS-GUI-G-8B: 66.0（开源第一）
超 MAI-UI-8B 约 6 分，超 GTA1-32B 约 1 分

UI-Vision（多样化复杂指令）

POINTS-GUI-G-8B: 49.9
领先第二名 MAI-UI-8B（40.7）超 9 分

MMBench-GUI-L2（跨平台细粒度评估）

POINTS-GUI-G-8B: 87.0
接近 MAI-UI-8B（88.8），超越所有其他 8B 及以下模型

五、全流程总结图

┌─────────────────────────────────────────────┐
│          POINTS-GUI-G 全流程                 │
├─────────────────────────────────────────────┤
│                                             │
│  1. 基座准备                                 │
│     POINTS-1.5 + Qwen3-8B backbone          │
│     ↓                                        │
│  2. 数据工程                                 │
│     ├─ 格式统一（坐标归一化 + 任务标准化）      │
│     ├─ 噪声过滤（OmniParser-v2 覆盖分数）     │
│     └─ 复杂度提升                             │
│        ├─ 布局熵分级过滤                       │
│        ├─ GUI-CodeGen（LLM 合成专业界面）      │
│        └─ GUI-Overlay（多窗口叠加桌面）        │
│     ↓                                        │
│  3. 有监督学习（SFT）                         │
│     ├─ 全组件联合微调（ViT + Projector + LLM）│
│     ├─ 解冻 Vision Encoder                    │
│     └─ 分辨率一致性处理                       │
│     ↓                                        │
│  4. 强化学习（RLVR）                          │
│     ├─ GRPO 算法                              │
│     ├─ 二元奖励函数（点是否在框内）            │
│     ├─ 课程学习（逐步增加难度）               │
│     └─ 过滤极端样本（pass rate 0%~75%）       │
│     ↓                                        │
│  5. POINTS-GUI-G-8B 🎯                       │
│     5个 benchmark SOTA / 接近 SOTA            │
└─────────────────────────────────────────────┘

六、关键 Takeaways

不要跳过基础。 从弱模型出发虽然难，但能暴露全链路问题，获得更深的技术洞察。
数据工程是基础中的基础。 统一格式、清洗噪声、提升复杂度——三步缺一不可。布局熵是一个优雅的复杂度度量方法。
Vision Encoder 该解冻就解冻。 通用预训练的编码器对 GUI 场景不够"专业"，微调 ViT 对感知密集型任务至关重要。
分辨率对齐被严重低估。 Train-test resolution mismatch 可以导致 10+ 分的性能差距。
RL 不只是推理任务的专利。 对于感知任务，只要奖励可验证，RL 同样有效。GUI Grounding 天然适合 RL：输出受限、奖励精确、不需要 CoT。
8B 模型照样能打。 精细的工程优化可以让小模型超越粗糙的大模型。