POINTS-GUI-G 论文详解:GUI Grounding 全流程解析

论文标题: POINTS-GUI-G: GUI-Grounding Journey 论文链接: https://arxiv.org/abs/2602.06391 作者团队: 腾讯(Zhongyin Zhao, Yuan Liu, Yikun Liu 等) 发布时间: 2026年2月6日

一、论文概述

这篇论文来自腾讯的 WePOINTS 系列,提出了 POINTS-GUI-G-8B —— 一个只有 8B 参数但达到 GUI Grounding 领域 SOTA 的模型。

核心问题: 现有的 GUI Agent 研究大多基于已有强空间感知能力的模型(如 Qwen3-VL)进行微调,这跳过了很多关键的技术洞察。本文选择从 几乎没有 Grounding 能力 的 POINTS-1.5 出发,“从零搭建” GUI Grounding 能力,实现全栈技术掌控。

SOTA 成绩一览:

  • ScreenSpot-Pro: 59.9(超越 GTA1-7B 近10分)
  • OSWorld-G: 66.0(超越 MAI-UI-8B 约6分,排名第一)
  • ScreenSpot-v2: 95.7(开源 8B 模型最佳)
  • UI-Vision: 49.9(大幅领先竞品10分以上)
  • MMBench-GUI-L2: 87.0(接近 MAI-UI-8B 的 88.8)

二、核心方法:三大支柱

本文的成功归结为三大支柱:精细数据工程 + 改进训练策略 + 强化学习(RLVR

2.1 精细数据工程(Data Engineering)

数据工程分三步走:预处理 → 过滤 → 复杂度提升

第一步:数据预处理(Standardization)

问题: 现有开源 GUI Grounding 数据集格式极度混乱——坐标有的用归一化 [0,1],有的用原始像素值;标注格式有列表形式,也有 <box></box> 标签形式;指令集风格各异。

解决方案:

  • 将所有坐标统一归一化到 [0,1] 区间,保留三位小数
  • 将所有任务统一为两类:边界框预测(Bounding Box)中心点定位(Center Point)
  • 输出格式统一为一致的列表/元组

这一步的核心哲学:GUI Grounding 本质是感知任务,应该专注于空间定位,不要被指令跟随等辅助能力干扰。

第二步:数据过滤(Noise Reduction)

问题: 现有数据集要么靠 URL 爬取、要么靠模型标注截图,噪声很大。

解决方案: 使用 OmniParser-v2 提取 UI 元素坐标(可点击的文字、图标等),然后计算 覆盖分数 S

对于点标注 (x,y),先扩展成边长为 l 的方形框 B_gt,然后计算该框被 OmniParser 检测到的 UI 元素覆盖的比例。只保留 S ≥ τ(可靠性阈值)的样本,过滤掉"幻觉"或对不齐的标注。

第三步:复杂度提升(Complexity Enhancement)

问题: 随着模型能力提升,简单数据(布局稀疏、可点击区域过大)已经无法驱动性能增长。

解决方案一:布局熵过滤。 论文定义了一个 Layout Entropy(布局熵) 指标来衡量界面的几何复杂度:

Elayout=NwN⋅(w1DHˉ1D+w2DH2DE_{layout} = N^{w_N} \cdot (w_{1D} \bar{H}_{1D} + w_{2D} H_{2D}Elayout=NwN(w1DHˉ1D+w2DH2D

其中:

  • 1D 投影熵:从多个角度投影元素中心点,分 bin 统计概率后算信息熵,再取平均。衡量元素在多方向上的分布密度。
  • 2D 网格熵:将屏幕切分为 M×M 网格,统计每个格子中元素的分布概率,计算空间熵。衡量元素的全局分散程度。
  • 熵越高,界面越复杂。

基于布局熵,将数据集分为三个难度等级:Easy / Medium / Hard。过滤掉简单数据,优先使用高分辨率样本。

解决方案二:数据合成。

  • GUI-CodeGen:利用 LLM(如 Claude)生成专业软件(VS Code 等)的前端 HTML,渲染成高分辨率图片(1920×2560),提取可操作元素。这些界面组件密度高、元素小。
  • GUI-Overlay:将多个应用窗口叠加到不同桌面背景上,制造遮挡和视觉干扰,模拟真实场景。

2.2 改进训练策略(Training Strategies)

策略一:解冻 Vision Encoder

之前 WePOINTS 系列(POINTS-Reader、POINTS-1.5)训练时都冻结 Vision Encoder。但 GUI Grounding 是感知密集型任务,图像特征质量直接决定性能。

通用视觉编码器(如 Qwen2VL-ViT)在预训练时 GUI 数据不足,不够"专业"。

解决方案: 全程解冻 Vision Encoder 参与训练。效果:性能显著提升。

策略二:保持分辨率一致性

之前为了省显存、加速训练,图片分辨率上限设为 2000×2000。但推理时没有此限制,导致在高分辨率 benchmark(如 ScreenSpot-Pro)上严重掉分。

解决方案(二选一或组合):

  1. 推理时也限制分辨率不超过 2000×2000,对齐训练
  2. 提高训练分辨率上限到 3072×3072

效果:在 ScreenSpot-Pro 上提升超过 10分

2.3 强化学习 RLVR(Reinforcement Learning with Verifiable Rewards)

这是本文的一大亮点:将 RL 用于感知任务(而非传统的推理任务),效果依然显著。

为什么 GUI Grounding 天然适合 RL?
  1. 输出空间高度受限:输出就是一个点坐标或边界框,不像开放式生成
  2. 奖励可精确验证:点是否落在标注框内,Yes or No,没有歧义
  3. 不需要推理链:不要求模型先输出 Chain-of-Thought 再给坐标
奖励函数

KaTeX parse error: Unexpected end of input in a macro argument, expected '}' at end of input: …ise} \end{cases

预测的坐标落在标注框内就得1分,否则0分。简单粗暴,但精准可靠。

训练算法:GRPO

使用 Group Relative Policy Optimization (GRPO)

  • 每个任务做 8次 rollout
  • Group size G=8
  • 只保留 pass rate 在 0%~75% 之间的样本(太简单或太难的都丢掉)
  • 采用课程学习策略,逐步增加训练样本难度

三、模型架构与训练细节

架构

  • 基座模型:POINTS-1.5
  • LLM backbone:Qwen3-8B(替换了原来的 Qwen2.5-7B-Instruct)
  • Vision Encoder:Qwen2-VL-NaViT(全程解冻)
  • 经过大规模预训练 + 中间训练后,进入 GUI Grounding 专项优化

训练分两阶段

阶段一:有监督学习(SFT

  • 联合微调 Vision Encoder + Projector + LLM
  • Vision Encoder 学习率:1×10⁻⁴
  • Projector & LLM 学习率:5×10⁻⁵

阶段二:强化学习(RL)

  • 8 rollouts/sample
  • Global batch size: 64
  • 学习率:1×10⁻⁵

训练数据

  • 统一处理的开源 GUI Grounding 数据集(13+个来源)
  • DataComp 中提取的文本密集子集(GUI-DataComp,用 PaddleOCR 提取框)
  • 自合成的 GUI-CodeGen 和 GUI-Overlay 数据
  • 通用语料(如 Bee)

四、实验结果详细分析

4.1 各因素贡献分析

论文给出了各技术因素对性能的边际贡献(按5个 benchmark 平均分衡量):

关键发现:

  • 数据工程(DE):基础且关键,从"没有 GUI Grounding 能力"到"有基本能力"
  • 解冻 Vision Encoder(UVE):带来显著跃升
  • 分辨率一致性(IR):在高分辨率 benchmark 上贡献巨大(ScreenSpot-Pro +10 分)
  • 强化学习(RL):在 SFT 已经很强的基础上仍能持续提升,打破性能天花板

4.2 RL 训练动态

  • Reward:持续上升后进入稳定平台期
  • Entropy Loss:波动下降,说明模型在继续探索的同时,逐步增加生成最优 token 的置信度

4.3 各 Benchmark 表现

ScreenSpot-v2(通用 GUI Grounding)

  • POINTS-GUI-G-8B: 95.7(Mobile/Desktop/Web 全平台强势)
  • 超越所有 7-8B 模型,甚至超越多个 32B 和 72B 模型

ScreenSpot-Pro(高分辨率专业场景)

  • POINTS-GUI-G-8B: 59.9
  • 超 GTA1-7B 近 10 分,超 GUI-Owl-7B 约 5 分
  • 甚至超越 OpenCUA-32B(55.3)

OSWorld-G(桌面环境)

  • POINTS-GUI-G-8B: 66.0(开源第一)
  • 超 MAI-UI-8B 约 6 分,超 GTA1-32B 约 1 分

UI-Vision(多样化复杂指令)

  • POINTS-GUI-G-8B: 49.9
  • 领先第二名 MAI-UI-8B(40.7)超 9 分

MMBench-GUI-L2(跨平台细粒度评估)

  • POINTS-GUI-G-8B: 87.0
  • 接近 MAI-UI-8B(88.8),超越所有其他 8B 及以下模型

五、全流程总结图

┌─────────────────────────────────────────────┐
│          POINTS-GUI-G 全流程                 │
├─────────────────────────────────────────────┤
│                                             │
│  1. 基座准备                                 │
│     POINTS-1.5 + Qwen3-8B backbone          │
│     ↓                                        │
│  2. 数据工程                                 │
│     ├─ 格式统一(坐标归一化 + 任务标准化)      │
│     ├─ 噪声过滤(OmniParser-v2 覆盖分数)     │
│     └─ 复杂度提升                             │
│        ├─ 布局熵分级过滤                       │
│        ├─ GUI-CodeGen(LLM 合成专业界面)      │
│        └─ GUI-Overlay(多窗口叠加桌面)        │
│     ↓                                        │
│  3. 有监督学习(SFT)                         │
│     ├─ 全组件联合微调(ViT + Projector + LLM)│
│     ├─ 解冻 Vision Encoder                    │
│     └─ 分辨率一致性处理                       │
│     ↓                                        │
│  4. 强化学习(RLVR)                          │
│     ├─ GRPO 算法                              │
│     ├─ 二元奖励函数(点是否在框内)            │
│     ├─ 课程学习(逐步增加难度)               │
│     └─ 过滤极端样本(pass rate 0%~75%)       │
│     ↓                                        │
│  5. POINTS-GUI-G-8B 🎯                       │
│     5个 benchmark SOTA / 接近 SOTA            │
└─────────────────────────────────────────────┘

六、关键 Takeaways

  1. 不要跳过基础。 从弱模型出发虽然难,但能暴露全链路问题,获得更深的技术洞察。
  2. 数据工程是基础中的基础。 统一格式、清洗噪声、提升复杂度——三步缺一不可。布局熵是一个优雅的复杂度度量方法。
  3. Vision Encoder 该解冻就解冻。 通用预训练的编码器对 GUI 场景不够"专业",微调 ViT 对感知密集型任务至关重要。
  4. 分辨率对齐被严重低估。 Train-test resolution mismatch 可以导致 10+ 分的性能差距。
  5. RL 不只是推理任务的专利。 对于感知任务,只要奖励可验证,RL 同样有效。GUI Grounding 天然适合 RL:输出受限、奖励精确、不需要 CoT。
  6. 8B 模型照样能打。 精细的工程优化可以让小模型超越粗糙的大模型。

论文资源:

  • 代码:https://github.com/Tencent/POINTS-GUI
  • 模型:https://huggingface.co/tencent/POINTS-GUI-G
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐