POINTS-GUI-G 论文详解
POINTS-GUI-G 论文详解:GUI Grounding 全流程解析
论文标题: POINTS-GUI-G: GUI-Grounding Journey 论文链接: https://arxiv.org/abs/2602.06391 作者团队: 腾讯(Zhongyin Zhao, Yuan Liu, Yikun Liu 等) 发布时间: 2026年2月6日
一、论文概述
这篇论文来自腾讯的 WePOINTS 系列,提出了 POINTS-GUI-G-8B —— 一个只有 8B 参数但达到 GUI Grounding 领域 SOTA 的模型。
核心问题: 现有的 GUI Agent 研究大多基于已有强空间感知能力的模型(如 Qwen3-VL)进行微调,这跳过了很多关键的技术洞察。本文选择从 几乎没有 Grounding 能力 的 POINTS-1.5 出发,“从零搭建” GUI Grounding 能力,实现全栈技术掌控。
SOTA 成绩一览:
- ScreenSpot-Pro: 59.9(超越 GTA1-7B 近10分)
- OSWorld-G: 66.0(超越 MAI-UI-8B 约6分,排名第一)
- ScreenSpot-v2: 95.7(开源 8B 模型最佳)
- UI-Vision: 49.9(大幅领先竞品10分以上)
- MMBench-GUI-L2: 87.0(接近 MAI-UI-8B 的 88.8)
二、核心方法:三大支柱
本文的成功归结为三大支柱:精细数据工程 + 改进训练策略 + 强化学习(RLVR)。
2.1 精细数据工程(Data Engineering)
数据工程分三步走:预处理 → 过滤 → 复杂度提升。
第一步:数据预处理(Standardization)
问题: 现有开源 GUI Grounding 数据集格式极度混乱——坐标有的用归一化 [0,1],有的用原始像素值;标注格式有列表形式,也有 <box></box> 标签形式;指令集风格各异。
解决方案:
- 将所有坐标统一归一化到 [0,1] 区间,保留三位小数
- 将所有任务统一为两类:边界框预测(Bounding Box) 和 中心点定位(Center Point)
- 输出格式统一为一致的列表/元组
这一步的核心哲学:GUI Grounding 本质是感知任务,应该专注于空间定位,不要被指令跟随等辅助能力干扰。
第二步:数据过滤(Noise Reduction)
问题: 现有数据集要么靠 URL 爬取、要么靠模型标注截图,噪声很大。
解决方案: 使用 OmniParser-v2 提取 UI 元素坐标(可点击的文字、图标等),然后计算 覆盖分数 S:
对于点标注 (x,y),先扩展成边长为 l 的方形框 B_gt,然后计算该框被 OmniParser 检测到的 UI 元素覆盖的比例。只保留 S ≥ τ(可靠性阈值)的样本,过滤掉"幻觉"或对不齐的标注。
第三步:复杂度提升(Complexity Enhancement)
问题: 随着模型能力提升,简单数据(布局稀疏、可点击区域过大)已经无法驱动性能增长。
解决方案一:布局熵过滤。 论文定义了一个 Layout Entropy(布局熵) 指标来衡量界面的几何复杂度:
Elayout=NwN⋅(w1DHˉ1D+w2DH2DE_{layout} = N^{w_N} \cdot (w_{1D} \bar{H}_{1D} + w_{2D} H_{2D}Elayout=NwN⋅(w1DHˉ1D+w2DH2D
其中:
- 1D 投影熵:从多个角度投影元素中心点,分 bin 统计概率后算信息熵,再取平均。衡量元素在多方向上的分布密度。
- 2D 网格熵:将屏幕切分为 M×M 网格,统计每个格子中元素的分布概率,计算空间熵。衡量元素的全局分散程度。
- 熵越高,界面越复杂。
基于布局熵,将数据集分为三个难度等级:Easy / Medium / Hard。过滤掉简单数据,优先使用高分辨率样本。
解决方案二:数据合成。
- GUI-CodeGen:利用 LLM(如 Claude)生成专业软件(VS Code 等)的前端 HTML,渲染成高分辨率图片(1920×2560),提取可操作元素。这些界面组件密度高、元素小。
- GUI-Overlay:将多个应用窗口叠加到不同桌面背景上,制造遮挡和视觉干扰,模拟真实场景。
2.2 改进训练策略(Training Strategies)
策略一:解冻 Vision Encoder
之前 WePOINTS 系列(POINTS-Reader、POINTS-1.5)训练时都冻结 Vision Encoder。但 GUI Grounding 是感知密集型任务,图像特征质量直接决定性能。
通用视觉编码器(如 Qwen2VL-ViT)在预训练时 GUI 数据不足,不够"专业"。
解决方案: 全程解冻 Vision Encoder 参与训练。效果:性能显著提升。
策略二:保持分辨率一致性
之前为了省显存、加速训练,图片分辨率上限设为 2000×2000。但推理时没有此限制,导致在高分辨率 benchmark(如 ScreenSpot-Pro)上严重掉分。
解决方案(二选一或组合):
- 推理时也限制分辨率不超过 2000×2000,对齐训练
- 提高训练分辨率上限到 3072×3072
效果:在 ScreenSpot-Pro 上提升超过 10分。
2.3 强化学习 RLVR(Reinforcement Learning with Verifiable Rewards)
这是本文的一大亮点:将 RL 用于感知任务(而非传统的推理任务),效果依然显著。
为什么 GUI Grounding 天然适合 RL?
- 输出空间高度受限:输出就是一个点坐标或边界框,不像开放式生成
- 奖励可精确验证:点是否落在标注框内,Yes or No,没有歧义
- 不需要推理链:不要求模型先输出 Chain-of-Thought 再给坐标
奖励函数
KaTeX parse error: Unexpected end of input in a macro argument, expected '}' at end of input: …ise} \end{cases
预测的坐标落在标注框内就得1分,否则0分。简单粗暴,但精准可靠。
训练算法:GRPO
使用 Group Relative Policy Optimization (GRPO):
- 每个任务做 8次 rollout
- Group size G=8
- 只保留 pass rate 在 0%~75% 之间的样本(太简单或太难的都丢掉)
- 采用课程学习策略,逐步增加训练样本难度
三、模型架构与训练细节
架构
- 基座模型:POINTS-1.5
- LLM backbone:Qwen3-8B(替换了原来的 Qwen2.5-7B-Instruct)
- Vision Encoder:Qwen2-VL-NaViT(全程解冻)
- 经过大规模预训练 + 中间训练后,进入 GUI Grounding 专项优化
训练分两阶段
阶段一:有监督学习(SFT)
- 联合微调 Vision Encoder + Projector + LLM
- Vision Encoder 学习率:1×10⁻⁴
- Projector & LLM 学习率:5×10⁻⁵
阶段二:强化学习(RL)
- 8 rollouts/sample
- Global batch size: 64
- 学习率:1×10⁻⁵
训练数据
- 统一处理的开源 GUI Grounding 数据集(13+个来源)
- DataComp 中提取的文本密集子集(GUI-DataComp,用 PaddleOCR 提取框)
- 自合成的 GUI-CodeGen 和 GUI-Overlay 数据
- 通用语料(如 Bee)
四、实验结果详细分析
4.1 各因素贡献分析
论文给出了各技术因素对性能的边际贡献(按5个 benchmark 平均分衡量):
关键发现:
- 数据工程(DE):基础且关键,从"没有 GUI Grounding 能力"到"有基本能力"
- 解冻 Vision Encoder(UVE):带来显著跃升
- 分辨率一致性(IR):在高分辨率 benchmark 上贡献巨大(ScreenSpot-Pro +10 分)
- 强化学习(RL):在 SFT 已经很强的基础上仍能持续提升,打破性能天花板
4.2 RL 训练动态
- Reward:持续上升后进入稳定平台期
- Entropy Loss:波动下降,说明模型在继续探索的同时,逐步增加生成最优 token 的置信度
4.3 各 Benchmark 表现
ScreenSpot-v2(通用 GUI Grounding)
- POINTS-GUI-G-8B: 95.7(Mobile/Desktop/Web 全平台强势)
- 超越所有 7-8B 模型,甚至超越多个 32B 和 72B 模型
ScreenSpot-Pro(高分辨率专业场景)
- POINTS-GUI-G-8B: 59.9
- 超 GTA1-7B 近 10 分,超 GUI-Owl-7B 约 5 分
- 甚至超越 OpenCUA-32B(55.3)
OSWorld-G(桌面环境)
- POINTS-GUI-G-8B: 66.0(开源第一)
- 超 MAI-UI-8B 约 6 分,超 GTA1-32B 约 1 分
UI-Vision(多样化复杂指令)
- POINTS-GUI-G-8B: 49.9
- 领先第二名 MAI-UI-8B(40.7)超 9 分
MMBench-GUI-L2(跨平台细粒度评估)
- POINTS-GUI-G-8B: 87.0
- 接近 MAI-UI-8B(88.8),超越所有其他 8B 及以下模型
五、全流程总结图
┌─────────────────────────────────────────────┐
│ POINTS-GUI-G 全流程 │
├─────────────────────────────────────────────┤
│ │
│ 1. 基座准备 │
│ POINTS-1.5 + Qwen3-8B backbone │
│ ↓ │
│ 2. 数据工程 │
│ ├─ 格式统一(坐标归一化 + 任务标准化) │
│ ├─ 噪声过滤(OmniParser-v2 覆盖分数) │
│ └─ 复杂度提升 │
│ ├─ 布局熵分级过滤 │
│ ├─ GUI-CodeGen(LLM 合成专业界面) │
│ └─ GUI-Overlay(多窗口叠加桌面) │
│ ↓ │
│ 3. 有监督学习(SFT) │
│ ├─ 全组件联合微调(ViT + Projector + LLM)│
│ ├─ 解冻 Vision Encoder │
│ └─ 分辨率一致性处理 │
│ ↓ │
│ 4. 强化学习(RLVR) │
│ ├─ GRPO 算法 │
│ ├─ 二元奖励函数(点是否在框内) │
│ ├─ 课程学习(逐步增加难度) │
│ └─ 过滤极端样本(pass rate 0%~75%) │
│ ↓ │
│ 5. POINTS-GUI-G-8B 🎯 │
│ 5个 benchmark SOTA / 接近 SOTA │
└─────────────────────────────────────────────┘
六、关键 Takeaways
- 不要跳过基础。 从弱模型出发虽然难,但能暴露全链路问题,获得更深的技术洞察。
- 数据工程是基础中的基础。 统一格式、清洗噪声、提升复杂度——三步缺一不可。布局熵是一个优雅的复杂度度量方法。
- Vision Encoder 该解冻就解冻。 通用预训练的编码器对 GUI 场景不够"专业",微调 ViT 对感知密集型任务至关重要。
- 分辨率对齐被严重低估。 Train-test resolution mismatch 可以导致 10+ 分的性能差距。
- RL 不只是推理任务的专利。 对于感知任务,只要奖励可验证,RL 同样有效。GUI Grounding 天然适合 RL:输出受限、奖励精确、不需要 CoT。
- 8B 模型照样能打。 精细的工程优化可以让小模型超越粗糙的大模型。
论文资源:
- 代码:https://github.com/Tencent/POINTS-GUI
- 模型:https://huggingface.co/tencent/POINTS-GUI-G
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)