2026年5月15日 论文研读 方向
文章目录
- 一、Agent RL / Agentic 基础模型方向
- 二、多模态 / GUI Agent 方向
- 三、GUI Agent 专门方向:你最该重点读
- 四、GUI Agent / Agent RL 必须知道的 benchmark
- 五、我建议你的阅读优先级
- 六、哪些老论文只需要浅了解
- 七、你可以做的 GUI Agent 项目
- 八、最终推荐清单:你现在直接照这个读
- 九、我的判断
你这个判断更接近现实: 只读 2020–2023 的经典论文会打基础,但会滞后于 2025–2026 的技术栈。 我前面推荐 Switch/GLaM/LLaMA/InstructGPT,是为了补“源头”,但你现在的问题是“找实习、追主流方向、看国产强模型技术报告”,那应该把阅读重心切到 2024–2026 的新技术报告 + 少量经典论文补底层概念。
1. 你说得对:MiniMax / Qwen / GLM 这些现在更值得跟
如果目标是“贴近当前国内岗位”,我会把优先级调整成这样:
第一优先级:DeepSeek-V2 / V3 + Qwen3 / GLM-4.5 / MiniMax-M1
DeepSeek-V2
看 MLA + DeepSeekMoE,这是 DeepSeek 从 dense 走向高效 MoE 的关键转折。
DeepSeek-V3
看大规模 MoE 训练工程、auxiliary-loss-free load balancing、multi-token prediction、FP8 训练等。
GLM-4.5
这篇很适合你读,因为它不是单纯聊天模型,而是面向 Agentic / Reasoning / Coding 的基础模型。报告里 GLM-4.5 是 355B 总参数、32B 激活参数的 MoE,并强调 agent、reasoning、coding 三条线;它还报告了 23T tokens 多阶段训练、专家模型迭代和强化学习后训练,在 TAU-Bench、AIME 24、SWE-bench Verified 上都有结果。(arXiv)
MiniMax-M1
它值得读是因为它把重点放在 test-time compute scaling 和 lightning attention + MoE。MiniMax-M1 被描述为开源权重的大规模 hybrid-attention reasoning model,基于 MoE + lightning attention。这个方向和 DeepSeek-R1 的“推理时算力扩展”是同一个大趋势,但架构侧重点不同。(arXiv)
Qwen3 / Qwen3-VL
如果你想贴近阿里系、开源生态和多模态岗位,Qwen 系列必须读。Qwen3-VL 报告说它支持 256K token 的文本-图像-视频交错上下文,有 dense 和 MoE 两类规模,并强调长上下文、多图、视频和视觉数学推理。(arXiv)
所以你现在不应该只读老论文。更好的比例是:
80% 读 2024–2026 技术报告
20% 回头补经典论文
经典论文只在你遇到概念看不懂时补,比如 MoE 路由、DPO、RLHF、ViT、CLIP、Flamingo、BLIP-2 这些。
2. 要不要试试多模态?我认为要,而且你这个判断很有职业价值
我同意你说的:多模态是大方向,而且对实习来说可能是“四两拨千斤”的方向。
原因有三个。
第一,多模态岗位要求交叉能力。很多人只会 LLM 文本训练,或者只会 CV;真正能把 视觉编码器、LLM、数据构造、OCR/文档理解、视频理解、评测、推理部署 串起来的人少一些。
第二,多模态更接近产品落地。文档理解、截图理解、表格解析、UI agent、视频理解、医疗影像、工业质检、自动驾驶感知-语言接口,这些都比“再训练一个文本 chat model”更容易对应具体业务。
第三,多模态目前还没完全收敛。文本 LLM 的训练范式已经高度同质化:MoE、长上下文、RL、agent、coding。多模态还在快速演化:动态分辨率、视觉 token 压缩、OCR grounding、视频时间建模、GUI grounding、视觉工具使用、spatial reasoning 都还有很多工程空间。
不过要提醒一句:多模态不是竞争小,而是门槛更杂。 它不是只读几篇论文就能上手,最好做一个可展示项目。
3. 如果你转多模态,我建议从 Qwen-VL 线开始,而不是先读很老的 Flamingo/BLIP
如果目标是找实习,我建议你先读新报告:
多模态第一篇:Qwen2.5-VL
Qwen2.5-VL 报告强调视觉识别、目标定位、文档解析、图表/流程图理解、长视频理解;它还引入动态分辨率处理和绝对时间编码,用于处理不同尺寸图像和长视频。(arXiv)
这篇很适合找实习,因为里面的能力对应岗位关键词:
OCR / Document Understanding
Chart Understanding
Grounding
Video Understanding
GUI Agent
Visual Reasoning
多模态第二篇:Qwen3-VL
Qwen3-VL 是更近的版本,报告说它原生支持最高 256K token 的交错文本、图像、视频上下文,包含 dense 和 MoE 版本,并引入 enhanced interleaved-MRoPE、DeepStack、多级 ViT 特征融合、文本化时间对齐等。(arXiv)
读 Qwen3-VL 的价值是你能看到:多模态已经不只是“图像问答”,而是在走向:
长文档 + 多图 + 视频 + agentic decision-making + multimodal code intelligence
这和未来岗位更相关。
4. 你现在最适合的阅读路线
我会给你两条路线,你按目标选。
路线 A:继续 DeepSeek / 文本大模型主线
适合你想做 LLM 训练、后训练、推理、agent/coding。
DeepSeek-V2
→ DeepSeek-V3
→ DeepSeek-R1
→ GLM-4.5
→ MiniMax-M1
→ Qwen3 技术报告
读这条线,你会抓住当前文本 LLM 的核心关键词:
MoE
MLA / attention efficiency
long context
reasoning RL
test-time compute
agentic coding
SWE-bench
AIME
post-training
路线 B:多模态实习主线
适合你想找多模态、视觉语言模型、文档理解、视频理解、GUI agent 方向。
Qwen2.5-VL
→ Qwen3-VL
→ InternVL 最新技术报告
→ GLM-4.5V / GLM-V 系列
→ Gemini / GPT-4o / Claude 多模态相关系统文章
这条线的关键词是:
dynamic resolution
visual token compression
OCR
grounding
document parsing
chart/table understanding
video temporal grounding
GUI agent
multimodal long context
如果你只能选一条,我建议你选 路线 B 多模态,同时保留 DeepSeek-V2/V3 作为架构底座。
5. “多模态竞争会小一些吗?”
相对文本 LLM,入门人数可能少一些,但优秀候选人也不多。原因是多模态岗位通常希望你同时懂:
LLM 基础
Transformer / ViT
图像预处理
OCR / layout
视觉 grounding
数据构造
benchmark
推理部署
这反而是机会。因为很多人只会调 API 或只会读文本 LLM paper;你如果能做一个小项目,把“论文理解 + 工程实现 + 评测”串起来,会比只会背 scaling law 更有竞争力。
我建议你做一个项目,不要只读论文。
项目可以很小,但要完整:
用 Qwen2.5-VL / InternVL 做文档理解评测
输入:PDF 页面、截图、表格、图表
任务:OCR、表格抽取、图表问答、定位框输出
输出:自动评测脚本 + failure case 分析
这个项目比“我读过很多论文”更适合实习面试。
6. 我建议你下一篇具体读什么
基于你现在的状态,我推荐:
下一篇读 Qwen2.5-VL Technical Report。
理由:
它比 Qwen3-VL更适合入门多模态,因为 Qwen3-VL 是在已有路线上的进一步增强;Qwen2.5-VL 会更清楚地展示多模态能力从哪里来:动态分辨率、文档/图表理解、定位、视频时间建模。读完 Qwen2.5-VL,再读 Qwen3-VL,你会看到技术演进。
同时补一篇文本模型:
DeepSeek-V2。
这样你不会丢掉 MoE/MLA 主线。
所以你的下一步可以是:
Qwen2.5-VL
+ DeepSeek-V2
一个多模态,一个 MoE 架构。读完这两篇,你再决定是继续多模态还是继续 LLM 训练。
7. 最后给你一句判断
你不需要再按“经典论文史”读太久了。你现在应该进入“岗位导向阅读”:
想做大模型训练:DeepSeek-V2/V3 + GLM-4.5 + MiniMax-M1
想做多模态实习:Qwen2.5-VL + Qwen3-VL + InternVL
想做 agent/coding:GLM-4.5 + DeepSeek-R1 + SWE-bench 相关报告
而我会押你试试 多模态文档理解 / GUI agent / 视频理解 这一侧。它确实更可能成为“四两拨千斤”的切入口。
你现在关心的两个方向其实正在汇合:
Agent RL 解决“模型如何在环境里多轮行动、用工具、拿反馈、用 RL 变强”。
GUI Agent / 多模态 解决“模型如何看屏幕、定位控件、规划动作、执行鼠标键盘/手机操作”。
所以你的主线可以定成:
面向真实环境交互的多模态 Agent:VLM 感知 + GUI grounding + planning/action + environment RL。
这不是小方向,反而是 2025–2026 很核心的一条线。下面我按“值得精读 / 值得跟进 / 浅了解”给你整理一套阅读地图。
一、Agent RL / Agentic 基础模型方向
A. 第一梯队:必须精读
1. DeepSeek-R1
你已经接触 DeepSeek 系列,这篇必须放在 Agent RL 主线里。它的核心价值不是 GUI,而是说明:LLM 的推理能力可以通过 RL 激发出来,甚至不依赖大量人工标注推理轨迹。 R1 报告明确强调用纯 RL 激励 reasoning capability,并且 R1-Zero 展示了“aha moment”、自我反思、长 CoT 等行为。(arXiv)
你读它时重点看:
- RL 奖励怎么设计;
- 为什么 rule-based/verifiable reward 重要;
- cold start 数据和纯 RL 的区别;
- R1-Zero 的问题:可读性差、多语言混杂;
- R1 如何用 SFT + RL + rejection sampling 补齐可用性。
这篇回答的问题是:模型怎么从“会答题”走向“会想”。
2. Kimi K2: Open Agentic Intelligence
这是国内 Agentic 基础模型里非常值得读的一篇。Kimi K2 是一个面向 agentic intelligence 的开源 MoE 大模型,公开资料显示它有 32B active parameters,并在 agentic、coding、数学、推理任务上取得强表现;报告还强调 MuonClip 优化器、长预训练和 agentic 数据构造。(arXiv)
你读它时重点看:
- 它如何定义 “agentic intelligence”;
- 预训练阶段如何增强工具使用/代码/推理先验;
- 后训练如何构造 agentic data;
- 为什么 optimizer、稳定训练和 token efficiency 被放到核心位置;
- 它和 DeepSeek-R1 的区别:Kimi K2 更偏“agentic foundation model”,R1 更偏“reasoning RL”。
这篇适合你建立“Agentic 基础模型”视角。
3. GLM-4.5: Agentic, Reasoning, and Coding Foundation Models
GLM-4.5 直接把目标定义成 ARC:Agentic、Reasoning、Coding。它是开源 MoE 模型,公开摘要里写到 GLM-4.5 是 355B 总参数、32B 激活参数,并且支持 thinking 和 direct response 两种模式。(arXiv)
你读它时重点看:
- 它如何把 agent、reasoning、coding 统一到同一个模型目标;
- thinking mode / non-thinking mode 如何服务不同任务;
- 它如何评估 agentic 能力;
- 和 Qwen3、Kimi K2、DeepSeek-R1 的差别。
这篇很适合你看“国产大模型厂商如何把 agentic 能力作为基础模型卖点”。
4. Qwen3 / Qwen3-Coder / Qwen3-Coder-Next
Qwen3 是 Qwen 系列的新一代基础模型,包含 dense 和 MoE 架构,参数规模从 0.6B 到 235B。它支持 thinking / non-thinking 模式,是当前国产开源主线之一。(arXiv)
如果你关心 agent RL,尤其要看 Qwen3-Coder 和 Qwen3-Coder-Next。Qwen3-Coder 被官方称为其“most agentic code model”,覆盖 agentic coding、browser-use、tool-use,并开源 Qwen Code 工具;Qwen3-Coder-Next 则是 80B 参数、推理时只激活 3B 参数,强调通过可验证 coding tasks、可执行环境反馈、mid-training 和 RL 来训练 coding agents。(GitHub)
你读它时重点看:
- agentic coding 数据怎么合成;
- executable environment feedback 怎么进训练;
- SWE-Bench / Terminal-Bench 这类 benchmark 怎么评;
- 小激活参数 MoE 如何服务 agent 推理成本;
- coding agent 和 GUI agent 的共同点:都需要环境反馈和多步决策。
5. MiniMax-M1
MiniMax-M1 值得读,因为它把重点放在 test-time compute scaling 和 hybrid attention / MoE reasoning model。公开摘要显示,MiniMax-M1 是开源权重的大规模 hybrid-attention reasoning model,基于 MoE + lightning attention。(Hugging Face)
你读它时重点看:
- 它如何处理长上下文;
- test-time compute scaling 怎么做;
- 它和 DeepSeek-R1 的共同点:推理时多算;
- 它和 Kimi K2 / GLM-4.5 的不同:更强调推理效率与长上下文结构。
B. Agent RL 方法论文:精读 3–5 篇就够
6. WebAgent-R1
这篇和你的方向非常贴。它提出 end-to-end multi-turn RL 训练 Web agents,模型直接和在线 web environment 交互,通过任务成功与否的 binary reward 进行训练。(Hugging Face)
重点看:
- multi-turn RL 怎么定义 trajectory;
- binary success reward 是否足够;
- 异步采样、多轨迹生成怎么提高效率;
- web 环境里的 credit assignment 难点;
- 它和 GUI Agent 的关系:GUI 也是多轮环境交互,只是 observation 变成 screenshot。
7. WebRL
WebRL 是 ICLR 2025 的 web agent RL 工作,提出 self-evolving online curriculum RL,用 open LLM 训练 web agents。它的价值在于不是只跑闭源 API,而是试图让开源模型通过在线课程学习提高决策能力。(ICLR 会议记录)
重点看:
- online curriculum 怎么构造;
- 为什么 web agent 需要课程学习;
- open LLM 和 proprietary LLM agent 差距在哪里;
- 训练环境如何影响 agent 能力。
8. SWE-RL
SWE-RL 把 RL 用到真实软件工程推理上。它明确说 DeepSeek-R1 等更多集中在数学/竞赛编程,而 SWE-RL 关注 real-world software engineering,用开源软件演化数据和 rule-based rewards 训练。(arXiv)
重点看:
- real-world SWE reward 怎么定义;
- test case / patch correctness 如何作为 reward;
- 为什么软件工程比算法题更接近 agent;
- 这对 GUI Agent 的启发:只要能把任务成败程序化,就能做 RL。
9. Agent-R1
Agent-R1 更像一个框架论文,它系统梳理如何把 LLM Agent 放进 MDP 框架,并提供 RL-based LLM Agents 的模块化训练框架。(arXiv)
你不一定要精读实现,但要读它的抽象:
- state 是什么;
- action 是什么;
- observation 是什么;
- reward 怎么定义;
- environment 怎么接入;
- multi-agent / tool-use / web-use 如何统一建模。
这对你之后做 GUI Agent 项目非常有帮助。
10. WebSailor
WebSailor 是阿里方向的 web information-seeking agent 后训练方法,强调复杂信息搜索任务里的“降低极端不确定性”的推理模式,并使用 RFT cold start 和 agentic RL 等方法。(Hugging Face)
重点看:
- Deep Research 类任务为什么需要 agentic reasoning;
- 高不确定性任务如何合成;
- 信息遮蔽 / structured sampling 的数据构造;
- 它和普通 web browsing benchmark 的区别。
这篇适合你理解“Agent 不只是点按钮,还要主动搜索、验证、分支探索”。
二、多模态 / GUI Agent 方向
你问得对:不应该只看 Qwen-VL。 现在 GUI Agent 和多模态开源技术报告已经很多,Qwen 只是其中一条强线。
A. 通用多模态基础模型:值得读的技术报告
1. Qwen2.5-VL
这篇仍然是多模态项目的高性价比入口。它强调视觉识别、对象定位、文档解析、长视频理解,还能用 bounding box 或 point 做定位,并且能从发票、表格、图表、布局中抽取结构化数据。(arXiv)
适合你学:
- dynamic resolution;
- OCR / document parsing;
- grounding;
- chart/table understanding;
- long video understanding;
- GUI agent 的基础视觉能力。
2. Qwen3-VL
Qwen3-VL 更前沿,报告显示它支持长达 256K token 的文本-图像-视频交错上下文,有 dense 和 MoE 两类版本,并强调多图、视频、视觉数学推理、长上下文和 agentic decision-making。(arXiv)
适合你读完 Qwen2.5-VL 后继续看:
- 多模态长上下文;
- interleaved image-text-video;
- 多图推理;
- 视频时间对齐;
- 多模态 agent 能力。
3. InternVL3
InternVL3 很值得补,因为它的思路和“给 text-only LLM 接一个视觉塔”不同。摘要里说,它在单一预训练阶段同时从多模态数据和纯文本语料中获得多模态与语言能力,从而缓解传统 post-hoc MLLM pipeline 的对齐复杂性。(arXiv)
适合你理解:
- native multimodal pretraining;
- 语言能力和视觉能力如何共同训练;
- 为什么多模态不是简单 projector;
- open-source MLLM 的系统训练 recipe。
4. GLM-4.1V-Thinking / GLM-4.5V
这条线非常贴你的“Agent RL + 多模态”交叉兴趣。报告题目就是面向 versatile multimodal reasoning with scalable RL。摘要里说它通过大规模预训练获得 vision foundation model,再用 Reinforcement Learning with Curriculum Sampling 解锁能力,覆盖 STEM、视频理解、内容识别、coding、grounding、GUI-based agents 和长文档理解。(arXiv)
这篇你应该重点读,因为它是:
多模态 reasoning + RL + GUI agent 的交叉技术报告。
重点看:
- 多模态 RL 怎么做;
- curriculum sampling 如何设计;
- GUI agent benchmark 怎么体现;
- thinking VLM 和普通 VLM 差异;
- grounding / coding / document / video 如何放进同一个训练框架。
5. Kimi-VL / Kimi-VL-Thinking
Kimi-VL 是高效 MoE VLM,摘要里说它只激活 2.8B language decoder 参数,同时具备多模态推理、长上下文理解和 agent 能力;在 OSWorld 等多轮 agent 任务上表现强,还支持 128K 上下文和原生分辨率视觉编码器 MoonViT。Kimi-VL-Thinking 进一步通过 long CoT SFT 和 RL 提升多模态推理。(arXiv)
适合你看:
- 高效小激活 MoE VLM;
- long-context VLM;
- MoonViT / native-resolution;
- 多模态 thinking;
- VLM + RL 如何提升复杂视觉推理。
6. MiniCPM-V 4.5
MiniCPM-V 4.5 是效率路线。它是 8B 参数 MLLM,报告强调 architecture、data、training recipe 三方面;提出 unified 3D-Resampler,用于图像和视频的紧凑编码,并用 hybrid RL 支持短/长 reasoning 模式。摘要还说它在 VideoMME 上以显著更低 GPU memory 和 inference time 达到强性能。(arXiv)
如果你想做个人项目,它很有价值,因为:
- 小模型更容易部署;
- 适合本地 demo;
- 图像/视频都覆盖;
- 对移动端和轻量化多模态很有参考价值。
7. Gemini 2.5 / GPT-4o / Claude Computer Use / OpenAI CUA
这些不是都能给你完整训练 recipe,但它们能帮你建立闭源前沿基准认知。
Gemini 2.5 报告强调 advanced reasoning、multimodality、long context 和 next-generation agentic capabilities;它还提到 Gemini 2.5 Pro 能处理长视频,并将长上下文、多模态、推理结合到 agentic workflows。(谷歌云存储)
GPT-4o System Card 重点不是训练方法,而是能力、限制和安全评估,尤其是 speech-to-speech,同时也评估 text/image 能力。(OpenAI)
Anthropic Computer Use 和 OpenAI CUA 对 GUI Agent 很重要。Anthropic 文档/研究文章说明 Claude 可通过截图、鼠标、键盘控制计算机环境;OpenAI CUA 则强调用统一 action space 在不同环境中导航和操作,并通过 Operator 形式预览。(Anthropic)
这些你可以“浅精读”:看能力边界、产品形态、安全约束、交互方式,不要期待完整训练 recipe。
三、GUI Agent 专门方向:你最该重点读
这是你想做项目的核心部分。
A. 第一梯队:强烈建议精读
1. UI-TARS / UI-TARS-2
UI-TARS 是 ByteDance 的 native GUI agent,输入屏幕截图,输出键鼠等动作。UI-TARS-1.5 还引入 RL-enabled reasoning,让模型先 think 再 action;UI-TARS-2 进一步聚焦 multi-turn reinforcement learning、数据可扩展性、GUI-only 操作限制和环境稳定性。(arXiv)
你读它时重点看:
- 端到端 GUI Agent 怎么定义 action space;
- screenshot-only 的好处和坏处;
- grounding、planning、action 怎么统一;
- multi-turn RL 怎么做;
- 为什么环境稳定性是 GUI RL 的核心问题。
如果你要做 GUI Agent 项目,这是必读。
2. OpenCUA: Open Foundations for Computer-Use Agents
这篇非常值得读,尤其适合你做项目。它提出开源 CUA 框架,包含人类 computer-use demonstration 捕获工具、AgentNet 大规模数据集,以及把 demonstrations 转成 state-action pairs 和 reflective long CoT 的 pipeline。OpenCUA-32B 在 OSWorld-Verified 上达到 34.8%,OpenCUA-72B 在 NeurIPS 页面中报告 45.0%,都强调开源 CUA foundation。(arXiv)
你读它时重点看:
- 数据采集工具怎么设计;
- human demonstration 如何转 state-action;
- 为什么 reflective long CoT 对 GUI 有用;
- test-time computation 如何提升 CUA;
- 它的 AgentNet 数据和 benchmark 怎么组织。
这篇对你做“自己的 GUI Agent 项目”非常直接。
3. GUI-Owl / Mobile-Agent-v3
这是阿里/Qwen 线的 GUI Agent 重点。Mobile-Agent-v3 报告介绍 GUI-Owl,一个 foundational GUI agent model,覆盖 grounding、QA、planning、decision-making、procedural knowledge 等 10 个 GUI benchmark;GUI-Owl-7B 在 AndroidWorld 66.4、OSWorld 29.4,Mobile-Agent-v3 进一步做到 AndroidWorld 73.3、OSWorld 37.7。它还强调环境基础设施、自进化 GUI 轨迹生产和 scalable environment RL。(arXiv)
这篇你要重点看:
- GUI-Owl 如何基于 Qwen2.5-VL 后训练;
- perception / grounding / reasoning / planning / action execution 如何统一;
- 自进化轨迹生产 pipeline;
- 异步 RL 和 trajectory-aware policy optimization;
- 多智能体框架如何包住单模型能力。
如果你想做 Android/桌面/网页跨平台 GUI Agent,这篇非常关键。
4. OS-Atlas
OS-Atlas 是 GUI Agent 里的基础动作模型路线。它强调开源 VLM 在 GUI grounding 和 OOD agentic tasks 上落后闭源模型,于是构造跨平台 GUI grounding 数据合成工具,覆盖 Windows、Linux、MacOS、Android 和 Web,并发布包含 1300 万 GUI 元素的跨平台 grounding corpus。(arXiv)
你读它时重点看:
- GUI grounding 数据如何合成;
- 为什么 grounding 是 GUI Agent 地基;
- 4B/7B 小模型如何专门化;
- action model 和 planner 如何协作;
- 它和 UI-TARS/OpenCUA 的区别:OS-Atlas 更像 grounding/action foundation model。
5. Aguvis
Aguvis 是 pure vision GUI agent:不依赖 UI tree / accessibility tree / HTML 文本,而是直接从截图出发,统一跨平台 action space,并把 planning/reasoning 显式放进模型。它构造大规模 GUI trajectory 数据,使用两阶段训练:先 general GUI grounding,再 planning/reasoning。(arXiv)
你读它时重点看:
- pure vision 为什么重要;
- 不用文本结构会带来什么泛化收益和成本;
- 两阶段训练如何分工;
- inner monologue / structured reasoning 如何帮助多步 GUI 任务。
6. ShowUI
ShowUI 是 CVPR 2025 的 GUI visual agent 工作,强调 vision-language-action model。它的亮点是 UI-guided visual token selection:UI screenshot 有很多冗余 patch,但小元素很关键,所以它做 UI 友好的视觉 token 选择。公开摘要里提到轻量 2B 模型、256K 数据、zero-shot screenshot grounding 表现强,并减少冗余视觉 token。(CVF开放获取)
这篇适合你看:
- GUI screenshot 为什么不能直接当普通图像;
- visual token compression 如何影响速度;
- 小模型如何专攻 grounding;
- 如何做轻量化 GUI Agent 项目。
7. CogAgent
CogAgent 稍早,但仍有价值。它是专门面向 GUI agents 的 VLM,使用低分辨率和高分辨率图像编码器,支持 1120×1120 输入以识别小 UI 元素和文字;在 PC 和 Android GUI navigation 任务上,用 screenshot-only 超过使用 HTML 文本的 LLM 方法。(arXiv)
你可以浅读,不必花太多时间。它的价值是帮你理解早期 GUI Agent 为什么强调高分辨率和小控件识别。
四、GUI Agent / Agent RL 必须知道的 benchmark
做项目时,你至少要知道这些 benchmark 的定位。
1. OSWorld
OSWorld 是真实计算机环境里的 open-ended task benchmark,支持 Ubuntu、Windows、macOS,提供任务设置、执行式评估和交互学习。它是 desktop computer-use agent 的核心 benchmark。(OSWorld)
2. AndroidWorld
AndroidWorld 是 Google 的动态 Android benchmark,包含 116 个 programmatic tasks,覆盖 20 个真实 Android app,并能随机参数化生成大量变体。(arXiv)
3. VisualWebArena
VisualWebArena 用于评估 multimodal web agents,任务需要处理视觉信息、自然语言指令,并在真实网页环境中执行动作。(arXiv)
4. ScreenSpot-Pro
ScreenSpot-Pro 专门评估高分辨率专业软件场景下的 GUI grounding,包含 23 个应用、5 个行业、3 个操作系统;现有 GUI grounding 模型在这个数据集上表现很差,说明真实专业 GUI 仍然非常难。(arXiv)
5. Mind2Web
Mind2Web 是 web generalist agent 的经典数据集,目标是让 agent 根据语言指令在任意网站上完成复杂任务。虽然它偏 2023,但还值得知道,因为很多 web agent 工作会引用它。(arXiv)
6. SWE-bench / SWE-bench Verified
这是 coding agent 的核心 benchmark。你不做 coding agent 也该了解,因为它代表“环境可验证任务”的范式:提交 patch,跑测试,通过就是成功。SWE-bench 官网目前以 Verified 子集作为重要比较对象。(SWE-bench)
五、我建议你的阅读优先级
第一阶段:建立 Agent RL 主线,5 篇
按这个顺序读:
- DeepSeek-R1:理解 RL 激发 reasoning。
- Kimi K2:理解 agentic foundation model。
- GLM-4.5:理解 ARC 模型:agentic + reasoning + coding。
- Qwen3-Coder / Qwen3-Coder-Next:理解 agentic coding 和 executable feedback。
- WebAgent-R1 或 WebRL:理解多轮环境 RL。
这组读完,你会知道现在 Agent RL 的共同范式:
可验证任务
→ 环境交互
→ 多轮 trajectory
→ binary / rule-based reward
→ SFT cold start
→ RL 强化探索与规划
→ test-time compute scaling
第二阶段:建立多模态基础模型认知,5 篇
- Qwen2.5-VL:现代 VLM 项目入门。
- InternVL3:native multimodal pretraining。
- GLM-4.1V/4.5V:多模态 reasoning + RL。
- Kimi-VL / Kimi-VL-Thinking:高效 MoE VLM + thinking。
- MiniCPM-V 4.5:高效小模型路线。
这组读完,你会知道现代 VLM 的关键词:
dynamic resolution
native resolution
visual token compression
OCR/document/chart
grounding
video temporal modeling
multimodal thinking
multimodal RL
long context
efficient deployment
第三阶段:GUI Agent 专项,6 篇
- UI-TARS-2
- OpenCUA
- GUI-Owl / Mobile-Agent-v3
- OS-Atlas
- Aguvis
- ShowUI
这组是你做 GUI Agent 项目的核心。
读完你会形成完整链路:
屏幕截图输入
→ 视觉编码 / token selection
→ OCR / UI element perception
→ grounding 坐标预测
→ action space 设计
→ planner / reasoner
→ 多轮执行
→ 环境反馈
→ trajectory 数据
→ RL 或 self-evolving training
六、哪些老论文只需要浅了解
你不是不读经典,而是不要被经典拖慢项目进度。
浅了解即可:
- CLIP:图文对比学习、shared embedding space。
- BLIP-2:Q-Former、视觉编码器到 LLM 的桥接。
- LLaVA:visual instruction tuning。
- Flamingo:视觉 token 接入冻结 LLM、few-shot multimodal prompting。
- ReAct:reasoning + acting 的 agent prompt 经典范式。
- Toolformer:工具使用早期思路。
这些是“词典”,不是你现在的主线。你遇到 projector、Q-Former、visual instruction tuning、tool-use prompt 看不懂时再回头补。
七、你可以做的 GUI Agent 项目
我建议你做一个 “轻量级开源 GUI Agent Benchmark + Agent Demo”,比单纯跑模型更像实习作品。
项目目标
做一个能在网页/桌面截图上完成以下任务的小系统:
- 给定自然语言指令,定位 UI 元素;
- 输出点击坐标或 action JSON;
- 执行动作;
- 观察下一屏;
- 多轮直到完成任务;
- 记录 trajectory;
- 自动评估成功率、步数、错误类型。
推荐技术栈
模型:
- 入门:Qwen2.5-VL-7B / InternVL3-8B / MiniCPM-V 4.5;
- GUI 专项:OS-Atlas / ShowUI / OpenCUA-7B;
- 对照闭源:GPT-4o / Gemini 2.5 / Claude Computer Use API,少量即可。
环境:
- Web:Playwright;
- Desktop:pyautogui + screenshot;
- Android:Android emulator + ADB;
- Benchmark:先做 ScreenSpot / ScreenSpot-Pro 子集,再做 MiniWoB / AndroidWorld 小子集。
输出格式:
{
"thought": "I need to find the login button.",
"action": "click",
"x": 812,
"y": 544
}
评测指标:
- grounding accuracy;
- task success rate;
- average steps;
- invalid action rate;
- repeated action rate;
- recovery after failure;
- token / latency / cost。
项目最小可行版本
第一周做:
输入一张网页截图 + 指令
模型输出目标元素坐标
用 ScreenSpot/自标注数据评估 grounding accuracy
第二周做:
接 Playwright
让模型点击网页按钮、填写表单、完成 3–5 类任务
第三周做:
加入反思机制
失败后重新截图、重新规划
记录完整 trajectory
第四周做:
对比 Qwen2.5-VL / InternVL3 / OS-Atlas / GPT-4o
写 failure case 分析
这样你就有一个很像样的实习项目。
八、最终推荐清单:你现在直接照这个读
最优先 10 篇
- DeepSeek-R1
- Kimi K2
- GLM-4.5
- Qwen3-Coder / Qwen3-Coder-Next
- WebAgent-R1 或 WebRL
- Qwen2.5-VL
- GLM-4.1V/4.5V
- OpenCUA
- UI-TARS-2
- GUI-Owl / Mobile-Agent-v3
第二批 8 篇
- InternVL3
- Kimi-VL / Kimi-VL-Thinking
- MiniCPM-V 4.5
- OS-Atlas
- Aguvis
- ShowUI
- ScreenSpot-Pro
- AndroidWorld / OSWorld
九、我的判断
你选的两个方向都对,但更建议你把它们合成一个定位:
Multimodal GUI Agent with RL / Environment Feedback
这个定位比单纯“Agent RL”或单纯“多模态”更具体,也更适合做项目和找实习。
你最终应该形成这样的能力画像:
我理解当前 agentic foundation model 的训练趋势;
我理解 VLM 如何做 grounding、document/UI perception;
我能跑开源 GUI Agent 模型;
我能搭一个真实环境;
我能收集 trajectory;
我能做自动评测;
我知道 RL / environment feedback 该怎么接入。
这比“我读过 CLIP、Flamingo、BLIP”更能打动面试官。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)