不知道你有没有玩过“找不同”的游戏?在一堆几乎一模一样的图标里,迅速揪出那个颜色深了一点点,或者角度歪了几度的“异类”。对我们人类来说,这似乎是一种本能,心理学上称之为弹出效应(Pop-out effect)。但你有没有想过,那些能写代码、解奥数的视觉语言大模型(MLLM),在面对这种简单的底层视觉任务时,表现如何呢?

最近,来自深圳大学、广东省人工智能与数字经济实验室(深圳)、深圳技术大学、清华大学深圳国际研究生院以及美团的研究团队,联合发布了一项非常有意思的研究。他们提出了一个专门针对这种底层视觉感知能力的基准测试 —— OddGridBench

该基准测试的命名寓意深远:OddGridBench 结合了认知心理学中经典的“找不同(Odd-One-Out)”范式,并采用了结构化的网格(Grid)布局。为了解决模型在这些任务上的“视力问题”,研究团队还配套提出了一个名为 OddGrid-GRPO 的强化学习框架。这里的 GRPO 借鉴了 DeepSeek-V3 的优化思路,并针对网格定位任务进行了“距离感知”的特殊设计。

  • 论文地址: https://arxiv.org/abs/2603.09326

  • 机构信息: 深圳大学;人工智能与数字经济广东省实验室(广州);深圳技术大学;清华大学深圳国际研究生院;美团

  • 项目主页: https://wwwtttjjj.github.io/OddGridBench

  • 代码仓库: https://github.com/GML-FMGroup/OddGridBench

为什么大模型需要玩“找不同”?

在过去的一两年里,多模态大模型在搞层语义理解上突飞猛进,但在底层视觉感知(Low-level Visual Perception)上却一直缺乏系统的审视。

研究团队认为,细粒度的视觉差异敏感性是所有高阶能力的基础。这种现象在视觉科学中常用最小可觉差(Just Noticeable Difference, JND)来描述。试想一下,如果一个模型连图标旋转了 5 度都看不出来,它又怎么能准确地在工业检测中发现微小的裂纹,或者在复杂的空间场景中进行精准的推理呢?底层能力的缺失,实际上会削弱高层推理的可靠性。

人类视觉对颜色、旋转和大小差异的感知过程

人类视觉对颜色、旋转和大小差异的感知过程

如上图所示,人类视觉系统对这些微小变化非常敏感。然而,目前的模型在面对这些任务时,往往表现得像个“近视眼”。

OddGridBench:一场严苛的“视力测试”

为了量化这种感知能力,研究团队构建了 OddGridBench。它包含 1400 个测试样本,涵盖了四个核心视觉维度:

  • 颜色差异 (\Delta E):在 CIE-Lab 颜色空间中精确控制色差,范围设定在 [5, 20] 之间。

  • 大小差异 (\Delta s):微调图标的缩放比例,通常在 85% 到 115% 之间波动。

  • 旋转差异 (\Delta \theta):控制图标的旋转角度,范围在\pm 5^\circ\pm 25^\circ

  • 位置差异 ([\Delta x, \Delta y]):让图标在网格单元格内产生 5% 到 12% 的轻微位移。

OddGridBench 任务概览,包含单属性和多属性组合

OddGridBench 任务概览,包含单属性和多属性组合

为了确保测试的纯粹性,研究团队从 IconFont 和 Material Design Icons 收集了大量的矢量图标(SVG),并将其归类为人工制品、自然元素和符号三大类。整个数据生成流程非常严谨,通过参数化的 Python 程序,研究者可以精确控制每一个图标的属性,确保测试的客观性和可重复性。

数据生成流水线,从图标收集到网格图像合成

数据生成流水线,从图标收集到网格图像合成

实验结果:大模型集体“翻车”

实验结果令人大跌眼镜。研究团队测试了包括 GPT-5(注:论文中称为 GPT-5-low)、Gemini-2.5-Pro、InternVL3.5 以及 Qwen3-VL 在内的 19 个主流模型。

结果显示,人类的平均准确率高达 87.47%,而目前表现最好的开源模型 Qwen3-VL-32B 也只有 68.07%。更让人意外的是,一些顶尖的闭源模型表现并不理想,Gemini-2.5-Pro 仅为 49.29%,而 GPT-5 甚至只有 28.93%。

各模型在 OddGridBench 上的雷达图,人类表现遥遥领先

各模型在 OddGridBench 上的雷达图,人类表现遥遥领先

通过下表我们可以看到更详细的数据:在“旋转”和“位置”这两个维度上,模型的表现尤其糟糕。例如,InternVL3.5-38B 在位置差异检测上的准确率仅为 10.00%。这说明目前的 MLLM 在空间感知和几何特征提取上存在明显的短板。

各模型详细准确率对比表

各模型详细准确率对比表

研究团队还进行了一项有趣的分析:如果放宽要求,只要模型预测的位置在正确答案的邻域内(TolAcc),准确率会大幅提升。比如 Qwen3-VL-4B 的准确率会从 52.43% 提升到 74.14%。这暗示了模型其实“看”到了差异,但在将其映射到具体的行列坐标时,由于空间校准(Spatial Calibration)能力不足而犯了错。

OddGrid-GRPO:如何“矫正”模型的视力?

为了提升模型的感知能力,研究团队提出了 OddGrid-GRPO 框架。其核心逻辑在于将强化学习与底层视觉特征深度耦合。

1. 课程引导优化(Curriculum-Guided Optimization)

学习要循序渐进。研究团队将 30,000 张训练图像按难度分为“简单”(15K)、“中等”(10K)和“困难”(5K)三个等级。难度由网格大小、差异属性数量和扰动幅度共同决定。训练从明显的视觉差异开始,逐渐过渡到几乎难以察觉的微小差异。这种“由易到难”的策略有效地稳定了强化学习的训练过程。

2. 距离感知奖励(Distance-Aware Reward)

传统的强化学习通常只给“对”或“错”的二值奖励(0 或 1)。但在网格定位任务中,如果模型猜的位置就在正确答案旁边,它其实已经比猜到天边去要好得多了。

因此,研究者设计了一个基于欧几里得距离的连续奖励函数:d = \sqrt{(r_p - r_g)^2 + (c_p - c_g)^2}r_{\text{d}} = \max \left( \exp\left(-\frac{d^2}{2\sigma^2}\right) - \beta , \, 0 \right)

其中 (r_p, c_p) 是预测位置,(r_g, c_g) 是真实位置, \sigma是一个随网格大小自适应的参数。这个公式的意思是:预测越接近真实位置,奖励就越高。这种平滑的反馈信号能更好地引导模型建立空间对应关系。

OddGrid-GRPO 框架示意图

OddGrid-GRPO 框架示意图

在训练流程上,模型的 Input(输入) 是 5x5 到 9x9 不等的网格图像及识别指令,Output(输出) 则要求严格遵循 LaTeX 格式,如 {Row 4, Column 2}

实验证明,这种方法非常有效。以 Qwen3-VL-2B 为例,经过 OddGrid-GRPO 训练后,其总准确率从 17.14% 飙升至 82.64%,几乎追平了人类水平!

强化学习方法对比,OddGrid-GRPO 提升显著

强化学习方法对比,OddGrid-GRPO 提升显著

泛化能力:不仅仅是“刷榜”

你可能会问,这种在合成图标上训练出来的能力,能用到真实世界吗?

研究团队在工业缺陷检测数据集(MVTec-AD, VisA)以及手写体数据集(MNIST)上进行了泛化性测试。在 MVTec-AD 数据集上,Qwen3-VL-2B 在经过训练后,准确率从 20.00% 提升到了 49.00%。这说明经过 OddGrid-GRPO 训练的模型,在未见过的真实场景中依然保持了较强的差异检测能力,显著优于原始基座模型。

跨数据集泛化实验结果

跨数据集泛化实验结果

此外,研究还发现,即使不使用网格布局,而是给模型输入一串独立的图片(Cross-Format),OddGrid-GRPO 训练出的模型依然表现出色,这证明了模型真正习得的是通用的差异辨别能力,而非简单的网格记忆。

写在最后

这项研究给我们提供了一个审视大模型的新视角:聪明的大脑也需要敏锐的眼睛。虽然目前的 MLLM 在逻辑推理上已经非常强大,但在底层视觉感知上仍有巨大的提升空间。

OddGridBench 像是一面镜子,照出了模型在细粒度感知上的短板;而 OddGrid-GRPO 则给出了一条通过强化学习和空间先验来“矫正视力”的可行路径。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐