CVPR 2026 | 深圳大学等提出OddGridBench：大模型也玩“找不同”？底层视觉感知能力竟远输人类

OpenCV中文网公众号

333人浏览 · 2026-04-12 14:15:00

OpenCV中文网公众号 · 2026-04-12 14:15:00 发布

不知道你有没有玩过“找不同”的游戏？在一堆几乎一模一样的图标里，迅速揪出那个颜色深了一点点，或者角度歪了几度的“异类”。对我们人类来说，这似乎是一种本能，心理学上称之为弹出效应（Pop-out effect）。但你有没有想过，那些能写代码、解奥数的视觉语言大模型（MLLM），在面对这种简单的底层视觉任务时，表现如何呢？

最近，来自深圳大学、广东省人工智能与数字经济实验室（深圳）、深圳技术大学、清华大学深圳国际研究生院以及美团的研究团队，联合发布了一项非常有意思的研究。他们提出了一个专门针对这种底层视觉感知能力的基准测试 —— OddGridBench。

该基准测试的命名寓意深远：OddGridBench 结合了认知心理学中经典的“找不同（Odd-One-Out）”范式，并采用了结构化的网格（Grid）布局。为了解决模型在这些任务上的“视力问题”，研究团队还配套提出了一个名为 OddGrid-GRPO 的强化学习框架。这里的 GRPO 借鉴了 DeepSeek-V3 的优化思路，并针对网格定位任务进行了“距离感知”的特殊设计。

论文地址: https://arxiv.org/abs/2603.09326
机构信息: 深圳大学；人工智能与数字经济广东省实验室(广州)；深圳技术大学；清华大学深圳国际研究生院；美团
项目主页: https://wwwtttjjj.github.io/OddGridBench
代码仓库: https://github.com/GML-FMGroup/OddGridBench

为什么大模型需要玩“找不同”？

在过去的一两年里，多模态大模型在搞层语义理解上突飞猛进，但在底层视觉感知（Low-level Visual Perception）上却一直缺乏系统的审视。

研究团队认为，细粒度的视觉差异敏感性是所有高阶能力的基础。这种现象在视觉科学中常用最小可觉差（Just Noticeable Difference, JND）来描述。试想一下，如果一个模型连图标旋转了 5 度都看不出来，它又怎么能准确地在工业检测中发现微小的裂纹，或者在复杂的空间场景中进行精准的推理呢？底层能力的缺失，实际上会削弱高层推理的可靠性。

人类视觉对颜色、旋转和大小差异的感知过程

如上图所示，人类视觉系统对这些微小变化非常敏感。然而，目前的模型在面对这些任务时，往往表现得像个“近视眼”。

OddGridBench：一场严苛的“视力测试”

为了量化这种感知能力，研究团队构建了 OddGridBench。它包含 1400 个测试样本，涵盖了四个核心视觉维度：

颜色差异 ( $\Delta E$ )：在 CIE-Lab 颜色空间中精确控制色差，范围设定在 [5, 20] 之间。
大小差异 ( $\Delta s$ )：微调图标的缩放比例，通常在 85% 到 115% 之间波动。
旋转差异 ( $\Delta \theta$ )：控制图标的旋转角度，范围在 $\pm 5^\circ$ 到 $\pm 25^\circ$ 。
位置差异 ( $[\Delta x, \Delta y]$ )：让图标在网格单元格内产生 5% 到 12% 的轻微位移。

OddGridBench 任务概览，包含单属性和多属性组合

为了确保测试的纯粹性，研究团队从 IconFont 和 Material Design Icons 收集了大量的矢量图标（SVG），并将其归类为人工制品、自然元素和符号三大类。整个数据生成流程非常严谨，通过参数化的 Python 程序，研究者可以精确控制每一个图标的属性，确保测试的客观性和可重复性。

数据生成流水线，从图标收集到网格图像合成

实验结果：大模型集体“翻车”

实验结果令人大跌眼镜。研究团队测试了包括 GPT-5（注：论文中称为 GPT-5-low）、Gemini-2.5-Pro、InternVL3.5 以及 Qwen3-VL 在内的 19 个主流模型。

结果显示，人类的平均准确率高达 87.47%，而目前表现最好的开源模型 Qwen3-VL-32B 也只有 68.07%。更让人意外的是，一些顶尖的闭源模型表现并不理想，Gemini-2.5-Pro 仅为 49.29%，而 GPT-5 甚至只有 28.93%。

各模型在 OddGridBench 上的雷达图，人类表现遥遥领先

通过下表我们可以看到更详细的数据：在“旋转”和“位置”这两个维度上，模型的表现尤其糟糕。例如，InternVL3.5-38B 在位置差异检测上的准确率仅为 10.00%。这说明目前的 MLLM 在空间感知和几何特征提取上存在明显的短板。

各模型详细准确率对比表

研究团队还进行了一项有趣的分析：如果放宽要求，只要模型预测的位置在正确答案的邻域内（TolAcc），准确率会大幅提升。比如 Qwen3-VL-4B 的准确率会从 52.43% 提升到 74.14%。这暗示了模型其实“看”到了差异，但在将其映射到具体的行列坐标时，由于空间校准（Spatial Calibration）能力不足而犯了错。

OddGrid-GRPO：如何“矫正”模型的视力？

为了提升模型的感知能力，研究团队提出了 OddGrid-GRPO 框架。其核心逻辑在于将强化学习与底层视觉特征深度耦合。

1. 课程引导优化（Curriculum-Guided Optimization）

学习要循序渐进。研究团队将 30,000 张训练图像按难度分为“简单”（15K）、“中等”（10K）和“困难”（5K）三个等级。难度由网格大小、差异属性数量和扰动幅度共同决定。训练从明显的视觉差异开始，逐渐过渡到几乎难以察觉的微小差异。这种“由易到难”的策略有效地稳定了强化学习的训练过程。

2. 距离感知奖励（Distance-Aware Reward）

传统的强化学习通常只给“对”或“错”的二值奖励（0 或 1）。但在网格定位任务中，如果模型猜的位置就在正确答案旁边，它其实已经比猜到天边去要好得多了。

因此，研究者设计了一个基于欧几里得距离的连续奖励函数： $d = \sqrt{(r_p - r_g)^2 + (c_p - c_g)^2}$ $r_{\text{d}} = \max \left( \exp\left(-\frac{d^2}{2\sigma^2}\right) - \beta , \, 0 \right)$

其中 $(r_p, c_p)$ 是预测位置， $(r_g, c_g)$ 是真实位置， $\sigma$ 是一个随网格大小自适应的参数。这个公式的意思是：预测越接近真实位置，奖励就越高。这种平滑的反馈信号能更好地引导模型建立空间对应关系。

OddGrid-GRPO 框架示意图

在训练流程上，模型的 Input（输入） 是 5x5 到 9x9 不等的网格图像及识别指令，Output（输出） 则要求严格遵循 LaTeX 格式，如 {Row 4, Column 2}。

实验证明，这种方法非常有效。以 Qwen3-VL-2B 为例，经过 OddGrid-GRPO 训练后，其总准确率从 17.14% 飙升至 82.64%，几乎追平了人类水平！

强化学习方法对比，OddGrid-GRPO 提升显著

泛化能力：不仅仅是“刷榜”

你可能会问，这种在合成图标上训练出来的能力，能用到真实世界吗？

研究团队在工业缺陷检测数据集（MVTec-AD, VisA）以及手写体数据集（MNIST）上进行了泛化性测试。在 MVTec-AD 数据集上，Qwen3-VL-2B 在经过训练后，准确率从 20.00% 提升到了 49.00%。这说明经过 OddGrid-GRPO 训练的模型，在未见过的真实场景中依然保持了较强的差异检测能力，显著优于原始基座模型。

跨数据集泛化实验结果