【榜单简介】

本榜单以SPM-Bench 为核心评测基准,该评测集是面向扫描探针显微学的博士级多模态评测基准,对12款全球顶尖大模型在原子尺度表面物理场景中的深度感知、物理推理与科学判断能力进行评测。

【查看完整榜单】👉🏻 https://skylenage.net/sla/leaderboard

【参评模型】

【评测集解读】

评测维度

1、输入:多模态不定项选择题,每题配图为一组高分辨率显微图像。

2、输出:1、选项 2、自信度

3、真值(GT)构建:

  • 从专家筛选的论文图像、图注与相关讨论中自动生成候选问题与选项;

  • 由生成模型先输出隐式推理链(CoT)与评分 Rubric,再形成题干与标准答案;

  • 引入 Advisory Model 对每组 Q&A 进行多维审校,检查科学一致性、逻辑深度与干扰项合理性;

  • 最终每道题的 GT 表示为标准正确选项集合。

数据标准

从 arXiv 与 30 余种高水平物理科学期刊中自动采集图文数据,经 Anchor-Gated Sieve(AGS)筛选、版面解析、语义定位裁剪、问答生成与多轮对抗优化后,最终构建 SPM-Bench 基准,共包含 2,703 条高质量多模态样本,每条样本对应唯一显微图像。

  • 成像模态分布:

  • 1、TEM(Transmission Electron Microscopy,透射电子显微镜):955 条

  • 2、STM(Scanning Tunneling Microscopy,扫描隧道显微镜):752 条

  • 3、SEM(Scanning Electron Microscopy,扫描电子显微镜):558 条

  • 4、AFM(Atomic Force Microscopy,原子力显微镜):438 条

  • 数据构建方式:

  • 1、采用全自动数据合成流程,从论文 PDF 中抽取图像、图注及相关讨论文本。

  • 2、通过 AGS 机制过滤超过 95% 的文本噪声页,仅保留同时包含图像块与图注锚点的高价值页面。

  • 3、利用 VLM 返回归一化坐标框(llbox),在本地高分辨率图像上执行精确裁剪。

  • 4、结合图像、图注、讨论片段及领域技术库,自动生成高难度多选问答。

  • 5、引入 Advisory Model 进行对抗式质检与迭代优化,提升题目科学性、干扰项质量和推理深度。

  • 学科与主题覆盖:

  • 1、覆盖电子结构、形貌表征、晶体结构、磁性材料、表面工程、能量材料、缺陷工程、拓扑材料等多个物理与材料科学子领域。

  • 2、外层细粒度概念涉及 LDOS、FFT、Kondo effect、CDW、Rashba、Berry phase、Skyrmion、超晶格、薄膜缺陷等博士级主题。

【评分标准】

  • 精确匹配指标(Exact Match, EM)

  • 标准部分得分指标(Standard Partial Credit, SPC)

  • 严格缺陷惩罚指标(Strict Imperfection Penalty F1, SIP-F1):

为 SPM-Bench 提出的核心评测指标,用于抑制“多选题全选/乱猜”式投机行为。

该指标在传统 F1 基础上引入“双阶段门控 + 假阳性高惩罚”机制。

【榜单速览】

第一梯队:Qwen3.5-Plus 、Kimi-K2.5-Thinking

这两位在榜单上遥遥领先于其他模型,它们拥有强大的推理和判断能力,在处理高难度的科学图像时的能力已经非常接近人类专家的水平。

第二梯队:GPT-5.2、Doubao-Seed-2.0-Pro

这一梯队的模型依然非常强大,但与第一梯队拉开了近10分的显著差距。它们具备扎实的基础能力,但在面对一些边界模糊或极具迷惑性的问题时,严谨性稍逊一筹,偶尔会做出错误的判断,因此得分被拉低。

第三梯队:Claude-Opus-4.5 , Qwen3

这些模型在面对SPM-Bench这种严苛的评测时,显得有些力不从心。分数较低通常意味着它们在推理的某个环节出现了严重问题,或者更容易被干扰项误导,导致了较高的错误率。

👉【获取完整榜单】
此处仅展示综合评分前五名预览,查看完整排名以及细分维度的详细对比数据,请访问晓天衡宇•评测社区官网:https://skylenage.net/sla/leaderboard

【榜单结论】

  • 指标设计动机:

    ○ EM 过于严格,无法区分“部分正确”和“完全错误” ○ SPC 奖励保守作答,但无法细致刻画不同类型错误 ○ SIP-F1 在保留部分得分能力的同时,显著惩罚错误选项,特别适用于高风险科研推理场景

  • 模型行为解释能力:

○ SIP-F1 可用于刻画模型“作答人格”:

■ Conservative:保守作答,少选但不乱选

■ Aggressive:激进作答,倾向多选

■ Gambling:投机作答,接近“全选”

■ Wise:高召回且低误选,兼具准确性与校准能力

【了解更多】

显微成像评测榜单已同步上线至晓天衡宇•评测社区官网,欢迎大家访问查看更详细的评测数据:https://skylenage.net/sla/leaderboard

👇关注晓天衡宇•评测社区官方社区,获取更多大模型相关知识~ 

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐