【晓天衡宇·评测社区】前沿物理推理-显微成像评测榜单正式发布
【榜单简介】
本榜单以SPM-Bench 为核心评测基准,该评测集是面向扫描探针显微学的博士级多模态评测基准,对12款全球顶尖大模型在原子尺度表面物理场景中的深度感知、物理推理与科学判断能力进行评测。
【查看完整榜单】👉🏻 https://skylenage.net/sla/leaderboard
【参评模型】

【评测集解读】
评测维度
1、输入:多模态不定项选择题,每题配图为一组高分辨率显微图像。
2、输出:1、选项 2、自信度
3、真值(GT)构建:
-
从专家筛选的论文图像、图注与相关讨论中自动生成候选问题与选项;
-
由生成模型先输出隐式推理链(CoT)与评分 Rubric,再形成题干与标准答案;
-
引入 Advisory Model 对每组 Q&A 进行多维审校,检查科学一致性、逻辑深度与干扰项合理性;
-
最终每道题的 GT 表示为标准正确选项集合。
数据标准
从 arXiv 与 30 余种高水平物理科学期刊中自动采集图文数据,经 Anchor-Gated Sieve(AGS)筛选、版面解析、语义定位裁剪、问答生成与多轮对抗优化后,最终构建 SPM-Bench 基准,共包含 2,703 条高质量多模态样本,每条样本对应唯一显微图像。
-
成像模态分布:
-
1、TEM(Transmission Electron Microscopy,透射电子显微镜):955 条
-
2、STM(Scanning Tunneling Microscopy,扫描隧道显微镜):752 条
-
3、SEM(Scanning Electron Microscopy,扫描电子显微镜):558 条
-
4、AFM(Atomic Force Microscopy,原子力显微镜):438 条
-
数据构建方式:
-
1、采用全自动数据合成流程,从论文 PDF 中抽取图像、图注及相关讨论文本。
-
2、通过 AGS 机制过滤超过 95% 的文本噪声页,仅保留同时包含图像块与图注锚点的高价值页面。
-
3、利用 VLM 返回归一化坐标框(llbox),在本地高分辨率图像上执行精确裁剪。
-
4、结合图像、图注、讨论片段及领域技术库,自动生成高难度多选问答。
-
5、引入 Advisory Model 进行对抗式质检与迭代优化,提升题目科学性、干扰项质量和推理深度。
-
学科与主题覆盖:
-
1、覆盖电子结构、形貌表征、晶体结构、磁性材料、表面工程、能量材料、缺陷工程、拓扑材料等多个物理与材料科学子领域。
-
2、外层细粒度概念涉及 LDOS、FFT、Kondo effect、CDW、Rashba、Berry phase、Skyrmion、超晶格、薄膜缺陷等博士级主题。
【评分标准】
-
精确匹配指标(Exact Match, EM)

-
标准部分得分指标(Standard Partial Credit, SPC)

-
严格缺陷惩罚指标(Strict Imperfection Penalty F1, SIP-F1):
为 SPM-Bench 提出的核心评测指标,用于抑制“多选题全选/乱猜”式投机行为。
该指标在传统 F1 基础上引入“双阶段门控 + 假阳性高惩罚”机制。

【榜单速览】

第一梯队:Qwen3.5-Plus 、Kimi-K2.5-Thinking
这两位在榜单上遥遥领先于其他模型,它们拥有强大的推理和判断能力,在处理高难度的科学图像时的能力已经非常接近人类专家的水平。
第二梯队:GPT-5.2、Doubao-Seed-2.0-Pro
这一梯队的模型依然非常强大,但与第一梯队拉开了近10分的显著差距。它们具备扎实的基础能力,但在面对一些边界模糊或极具迷惑性的问题时,严谨性稍逊一筹,偶尔会做出错误的判断,因此得分被拉低。
第三梯队:Claude-Opus-4.5 , Qwen3
这些模型在面对SPM-Bench这种严苛的评测时,显得有些力不从心。分数较低通常意味着它们在推理的某个环节出现了严重问题,或者更容易被干扰项误导,导致了较高的错误率。
👉【获取完整榜单】
此处仅展示综合评分前五名预览,查看完整排名以及细分维度的详细对比数据,请访问晓天衡宇•评测社区官网:https://skylenage.net/sla/leaderboard
【榜单结论】
-
指标设计动机:
○ EM 过于严格,无法区分“部分正确”和“完全错误” ○ SPC 奖励保守作答,但无法细致刻画不同类型错误 ○ SIP-F1 在保留部分得分能力的同时,显著惩罚错误选项,特别适用于高风险科研推理场景
-
模型行为解释能力:
○ SIP-F1 可用于刻画模型“作答人格”:
■ Conservative:保守作答,少选但不乱选
■ Aggressive:激进作答,倾向多选
■ Gambling:投机作答,接近“全选”
■ Wise:高召回且低误选,兼具准确性与校准能力
【了解更多】
显微成像评测榜单已同步上线至晓天衡宇•评测社区官网,欢迎大家访问查看更详细的评测数据:https://skylenage.net/sla/leaderboard
👇关注晓天衡宇•评测社区官方社区,获取更多大模型相关知识~ 
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)