【晓天衡宇·评测社区】前沿物理推理-显微成像评测榜单正式发布

QIANAIQ1101

485人浏览 · 2026-04-15 09:58:25

QIANAIQ1101 · 2026-04-15 09:58:25 发布

【榜单简介】

本榜单以SPM-Bench 为核心评测基准，该评测集是面向扫描探针显微学的博士级多模态评测基准，对12款全球顶尖大模型在原子尺度表面物理场景中的深度感知、物理推理与科学判断能力进行评测。

【查看完整榜单】👉🏻 https://skylenage.net/sla/leaderboard

【参评模型】

【评测集解读】

评测维度

1、输入：多模态不定项选择题，每题配图为一组高分辨率显微图像。

2、输出：1、选项 2、自信度

3、真值（GT）构建：

从专家筛选的论文图像、图注与相关讨论中自动生成候选问题与选项；
由生成模型先输出隐式推理链（CoT）与评分 Rubric，再形成题干与标准答案；
引入 Advisory Model 对每组 Q&A 进行多维审校，检查科学一致性、逻辑深度与干扰项合理性；
最终每道题的 GT 表示为标准正确选项集合。

数据标准

从 arXiv 与 30 余种高水平物理科学期刊中自动采集图文数据，经 Anchor-Gated Sieve（AGS）筛选、版面解析、语义定位裁剪、问答生成与多轮对抗优化后，最终构建 SPM-Bench 基准，共包含 2,703 条高质量多模态样本，每条样本对应唯一显微图像。

成像模态分布：
1、TEM（Transmission Electron Microscopy，透射电子显微镜）：955 条
2、STM（Scanning Tunneling Microscopy，扫描隧道显微镜）：752 条
3、SEM（Scanning Electron Microscopy，扫描电子显微镜）：558 条
4、AFM（Atomic Force Microscopy，原子力显微镜）：438 条
数据构建方式：
1、采用全自动数据合成流程，从论文 PDF 中抽取图像、图注及相关讨论文本。
2、通过 AGS 机制过滤超过 95% 的文本噪声页，仅保留同时包含图像块与图注锚点的高价值页面。
3、利用 VLM 返回归一化坐标框（llbox），在本地高分辨率图像上执行精确裁剪。
4、结合图像、图注、讨论片段及领域技术库，自动生成高难度多选问答。
5、引入 Advisory Model 进行对抗式质检与迭代优化，提升题目科学性、干扰项质量和推理深度。
学科与主题覆盖：
1、覆盖电子结构、形貌表征、晶体结构、磁性材料、表面工程、能量材料、缺陷工程、拓扑材料等多个物理与材料科学子领域。
2、外层细粒度概念涉及 LDOS、FFT、Kondo effect、CDW、Rashba、Berry phase、Skyrmion、超晶格、薄膜缺陷等博士级主题。

【评分标准】

精确匹配指标（Exact Match, EM）
标准部分得分指标（Standard Partial Credit, SPC）
严格缺陷惩罚指标（Strict Imperfection Penalty F1, SIP-F1）：

为 SPM-Bench 提出的核心评测指标，用于抑制“多选题全选/乱猜”式投机行为。

该指标在传统 F1 基础上引入“双阶段门控 + 假阳性高惩罚”机制。

【榜单速览】

第一梯队：Qwen3.5-Plus 、Kimi-K2.5-Thinking

这两位在榜单上遥遥领先于其他模型，它们拥有强大的推理和判断能力，在处理高难度的科学图像时的能力已经非常接近人类专家的水平。

第二梯队：GPT-5.2、Doubao-Seed-2.0-Pro

这一梯队的模型依然非常强大，但与第一梯队拉开了近10分的显著差距。它们具备扎实的基础能力，但在面对一些边界模糊或极具迷惑性的问题时，严谨性稍逊一筹，偶尔会做出错误的判断，因此得分被拉低。

第三梯队：Claude-Opus-4.5 , Qwen3

这些模型在面对SPM-Bench这种严苛的评测时，显得有些力不从心。分数较低通常意味着它们在推理的某个环节出现了严重问题，或者更容易被干扰项误导，导致了较高的错误率。

👉【获取完整榜单】
此处仅展示综合评分前五名预览，查看完整排名以及细分维度的详细对比数据，请访问晓天衡宇•评测社区官网：https://skylenage.net/sla/leaderboard

【榜单结论】

指标设计动机：

○ EM 过于严格，无法区分“部分正确”和“完全错误” ○ SPC 奖励保守作答，但无法细致刻画不同类型错误 ○ SIP-F1 在保留部分得分能力的同时，显著惩罚错误选项，特别适用于高风险科研推理场景
模型行为解释能力：

○ SIP-F1 可用于刻画模型“作答人格”：

■ Conservative：保守作答，少选但不乱选

■ Aggressive：激进作答，倾向多选

■ Gambling：投机作答，接近“全选”

■ Wise：高召回且低误选，兼具准确性与校准能力

【了解更多】

显微成像评测榜单已同步上线至晓天衡宇•评测社区官网，欢迎大家访问查看更详细的评测数据：https://skylenage.net/sla/leaderboard

👇关注晓天衡宇•评测社区官方社区，获取更多大模型相关知识~

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 智能体（AI Agent）初步介绍：从概念到全球排行榜

📅 更新时间：2026年5月 | ✍️ 作者原创，欢迎转载注明出处AI 智能体（AI Agent）是一种能够自主感知环境、制定计划、执行行动并从反馈中学习的人工智能系统。🔍感知（Perceive）：接收来自环境的多模态输入（文本、图像、代码等）🧠推理（Reason）：基于大语言模型（LLM）进行复杂推理和决策🛠️行动（Act）：调用工具、编写代码、操作系统、发送请求🔄反思（Reflect

AtomGit开源社区

2026年温州GEO优化厂家：如何在竞争中脱颖而出？

随着AI技术的迅猛发展，流量入口正从传统的“搜索框”全面转向“AI对话框”。在这个背景下，温州方舟永道科技有限公司（以下简称方舟永道）凭借自研的GEO（生成式引擎优化）系统，为B2B企业构建面向AI时代的“可见性基础设施”，帮助企业实现从底层数据到前端推荐的全链路截流。本文将探讨方舟永道如何在激烈的市场竞争中脱颖而出，并提供实操建议。