【榜单简介】

本榜单以FeynmanBench为核心评测基准,基于 2000+ 条标准模型相互作用样本,评估10款顶尖大模型对粒子物理图表的拓扑识别与振幅推导能力。

FeynmanBench是一个革新性的基准测试,用于评估大型多模态模型(MLLMs)在图表物理推理和形式化符号理解方面的能力。与传统的视觉问答(VQA)任务主要测试局部信息提取不同,FeynmanBench 通过在费曼图场景中进行多步 diagrammatic 推理预测来直接测试模型对"全局结构逻辑"的理解。

【参评模型】

【评测集解读】

评测维度

该评测集将物理推理分解为五个递进的检查点(Checkpoints),采用线性渐进评分原则:

1. 顶点计数与类型验证 (CP1)

  • 识别相互作用点的总数及类型

  • 模型需要准确计数顶点并确认连接关系

  • 难度级别:基础

    2. 内部线与传播子清单 (CP2)

  • 识别内部粒子线及其传播子类型

  • 需要理解粒子物理符号与线的对应关系

  • 难度级别:中等

    3. 拓扑连通性与图同构 (CP3)

  • 验证顶点与链的正确连通性

  • 需要全局拓扑结构理解,而非局部识别

  • 难度级别:高级

    4. 动量路由与守恒律 (CP4)

  • 确认内部动量分配自洽且满足守恒律

  • 需要应用物理约束进行逻辑验证

  • 难度级别:专家级

    5. 代数结构与对称因子 (CP5)

  • 推导代数表达式、对称因子及费曼规则系数

  • 需要精确的符号推理与组合数学能力

  • 难度级别:大师级

数据标准

通用任务

本基准不涉及通用视觉/语言任务,专注科学图表推理。

垂直领域:

1、按拓扑复杂度分类(A类,5类):
  • A1: Tree level(树图)

  • A2: One-loop 1PR(单圈可约)

  • A3: One-loop 1PI(单圈不可约)

  • A4: Two-loop 1PR(双圈可约)

  • A5: Two-loop 1PI(双圈不可约)

2、按相互作用类型分类(B类,6类):
  • B1: QED,仅光子+电子/正电子

  • B2: QED,光子+通用带电费米子

  • B3: 电弱,仅轻子+中微子

  • B4: 电弱,含电弱规范玻色子(W/Z)

  • B5: 电弱,含希格斯玻色子(H)

  • B6: 强相互作用(QCD),含夸克/胶子

3、数据生成与验证:
  • 基于FeynArts/FeynCalc自动化管线生成

  • 每条样本含可验证的拓扑标注+振幅表达式

  • 从20万+候选图中筛选2000+代表性样本,确保多样性与可复现性

【评分标准】

评分机制采用渐进式评估协议(Progressive Evaluation),仅当前一检查点完全正确时,才评估后续维度。

评分实现: 

【榜单速览】

👉【获取完整榜单】
此处仅展示综合评分前五名预览,查看完整排名以及细分维度的详细对比数据,请访问晓天衡宇•评测社区官网。

【榜单结论】

1、视觉 - 逻辑解耦(Vision-Logic Decoupling)

模型虽能识别局部元素(顶点/线),但难以构建全局拓扑网络,局部感知稳健不代表全局推理稳定。

2、通过率断崖式下跌

多数模型在 CP1-CP2 表现尚可,但在 CP3(拓扑)出现崩溃,随着圈数增加(拓扑复杂度),性能定性下降,表明模型缺乏"视觉域内的物理约束推理"能力,而非单纯视觉识别问题。

3、系统性偏见:记忆而非推理

少数成功案例多集中于教科书中常见的图样,表明模型依赖记忆而非可迁移的结构推导能力。

【了解更多】

前沿物理推理-费曼图评测榜单已同步上线至晓天衡宇•评测社区官网,欢迎大家访问查看更详细的评测数据。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐