人大高瓴孙浩团队发表Nature子刊封面文章：基于并行符号枚举的物理定律发现

力学与人工智能

406人浏览 · 2026-03-27 11:18:18

力学与人工智能 · 2026-03-27 11:18:18 发布

　　近期，中国人民大学高瓴人工智能学院孙浩教授团队在Nature子刊《自然-计算科学》（Nature Computational Science）发表了题为“Discovering physical laws with parallel symbolic enumeration”的研究论文，论文被该期刊选为2026年首期封面文章（Volume 6，Issue 1）。

引用格式： Ruan, Kai, et al. "Discovering physical laws with parallel symbolic enumeration." Nature Computational Science (2025): 1-14.

一、摘要

　　这篇论文聚焦于符号回归这一重要方向。所谓符号回归，就是不给定固定模型形式，而是直接从数据中自动发现简洁、可解释的数学表达式。论文指出，传统符号回归长期面临两个核心瓶颈：一是搜索空间近乎无限，容易发生组合爆炸；二是候选表达式的评估效率低，导致复杂问题上准确率和速度都受限。为了解决这一问题，作者提出了PSE（Parallel Symbolic Enumeration，并行符号枚举）框架，用于从有限数据中高效提取通用数学表达式。其核心思想是：通过 PSRN（Parallel Symbolic Regression Network） 识别不同表达式之间共享的公共子树，并结合 GPU 并行计算，实现海量候选公式的同时评估。实验表明，PSE 在 200 多个合成与实验问题上，相比现有先进方法取得了更高的恢复精度和更快的计算速度，最高可将恢复率提升至接近 99% 的增益，并把运行时间降低一个数量级。

二、研究背景

1. 为什么要研究符号回归

　　在科学研究中，很多时候我们真正关心的不是“预测值是多少”，而是“这个系统背后的规律是什么”。传统回归方法通常只能在模型结构已知的前提下估计参数，而当底层数学结构未知时，这类方法就无能为力。符号回归的价值就在于，它能在不预设函数形式的条件下，直接从观测数据中提炼可解释的公式，因此在天文学、材料科学和物理规律发现等领域都很重要。

2.现有方法的主要问题

　　论文回顾了几类主流方法。

　　第一类是 遗传编程（GP） 和贝叶斯方法，它们通过启发式搜索在表达式空间中寻找候选公式。这类方法虽然有效，但普遍存在可扩展性差、对超参数敏感、容易生成复杂且过拟合的表达式等问题。

　　第二类是 SINDy一类稀疏回归方法。它们把方程发现转化为预定义函数库上的稀疏线性回归问题，因此速度很快，也能找到较简洁的模型。但问题在于：它们的发现能力高度依赖人工设计的函数库，而且本质上局限在线性组合框架内，当真实关系超出库的表达能力时，就很难恢复正确规律。

　　第三类是近年来兴起的 深度符号回归方法，比如基于 RNN、VAE、图网络、Transformer 或符号神经网络的方案。论文指出，这些方法虽然很有潜力，但常常依赖经验性阈值来做表达式简化，在小样本、有噪声的数据场景下，容易得不到真正有意义的公式。

　　此外，MCTS也被用于符号回归搜索，但传统做法往往把搜索树中的每个节点映射到唯一表达式，这种一对一映射会限制搜索效率，不利于快速恢复正确的符号表达。

3.真正的瓶颈在哪里

　　作者最核心的判断是：符号回归之所以难，不只是因为“不会搜索”，更因为候选表达式的评估效率太低。符号回归本身是 NP-hard 问题，表达式由变量、算子和常数组成，搜索空间巨大。现有方法大多把每个候选表达式独立评估，即便某些表达式共享中间子结构，也无法重复利用这些计算结果，造成了严重的重复开销。论文认为，如果能显著提升候选表达式的评估效率，就有机会同时提高恢复率并减少计算时间。

三、研究方法

1. 整体框架：PSE

　　针对上述问题，论文提出了 PSE（并行符号枚举）。它的目标是：在有限数据上高效评估大量候选表达式，并尽可能直接找到正确的、可解释的数学结构。PSE 的核心搜索引擎是 PSRN，同时还结合了一个 token generator，如 GP 或 MCTS，用来生成更有希望的子表达式作为后续搜索的起点。token generator负责提出“值得继续探索的构件”；PSRN负责对这些构件进行大规模并行扩展和评估。

图 1PSE 方法总体框架。图中展示了并行符号枚举（PSE）的整体流程，包括 PSRN 并行评估、token generator 搜索、公共子树复用、重复表达式去除以及系数后处理等关键模块

2. PSRN 的核心思想：公共子树复用

　　PSRN 最关键的创新，是能自动识别不同表达式之间的公共子树，并共享这些子树的计算结果。比如sin(x1+x2)和 exp(x1+x2)都包含 x1+x2这一子结构，传统方法通常会分别重复计算，而 PSE 则只算一次，再把结果复用到多个表达式中。论文把这一机制视为加速的核心。

　　这一点非常重要，因为在真实符号搜索中，大量候选表达式都共享局部结构。谁能更好地复用这些中间结果，谁就真正具备大规模搜索的能力。

3. Symbol layer：逐层生成表达式

　　PSRN 由多个symbol layer叠加而成。每一层不是普通神经网络那种学习特征的层，而更像一个“表达式组合层”：它会把输入表达式按照指定算子进行单步组合，从而生成新一层的子树值。这样逐层展开以后，就能构建出深度更高、结构更复杂的大量候选表达式。论文指出，若有l层 symbol layer，那么 PSRN 就能生成所有深度不超过l的表达式树。

4. GPU并行评估

　　PSRN的另一个关键点是 GPU 并行。在前向传播过程中，网络会对海量表达式同步计算其在数据上的数值结果，而不是像传统方法那样一个个试。论文指出，PSRN 可以一次评估数亿个候选表达式，这使得它能够直接、大规模地覆盖搜索空间。

5. PSRN 的具体求解流程

　　图 2 给出了完整流程，大体可以概括为四步：

　　第一步，把输入数据X、基础表达式集合s和可选常数 token 输入 PSRN，逐层生成大量子树值；第二步，将最终层输出与目标y比较，计算每个候选表达式的 MSE；第三步，找到误差最小的位置；第四步，利用构网时保存的 offset tensor $\Theta$ 递归回溯，恢复出对应的最优符号表达式；必要时再进行系数微调。

　　PSE 的思路并不是“先写出每个公式再逐个评估”，而是“先批量算出大量表达式在数据上的行为，再从最优索引反推公式”。

图 2 PSRN 的求解流程。从输入数据与基础 token 出发，PSRN 逐层生成候选表达式，计算误差，并通过符号回溯恢复最优表达式结构，最后再进行系数微调。

6. DR mask：去掉重复表达式

　　为了减少显存占用，作者还设计了DR mask（duplicate removal mask）。它作用在倒数第二层输出上，用于过滤掉那些符号上等价的重复子表达式，从而降低 GPU 内存消耗。论文指出，这种设计能显著减少内存占用，提升模型处理更复杂表达式的能力。

7. 系数后处理：先找结构，再调参数

　　PSE 并不强求在结构搜索时同时精确确定常数，而是先找到表达式结构，再通过最小二乘法对系数进行识别和微调。这种“结构搜索—参数优化”分离的思路，可以有效降低搜索难度，同时提升最终公式的精度和可解释性。

四、研究结果

1. 标准符号回归基准测试

　　作者首先在 Nguyen、Nguyen-c、R、Livermore、Feynman 等经典基准问题上测试PSE。结果表明，PSE 在这些 benchmark 上总体取得了最高的恢复率，同时也保持了很高效率，某些情况下可实现两个数量级的加速。特别是在 R benchmark 这类有理分式表达式上，PSE 达到了 100% 恢复率，而许多基线方法几乎全部失败。作者解释说，这类表达式在某些区间上与多项式很相似，容易诱导其他方法陷入局部最优，而 PSE 能依靠直接的大规模并行评估准确恢复复杂分式结构。

图 3 PSE 在经典符号回归 benchmark 上的表现。与多种现有方法相比，PSE 在多个数据集上取得了更高的恢复率和更短的运行时间，尤其在 R 类有理分式表达式上优势显著。

2. 混沌动力系统

　　接着，论文把方法应用到 16 个混沌动力系统的控制方程发现中。实验使用了含噪轨迹数据，并在 1%、2%、5%、10% 四种噪声水平下进行对比。结果显示，PSE 在不同噪声水平下都取得了更高的符号恢复率，能够更准确地识别底层 governing equations，说明它不仅适合简单静态公式恢复，也适用于更复杂的动态系统规律发现。

图4 PSE 在混沌动力系统方程发现中的表现。在多种噪声水平下，PSE 对真实控制方程的恢复率均优于对比方法，说明其对复杂动态系统具有较强适应性。

3. 真实机电系统：EMPS

　　在真实实验数据方面，作者选取了 EMPS（electro-mechanical positioning system）。这是一类常见的机电驱动系统，具有噪声和非线性。论文结合先验知识，假设系统遵循牛顿第二定律形式 $\ddot{x}=f(q,\dot q,\tau)$ ，并额外加入 sign算子用于描述摩擦项。这个设计说明，PSE 并不是完全“无先验”的盲搜，而是可以与物理知识结合，更有效地发现真实系统方程。

图5 PSE 在真实物理系统中的应用。图中展示了 PSE 在 EMPS 机电定位系统和湍流摩擦实验中的建模效果，说明该方法不仅适用于合成 benchmark，也能处理真实实验数据中的规律发现问题。

4. 整体实验结论

　　论文总体结论是：PSE 在标准 benchmark、混沌系统和真实实验物理建模中，都展现出优于多种现有基线方法的恢复能力和计算效率。作者特别指出，PSRN 通过公共子树复用和 GPU 并行，表达式评估效率最多可以提高四个数量级。

五、总结与展望

1. 论文的核心贡献

　　本文提出了一种新的思路：符号回归的突破点，不一定只在搜索策略本身，也可能在候选表达式的评估机制上。PSE 通过“公共子树复用 + GPU 并行 + token generator + 系数后处理”的组合，建立了一个更高效、更系统的符号搜索框架。它显著提高了大规模表达式评估能力，从而在准确率和速度上都取得了明显优势。

2. 论文的局限性

　　作者也明确承认，PSE 和大多数符号回归方法一样，仍然受限于预定义的离散算子集合。也就是说，如果真实规律包含当前算子库中没有的数学形式，方法就无法自动发现。此外，虽然 PSE 已经大幅提升了评估效率，但对于极大规模问题，它依然会受到输入变量维数、算子集合大小和硬件资源的限制。

3. 未来展望

　　论文提出了几条很有价值的未来方向：一是把 PSE 与其他符号回归技术进一步融合，例如集成式 SR 或其他深度/稀疏方法，以继续提升性能；二是在前处理阶段加入显式特征选择，从而提高在超高维问题上的可扩展性；三是继续改进 token generation 策略，例如引入领域结构先验、多目标奖励或更强的搜索引导；四是将物理先验知识，例如量纲约束，显式地融入搜索过程，以减少无效搜索并提高科学发现效率。