AI能不能搞科研？当AI不再只靠“脑子大“：SimpleTES如何在21个科学难题上撕开科研新范式

小饕

351人浏览 · 2026-04-25 16:19:23

小饕 · 2026-04-25 16:19:23 发布

我们花了整整一年，让模型想得更深、推得更久、参数量更大。但一篇来自清北斯坦福联合团队的论文告诉我们：AI做科研的关键，可能根本不是"想得好"，而是"试得够"。

一、一个被忽视的行业盲点

过去一年，AI圈最疯狂的执念是什么？

让模型想得更久。

更长的推理链、更大的参数量、更深的工作流——仿佛只要模型足够聪明，科学发现迟早会像答题一样被它一步步推出来。

这听起来很合理，对吗？

但SimpleTES这篇论文，给了这个共识一记闷棍。

它用6个领域、21个科学问题的硬核结果证明了一件事：AI科研的真正瓶颈，不在于模型"想"得不够深，而在于"试"得不够多。

科学发现的历史从来不是灵光一闪。达尔文花了二十年在加拉帕戈斯群岛反复观察、验证、推翻自己的假说；爱因斯坦的广义相对论经历了多年的数学试错和思想实验，被无数条走不通的路"逼"出来的。

科学发现的本质，是一轮轮试错之后被逼出来的结果，而不是一击即中。

SimpleTES捕捉到的，正是这个被整个AI行业长期忽视的本质。

二、SimpleTES做了什么？

SimpleTES，全称Simple Test-time Evaluation-driven Scaling，来自宽德智能学习实验室（Will）、斯坦福大学、北京大学、清华大学和香港科技大学（广州）的联合团队。

它的核心思路极其朴素：

与其把所有算力花在"让模型第一步就想得更好"，不如把"生成候选解→评估反馈→继续改进"这条发现闭环，在测试阶段系统化地放大。

具体怎么做？框架把科研试错过程拆成了三个维度，像调音台一样精准控制：

第一维：并行探索宽度（Global Width）

传统做法是让模型沿着一条思路越想越深。问题是，科研不是做选择题——一开始方向走偏了，后面再怎么深度思考都是南辕北辙。

SimpleTES同时开启C条独立的探索路线，每条路线各走各的，互不干扰。好比你同时派了C个博士生，从不同方向攻同一个课题。

第二维：迭代精修深度（Refinement Depth）

每条路线不是一次性生成答案就完事，而是反复看评估结果、修补优化、循环L轮。关键在于，这个"改"不是盲改，而是带着评估器的反馈去改。

第三维：局部候选数量（Local Sample Size）

每一轮迭代不是只生成一个方案就押宝，而是先生成K个候选方案，让评估器全部打分，留下最好的再进入下一轮。这大大降低了被大模型随机噪声带偏的风险。

三个维度一乘，就是总预算：N = C × L × K

整个框架的精髓，就是如何在这三个维度之间分配有限的算力预算，让"试错"的效率最大化。

它本质上造了一台通用的"AI探索放大器"。

三、21道硬题，六个领域，直接上数据

说得再漂亮，不拿真题验证都是空谈。SimpleTES的成绩单，几乎每个领域都让人侧目。

数学：圆填充问题

在单位正方形内放置n个互不重叠的圆，使半径之和最大——听起来像小学数学，其实是组合优化的经典噩梦。SimpleTES在n=26和n=32两个规模上，双双刷新了已知最佳纪录。

算法工程：LASSO路径求解

这个被无数专家反复打磨了几十年的经典算法，SimpleTES用一个开源模型硬生生把速度提升了超过2倍——不是微调参数的小修小补，而是发现了一种全新的混合算法策略。

量子计算：量子比特路由

在超导量子计算机架构上，SimpleTES发现的路由策略直接超越了金标准SABRE算法21.7%。IBM Q20芯片上，额外的CNOT门开销从60,189降到45,441，砍掉了将近四分之一。中性原子架构上，36个测试电路改进了34个，平均执行时间降了33.2%。

GPU优化：蛋白质结构预测算子

TriMul核心算子，SimpleTES在H100上跑到1.122毫秒击败所有AI方法。更狠的是跨硬件迁移能力——在MI300上把对手的2.657毫秒压到1.352毫秒，近乎腰斩。

算法竞赛：AtCoder AHC058

从零开始、没有任何算法先验，发现的多重启模拟退火程序直接超越了所有人类选手的提交，10次独立运行的得分分布完全不重叠。

数学猜想：Erdős最小重叠问题

数学家啃了半个世纪的硬骨头，SimpleTES把得分从之前AI最佳的0.380871推进到0.380856。自相关不等式任务上，分别推进了最佳人类界限6.79%和0.30%。

数据科学：Scaling Law发现

SimpleTES找到的Scaling Law比最佳人类推导的外推拟合度提升了352%，而且发现的规律可以直接指导LLM预训练的超参数选择——这已经是对工业界有直接价值的发现。

最关键的一点：这些成绩，很多不是靠最贵的闭源模型堆出来的，而是用开源模型，通过把试错链路组织得更高效，硬生生挤出来的。

四、更深层的贡献：让AI学会"长线思维"

如果SimpleTES只做了一个搜索框架，那它已经很优秀了。但论文真正让人兴奋的地方，是它解决了AI做科研时的一个深层问题——“短视症”。

大规模试错过程中，SimpleTES天然产生了海量的结构化探索轨迹：每一步怎么改的、评估器返回了什么、下一步往哪个方向调整。这些轨迹本身就是极好的训练数据。

但如果简单地用传统强化学习的方式训练，模型会学到一个很糟糕的习惯：只盯着眼前的分数。

这在科学发现中是致命的。真正的科研探索是一个长程任务——早期的"失败"往往是后期突破的垫脚石。你在第三轮迭代中尝试了一个看起来分数下降的方向，可能恰恰是第八轮跳出局部最优的关键一步。

如果模型被训练成"每一步都要涨分"，它就会变得短视保守，永远在局部最优附近打转。

为此，作者提出了Trajectory-Level Post-training，核心思路是：别让模型学"每一步怎么得高分"，而是让它学"一整条探索路径怎么最终找到突破"。

具体分三步：

放弃即时奖励，只看最终突破——整条轨迹的最终最高分作为监督信号，反向传播给每一个节点。
精英轨迹筛选——只给总分排名前R%的"精英轨迹"赋予训练权重，截断达到最高分后的冗余步骤。
动态演进——引入经验回放缓冲区积累历史轨迹，随着模型能力提升动态收紧精英门槛，形成正向循环。

结果相当惊人：训练后的模型不仅在见过的问题上搜索效率更高，在完全没见过的新问题上也能找到原始模型找不到的更强解。

这意味着模型不是死记了几个科研问题的答案，而是真正学会了一种可迁移的科研试错"元能力"——一种"面对反馈如何做出全局最优决策"的通用直觉。

它不仅造了一台搜索引擎，还找到了一种方法，让引擎的使用经验反哺模型本身，形成"越探索→越会探索"的飞轮。

五、一个被重新定义的扩展轴线

SimpleTES最重要的意义，或许不在于它当前取得了多少成绩，而在于它指出了一个被长期忽视的方向：

在"生成侧计算"（模型参数、推理长度）之外，“评估侧计算”（试错循环的深度和广度）同样是一条可以持续投入、持续收获的扩展轴线。

当这两条轴线同时扩展的时候，AI做科研的能力上限，可能远超我们今天的想象。

过去，我们把几乎所有赌注都压在"让模型更聪明"这一条路上。参数从千亿到万亿，推理从秒级到分钟级，仿佛只要脑子够大、想得更久，科学发现就会从天而降。

但科学发现从来不是这样的。

SimpleTES告诉我们：不是想不到，而是试不够。

当同一套框架、同一个开源模型，在完全不同的科学领域里都能打出成果时，这种通用性本身就已经说明了很多问题。

六、写在最后

这篇论文背后的Will实验室（宽德智能学习实验室）也值得一提。它由宽德投资（WizardQuant）孵化，目标不是做通用聊天机器人，而是要实现"超级科技助手"——一个能真正辅助甚至驱动科学发现和技术创新的AI系统。

他们同时在三条线发力：预训练基座模型、科研方法论、评估驱动的发现引擎。这种"全栈式"的投入力度，在国内的AI科研实验室中相当罕见。

SimpleTES只是这个宏大目标下的第一块拼图。当一支有资源、有耐心、有技术野心的团队，把"让AI学会做科研"当作十年级别的目标来投入的时候——后面的故事，可能比我们想象的来得更快。

论文项目主页：wizardquant.com/will/SimpleTES
代码开源：github.com/Wizard-Intelligence-Learning-Lab/SimpleTES

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

本地问答系统-计算机毕业设计源码72854

AtomGit开源社区

Conformal CPO：把保形预测嵌入 LLM Agent 编排策略，可证明可靠性 + 30% 成本节省

AtomGit开源社区

【流形学习语言变量分析基础】王阳明代数讲义之Fenchel共轭

AtomGit开源社区

所有评论(0)

查看更多评论

小饕

@x32sky

已为社区贡献34条内容

AI能不能搞科研？当AI不再只靠“脑子大“：SimpleTES如何在21个科学难题上撕开科研新范式

小饕

一、一个被忽视的行业盲点

二、SimpleTES做了什么？

三、21道硬题，六个领域，直接上数据

四、更深层的贡献：让AI学会"长线思维"

五、一个被重新定义的扩展轴线

六、写在最后

所有评论(0)

温馨提示：您尚未绑定手机号

小饕