AI能不能搞科研?当AI不再只靠“脑子大“:SimpleTES如何在21个科学难题上撕开科研新范式
我们花了整整一年,让模型想得更深、推得更久、参数量更大。但一篇来自清北斯坦福联合团队的论文告诉我们:AI做科研的关键,可能根本不是"想得好",而是"试得够"。
一、一个被忽视的行业盲点
过去一年,AI圈最疯狂的执念是什么?
让模型想得更久。
更长的推理链、更大的参数量、更深的工作流——仿佛只要模型足够聪明,科学发现迟早会像答题一样被它一步步推出来。
这听起来很合理,对吗?
但SimpleTES这篇论文,给了这个共识一记闷棍。
它用6个领域、21个科学问题的硬核结果证明了一件事:AI科研的真正瓶颈,不在于模型"想"得不够深,而在于"试"得不够多。
科学发现的历史从来不是灵光一闪。达尔文花了二十年在加拉帕戈斯群岛反复观察、验证、推翻自己的假说;爱因斯坦的广义相对论经历了多年的数学试错和思想实验,被无数条走不通的路"逼"出来的。
科学发现的本质,是一轮轮试错之后被逼出来的结果,而不是一击即中。
SimpleTES捕捉到的,正是这个被整个AI行业长期忽视的本质。
二、SimpleTES做了什么?
SimpleTES,全称Simple Test-time Evaluation-driven Scaling,来自宽德智能学习实验室(Will)、斯坦福大学、北京大学、清华大学和香港科技大学(广州)的联合团队。
它的核心思路极其朴素:
与其把所有算力花在"让模型第一步就想得更好",不如把"生成候选解→评估反馈→继续改进"这条发现闭环,在测试阶段系统化地放大。
具体怎么做?框架把科研试错过程拆成了三个维度,像调音台一样精准控制:
第一维:并行探索宽度(Global Width)
传统做法是让模型沿着一条思路越想越深。问题是,科研不是做选择题——一开始方向走偏了,后面再怎么深度思考都是南辕北辙。
SimpleTES同时开启C条独立的探索路线,每条路线各走各的,互不干扰。好比你同时派了C个博士生,从不同方向攻同一个课题。
第二维:迭代精修深度(Refinement Depth)
每条路线不是一次性生成答案就完事,而是反复看评估结果、修补优化、循环L轮。关键在于,这个"改"不是盲改,而是带着评估器的反馈去改。
第三维:局部候选数量(Local Sample Size)
每一轮迭代不是只生成一个方案就押宝,而是先生成K个候选方案,让评估器全部打分,留下最好的再进入下一轮。这大大降低了被大模型随机噪声带偏的风险。
三个维度一乘,就是总预算:N = C × L × K
整个框架的精髓,就是如何在这三个维度之间分配有限的算力预算,让"试错"的效率最大化。
它本质上造了一台通用的"AI探索放大器"。
三、21道硬题,六个领域,直接上数据
说得再漂亮,不拿真题验证都是空谈。SimpleTES的成绩单,几乎每个领域都让人侧目。
数学:圆填充问题
在单位正方形内放置n个互不重叠的圆,使半径之和最大——听起来像小学数学,其实是组合优化的经典噩梦。SimpleTES在n=26和n=32两个规模上,双双刷新了已知最佳纪录。
算法工程:LASSO路径求解
这个被无数专家反复打磨了几十年的经典算法,SimpleTES用一个开源模型硬生生把速度提升了超过2倍——不是微调参数的小修小补,而是发现了一种全新的混合算法策略。
量子计算:量子比特路由
在超导量子计算机架构上,SimpleTES发现的路由策略直接超越了金标准SABRE算法21.7%。IBM Q20芯片上,额外的CNOT门开销从60,189降到45,441,砍掉了将近四分之一。中性原子架构上,36个测试电路改进了34个,平均执行时间降了33.2%。
GPU优化:蛋白质结构预测算子
TriMul核心算子,SimpleTES在H100上跑到1.122毫秒击败所有AI方法。更狠的是跨硬件迁移能力——在MI300上把对手的2.657毫秒压到1.352毫秒,近乎腰斩。
算法竞赛:AtCoder AHC058
从零开始、没有任何算法先验,发现的多重启模拟退火程序直接超越了所有人类选手的提交,10次独立运行的得分分布完全不重叠。
数学猜想:Erdős最小重叠问题
数学家啃了半个世纪的硬骨头,SimpleTES把得分从之前AI最佳的0.380871推进到0.380856。自相关不等式任务上,分别推进了最佳人类界限6.79%和0.30%。
数据科学:Scaling Law发现
SimpleTES找到的Scaling Law比最佳人类推导的外推拟合度提升了352%,而且发现的规律可以直接指导LLM预训练的超参数选择——这已经是对工业界有直接价值的发现。
最关键的一点:这些成绩,很多不是靠最贵的闭源模型堆出来的,而是用开源模型,通过把试错链路组织得更高效,硬生生挤出来的。
四、更深层的贡献:让AI学会"长线思维"
如果SimpleTES只做了一个搜索框架,那它已经很优秀了。但论文真正让人兴奋的地方,是它解决了AI做科研时的一个深层问题——“短视症”。
大规模试错过程中,SimpleTES天然产生了海量的结构化探索轨迹:每一步怎么改的、评估器返回了什么、下一步往哪个方向调整。这些轨迹本身就是极好的训练数据。
但如果简单地用传统强化学习的方式训练,模型会学到一个很糟糕的习惯:只盯着眼前的分数。
这在科学发现中是致命的。真正的科研探索是一个长程任务——早期的"失败"往往是后期突破的垫脚石。你在第三轮迭代中尝试了一个看起来分数下降的方向,可能恰恰是第八轮跳出局部最优的关键一步。
如果模型被训练成"每一步都要涨分",它就会变得短视保守,永远在局部最优附近打转。
为此,作者提出了Trajectory-Level Post-training,核心思路是:别让模型学"每一步怎么得高分",而是让它学"一整条探索路径怎么最终找到突破"。
具体分三步:
- 放弃即时奖励,只看最终突破——整条轨迹的最终最高分作为监督信号,反向传播给每一个节点。
- 精英轨迹筛选——只给总分排名前R%的"精英轨迹"赋予训练权重,截断达到最高分后的冗余步骤。
- 动态演进——引入经验回放缓冲区积累历史轨迹,随着模型能力提升动态收紧精英门槛,形成正向循环。
结果相当惊人:训练后的模型不仅在见过的问题上搜索效率更高,在完全没见过的新问题上也能找到原始模型找不到的更强解。
这意味着模型不是死记了几个科研问题的答案,而是真正学会了一种可迁移的科研试错"元能力"——一种"面对反馈如何做出全局最优决策"的通用直觉。
它不仅造了一台搜索引擎,还找到了一种方法,让引擎的使用经验反哺模型本身,形成"越探索→越会探索"的飞轮。
五、一个被重新定义的扩展轴线
SimpleTES最重要的意义,或许不在于它当前取得了多少成绩,而在于它指出了一个被长期忽视的方向:
在"生成侧计算"(模型参数、推理长度)之外,“评估侧计算”(试错循环的深度和广度)同样是一条可以持续投入、持续收获的扩展轴线。
当这两条轴线同时扩展的时候,AI做科研的能力上限,可能远超我们今天的想象。
过去,我们把几乎所有赌注都压在"让模型更聪明"这一条路上。参数从千亿到万亿,推理从秒级到分钟级,仿佛只要脑子够大、想得更久,科学发现就会从天而降。
但科学发现从来不是这样的。
SimpleTES告诉我们:不是想不到,而是试不够。
当同一套框架、同一个开源模型,在完全不同的科学领域里都能打出成果时,这种通用性本身就已经说明了很多问题。
六、写在最后
这篇论文背后的Will实验室(宽德智能学习实验室)也值得一提。它由宽德投资(WizardQuant)孵化,目标不是做通用聊天机器人,而是要实现"超级科技助手"——一个能真正辅助甚至驱动科学发现和技术创新的AI系统。
他们同时在三条线发力:预训练基座模型、科研方法论、评估驱动的发现引擎。这种"全栈式"的投入力度,在国内的AI科研实验室中相当罕见。
SimpleTES只是这个宏大目标下的第一块拼图。当一支有资源、有耐心、有技术野心的团队,把"让AI学会做科研"当作十年级别的目标来投入的时候——后面的故事,可能比我们想象的来得更快。
论文项目主页:wizardquant.com/will/SimpleTES
代码开源:github.com/Wizard-Intelligence-Learning-Lab/SimpleTES
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)