当AI开始“做科研“：从万名爱因斯坦到全自动实验室，人类还剩什么？

weixin_57908930

335人浏览 · 2026-03-23 11:40:12

weixin_57908930 · 2026-03-23 11:40:12 发布

快速摘要

核心结论（请先读这里）
① 哈佛理论物理学家Matthew Schwartz在2026年3月的美国物理学会全球峰会上公开断言：大型语言模型（LLM）的智能规模正以每年约10倍的速度指数级增长，并可能在5年内超越人类智能水平。他提出，借助AI增强，本世纪内可望催生"10000个爱因斯坦"，彻底重塑科研范式。
② OpenAI首席科学家Jakub Pachocki披露了该公司的"北极星"战略：计划于2026年9月前建成"自主AI研究实习生"，并在2028年完成多智能体全自动科研系统的部署，最终目标是让一个数据中心顶替一整支科研团队。
③ 对普通人而言，这场变革意味着什么？AI训练师、AI提示工程师、科研辅助岗位正在成为真实存在的职业窗口——而不是遥不可及的未来。
📖 往下看，有更详细的原理拆解、路线图解析与行动建议。

一、一场让物理学家坐不住的峰会

2026年3月，美国物理学会（APS）全球物理学峰会在科罗拉多州丹佛拉开帷幕。就在这座洛基山脚下的城市里，一场名为《驾驭AI革命：让你的科研生涯不被时代淘汰》的圆桌研讨会，挤满了慕名而来的年轻物理学家。会议长达三个小时，讨论的核心只有一个：AI到底会不会把物理学家这个职业送进历史博物馆？

这个问题的背景，是过去几年里AI在科学领域接连刷新人类认知的几次重大事件。DeepMind的AlphaFold几乎独力解决了困扰生物学界数十年的蛋白质折叠预测难题；AI系统在国际数学奥林匹克竞赛中的表现已超越绝大多数人类选手；代码生成工具让软件开发效率翻倍。物理学界的紧迫感，正是在这样的背景下积聚起来的。

会场上，哈佛大学理论物理学家Matthew Schwartz扮演了一个令人不安的"预言家"角色。

二、哈佛教授的"10000个爱因斯坦"究竟是什么逻辑？

2.1 那个让全场沉默的停顿

Schwartz在台上发言时，向台下抛出了一组对比：

大型语言模型的规模参数正以每年约10倍的速度指数级增长。然后他停顿了一下，在全场的笑声散去后，补完了那句话的后半段——

"而我们人类，并没有变得更聪明。"

这句话的杀伤力，不在于悲观，而在于它描述的是一个客观的物理事实：人类大脑的神经元数量、突触密度、信息处理带宽，受制于颅骨大小和生物进化速度，几乎是一个固定量。而硅基计算系统则不受这些约束——它可以堆算力、加参数、并行运算，理论上没有上限。

2.2 "正态分布曲线"的比喻

Schwartz用了一个很直观的概念框架来解释他的判断。如果把全人类的物理学才能画成一条正态分布曲线（钟形曲线），那么爱因斯坦代表的是这条曲线最右端那个极稀有的峰值。人类历史上，这样的人百年难得一遇。

但AI增强改变的，不是这条曲线的形状，而是整条曲线在"才能轴"上的位移。当AI把每一个普通研究者的认知能力放大十倍、百倍，整条曲线就会向右大幅平移——原本处于中间位置的研究者，其实际产出有可能超越今天最顶尖的天才。

他的结论因此变得清晰：借助AI增强，本世纪内产生10000个爱因斯坦，并非夸张，而是一种数学上合理的外推。

Matthew Schwartz本人是哈佛大学物理系教授，同时也是美国国家科学基金会（NSF）人工智能与基础相互作用研究院（IAIFI）的核心领导者。他长期研究量子场论与机器学习的交叉应用，对两个领域都有第一手的深刻认知，并非无的放矢。

2.3 人类大脑真的有"天花板"吗？

Schwartz提出了一个更深刻、也更让人不舒服的命题：人类的神经系统，或许根本无法理解某些终极问题。

他用的类比是：猫永远学不会下国际象棋，不是因为猫不够努力，而是因为猫的神经结构在进化上从来没有被"设计"来处理抽象规则系统。人类，对于某些高维度的物理问题，可能也面临同样的认知天花板。

比如"万物理论"（Theory of Everything）——这是物理学家几十年来梦寐以求的终极目标，试图用一套统一的数学框架描述所有基本力和基本粒子。弦理论、圈量子引力……每一个尝试都走到了人类数学直觉的极限边界。而机器可以在高维空间里直接操作、在内存中存储天文数字级别的中间变量、同时运行成千上万个并行假设——这些恰恰是人类大脑做不到的事情。

三、DeepMind工程师的"反击"：人类还有最后的阵地

3.1 谷歌DeepMind的Ginsberg怎么说

Schwartz发言结束后，谷歌DeepMind工程师Matthew Ginsberg随即发表了截然不同的观点。值得注意的是，这位来自顶级AI实验室的工程师，反而是当天最坚定的"人类价值捍卫者"。

Ginsberg的核心论点是：LLM的本质是生成"基于共识"的答案，而真正的科学突破，从来都是反共识的。

他说，伟大的物理学家的核心价值，不是回答问题，而是提出正确的问题。爱因斯坦最天才的地方，不是他解出了光速不变下的运动方程，而是他在19世纪末那个"一切物理学都已大功告成"的氛围里，看到了经典力学框架本身的裂缝，并决定去追问那条裂缝。

Ginsberg认为，这种"提出非共识问题"的能力，至少目前还完全是人类的领域。他的原话大意是："提出好问题是物理学家的本质所在，这一点目前100%属于我们。"

3.2 双方达成了什么共识？

然而，让人略感不安的是，尽管观点对立，Schwartz和Ginsberg最终在一点上达成了共识：AI可能在十年内就能学会"提出好问题"。

这意味着，人类在科学图谱上最后的一块领地——品味、创造力、提问能力——也许不是永久性的护城河，只是一段尚未被填平的时间差。

在这场三小时的激辩收尾时，四位与会专家总结出的人类"底牌"只剩三张：品味、创造力、提问能力。而这三张牌，可能都有10年的保质期。

四、OpenAI的"北极星"计划：2028年，AI接管实验室

就在APS峰会热议期间，《麻省理工科技评论》披露了OpenAI内部一份极具野心的战略路线图。OpenAI首席科学家Jakub Pachocki将其称为公司未来几年的"北极星"（North Star）目标：构建一个能够独立攻克复杂科学难题的全自动"AI科学家"系统。

4.1 三阶段路线图详解

根据Pachocki的描述，这条路线图分为三个清晰的阶段：

第一阶段：自主AI研究实习生（2026年9月前）

这个阶段的目标，是打造一个能够在特定研究领域内闭环处理科研任务的自主Agent。所谓"闭环"，意味着它可以在没有人类逐步介入的情况下，独立完成数天量级的研究任务——从分析文献，到设计实验方案，到运行模型，到整理结果报告，全流程自主执行。

Pachocki的原话是："我们真正想要的'自动化研究实习生'，是一个你可以把任务交给它、而这个任务通常需要一个人花几天时间来完成的系统。"

第二阶段：多智能体研究实验室（2028年）

这是一个更宏大的愿景。OpenAI计划在数据中心里部署多个协同工作的AI Agent，它们将通过分工协作，覆盖从理论构想到实验验证的完整科研流程。每个Agent负责不同的子任务——有的负责文献综述，有的负责假设生成，有的负责实验设计，有的负责数据分析和迭代优化。

这个阶段的目标，是让AI系统能够独立参与数学、物理、生物、化学，乃至经济学和政策研究等多个学科的复杂问题攻关。

第三阶段：通用科学智能（长期目标）

打造具备"合格研究员"身份的通用科学智能——一个可以独立承担大型科研课题、具有完整研究能力的AI实体。Pachocki称，届时"一整个研究实验室可以装进一个数据中心"。

┌────────────────────────────────────────────────────────────────┐
│              OpenAI "北极星" AI科研自动化路线图                    │
├─────────────┬──────────────────────┬──────────────────────────┤
│   阶段       │   时间节点            │   核心能力目标             │
├─────────────┼──────────────────────┼──────────────────────────┤
│ 第一阶段     │ 2026年9月前           │ 自主AI研究实习生           │
│             │                      │ 独立完成数天量级科研任务    │
├─────────────┼──────────────────────┼──────────────────────────┤
│ 第二阶段     │ 2028年               │ 多智能体研究实验室          │
│             │                      │ 多Agent协作全流程闭环科研   │
├─────────────┼──────────────────────┼──────────────────────────┤
│ 第三阶段     │ 长期                 │ 通用科学智能               │
│             │                      │ 数据中心 = 完整研究实验室   │
└─────────────┴──────────────────────┴──────────────────────────┘

4.2 Codex：这一切的起点

理解OpenAI这条路线图，需要先认识一个名叫Codex的工具。2026年1月，OpenAI发布了Codex——一个基于Agent架构的编程工具，能够实时生成并执行代码，完成文档分析、数据可视化、邮件摘要等复杂任务。

目前，OpenAI内部大多数技术人员已经在日常工作中使用Codex。Pachocki自己的感受颇具代表性：他说，一年前他还是Vim的忠实用户，坚持逐字手写代码，拒绝任何自动补全工具——因为他对代码质量有近乎洁癖的执念。但最新一代模型的进化让他彻底改变了看法。过去需要一周才能跑完的代码实验，现在可以在一个周末内完成。他感慨："效率已经无懈可击。"

Pachocki将Codex称为"AI科研系统的早期版本"，是整条路线图的概念验证（Proof of Concept）。

4.3 安全机制：思维链监控

任何一个能够在数据中心里自主运行数周、数月的AI系统，都会带来不可忽视的安全风险。Pachocki对此并不回避。他说："如果AI如此聪明、如此能干，如果它能独立运行一整个研究项目，那如果它做了什么不好的事情呢？"

OpenAI目前的主要安全机制是思维链监控（Chain-of-Thought Monitoring）——训练模型在一个类似"草稿本"的内部空间里记录自己的推理过程，使人类可以追踪和审查AI的决策逻辑，而不只是看到输出结果。

同时，系统还引入了沙盒隔离机制，将AI的操作权限限制在受控环境内，防止其对真实系统产生意外影响。

当然，Pachocki也坦承，思维链监控并不是一个完整的解决方案——它只是目前最可行的一道防线。

五、"Vibe Physics"：AI正在改变物理学的工作方式

APS峰会上出现了一个有趣的新词："Vibe Physics"（感觉物理学）。

这个词的背景，是越来越多的物理学家开始用一种新的方式和AI协作：他们不再需要从零开始推导每一步数学，而是先给出一个模糊的物理直觉或研究方向，由AI快速生成候选方案、草拟推导框架、过滤掉明显不合理的路径，然后由人类研究者基于自身专业判断进行筛选和深化。

这种工作模式，在某种程度上类似于"软件开发中的Vibe Coding"——开发者描述想要什么，AI生成代码原型，开发者再调试优化。类比到物理学：研究者描述想要解决什么问题，AI生成理论框架草稿，研究者再审核修正。

xAI联合创始人Igor Babuschkin也持类似观点：他认为，LLM在构建新理论方面超越人类物理学家是迟早的事，而"理论物理学的下一个重大突破，极有可能来自某人给模型发送的一条提示词（prompt）"。

这不是科幻，这是正在发生的现实转变。

六、我的亲身经历：在节点云考人工智能训练师那件事

说到AI带来的职业变革，我想插进来聊一件身边的事。

去年，我在黑龙江节点云计算科技公司参与了一期人工智能训练师职业技能等级认定考试的备考过程。这个资格证书由人力资源和社会保障部（人社部）备案的第三方评价机构颁发，属于国家职业技能等级证书体系，全国通用，终身有效，可以通过OSTA（技能人才评价证书全国联网查询系统）核验真伪。

当时之所以去考，其实很大程度上是带着一种好奇心——这个叫"人工智能训练师"的职业，到底在干什么？和我印象里"标注员点图片"的认知是一回事吗？

备考过程让我重新认识了这个职业的内涵。按照人社部2022年版的《国家职业技能标准》，人工智能训练师的正式定义是："使用智能训练软件，在人工智能产品实际使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员。"

这个定义比"数据标注员"要宽泛得多。高级别的训练师需要参与模型训练方案的设计、人机交互流程的规划，以及智能系统的运维与优化。

考试分为理论知识（120分钟机考）和技能操作（90分钟）两部分，两科各满分100分，均达60分方为通过。理论部分涵盖AI基础理论、数据处理知识、算法原理和职业道德；实操部分则要求完成数据清洗、标注方案设计、模型训练参数设置等实际任务。

整个过程走下来，我最深的感受是：这个行业的门槛，比外界想象的要低，但天花板，比外界想象的要高得多。初级（五级）几乎零门槛，16岁以上有意愿就能报考；但到了高级技师（一级）层次，你需要的是多年实操经验与系统的工程能力。

这件事让我意识到，当哈佛教授们在台上讨论AI是否会取代物理学家时，对于大多数普通人而言，更现实的问题是：在AI重构科研和产业的浪潮里，主动参与这个过程，和被动等待被改变，结果是完全不同的。

七、从"辅助工具"到"自主主体"：AI科研能力的技术演进逻辑

很多人听到"AI五年内超越人类智能"这类表述，第一反应是"这又是在炒作"。但如果你了解推动这一进程的底层技术逻辑，就会发现这个判断并不是空穴来风。

7.1 规模定律（Scaling Laws）

大型语言模型的核心经验规律之一，是著名的"规模定律"：模型的能力（以基准测试成绩衡量）与参数量、训练数据量、计算量之间存在稳定的幂律关系。简单说，烧更多算力、用更多数据、堆更大模型，AI就会变得更聪明——而且这个规律至今没有明显的终止迹象。

每年投入AI训练的计算量大约以10倍的速度增长，这正是Schwartz说"LLM智力每年提升10倍"的数据基础（尽管"智力"是一个有争议的表述）。

7.2 推理模型（Reasoning Models）的突破

2024年起，一类被称为"推理模型"的新架构开始在科学任务上展现出质的飞跃。这类模型的训练方式，是让AI系统在给出答案之前，先经历一个逐步推演的"思考过程"——遇到死路就回溯，遇到歧义就分叉探索，直到找到最可靠的路径再输出结果。

这种机制让模型能够处理时间跨度更长、步骤更多的复杂任务。GPT-3时代的模型只能处理几十秒内能完成的任务；GPT-4时代已经可以处理持续数小时的复杂问题；而下一代推理模型的目标，是在无需人工介入的情况下，维持数天甚至数周的连贯科研推进。

7.3 多智能体协作（Multi-Agent Architecture）

单一模型的能力是有上限的，但多个模型的协同理论上没有上限。多智能体架构让不同专长的AI可以并行工作、相互检验、分工协作，就像一个团队里不同角色的研究者一起攻克一个大型项目。

OpenAI 2028年的目标，正是要在这个架构上实现全学科的科研自动化闭环。

7.4 长上下文与任务持续性

AI做科研的一个关键障碍是"记忆长度"。早期的LLM只能在几百个词的窗口内保持连贯，超出就会"忘事"。但随着长上下文训练技术的进步，当前模型已经可以处理数十万甚至百万量级的token——相当于同时读取几百篇论文并保持内部逻辑的一致性。

而通过专门设计的复杂任务训练（如数学竞赛题、编程马拉松题），模型逐渐学会了如何将一个大问题分解成若干子任务、在多个并行线程中管理进度、并在遇到阻塞时主动回溯或寻求新路径。这些能力，是自主科研的基础。

八、这件事对普通人意味着什么？

让我们把视角从哈佛的讲台和OpenAI的数据中心拉回到日常生活。

这场AI科研革命，对大多数普通人的直接影响，可能并不是"某天突然被AI取代"，而是一个更缓慢、更具体的过程：你所在行业的工作内容，会逐渐发生结构性的变化。

有几个值得关注的趋势：

科研辅助岗位正在扩张。 无论是AI训练师、提示词工程师（Prompt Engineer），还是AI应用开发者，这些围绕AI能力边界工作的岗位，需求量在快速增长。人社部已将人工智能训练师列入国家职业技能等级认定体系，正是这一趋势的官方信号。
"懂AI"正在成为各行各业的基础能力。 就像十年前"懂Excel"曾经是职场加分项，今天"能熟练用AI辅助工作"已经开始成为许多岗位的默认要求。医学、法律、教育、金融……每个行业里都在出现"把AI工具用得特别好的那类人"，而这类人往往比纯技术人员更快获得认可，因为他们同时具备领域知识和AI协作能力。
提问能力比以往任何时候都重要。 这一点，和Ginsberg在APS峰会上的论断不谋而合。当AI能够高效执行你给出的指令，"知道该提什么问题"就变成了整个流程里最不可替代的那个环节。批判性思维、对问题本质的洞察、对研究方向的品味判断——这些"软能力"，正在变成硬门槛。
专注细分领域的深度，仍然是护城河。 AI是个"样样能做、样样不精"的通才。在任何一个需要深度专业判断的领域，人类专家与AI的最佳合作模式，是由人类提供领域内的精准标准和价值判断，由AI完成繁重的计算和信息处理。换句话说，你越懂某个具体领域，你和AI配合的效果就越好。