AI 递归自我改进:Anthropic 联创预测 2028 年前有 60% 概率实现

如果有一天,AI 能自主构建并改进更强大的 AI,而不再需要人类工程师介入——这个时刻会是什么感觉?

Anthropic 联合创始人 Jack Clark 给出了他的判断:到 2028 年底,这件事发生的概率是 60%。

这不是科幻小说里的情节设定,而是他基于数百份公开论文、能力基准测试数据,一条条推导出来的结论。
在这里插入图片描述


什么是递归自我改进(RSI)?

“递归自我改进”(Recursive Self-Improvement,RSI)的核心含义是:AI 系统能够自主地设计、训练和改进下一代 AI 系统,形成无需人类干预的自我迭代循环。

Clark 将其比作跨越"卢比孔河"——一旦越过,就进入了一个几乎无法用现有框架预测的未来。

这个概念听起来抽象,但他用具体数据把它拉回了现实。


数据说话:AI 能力正在加速突破

任务时长:四年提升 1440 倍

METR 的研究跟踪了 AI 能独立完成任务所需的时长(以 50% 成功率为基准):

  • 2022 年:约 30 秒
  • 2026 年:约 12 小时
  • 预测 2026 年底:可能突破 100 小时

四年内,这个数字从 30 秒跳到 12 小时,增长了 1440 倍。这意味着 AI 能够独立驾驭的任务复杂度,正在以惊人速度扩展。

SWE-Bench:从 2% 到 93.9%

SWE-Bench 测试 AI 解决真实 GitHub 问题的能力——这是软件工程中最贴近实际生产环境的基准之一:

时间 Claude 模型能力
2023 年底 2%
2026 年 93.9%

不到三年,这个基准几乎被彻底解决。

CORE-Bench:15 个月从 21.5% 到 95.5%

CORE-Bench 衡量 AI 复现论文实验结果的能力——这正是科研流程中最耗时的环节之一:

  • 2024 年:最高准确率 21.5%
  • 2025 年中:最高准确率 95.5%

15 个月,从勉强及格到接近完美。该基准已宣布"被解决"。

MLE-Bench:AI 参加 Kaggle 竞赛

MLE-Bench 让 AI 参与真实的机器学习竞赛(Kaggle),评估其在模型优化任务上的实战水平:

  • 2024 年 10 月:最高得分 16.9%
  • 2026 年 2 月:最高得分 64.4%

AI 优化训练代码:速度提升 52 倍

Anthropic 内部测试中,AI 优化小型语言模型训练代码的效率,在不到一年内从基准的 2.9 倍跃升至 52 倍

这意味着 AI 已经能够有效地对"AI 训练本身"进行工程优化。


核心逻辑:99% 的工程即将自动化

在这里插入图片描述](https://i-blog.csdnimg.cn/direct/899405109d474bca9e01ed289c869540.png)

提供与官方 API 完全兼容的接入服务在这里插入图片描述](https://i-blog.csdnimg.cn/direct/13327fe047144c62813bc5e4fd58a310.png)

Clark 引用爱迪生的名言,将 AI 研究分为两部分:

  • 1% 的灵感:真正开创性的思路,比如 Transformer 架构的提出
  • 99% 的汗水:数据清洗、实验跑通、超参调整、论文复现……

他的判断是:AI 正在快速接管那 99% 的工程性工作。

有几个具体迹象支撑这一判断:

  1. AI 充当项目经理:现有系统已能像 PM 一样调度多个 AI 子任务,分配工作并汇总结果。
  2. PostTrainBench 的表现:在微调开源模型以提升性能的任务上,AI 已能达到人类研究员效果的约一半。
  3. Anthropic 内部概念验证:在"自动化对齐研究"的实验中,AI 提出的方案甚至超过了人类研究员的基线。

一旦 AI 在那 1% 的"灵感"方面也取得突破,完整的"研究→改进→更强 AI"循环就会形成。


为什么是 60%,而不是更高?

Clark 的预测并非无条件乐观。他将概率区分为两个阶段:

  • 2027 年底:30% 概率
  • 2028 年底:60% 概率

他坦承,AI 目前在需要"创意直觉"的突破性研究上仍存在系统性缺口——那种真正提出新范式的能力,现有模型还不具备。

2027 年的 30% 反映的是"工程自动化基本完成但创意缺口未弥合"的情景;而 2028 年的 60%,则基于他对这一能力缺口有相当概率在那之前被填补的判断。


如果你正在评估如何将 Claude API 接入你的产品或工作流,ClaudeAPI.com 提供与官方 API 完全兼容的接入服务

质疑的声音也值得认真对待

公平起见,文章也梳理了几个反驳视角:

边际效益递减:AI 自我改进未必带来指数级增长,可能只是边际收益递减——在某些维度上越来越难再有突破。

定义模糊:目前学界对"递归自我改进"尚无权威的统一定义,不同人对"实现 RSI"的标准理解可能差异很大。

能力缺口:正如 Clark 自己承认的,现有 AI 在开创性研究上仍有明显不足。

这些质疑不是否定,而是提醒我们:预测这类拐点,本质上存在极大的不确定性。


更紧迫的问题:治理窗口正在关闭

技术层面的争论可以持续,但 Clark 更担心的是另一件事:我们没有多少时间了

他警告:

  • 如果 RSI 发生,现有的 AI 对齐技术在多代迭代后效果会急剧衰减
  • 社会、研究界和政策层对此的讨论和准备还远远不够
  • OpenAI、Anthropic 以及专注于此方向的新公司(如 Recursive Superintelligence)正在全速推进

整个行业都在踩油门,而刹车系统还没造好。


对开发者意味着什么?

如果 Clark 的判断哪怕只有一半是对的,那么接下来几年的 AI 能力跃升,将是我们见过的最快的一次。

对于现在正在使用 Claude API 构建产品的开发者来说,这意味着:

  1. 今天构建的 AI 工作流,明天可能会被 AI 自动优化——把自动化能力内嵌进产品架构是值得认真思考的方向。
  2. 模型能力边界在快速移动——定期重新评估你的任务分配(哪些交给 AI,哪些留给人类)是必要的习惯。
  3. 复杂的多智能体协作正在变得可行——编排 AI 完成端到端研究或工程任务,不再只是实验室里的概念。

小结

Jack Clark 的预测不是末日论,也不是盲目乐观——它是一份基于数据推导的、带着明确不确定性区间的技术判断。

从 SWE-Bench 的 2% 到 93.9%,从 30 秒任务到 12 小时任务,从人工跑实验到 AI 自动优化训练代码……这些数字不是在预言未来,它们描述的是已经发生的现在。

2028 年还有两年半。无论 RSI 是否如期到来,AI 研发自动化的浪潮已经在路上了。


Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐