AI 递归自我改进：Anthropic 联创预测 2028 年前有 60% 概率实现

NiceCloud喜云

593人浏览 · 2026-05-07 09:34:32

NiceCloud喜云 · 2026-05-07 09:34:32 发布

AI 递归自我改进：Anthropic 联创预测 2028 年前有 60% 概率实现

如果有一天，AI 能自主构建并改进更强大的 AI，而不再需要人类工程师介入——这个时刻会是什么感觉？

Anthropic 联合创始人 Jack Clark 给出了他的判断：到 2028 年底，这件事发生的概率是 60%。

这不是科幻小说里的情节设定，而是他基于数百份公开论文、能力基准测试数据，一条条推导出来的结论。
在这里插入图片描述

什么是递归自我改进（RSI）？

“递归自我改进”（Recursive Self-Improvement，RSI）的核心含义是：AI 系统能够自主地设计、训练和改进下一代 AI 系统，形成无需人类干预的自我迭代循环。

Clark 将其比作跨越"卢比孔河"——一旦越过，就进入了一个几乎无法用现有框架预测的未来。

这个概念听起来抽象，但他用具体数据把它拉回了现实。

数据说话：AI 能力正在加速突破

任务时长：四年提升 1440 倍

METR 的研究跟踪了 AI 能独立完成任务所需的时长（以 50% 成功率为基准）：

2022 年：约 30 秒
2026 年：约 12 小时
预测 2026 年底：可能突破 100 小时

四年内，这个数字从 30 秒跳到 12 小时，增长了 1440 倍。这意味着 AI 能够独立驾驭的任务复杂度，正在以惊人速度扩展。

SWE-Bench：从 2% 到 93.9%

SWE-Bench 测试 AI 解决真实 GitHub 问题的能力——这是软件工程中最贴近实际生产环境的基准之一：

时间	Claude 模型能力
2023 年底	2%
2026 年	93.9%

不到三年，这个基准几乎被彻底解决。

CORE-Bench：15 个月从 21.5% 到 95.5%

CORE-Bench 衡量 AI 复现论文实验结果的能力——这正是科研流程中最耗时的环节之一：

2024 年：最高准确率 21.5%
2025 年中：最高准确率 95.5%

15 个月，从勉强及格到接近完美。该基准已宣布"被解决"。

MLE-Bench：AI 参加 Kaggle 竞赛

MLE-Bench 让 AI 参与真实的机器学习竞赛（Kaggle），评估其在模型优化任务上的实战水平：

2024 年 10 月：最高得分 16.9%
2026 年 2 月：最高得分 64.4%

AI 优化训练代码：速度提升 52 倍

Anthropic 内部测试中，AI 优化小型语言模型训练代码的效率，在不到一年内从基准的 2.9 倍跃升至 52 倍。

这意味着 AI 已经能够有效地对"AI 训练本身"进行工程优化。

核心逻辑：99% 的工程即将自动化

在这里插入图片描述](https://i-blog.csdnimg.cn/direct/899405109d474bca9e01ed289c869540.png)

提供与官方 API 完全兼容的接入服务在这里插入图片描述](https://i-blog.csdnimg.cn/direct/13327fe047144c62813bc5e4fd58a310.png)

Clark 引用爱迪生的名言，将 AI 研究分为两部分：

1% 的灵感：真正开创性的思路，比如 Transformer 架构的提出
99% 的汗水：数据清洗、实验跑通、超参调整、论文复现……

他的判断是：AI 正在快速接管那 99% 的工程性工作。

有几个具体迹象支撑这一判断：

AI 充当项目经理：现有系统已能像 PM 一样调度多个 AI 子任务，分配工作并汇总结果。
PostTrainBench 的表现：在微调开源模型以提升性能的任务上，AI 已能达到人类研究员效果的约一半。
Anthropic 内部概念验证：在"自动化对齐研究"的实验中，AI 提出的方案甚至超过了人类研究员的基线。

一旦 AI 在那 1% 的"灵感"方面也取得突破，完整的"研究→改进→更强 AI"循环就会形成。

为什么是 60%，而不是更高？

Clark 的预测并非无条件乐观。他将概率区分为两个阶段：

2027 年底：30% 概率
2028 年底：60% 概率

他坦承，AI 目前在需要"创意直觉"的突破性研究上仍存在系统性缺口——那种真正提出新范式的能力，现有模型还不具备。

2027 年的 30% 反映的是"工程自动化基本完成但创意缺口未弥合"的情景；而 2028 年的 60%，则基于他对这一能力缺口有相当概率在那之前被填补的判断。

如果你正在评估如何将 Claude API 接入你的产品或工作流，ClaudeAPI.com 提供与官方 API 完全兼容的接入服务

质疑的声音也值得认真对待

公平起见，文章也梳理了几个反驳视角：

边际效益递减：AI 自我改进未必带来指数级增长，可能只是边际收益递减——在某些维度上越来越难再有突破。

定义模糊：目前学界对"递归自我改进"尚无权威的统一定义，不同人对"实现 RSI"的标准理解可能差异很大。

能力缺口：正如 Clark 自己承认的，现有 AI 在开创性研究上仍有明显不足。

这些质疑不是否定，而是提醒我们：预测这类拐点，本质上存在极大的不确定性。

更紧迫的问题：治理窗口正在关闭

技术层面的争论可以持续，但 Clark 更担心的是另一件事：我们没有多少时间了。

他警告：

如果 RSI 发生，现有的 AI 对齐技术在多代迭代后效果会急剧衰减
社会、研究界和政策层对此的讨论和准备还远远不够
OpenAI、Anthropic 以及专注于此方向的新公司（如 Recursive Superintelligence）正在全速推进

整个行业都在踩油门，而刹车系统还没造好。

对开发者意味着什么？

如果 Clark 的判断哪怕只有一半是对的，那么接下来几年的 AI 能力跃升，将是我们见过的最快的一次。

对于现在正在使用 Claude API 构建产品的开发者来说，这意味着：

今天构建的 AI 工作流，明天可能会被 AI 自动优化——把自动化能力内嵌进产品架构是值得认真思考的方向。
模型能力边界在快速移动——定期重新评估你的任务分配（哪些交给 AI，哪些留给人类）是必要的习惯。
复杂的多智能体协作正在变得可行——编排 AI 完成端到端研究或工程任务，不再只是实验室里的概念。

小结

Jack Clark 的预测不是末日论，也不是盲目乐观——它是一份基于数据推导的、带着明确不确定性区间的技术判断。

从 SWE-Bench 的 2% 到 93.9%，从 30 秒任务到 12 小时任务，从人工跑实验到 AI 自动优化训练代码……这些数字不是在预言未来，它们描述的是已经发生的现在。

2028 年还有两年半。无论 RSI 是否如期到来，AI 研发自动化的浪潮已经在路上了。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

第一次使用 Gemini 3.5 怎么玩？新手教程与 10 个实战提问盘点清单

AtomGit开源社区

2026八字排盘应用与命理软件功能对比：新手怎么选工具？

AtomGit开源社区

怎么用 AI 把产品图换成不同的场景背景？

AtomGit开源社区

所有评论(0)

查看更多评论

NiceCloud喜云

@Niceyun

已为社区贡献19条内容

AI 递归自我改进：Anthropic 联创预测 2028 年前有 60% 概率实现

NiceCloud喜云

AI 递归自我改进：Anthropic 联创预测 2028 年前有 60% 概率实现

什么是递归自我改进（RSI）？

数据说话：AI 能力正在加速突破

任务时长：四年提升 1440 倍

SWE-Bench：从 2% 到 93.9%

CORE-Bench：15 个月从 21.5% 到 95.5%

MLE-Bench：AI 参加 Kaggle 竞赛

AI 优化训练代码：速度提升 52 倍

核心逻辑：99% 的工程即将自动化

为什么是 60%，而不是更高？

质疑的声音也值得认真对待

更紧迫的问题：治理窗口正在关闭

对开发者意味着什么？

小结

所有评论(0)

温馨提示：您尚未绑定手机号

NiceCloud喜云