AI Agent 不再是提线木偶:CORAL 让多智能体自主进化,性能提升10倍

对于许多科学与工程领域的开放式问题——例如,为复杂的物流系统找到最优调度启发式算法,或为特定硬件编写最高效的计算内核——我们往往没有标准答案。唯一的路径是通过不断的提出、测试、修正,在迭代循环中探索更好的解决方案。近年来,以 FunSearch、AlphaEvolve 为代表的、基于大语言模型(LLM)的进化式搜索方法在这一领域取得了显著进展。它们将 LLM 作为“变异算子”,嵌入到一个由评估器引导的进化循环中,展现了强大的问题解决潜力。
ArXiv URL:http://arxiv.org/abs/2604.01658v1
然而,这些现有的方法在很大程度上依赖于固定的启发式规则和硬编码的探索策略。LLM 在其中更像一个被动的“提线木偶”:它根据外部算法选定的“父代”方案生成新的候选方案,但对于整个探索过程中的关键决策——比如应该关注哪些历史经验、何时验证中间结果、如何从失败中学习、以及哪些知识值得被提炼和复用——它几乎没有发言权。这种僵化的控制流程限制了 AI Agent 的自主性,也使得多 Agent 之间的协作难以超越预设的、固化的分工模式。
为了打破这一瓶颈,来自 Amazon、MIT、Meta、微软等多个顶尖机构的研究者们提出了 CORAL(COllaborative Reflective Agent Learning),一个为开放式问题设计的自主多智能体进化框架。CORAL 的核心思想是将进化过程的控制权从外部的固定算法交还给 Agent 本身。它用能够长期运行、自主探索、反思和协作的 Agent 取代了僵化的控制逻辑。实验结果极为亮眼:在11项数学、算法和系统优化任务中,单 Agent 版本的 CORAL 就全面超越了此前的最优固定进化搜索基准,并在其中8项任务上创造了新的技术水平(SOTA),将问题改进速率提升了3到10倍,同时评估次数也大幅减少。而在更具挑战性的多 Agent 协同进化设置下,4个 CORAL Agent 联手将 Anthropic 公布的内核工程任务的最佳性能分从1363个时钟周期优化到了1103个周期,取得了惊人的进展。
从“固定进化”到“自主进化”:范式的根本转变
要理解 CORAL 的创新之处,我们首先需要厘清它所挑战的“固定进化搜索”(Fixed Evolutionary Search)范式。如下图所示,这类方法通常遵循一个严格的循环:
-
检索(Retrieve):根据预设规则(如选择得分最高的方案)从内存中挑选“父代”。
-
提议(Propose):LLM 基于“父代”方案生成一个新的“子代”候选方案。
-
评估(Evaluate):外部评估器对新方案打分。
-
更新(Update):根据预设规则将新方案及其得分存入内存。

图1: CORAL 框架概览。自主 Agent 在隔离的工作区中运行,迭代地提出和评估候选方案,并通过一个中心枢纽(Hub)将成果(尝试、笔记、技能)积累到共享的持久化内存中。基于心跳机制的周期性反思帮助 Agent 巩固发现,并在长期探索中重新定向。
在这个流程中,LLM 的角色被严格限定在第二步,它只是一个强大的“代码突变”工具。而决定整个搜索方向的策略,例如如何平衡“探索”(Exploitation)与“利用”(Exploitation)、如何应对搜索停滞,都是由人类专家预先设计并固化的。这种模式虽然有效,但其上限被人类设计的启发式规则所束缚。
CORAL 提出的“自主进化”(Autonomous Evolution)范式则彻底改变了游戏规则。它将 LLM 从一个被动的执行者提升为一个主动的决策者。在 CORAL 框架下,Agent 拥有了对整个进化循环的控制权。它不再盲目地接受指令,而是可以自主决定:
-
要研究哪些过往的尝试? 是借鉴最高分的成功案例,还是分析某个有潜力的失败尝试?
-
下一步的探索方向是什么? 是对现有最佳方案进行微调,还是彻底推倒重来,尝试一个全新的思路?
-
何时应该进行评估? 是每一步微小的改动都提交评估,还是在本地进行充分的验证和迭代,直到有足够信心再调用昂贵的评估器?
-
哪些知识需要被记录和沉淀? 除了代码本身,探索过程中的思考、观察和总结是否也应该被记录下来,以备后续参考或与其他 Agent 共享?
通过将这些关键决策委托给 Agent,CORAL 旨在释放 LLM 的全部潜力,让其从一个单纯的方案生成器,转变为一个能够进行长期规划、自我反思和持续学习的“自主研究员”。
CORAL 的核心机制:支撑自主与协作的三大支柱
为了实现上述的“自主进化”愿景,CORAL 设计了三大核心机制,共同构成了一个既能支持单个 Agent 长期自主探索,又能促进多个 Agent 高效协作的强大系统。
1. 共享的持久化内存(Shared Persistent Memory)
这是 CORAL 的协作基石,可以被看作是所有 Agent 共享的“中央知识库”或“集体实验室笔记”。它被设计成一个文件系统结构,易于扩展和维护。Agent 可以通过类似 Git 的命令行工具与这个共享内存交互,进行知识的存入(commit)和取出(checkout)。为了引导 Agent 进行结构化的知识积累,该内存被预设为三个核心目录:
-
尝试(Attempts):存放所有被评估过的候选方案及其得分和评估反馈。这是最原始、最直接的经验数据。
-
笔记(Notes):Agent 在探索过程中记录的任何思考、观察、分析或假设。例如,“我发现增加 X 参数似乎对性能有正面影响,但会导致 Y 指标下降”,或者“方案 A 和方案 B 的核心差异在于数据结构的选择,这可能是性能差距的关键”。这些笔记是 Agent 进行反思和形成洞察的载体。
-
技能(Skills):从多次尝试和笔记中提炼出的、可复用的代码片段、函数或通用方法论。例如,一个被证明行之有效的优化技巧可以被封装成一个“技能”,供自己或其他 Agent 在未来的探索中直接调用。
这种设计使得知识的积累和传递变得有机和异步。一个 Agent 的发现可以被另一个 Agent 看到并借鉴,而不需要任何硬编码的通信协议。这种“思想的自由市场”促进了优秀策略的自然扩散。
2. 基于心跳的干预机制(Heartbeat-based Interventions)
完全的自由也可能导致混乱或停滞。为了确保 Agent 在拥有高度自主性的同时,仍能保持探索的效率和方向感,CORAL 引入了一套巧妙的“心跳”机制。它像一个内置的节拍器,在 Agent 的长期运行中周期性地触发反思和调整。
-
迭代反思心跳(Per-iteration reflection heartbeat):每次尝试后触发,鼓励 Agent 及时记录当下的观察和思考,形成“笔记”。这确保了“灵感”不会被遗忘。
-
周期性巩固心跳(Periodic consolidation heartbeat):在固定次数的尝试(例如每10次)后触发,促使 Agent 停下来进行更深度的复盘。它会回顾近期的工作,整理和提炼“笔记”,并尝试将其中有价值的部分升华为可复用的“技能”。
-
停滞重定向心跳(Stagnation-triggered redirection heartbeat):当 Agent 在连续多次尝试中都未能提升最佳分数时触发。这会引导 Agent 对当前策略进行批判性审视,决定是继续坚持、调整方向,还是彻底放弃当前路径,另辟蹊径。
这套心跳机制是 CORAL 实现长期自主探索的关键。它为 Agent 提供了一种内置的“元认知”能力,有效地平衡了专注的局部搜索和灵活的全局策略调整,避免了在某个局部最优解上“钻牛角尖”。
3. 异步多智能体执行(Asynchronous Multi-Agent Execution)
在多 Agent 模式下,CORAL 为每个 Agent 提供一个隔离的工作区(Workspace),让它们可以并行地、互不干扰地进行探索。它们之间的唯一连接就是共享的持久化内存。这种架构带来了极大的灵活性和可扩展性,并催生出复杂的“涌现”行为:
-
技术扩散:一个 Agent 发现的有效“技能”或优化思路,会被其他 Agent 在查阅共享内存时发现并采纳,从而在整个群体中快速传播。
-
自发共识:当多个 Agent 独立地发现并验证了某个相似的解决方案时,它们会在共享内存中留下痕迹。这会形成一种事实上的“共识”,强化了对该方案有效性的信心。
-
交叉引用:一个 Agent 可以在自己的“笔记”中引用另一个 Agent 的“尝试”或“笔记”,形成复杂的知识关联网络,共同构建对问题更深层次的理解。
这些都不是预先编程的行为,而是多 Agent 在自主探索和共享知识的过程中自然产生的。这正是 CORAL “水平扩展”能力的体现,即通过增加更多并行的探索者来扩大搜索的广度和深度。
实验结果:自主与协作的压倒性优势
CORAL 的设计理念听起来颇具吸引力,但它在实践中的效果如何?研究者们在一系列涵盖数学优化、算法设计和系统优化的基准测试和高难度“压力测试”中,对 CORAL 进行了全面的评估。
单 Agent 已足够强大,自主性是关键
首先,研究者将单 Agent 版本的 CORAL 与当前最强的固定进化搜索基准(如 EvoX)进行了对比。结果显示,CORAL 在全部11项任务上都取得了最佳的最终分数,并在其中8项任务上刷新了已知的 SOTA 记录。更重要的是效率上的巨大差异:CORAL 的平均改进率比基准方法高出3到10倍,并且通常在5到20次评估内就能收敛,而基准方法则需要60到100次。

表1: 单 Agent CORAL 与固定进化搜索基准的对比。CORAL 在所有11项任务中均取得最佳最终分数,并在8项任务上创造了新的SOTA。青色单元格表示超越了之前的SOTA。
这一结果有力地证明了“自主性”的价值。固定搜索方法由于其僵化的策略,会浪费大量评估次数在低质量的候选方案上。而 CORAL Agent 能够基于对历史尝试的分析和反馈,做出更明智的探索决策,从而将计算资源集中在更有希望的方向上。
多 Agent 协作突破单体智能的瓶颈
如果说单 Agent 的自主性已经足够令人印象深刻,那么多 Agent 的协同进化则将性能推向了新的高度。在与单 Agent CORAL 的对比中,4个 Agent 协同进化的版本在大多数任务上都取得了更好的最终分数。
这种优势在两个极具挑战性的“压力测试”问题上体现得尤为明显:
-
内核工程任务:这是一个为特定 VLIW SIMD 架构优化树遍历算法的任务,官方公布的最佳结果是1363个时钟周期。单 Agent CORAL 已经能取得不错的成绩,但最终会陷入平台期。而4-Agent 的协同进化则成功突破了这一瓶颈,最终将性能优化到了惊人的1103个周期,实现了18.3%的性能提升。值得注意的是,所有4个 Agent 都独立地达到了这个最佳分数,显示了知识在群体中的高效传播。
-
多联骨牌填充问题(Polyominoes Packing):这是一个来自 Frontier-CS 基准测试的 NP-hard 问题。多 Agent 协作同样取得了比单 Agent 更好的成绩,将填充率提升了5%。
为了验证这种增益并非仅仅来自更多的计算量(即并行运行4次独立实验取最优),研究者进行了一项关键的消融实验:他们将4-Agent 协同进化的结果与4个独立运行的单 Agent 实验的最好结果(Best-of-4)进行比较。结果显示,协同进化的表现显著优于“独立探索+择优”,这证明了 Agent 之间的协作与知识共享是带来性能突破的关键,而非简单的“人多力量大”。

表2: 协同进化与独立运行的消融研究。在所有任务上,4-Agent 协同进化(Co-evolution)的结果都优于4个独立单 Agent 运行的最好结果(Independent Best),证明了协作的价值。
结论与展望
CORAL 的出现,标志着我们利用 AI 解决开放式问题的方式可能正在迎来一个重要的转折点。它清晰地证明了,将 LLM 从一个被动的“变异算子”解放出来,赋予其成为一个能够自主探索、反思和协作的 Agent,能够极大地提升解决复杂问题的能力和效率。
这项工作最重要的贡献在于:
-
提出了一个新的范式:明确区分了“固定进化搜索”与“自主多智能体进化”,并指明了后者作为未来方向的巨大潜力。
-
提供了一个可行的框架:通过共享持久化内存、心跳干预和异步执行等机制,CORAL 为构建此类自主系统提供了一个坚实且可扩展的基础设施。
-
展示了令人信服的实证结果:在广泛的任务上,CORAL 不仅大幅超越了现有方法,而且通过深入分析揭示了自主性和协作性是其成功的关键驱动力。
更广泛地看,CORAL 的思想与近期 AI 领域的一些前沿探索不谋而合。我们正在看到越来越多的研究开始关注如何构建能够进行长期、迭代式学习和知识积累的 AI 系统。这些系统不再满足于一次性地给出答案,而是被设计成能够像人类科学家或工程师一样,通过与环境的持续互动来逐步逼近问题的最优解。
当然,这种强大的自主性也带来了新的挑战,涉及对系统行为的控制、资源管理以及结果的可解释性等方面。但无论如何,CORAL 已经为我们描绘了一幅激动人心的蓝图:一个由多个自主 AI Agent 组成的“虚拟研究团队”,它们分工协作、共享洞见、彼此启发,共同向着人类尚未解决的科学和工程难题发起冲击。这或许就是开放式探索的未来。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)