CORAL:面向开放探索的自主多智能体进化框架

深度2026年4月2日25 分钟阅读
CORAL框架首次实现了完全自主的多智能体进化系统,四个协同进化智能体将Anthropic内核工程任务的最佳成绩从1363周期提升至1103周期。人工智能研究者、复杂系统工程师和自动化发现领域从业者应关注这一突破性进展。

1 引言

许多重要的科学问题并不存在标准答案(Mang 等人,2025)。物流问题的最佳启发式算法是什么(Chen 等人,2025;Zheng 等人,2026)?如何编写最高效的计算内核(Ouyang 等人,2025a)?在这些场景中,目标明确,但最优解未知。因此,一次性生成是不够的。强大的解决方案必须通过迭代的提出、测试、修订以及随时间推移的持续进步来发现。

近期由大语言模型(LLM)驱动的智能体(agent)进展,使得这一范式日益有效。FunSearch(Romera-Paredes 等人,2024)、AlphaEvolve(Novikov 等人,2025)等系统(Lange 等人,2025;Agrawal 等人,2025;Cemri 等人,2026)表明,LLM 可以被嵌入到由评估器引导的进化搜索循环中,用于开放式发现。这些方法并非试图一次性解决问题,而是将 LLM 置于一个外层搜索流程中:模型基于先前的高分解决方案提出候选程序,外部评估器根据特定任务目标执行并评估这些候选方案,而预设的进化算法则负责父代选择和种群更新。这种基于 LLM 的进化方法已在数学发现、算法设计和系统优化任务中被证明是有效的。

图1:三种基于LLM的开放式发现范式对比。

然而,目前的进展主要依赖于固定的进化搜索,其中关键的搜索决策独立于智能体,包括:检查并基于哪些父代解决方案进行构建、何时运行中间测试、以及将哪些知识外部化以供后续复用。对于具有挑战性的开放式问题,这些选择是进化算法的组成部分,并可能显著影响性能。这自然引出了以下问题:如果将进化算法的更多部分委托给自主智能体,能否产生更强的性能?

这些策略的僵化性在多智能体系统中被进一步放大。现有研究大多依赖垂直扩展:人类分解任务、分配专门角色并定义固定的通信结构(Hong 等人,2024;Li 等人,2023;Wu 等人,2024)。虽然这种范式已经催生了如 Sakana AI 的 AI Scientist(Lu 等人,2024)和 Google 的 AI Co-Scientist(Gottweis 等人,2025)等强大系统,但它假设最优的任务分解和交互拓扑是预先已知的。对于开放式问题,这一假设具有局限性。这引出了更深层次的问题:多个自主智能体能否通过水平并行性更有效地扩展,即并行探索、交换发现并随时间推移相互借鉴成果? 图1展示了这三种范式的演进过程。

作为迈向这一新范式的关键一步,我们提出了 CORAL,一个用于开放式问题的自主多智能体进化框架。CORAL 将决策权从固定算法转移到智能体自身,并辅以一个用于持续进化的共享持久化记忆。智能体通过以笔记和可复用技能的形式,从集体知识库中检索、贡献和提炼知识,来迭代优化解决方案。通过引入用于周期性反思和方向调整的心跳机制,CORAL 确保了鲁棒的探索和知识积累,提供了一个与多种智能体实现兼容的任务无关架构。

在实证评估中,CORAL 在 1111 项数学和系统优化任务中的 88 项上建立了新的 SOTA,其改进率是固定进化搜索基线的 $2.5\times$,且评估次数减少了 $10\times$。在压力测试“内核工程”任务中,四个协同进化的智能体将得分从 $1,363$ 个周期提升至 $1,103$ 个周期(提升了 $20%$),超越了先前的最佳结果。消融研究证实,智能体自主性和多智能体进化都对这一增益有所贡献。

我们的贡献有三方面。第一,我们将自主进化阐述为开放式发现的一个独特范式,并将自主单智能体/多智能体进化与此前固定的进化搜索区分开来。第二,我们提出了 CORAL 框架,它通过共享持久化记忆、异步多智能体组织以及基于心跳的干预来实现长程搜索。第三,在数学、算法和系统优化任务中,我们证明 CORAL 显著优于固定的进化搜索基线,消融实验和轨迹分析揭示了知识积累和多智能体进化的重要性。

2 相关工作

LLM驱动的进化搜索。 越来越多的研究将 LLM 作为变异算子嵌入到由评估器引导的进化循环中。FunSearch(Romera-Paredes 等人,2024)开创了这一范式,AlphaEvolve(Novikov 等人,2025)则通过 MAP-Elites 将其扩展到完整代码库。后续系统通过自适应采样、基于岛屿的架构和帕累托选择来优化搜索编排(Sharma,2025;Lange 等人,2025;Khrulkov 等人,2025;Assumpção 等人,2026;Yan 等人,2026;Agrawal 等人,2025),而 AdaEvolve(Cemri 等人,2026)和 EvoX(Liu 等人,2026a)则使搜索策略本身具有自适应性。一个互补的方向是在测试时微调生成器(Wang 等人,2025;Yuksekgonul 等人,2026)或从求解器反馈中构建经验库(Ouyang 等人,2025b;Kong 等人,2025)。所有这些系统都遵循固定流程:通过预定义的启发式方法选择父代、构建提示词、调用 LLM 产生变异。LLM 对下一步探索什么没有自主权。CORAL 移除了这个脚手架,让智能体自行决定探索方向以及需要传承的知识。

自主LLM智能体。 另一类研究赋予 LLM 智能体在没有严格外部脚手架的情况下执行开放式任务的自主权。自主编码智能体(Yang 等人,2024;Wang 等人,2024)在沙盒环境中导航代码库、执行代码并进行迭代调试,而 AI Scientist(Lu 等人,2024)则自动化了整个研究周期。自我改进技术,如语言自我反馈(Shinn 等人,2023;Madaan 等人,2023)、交错推理与工具使用(Yao 等人,2023)以及习得的记忆巩固(Zhou 等人,2026;Yu 等人,2026),进一步扩展了智能体在长程任务中的能力。近期的立场论文主张将部署时的适应提升为自主进化智能体(Gao 等人,2025)。这些系统展示了智能体自主性的力量,但它们的目标是完成一次性任务,而非持续、目标驱动的优化。CORAL 将这种自主性引入进化循环,用智能体层面的智能取代了每个进化步骤中僵化的搜索启发式方法。

多智能体协作。 多智能体 LLM 系统通过角色分配和结构化通信来分解复杂任务(Wu 等人,2023;LangChain,2024;Qian 等人,2024;Hong 等人,2024),或通过角色扮演和动态群体形成探索涌现的合作行为(Li 等人,2023;Chen 等人,2024)。在 FunSearch 和 AlphaEvolve 等现有的进化系统中,并行性仅限于运行多个无状态的评估工作器,且步骤间没有记忆。CORAL 引入了长生命周期的、有状态的智能体,它们通过共享知识(已评分的尝试、笔记和技能)进行异步通信,从而实现了诸如技术扩散、自发共识和交叉引用等涌现行为,而这些行为都不是硬编码的。

3 CORAL:面向自主多智能体进化的框架

3.1 预备知识:开放式发现的问题形式化

我们考虑开放式发现任务,其最优解未知,必须通过评估器反馈下的迭代搜索来发现越来越强的候选解。一个任务实例由任务描述 $x$ 和评估器 $E$ 指定,其中评估候选解 $y$ 返回 $E(x,y):=(s,f)$,$s$ 表示 $y$ 的得分,$f$ 表示辅助反馈,例如来自 LLM 驱动评估器的子得分细分或文本批评。

令 $\mathcal{M}_{t}$ 表示搜索步骤 $t$ 时可用的共享持久记忆,例如先前的候选解及其评估结果。在抽象层面,每个改进步骤包含四个阶段:

  • 检索:从 $\mathcal{M}{t}$ 构建工作上下文 $\hat{\mathcal{M}}{t}$;
  • 提议:基于 $x$ 和 $\hat{\mathcal{M}}{t}$ 生成候选解 $y{t+1}$;
  • 评估:获取得分和反馈 $(s_{t+1},f_{t+1})=E(x,y_{t+1})$;
  • 更新:将新信息整合到共享持久记忆中,形成 $\mathcal{M}_{t+1}$。

3.2 从固定搜索到自主多智能体进化

大多数先前基于 LLM 的开放式发现方法遵循固定的进化搜索,其中 3.1 节中的四个阶段由外部指定的规则实例化(图1)。在这种范式中,检索更新由固定程序控制,而 LLM 主要在提议阶段发挥作用,通常通过单次前向传播从构建的上下文中生成候选解,评估则由任务评估器处理。例如,在 AlphaEvolve (Novikov et al., 2025) 中,工作上下文 $\hat{\mathcal{M}}{t}$ 是使用受 MAP-Elites 和岛屿模型启发的预定选择规则从 $\mathcal{M}{t}$ 构建的。这种范式虽然有效,但将关键的搜索决策置于智能体之外。智能体不决定检查什么证据、何时验证中间结果、如何应对失败,或保存什么知识以供重用。然而对于开放式发现,这些选择往往是问题本身的一部分。

这催生了自主单智能体进化。在此模式下,单个智能体控制搜索过程的更大部分:它可以决定检索什么、何时运行本地测试、何时调用评估器,以及将什么写回持久记忆。同样的四个阶段仍然适用,但其时机和实现不再由外部固定(图1)。我们进一步将此思想扩展到自主多智能体进化,其中多个智能体异步运行,同时通过共享持久记忆进行协调(图1)。智能体不依赖于预定义的角色或通信结构,而是通过共享持久记忆进行间接交互。这增加了探索的多样性,并允许多个智能体相互启发。

我们主张将自主多智能体进化作为开放式发现的一个有前景的范式,并引入 CORAL 作为实现它的轻量级基础设施。CORAL 将搜索过程的更多部分委托给自主智能体,同时将评估器作为智能体可访问的 API,隐藏评分细节。这种增加的灵活性也引入了系统挑战:智能体必须在长时间范围内保持持久性、避免漂移、积累可重用知识,并在不超载计算资源或攻击评估器的情况下安全运行。为应对这些挑战,CORAL 引入了三个核心机制:共享持久记忆、异步多智能体组织和基于心跳的干预,以及若干执行保障措施(见附录 C.7)。

图2:CORAL 框架概览。自主智能体在隔离的工作树中运行,迭代地提议和评估候选解,并通过中心积累共享持久记忆(尝试、笔记、技能)。心跳驱动的周期性反思帮助智能体巩固发现并在长时间范围内重新定向搜索。

3.3 CORAL 的核心机制

作为文件系统的共享持久记忆。 CORAL 的共享持久记忆 $\mathcal{M}$ 被构建为一个文件系统,并包含指向智能体工作空间(也是一个文件系统)的符号链接以保持一致性。它就像一个图书馆,智能体可以通过 CORAL CLI 工具(见附录 C.2)检索共享文件系统并向其贡献内容,并可直接使用 Bash 工具访问它。智能体甚至可以通过将共享知识分类到子文件夹中来帮助“组织”共享持久记忆。这种设计允许对智能体进行渐进式披露,保存其上下文,同时也易于维护且高度可扩展。为了给智能体提供一些引导性结构,我们定义了存储不同类型知识的三个根文件夹,解释如下。示例请参阅附录 C.4。

  • attempts/ 记录历史评估和解。智能体可以浏览此空间以了解高性能解,并检索其解进行比较。
  • notes/ 记录所有智能体的观察、学习和反思。每个笔记都存储为目录或由创建笔记的智能体确定的子目录中的 Markdown 文件。智能体可以完全访问所有笔记。
  • skills/ 记录可跨尝试转移的可重用程序、工具、脚本和实现模式。遵循标准实践,一个技能包含一个自然语言描述(例如 SKILL.md)以及可执行工件,如函数和示例脚本。智能体被提供了一个 skill_creator 技能作为创建新技能的指南。

多智能体组织。 CORAL 自然地从一个自主智能体扩展到 $N$ 个异步运行的智能体群体。每个智能体 $i$ 维护其自己的本地上下文 $\mathcal{C}_{t}^{(i)}$,并在隔离的工作空间中执行,同时通过符号链接(即指向原始文件的快捷方式指针)共享对同一评估器和共享持久记忆 $\mathcal{M}$ 的访问。这种设计允许每个智能体自由工作而不受干扰。

与许多智能体直接相互通信的对等多智能体系统 (LangChain, 2024) 不同,智能体之间的协调主要通过共享持久记忆进行。与单智能体场景类似,每个智能体可以自主读取和写入共享工作空间。当智能体生成尝试、笔记和技能时,它们将工件 $\mathcal{W}{t}^{(i)}$ 写入 $\mathcal{M}$,这些工件随后可能被其他智能体作为其自身上下文 $\hat{\mathcal{M}}{t}^{(j)}$ 的一部分检索。这样,一个智能体的发现可以通过其写入共享工作空间的内容影响另一个智能体未来的搜索,而无需消息传递协议。这种组织通过允许智能体并行追求不同的局部方向,同时仍受益于共享积累,从而增加了探索的多样性。

心跳:反思、巩固与重定向。 由于 CORAL 不强制执行固定搜索工作流,智能体可能会无意中陷入局部最优,决定进行微优化而非尝试创新想法。智能体也可能忘记查阅和贡献共享持久记忆。为了鼓励期望的行为,CORAL 实施了一种心跳机制,其功能类似于提醒应用,定期提示智能体进行自我反思,并在现有方法停滞时转向新想法。心跳事件可以是预定义的,也可以由智能体自身创建。每个事件都附加一个触发器,可以是间隔次数、经过的时间或评估得分的变化。当在步骤 $t$ 触发时,心跳对智能体的本地上下文应用修改 $\mathcal{C}{t}^{(i)}\rightarrow\mathcal{C}{t}^{\prime(i)}$,从而引导后续行为。

CORAL 实现了三种心跳类型。第一种是每轮迭代反思心跳,鼓励智能体在持续工作中记录有用的笔记。此心跳帮助智能体在观察出现时捕捉它们。第二种是周期性巩固心跳,在固定次数的尝试后触发,提示智能体回顾进展、组织和提炼积累的笔记,并将可重用程序提炼为技能。换言之,第一种支持工作中的笔记记录,第二种则侧重于组织这些笔记并从中构建技能。第三种是停滞触发重定向心跳,当智能体连续多轮没有改进时激活,提示其重新评估当前方向,并决定是继续、修改策略还是转向不同的搜索路线。这些心跳机制共同促进了显式记忆的形成,并减少了短视的局部搜索。

3.1 预备知识:开放式发现问题建模

我们考虑开放式发现任务,其最优解未知,必须通过评估器反馈下的迭代搜索来发现越来越强的候选解。一个任务实例由任务描述 $x$ 和评估器 $E$ 指定,其中评估一个候选解 $y$ 返回 $E(x,y):=(s,f)$,$s$ 表示 $y$ 的得分,$f$ 表示辅助反馈,例如来自 LLM 评估器的子分数细分或文本批评。

令 $\mathcal{M}_{t}$ 表示在搜索步骤 $t$ 时可用的共享持久记忆,例如先前的候选解及其评估结果。在抽象层面,每个改进步骤包含四个阶段:

  • 检索:从 $\mathcal{M}{t}$ 构建工作上下文 $\hat{\mathcal{M}}{t}$;
  • 提议:基于 $x$ 和 $\hat{\mathcal{M}}{t}$ 生成候选解 $y{t+1}$;
  • 评估:获得得分和反馈 $(s_{t+1},f_{t+1})=E(x,y_{t+1})$;
  • 更新:将新信息整合到共享持久记忆中,形成 $\mathcal{M}_{t+1}$。

3.2 从固定搜索到自主多智能体演化

大多数先前基于 LLM 的开放式发现方法遵循固定演化搜索,其中 3.1 节中的四个阶段由外部指定的规则实例化(图1)。在此范式中,检索更新由固定程序控制,而 LLM 主要在提议阶段发挥作用,通常通过单次前向传播从构建的上下文中生成候选解,评估则由任务评估器处理。例如,在 AlphaEvolve (Novikov et al., 2025) 中,工作上下文 $\hat{\mathcal{M}}{t}$ 是使用受 MAP-Elites 和岛屿模型启发的预定选择规则从 $\mathcal{M}{t}$ 构建的。这种范式是有效的,但它将关键的搜索决策留在了智能体之外。智能体不决定检查什么证据、何时验证中间结果、如何应对失败,或者保存什么知识以供重用。然而,对于开放式发现,这些选择往往是问题本身的一部分。

这催生了自主单智能体演化。在这里,单个智能体控制着搜索过程中更大部分:它可以决定检索什么、何时运行本地测试、何时调用评估器,以及将什么写回持久记忆。同样的四个阶段仍然适用,但它们的时机和实现不再由外部固定(图1)。我们将此思想进一步扩展到自主多智能体演化,其中多个智能体异步运行,同时通过共享持久记忆进行协调(图1)。智能体不依赖预定义的角色或通信结构,而是通过共享持久记忆间接交互。这增加了探索的多样性,并允许多个智能体相互启发。

我们主张将自主多智能体演化作为开放式发现的一个有前景的范式,并引入 CORAL 作为实现它的轻量级基础设施。CORAL 将搜索过程的更多部分委托给自主智能体,同时将评估器保留为智能体可访问的 API,隐藏评分细节。这种增加的灵活性也引入了系统挑战:智能体必须在长时间范围内保持持久性、避免漂移、积累可重用知识,并在不过载计算资源或攻击评估器的情况下安全运行。为解决这些挑战,CORAL 引入了三个核心机制:共享持久记忆、异步多智能体组织,以及基于心跳的干预,以及若干执行保障措施(见附录 C.7)。

图2:CORAL 框架概览。自主智能体在隔离的工作树中运行,迭代地提议和评估候选解,并通过一个中心积累共享持久记忆(尝试、笔记、技能)。基于心跳的定期反思帮助智能体巩固发现并在长时间范围内重新定向搜索。

3.3 CORAL 的核心机制

作为文件系统的共享持久化内存。 CORAL 的共享持久化内存 $\mathcal{M}$ 被构建为一个文件系统,并通过符号链接连接到智能体的工作空间(同样是一个文件系统)以保持一致性。其功能类似于一个图书馆,智能体可以通过 CORAL CLI 工具(见附录 C.2)检索和贡献内容到共享文件系统,并可直接使用 Bash 工具访问它。智能体甚至可以帮助“组织”共享持久化内存,将共享知识分类到子文件夹中。这种设计允许对智能体进行渐进式信息揭示,保存其上下文,同时也易于维护且高度可扩展。为了给智能体提供一些初始结构,我们定义了三个根文件夹来存储不同类型的知识,解释如下。示例请参考附录 C.4。

  • attempts/ 记录历史评估和解决方案。智能体可以浏览此空间以了解高性能的解决方案,并检索其解决方案进行比较。
  • notes/ 记录所有智能体的观察、学习和反思。每个笔记都存储为目录或由创建笔记的智能体确定的子目录中的 Markdown 文件。智能体可以完全访问所有笔记。
  • skills/ 记录可重用的过程、工具、脚本和可在不同尝试间转移的实现模式。遵循标准实践,一个技能包含一个自然语言描述(例如,SKILL.md)以及可执行工件,如函数和示例脚本。智能体被提供了一个 skill_creator 技能作为创建新技能的指南。

多智能体组织。 CORAL 自然地从一个单一的自主智能体扩展到 $N$ 个异步运行的智能体群体。每个智能体 $i$ 维护其自身的本地上下文 $\mathcal{C}_{t}^{(i)}$,并在一个隔离的工作空间中执行,同时通过符号链接(即指向原始文件的快捷方式指针)共享对同一评估器和共享持久化内存 $\mathcal{M}$ 的访问。这种设计允许每个智能体自由地独立工作,互不干扰。

与许多智能体直接相互通信的对等多智能体系统(LangChain, 2024)不同,智能体之间的协调主要通过共享持久化内存进行。类似于单智能体场景,每个智能体可以自主地读取和写入共享工作空间。当智能体生成尝试、笔记和技能时,它们将工件 $\mathcal{W}{t}^{(i)}$ 写入 $\mathcal{M}$,这些工件随后可能被其他智能体作为其自身上下文 $\hat{\mathcal{M}}{t}^{(j)}$ 的一部分检索。这样,一个智能体的发现可以通过其写入共享工作空间的内容影响另一个智能体未来的搜索,而无需消息传递协议。 这种组织方式通过允许智能体并行追求不同的本地方向,同时仍能从共享积累中受益,从而增加了探索的多样性。

心跳:反思、整合与转向。 由于 CORAL 不强制执行固定的搜索工作流,智能体可能会无意中陷入局部最优,即它们决定进行微优化而不是尝试创新想法。智能体也可能忘记查阅和贡献共享持久化内存。为了鼓励期望的行为,CORAL 引入了一种心跳机制,其功能类似于一个提醒应用,定期提示智能体进行自我反思,并在现有方法停滞不前时转向新的想法。 心跳事件可以是预定义的,也可以由智能体自身创建。每个事件都附加一个触发器,可以是间隔次数、经过的时间或评估分数的变化。 当在步骤 $t$ 触发时,心跳会对智能体的本地上下文应用修改 $\mathcal{C}{t}^{(i)}\rightarrow\mathcal{C}{t}^{\prime(i)}$,从而引导后续行为。

CORAL 实现了三种心跳类型。第一种是每次迭代的反思心跳,它鼓励智能体在持续工作中记录有用的笔记。这种心跳帮助智能体在观察出现时捕捉它们。第二种是定期整合心跳,在固定次数的尝试后触发,它提示智能体回顾进展、组织和提炼积累的笔记,并将可重用的过程提炼为技能。换句话说,第一种支持在工作期间做笔记,第二种则侧重于组织这些笔记并从中构建技能。第三种是停滞触发的转向心跳,当智能体连续多轮没有改进时激活,它提示智能体重新评估当前方向,并决定是继续、修订策略还是转向不同的搜索路线。这些心跳机制共同促进了显式记忆的形成,并减少了短视的局部搜索。

4 实验

4.1 实验设置

任务。 我们在两个基准测试套件和两个压力测试问题上评估 CORAL。 基准测试套件遵循 EvoX (Liu et al., 2026a) 和 TTT-Discover (Yuksekgonul et al., 2026) 的实验设置,包含 6 个数学优化任务(例如,圆填充、Erdős 最小重叠问题)和 5 个系统优化任务(例如,专家放置负载均衡、GPU 放置、跨云传输)。这些套件用于单智能体和多智能体实验。 两个具有挑战性的压力测试问题进一步用于多智能体评估:Anthropic 的内核工程任务 (Anthropic, 2025),这是一个 VLIW SIMD 树遍历任务,官方最佳成绩为 1,363 个周期;以及来自 Frontier-CS (Mang et al., 2025) 的多联骨牌填充问题,这是该基准测试所有 172 个问题中最难的问题之一。

基线方法和模型。 对于单智能体实验,我们将 CORAL 与 OpenEvolve (Sharma, 2025)、ShinkaEvolve (Lange et al., 2025) 和 EvoX (Liu et al., 2026a) 进行比较,所有方法使用相同的种子程序、评估器和预算。所有单智能体方法和压力测试多智能体实验均使用 Claude Code + Opus 4.6。对于数学和系统套件的多智能体实验,我们使用完全开源的模型栈(MiniMax M2.5 (MiniMax, 2026) + OpenCode (OpenCode, 2025))来验证 CORAL 的收益能够推广到专有模型和智能体之外。实验不提供互联网访问。

预算与评估。 数学和系统套件的所有运行都给予 3 小时挂钟时间预算,或基线方法 100 次迭代,以较长者为准。为公平起见,我们让 CORAL 运行所有基线运行中的最短时长。压力测试问题因难度较高,运行至收敛。所有结果是 4 次独立试验的平均值。我们报告以下指标:

  • 最终得分:在评估预算内达到的最佳得分(主要指标)。
  • 改进率:产生优于当前最佳得分结果的评估次数占比。
  • 评估次数:达到最终得分所需的评估次数。

SOTA 表示先前已知的最佳结果(人类或 AI)。

4.2 自主进化优于固定进化搜索

如表 1 所示,CORAL 在所有 11 项任务上都取得了最佳最终得分,并在 8 项任务上建立了新的 SOTA。在基线方法中,EvoX (Liu et al., 2026a) 因其元进化搜索策略是最强的竞争者,但 CORAL 仍在每项任务上表现更优。所有三个基线方法在改进率和评估效率上都大幅落后于 CORAL。CORAL 的改进率高出 3 到 10 倍,并且通常在 5 到 20 次评估内收敛,而固定进化搜索方法则需要 60 到 100 次。这意味着 CORAL 在无效候选解上浪费的评估次数要少得多。我们将此归因于 CORAL 的自主设计。固定进化搜索基线根据预定义的启发式方法选择候选解进行变异,并在每个进化步骤遵循固定的流程。相反,CORAL 智能体基于自身对先前尝试和评估反馈的分析来决定下一步探索什么,选择修改解决方案的哪些方面、何时转向不同的方法,以及何时候选解已准备好进行评估。这种对进化过程的自主性直接反映在改进率的差距上。

[表 1:单智能体 CORAL 与固定进化搜索基线在数学和系统优化任务上的对比。OE = OpenEvolve,SE = ShinkaEvolve。所有方法均使用 Claude Opus 4.6。对于最终得分,↑ 表示越高越好,↓ 表示越低越好。对于改进率,越高越好。对于 # Evals,越低越好。青色单元格表示最终得分超越了先前的 SOTA。最佳结果以粗体标出。CORAL 的自主进化显著优于固定进化搜索,在所有 11 项任务上获得最佳最终得分,并在 8 项任务上建立了新的 SOTA。]

4.3 多智能体进化扩展了搜索前沿

多智能体相对于强大单智能体自主性的增益。 虽然单智能体 CORAL 已经优于所有固定进化搜索基线,但 4 智能体协同进化进一步提升了性能(表 2)。最大的改进出现在压力测试问题上,单智能体运行往往较早陷入平台期,而协同进化在内核工程任务上实现了 18.3% 的周期减少,在多联骨牌任务上实现了 5.0% 的得分提升。值得注意的是,在没有网络搜索的情况下,CORAL 已经在内核工程任务上建立了新的 SOTA。启用网络搜索后,CORAL 也在多联骨牌问题上实现了新的 SOTA(89.4 分),但为公平起见,我们在表 2 中报告的是无网络搜索的结果;完整的启用网络搜索的结果在附录 B.1 中提供。这些增益并非仅仅源于额外的计算资源:单智能体运行表现出更高的每次评估改进率,但协同进化通过探索更多样化的搜索轨迹获得了更好的最终得分。这是由 CORAL 的异步共享持久内存实现的,多个智能体独立探索解空间的不同区域,并通过持久化的尝试、笔记和技能共享发现。有用的技术无需显式的协调协议即可在智能体间有机地扩散。

[表 2:多智能体协同进化与单智能体 CORAL 的对比。粗体的增益百分比值表示 4 智能体相对于 1 智能体的相对改进。多智能体进化可以显著改善搜索前沿,尤其是在单智能体运行较早陷入平台期的任务上。]

对开源模型的泛化能力。 多智能体的增益并非依赖于专有模型。当使用完全开源的模型栈(MiniMax M2.5 + OpenCode)在数学和系统套件上进行评估时,4 智能体协同进化在大多数任务上持续改善了最终得分,优于其单智能体对应版本(表 2)。这些结果表明,CORAL 的组织优势源于协同进化机制本身,而非模型特定的能力,并且分布式探索和共享持久内存的益处能够迁移到开源环境中。

4.4 分析

4.4.1 自主进化为何有效

为了理解自主进化为何有效,我们从定性和定量角度分析智能体轨迹。详细结果见附录 B.2。在所有任务中,本地验证和知识积累与性能密切相关:

本地验证。 智能体在提交外部评估前,经常在本地执行代码和运行测试,这使得它们能够在单次迭代内调试和验证候选解。进行本地执行的尝试比同一任务上的平均尝试更频繁地产生改进。这种效应在涉及编译代码的任务上最为显著:在 Transaction(本地测试率 61%)和内核工程(57%)任务上(见表 4 和表 5),本地执行通常在消耗一次评估之前就能捕捉到编译失败。相比之下,具有不可复现或隐藏评估的任务显示出低得多的本地测试率;例如,Prism 任务(0%)依赖于评分器生成的随机测试。

知识积累。 通过笔记和技能进行的知识积累也有帮助,但其作用在不同任务类型间差异显著。在标准任务上,智能体每次尝试仅创建 0.05 个知识产物,访问知识仅带来小幅增益(比不访问知识的尝试高出 2 个百分点)。在高级任务上,智能体每次尝试创建的知识产物数量高出 10 倍以上(0.55 和 0.68),并且知识访问与改进的关联性要强得多:内核工程任务为 55%,而标准任务为 26%(见表 4)。知识本身的质量也不同。在标准任务上,笔记通常是轻量级的进度日志,例如参数更改记录。在高级任务上,它们捕捉可重用的见解:例如,内核工程笔记识别出架构瓶颈(如 VALU)或记录放松 WAR 依赖关系损害性能的情况,而多联骨牌任务则包含一个“从未奏效的方法”文件夹,用于记录失败的策略,避免在后续尝试中重新审视无望的设计策略。

智能体还会主动检查先前的尝试、比较实现,并在决定下一步尝试什么时寻找模式。然而,这种形式的检查是否比早期固定进化搜索方法中的检索更有效,难以孤立地评估,因此我们将其留待未来工作。

4.4.2 多智能体组织为何有帮助

我们从三个维度分析内核工程(596 次尝试)和多联骨牌(67 次尝试)任务上的 4 智能体运行。

跨智能体信息传递。 基于另一个智能体的工作非常有效。在内核工程任务上,36% 的尝试使用另一个智能体的提交作为其父提交,这些尝试的改进率为 17%,而所有尝试的平均改进率为 9%。大多数(66%)的新记录源自跨智能体的父提交。在多联骨牌任务上,直接的代码传递较少(12%),但仍然非常有效(改进率 50% 对比平均 19%);传递更多地通过共享的笔记和技能发生,87% 的轮次引用了其他智能体提交的知识。这两个任务展示了互补的信息传递模式:内核工程智能体更多地通过引用他人的代码进行传递,而多联骨牌智能体更多地通过知识进行传递。

探索多样性。 我们从尝试标题中提取策略关键词并计算成对 Jaccard 相似度。在内核工程任务上,智能体间的平均成对重叠度为 0.43;在多联骨牌任务上为 0.31。每个智能体超过一半的策略词汇是独特的,这意味着群体集体探索的解空间远多于任何单个智能体。

贡献平衡。 在内核工程任务上,所有四个智能体各自产生了 130 到 165 次尝试,每个智能体有 10 到 16 次改进,并且所有四个智能体都独立达到了 1103 个周期的最佳成绩。记录分布均匀(14/15/10/15)。领先者任期则更不均衡:智能体-1 在 45% 的运行时间内保持最佳得分。在多联骨牌任务上,贡献更不平衡:智能体-3 创造了 13 条记录中的 6 条,智能体-4 在总时间的 34% 内处于领先。

4.4.3 消融实验

[表 3:关于知识积累和多智能体协同进化的消融研究。所有运行均使用 Claude Code + Opus 4.6。最佳结果以粗体标出。]

我们消融了 CORAL 的两个核心组件:知识积累和多智能体协同进化。表 3 报告了使用 Claude Code + Opus 4.6 在三个压力测试任务上的结果。

知识积累。 禁用笔记和技能创建会降低所有三个任务的最终得分,其中内核工程任务的下降幅度最大(从 1350 周期退化到 1601 周期,下降了 18.6%)。这证实了知识产物对搜索质量有因果贡献,而不仅仅是与改进相关。

协同进化 vs. 独立运行。 为了测试多智能体进化的增益是来自协同进化还是仅仅来自运行更多智能体,我们将 4 智能体协同进化与 4 个独立单智能体运行中的最佳结果进行比较。协同进化在所有三个任务上都优于独立最佳结果。这表明多智能体进化的增益不能简化为额外的计算资源。

4.1 实验设置

任务。 我们在两个基准测试套件和两个压力测试问题上评估 CORAL。 基准测试套件遵循 EvoX (Liu et al., 2026a) 和 TTT-Discover (Yuksekgonul et al., 2026) 的实验设置,包含 6 个数学优化任务(例如,圆填充、Erdős 最小重叠问题)和 5 个系统优化任务(例如,专家放置负载均衡、GPU 放置、跨云传输)。这些套件用于单智能体和多智能体实验。 两个具有挑战性的压力测试问题进一步用于多智能体评估:Anthropic 的内核工程任务 (Anthropic, 2025),这是一个 VLIW SIMD 树遍历任务,官方最佳成绩为 1,363 个周期;以及来自 Frontier-CS (Mang et al., 2025) 的多联骨牌填充问题,这是该基准测试中所有 172 个问题中最难的问题之一。

基线方法和模型。 对于单智能体实验,我们将 CORAL 与 OpenEvolve (Sharma, 2025)、ShinkaEvolve (Lange et al., 2025) 和 EvoX (Liu et al., 2026a) 进行比较,所有方法均使用相同的种子程序、评估器和预算。所有单智能体方法和压力测试多智能体实验均使用 Claude Code + Opus 4.6。对于数学和系统套件的多智能体实验,我们使用完全开源的模型栈(MiniMax M2.5 (MiniMax, 2026) + OpenCode (OpenCode, 2025))来验证 CORAL 的优势能够推广到专有模型和智能体之外。实验不提供互联网访问。

预算与评估。 所有在数学和系统套件上的运行都给予 3 小时的挂钟时间预算,或基线方法 100 次迭代,以较长者为准。为保证公平,我们让 CORAL 运行所有基线运行中的最短时长。压力测试问题由于难度较高,运行至收敛。所有结果是 4 次独立试验的平均值。我们报告以下指标:

  • 最终得分:在评估预算内达到的最佳得分(主要指标)。
  • 改进率:产生优于当前最佳得分的评估所占比例。
  • 评估次数:达到最终得分所需的评估次数。

SOTA 表示先前已知的最佳结果(人类或 AI)。

4.2 自主进化优于固定进化搜索

如表 1 所示,CORAL 在所有 11 个任务上都取得了最佳最终得分,并在 8 个任务上建立了新的 SOTA。在基线方法中,EvoX (Liu et al., 2026a) 因其元进化搜索策略是最强的竞争者,但 CORAL 仍在每个任务上都优于它。所有三个基线方法在改进率和评估效率上都大幅落后于 CORAL。CORAL 的改进率高出 3 – 10 倍,并且通常在 5 – 20 次评估内收敛,而固定进化搜索方法需要 60 – 100 次。这意味着 CORAL 在无效候选方案上浪费的评估次数要少得多。我们将此归因于 CORAL 的自主设计。固定进化搜索基线根据预定义的启发式方法选择候选方案进行变异,并在每个进化步骤遵循固定流程。CORAL 的智能体则根据其对先前尝试和评估反馈的自主分析来决定下一步探索什么,选择修改解决方案的哪些方面、何时转向不同方法以及何时将候选方案准备好进行评估。这种对进化过程的自主性直接体现在改进率的差距上。

[表 1:单智能体 CORAL 与固定进化搜索基线在数学和系统优化任务上的对比。OE = OpenEvolve,SE = ShinkaEvolve。所有方法均使用 Claude Opus 4.6。对于最终得分,↑ 表示越高越好,↓ 表示越低越好。对于改进率,越高越好。对于评估次数,越低越好。青色单元格表示最终得分超越了先前的 SOTA。最佳结果已加粗。CORAL 的自主进化显著优于固定进化搜索,在所有 11 个任务上取得最佳最终得分,并在 8 个任务上建立了新的 SOTA。]

4.3 多智能体进化拓展搜索边界

多智能体相对于强单智能体自主性的增益。 虽然单智能体 CORAL 已经优于所有固定进化搜索基线,但 4 智能体协同进化进一步提升了性能(表 2)。最大的改进出现在压力测试问题上,单智能体运行往往较早陷入平台期,而协同进化在 Kernel Engineering 任务上实现了 18.3% 的周期减少,在 Polyominoes 任务上实现了 5.0% 的得分提升。值得注意的是,在没有网络搜索的情况下,CORAL 已经在 Kernel Engineering 任务上建立了新的 SOTA。启用网络搜索后,CORAL 也在 Polyominoes 问题上取得了新的 SOTA(89.4),但为公平起见,表 2 报告的是未启用网络搜索的结果;完整的启用网络搜索的结果见附录 B.1。这些增益并非仅来自额外的计算资源:单智能体运行表现出更高的每次评估改进率,但协同进化通过探索更多样化的搜索轨迹实现了更好的最终得分。这得益于 CORAL 的异步共享持久内存,多个智能体独立探索解空间的不同区域,并通过持久的尝试、笔记和技能共享发现。有用的技术无需显式的协调协议即可在智能体间有机地扩散。

[表 2:多智能体协同进化与单智能体 CORAL 的对比。加粗的增益(%)值表示 4 智能体相对于 1 智能体的相对改进。多智能体进化能显著拓展搜索边界,尤其是在单智能体运行较早陷入平台期的任务上。]

向开源模型的泛化。 多智能体增益并非依赖于专有模型。当使用完全开源模型栈(MiniMax M2.5 + OpenCode)在数学和系统套件上进行评估时,4 智能体协同进化在大多数任务上持续改善了最终得分,优于单智能体版本(表 2)。这些结果表明,CORAL 的组织优势源于协同进化机制本身,而非特定模型的能力,并且分布式探索和共享持久内存的好处可以迁移到开源环境中。

4.4 分析

4.4.1 自主进化为何有效

为理解自主进化有效的原因,我们对智能体轨迹进行了定性和定量分析。详细结果见附录 B.2。在所有任务中,本地验证和知识积累与性能表现密切相关:

本地验证。智能体在提交外部评估前,通常会先在本地执行代码和运行测试,这使得它们能在单次迭代内调试和验证候选方案。在相同任务中,包含本地执行的尝试比平均尝试更易获得改进。这种效应在涉及编译代码的任务上最为显著:在 Transaction(本地测试率 61%)和 Kernel Engineering(57%)任务中(见表 4 和表 5),本地执行常在消耗一次评估机会前就捕获编译失败。相比之下,评估不可复现或隐藏的任务本地测试率则低得多;例如,Prism(0%)依赖于评分器生成的随机测试。

知识积累。通过笔记和技能进行知识积累同样有益,但其作用在不同任务类型间差异显著。在标准任务中,智能体每次尝试平均仅创建 0.05 个知识产物,知识访问带来的增益也很小(比无知识访问的尝试仅高出 2 个百分点)。在高级任务中,智能体每次尝试创建的知识量超过 10 倍(0.55 和 0.68),且知识访问与改进的关联性强得多:Kernel Engineering 任务为 55%,而标准任务为 26%(见表 4)。知识本身的质量也存在差异。在标准任务中,笔记通常是轻量级的进度日志,例如参数更改记录。在高级任务中,笔记则捕捉了可复用的洞见:例如,Kernel Engineering 笔记会识别 VALU 等架构瓶颈,或记录放松 WAR 依赖会损害性能的案例;而 Polyominoes 任务则包含一个“从未奏效”文件夹,用于记录失败的方案,避免在多次尝试中重访无望的设计策略。

智能体在决定下一步尝试时,也会主动检查先前的尝试、比较实现方案并寻找模式。然而,这种形式的检查是否比早期固定进化搜索方法中的检索更有效,目前难以分离验证,因此我们将其留待未来工作。

4.4.2 多智能体组织为何有益

我们从三个维度分析了 Kernel Engineering(596 次尝试)和 Polyominoes(67 次尝试)任务上的 4 智能体运行情况。

跨智能体信息传递。 基于其他智能体的工作进行构建非常有效。在 Kernel Engineering 任务中,36% 的尝试将其他智能体的提交作为其父节点,这些尝试的改进率为 17%,而所有尝试的平均改进率为 9%。大多数(66%)新纪录源自跨智能体的父节点。在 Polyominoes 任务中,直接的代码传递较少(12%),但依然非常有效(改进率 50%,平均改进率为 19%);信息传递更多通过共享笔记和技能发生,87% 的轮次引用了其他智能体提交的知识。这两个任务展现了互补的信息传递模式:Kernel Engineering 智能体更多通过引用他人代码进行传递,而 Polyominoes 智能体更多通过知识进行传递。

探索多样性。 我们从尝试标题中提取策略关键词并计算两两 Jaccard 相似度。在 Kernel Engineering 任务中,智能体间的平均成对重叠度为 0.43;在 Polyominoes 任务中为 0.31。每个智能体的策略词汇表中超过一半是独特的,这意味着群体共同探索的搜索空间远大于任何单个智能体。

贡献平衡。 在 Kernel Engineering 任务中,所有四个智能体分别进行了 130–165 次尝试,各自取得了 10–16 次改进,并且都独立达到了 1103 周期的最佳分数。纪录分布均匀(14/15/10/15)。领先者任期则更不均衡:智能体-1 在 45% 的运行时间内保持最佳分数。在 Polyominoes 任务中,贡献更不平衡:智能体-3 创造了 13 项纪录中的 6 项,智能体-4 在总时间的 34% 内保持领先。

4.4.3 消融实验

[表 3:关于知识积累和多智能体协同进化的消融研究。所有运行均使用 Claude Code + Opus 4.6。最佳结果已加粗。]

我们消融了 CORAL 的两个核心组件:知识积累和多智能体协同进化。表 3 报告了使用 Claude Code + Opus 4.6 在三个压力测试任务上的结果。

知识积累。禁用笔记和技能创建会降低所有三个任务的最终分数,在 Kernel Engineering 任务上降幅最大(从 1350 周期降至 1601 周期,性能回退 18.6%)。这证实了知识产物对搜索质量具有因果贡献,而不仅仅是与改进相关。

协同进化 vs. 独立运行。为测试多智能体进化的收益是来自协同进化还是仅仅源于运行更多智能体,我们比较了 4 智能体协同进化与 4 个独立单智能体运行中的最佳结果。协同进化在所有三个任务上都优于独立最佳结果。这表明多智能体进化带来的收益不能简化为额外的计算资源。

4.4.2 多智能体组织为何有效

我们从三个维度分析了内核工程(596次尝试)和多联骨牌(67次尝试)任务上的4智能体运行情况。

跨智能体信息传递。 在另一个智能体的工作基础上进行构建非常有效。在内核工程任务中,36%的尝试将另一个智能体的提交作为其父节点,这些尝试的改进率为17%,而所有尝试的平均改进率为9%。大多数(66%)新纪录源自跨智能体的父节点。在多联骨牌任务中,直接的代码传递较少(12%),但威力依然巨大(改进率50%对比平均改进率19%);传递更多是通过共享的笔记和技能发生,87%的轮次引用了其他智能体提交的知识。这两个任务展现了互补的信息传递模式:内核工程智能体更多通过引用他人代码传递,而多联骨牌智能体更多通过知识传递。

探索多样性。 我们从尝试标题中提取策略关键词并计算成对Jaccard相似度。在内核工程任务中,智能体间的平均成对重叠度为0.43;在多联骨牌任务中为0.31。每个智能体超过一半的策略词汇是独特的,这意味着群体共同探索的搜索空间远大于任何单个智能体。

贡献均衡性。 在内核工程任务中,所有四个智能体各自进行了130至165次尝试,每个智能体取得了10至16次改进,并且四个智能体都独立达到了1103个周期的最佳分数。纪录分布均衡(14/15/10/15)。领先者任期则更不均衡:智能体-1在45%的运行时间内保持着最佳分数。在多联骨牌任务中,贡献更不均衡:智能体-3创造了13项纪录中的6项,智能体-4在总时间的34%内处于领先。

4.4.3 消融实验

我们消融了CORAL的两个核心组件:知识积累和多智能体协同进化。表3报告了使用Claude Code + Opus 4.6在三个压力测试任务上的结果。

知识积累。 禁用笔记和技能创建会降低所有三个任务的最终分数,其中内核工程任务的下降幅度最大(从1350个周期退化到1601个周期,回归18.6%)。这证实了知识制品对搜索质量具有因果贡献,而不仅仅是与改进相关。

协同进化 vs. 独立运行。 为了测试多智能体进化的收益是来自协同进化还是仅仅来自运行更多智能体,我们将4智能体协同进化与4个独立单智能体运行中的最佳结果进行比较。协同进化在所有三个任务上都优于独立最佳结果。这表明多智能体进化带来的收益不能简单地归因于额外的计算资源。

5 结论

我们提出了CORAL,一个用于开放式问题的自主多智能体进化框架。通过用控制检索、提案、评估和知识积累的自主智能体取代僵化的进化搜索启发式方法,同时通过共享的持久内存进行协调,CORAL在数学、算法和系统优化任务上实现了显著更强的性能。单个自主智能体已经超越了固定的进化搜索基线,而多智能体进化进一步推动了前沿:四个智能体发现的解决方案是任何单个智能体都无法找到的,即使后者被给予四倍的计算资源。更广泛地说,我们的结果表明,自主智能体正在成为一个有前景的开放式发现范式。近期的并行开源项目(Karpathy, 2026; Liu et al., 2026c; rllm-org, 2026)和新兴研究(Chen et al., 2026)指向了类似的方向,它们与本文的实证证据共同表明,我们可能正在接近AI系统如何应对需要迭代搜索、从反馈中学习以及随时间积累知识的问题的转折点。这一进展既令人兴奋又令人不安,因为它为科学和工程发现创造了新的机遇,同时也给研究社区带来了重要的挑战(附录A)。我们希望CORAL能够作为一个系统的探索性研究、一个强大的基线框架和一个可扩展的基础设施,支持未来关于自主发现系统的工作。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

文章将智能体系统拆解为模型、执行框架和上下文三层,分别探讨了每层的持续学习机制。核心观点是:执行轨迹(Traces)是驱动所有层面学习的基础,而 LangSmith 等工具能有效收集和分析这些轨迹。

深度LangChain·4月5日·3 分钟

Cursor 3 将智能体管理控制台设为主界面,传统 IDE 降为备用视图,反映了 AI 开发工具从代码编辑向智能体编排的根本性转变。文章分析了 Cursor 面临 Claude Code 竞争的压力、其产品快速迭代的应对策略,并对比了 Anthropic、OpenAI、Google 在智能体编排层架构上的不同路径。

深度The New Stack·4月5日·5 分钟

评论