[论文分享] ICLR 2026 Oral GEPA：反思性提示词演化可以超越强化学习

Python_金钱豹

476人浏览 · 2026-04-02 21:28:38

Python_金钱豹 · 2026-04-02 21:28:38 发布

摘要

大型语言模型（LLMs）正越来越多地通过强化学习（RL）方法（如群体相对策略优化 GRPO）来适应下游任务，而这类方法通常需要数千次尝试（rollouts）才能学习新任务。我们认为，与源自稀疏标量奖励的策略梯度相比，语言的可解释特性通常为 LLM 提供了丰富得多的学习介质。为了验证这一点，我们引入了 GEPA（Genetic-Pareto）：这是一款提示词优化器，它通过深入结合自然语言反思，从试错中学习高层规则。

对于任何包含一个或多个 LLM 提示词的 AI 系统，GEPA 会采样执行轨迹（例如推理过程、工具调用及工具输出），并以自然语言对其进行反思，从而诊断问题、提出并测试提示词更新，并从自身尝试的帕累托前沿（Pareto frontier）中整合互补的经验。得益于这种设计，GEPA 往往仅需极少数次尝试就能转化为显著的质量提升。

在六项任务中，GEPA 的表现平均优于 GRPO 6%，最高可达 20%，同时使用的尝试次数减少了多达 35 倍。此外，GEPA 还以超过 10% 的优势击败了领先的提示词优化器 MIPROv2（例如在 AIME-2025 任务上准确率提升了 12%），并在作为代码优化的推理时搜索策略方面展示了广阔的应用前景。

1 目前方法存在的问题

针对下游任务的性能来优化 LLM通常需要数万次尝试（rollouts）才能适应新任务。这种样本低效性很快就会成为严重的瓶颈：许多下游 LLM 应用涉及昂贵的工具调用，或者模型自身的采样推理预算有限，又或者根本无法对最大或性能最好的 LLM 进行权重微调。

核心挑战：在数据稀缺或预算受限的环境下，我们如何从每一次昂贵的尝试中提取出最大的学习信号，从而实现对复杂的模块化 AI 系统的高效适配？

2 方法

我们引入了 GEPA（Genetic-Pareto，遗传-帕累托），这是一种用于复合 AI 系统的反思性提示词优化器，它将文本反思与多目标进化搜索相结合。GEPA 利用从新采样轨迹中获取的自然语言反馈，迭代地对提示词进行变异。在每次变异中，候选提示词均源自其祖先，并累积了从观察和 LLM 反馈中获得的高层经验。为了避免困扰贪婪提示词优化的局部最优问题，GEPA 维护了一个帕累托前沿（Pareto front）：它不只是演化全局最佳的提示词，而是随机探索针对每个问题实例表现顶尖的提示词。这种多样化策略实现了鲁棒的泛化能力，并缓解了陷入局部最小值的风险。

问题定义

我们遵循相关研究，将复合 AI 系统 (Compound AI System) 定义为：由一个或多个语言模型（LLM）调用组成的模块化系统，这些调用可能与外部工具调用交替进行，并通过任意控制流进行编排。该定义涵盖了广泛的真实世界 LLM 驱动的 AI 系统，包括智能体（Agents）、多智能体系统，以及通用的脚手架技术（如 ReAct、Archon 等）。

我们将此类系统形式化表示为，其中：

表示语言模块；
指定控制流逻辑；
分别是全局输入和输出架构（Schemas）。

每个模块都是一个 LLM 子组件：是其（系统）提示词，包括指令和少样本示例（few-shot demonstrations）；是底层的模型权重；是输入/输出架构。在运行时，负责模块的排序和调用——例如，将一个模块的输出传递给另一个模块、条件化调用模块或利用工具 API。通过这种方式，可以按任何顺序多次调用不同的模块。

给定系统，令表示所有模块提示词的集合，表示模块权重的集合。因此，可学习参数为。

对于任务实例 ——其中映射到输入架构，包含评估器元数据（例如标准答案、评估准则、代码单元测试）——系统会生成输出。接着，度量指标根据元数据来衡量输出的质量（例如计算精确匹配度、F1 分数、通过率等）。

优化问题因此被定义如下，其中为任务分布：

我们采用这一通用的问题表述，允许对语言模块的提示词和权重同时进行更新，以便在运行于不同参数空间的优化算法之间进行比较（例如 GEPA 与 GRPO 的对比）。

**样本高效的优化 (Sample-Efficient Optimization)**。在许多现实场景中，尝试（Rollouts）——具体指的调用加上的评估——通常在计算、资金或时间上非常昂贵。因此，优化器被限制在训练数据集上最多进行次尝试，并拥有对的完全访问权限。目标是在不超过尝试预算的约束下，找到能最大化留存性能（Held-out performance）的参数：

核心挑战在于：在数据稀缺或预算受限的环境下，我们如何从每一次昂贵的尝试中提取出最大的学习信号，从而实现对复杂的模块化 AI 系统的高效适配？

GEPA：反思性提示词演化

其设计灵感源于三大核心原则：遗传提示词演化、利用自然语言反馈进行反思以及基于帕累托的候选者选择。

GEPA 接收以下输入：

一个由待优化的基础提示词实例化的系统；
训练数据集（由问题定义描述的任务实例组成）；
任务的标准评估指标；
反馈函数；
总尝试预算。

需要注意的是，GEPA 仅演化提示词集合（记作），而底层的 LLM 权重（记作）保持不变。

遗传优化循环 (Genetic Optimization Loop)： 给定一个 AI 系统，目标是找到能使任务性能最大化的参数。GEPA 首先建立一个候选池，最初仅包含基础系统，每个候选者都是的具体实例化。随后进入优化循环，不断提出新的候选者，直到评估预算耗尽。候选者通过反思性变异或**交叉（Crossover）**从现有候选者中衍生，并受尝试过程中的反馈引导；每个候选者都会继承来自其父辈及自身尝试的学习信号，从而使 GEPA 能够沿着遗传树积累知识。在每次迭代中，GEPA 会：

选择有潜力的候选者；
在任务的小批量（minibatch）上提出并评估一个变体；
如果该变体优于其父辈，则将其连同谱系记录添加到中，并在用于选择的验证集上进行评估。

在预算耗尽后，GEPA 返回在上综合表现最佳的候选者。

反思性提示词变异

通过“复盘”轨迹来改进指令。 GEPA 会记录系统运行时的完整“执行追踪”（推理链、工具调用等），并结合最终成败，利用 LLM 的反思能力进行信用分配。它能精准识别是哪个模块的提示词导致了错误，并针对性地修改该指令。如果修改后在小批量测试中得分提高，则将其作为新的候选者保留。

评估追踪作为诊断信号

利用“报错信息”和“人工评语”作为深度反馈。 除了模型自发的推理轨迹，GEPA 还采集环境返回的“评估追踪”（如编译错误、未达标的具体准则或人工给出的详细评语）。这些非得分式的文本反馈被转化为 feedback_text，为提示词的变异提供明确的改错方向，即便在缺乏自然语言样本的情况下，也能实现高效的定向优化。

图 2：（左图）GEPA 反思性提示词演化的核心算法。 GEPA 采用迭代工作方式：在每次迭代中，选择当前的部分候选者进行演化（第 7 行）；在小批量尝试（rollouts）上执行选定的候选者，同时利用特殊的反馈函数获取特定模块的反馈（如果可用）（第 9-10 行，详见第 3 节）；使用 LLM 对提示词进行反思性更新（第 11 行）；并评估实例化新提示词后的系统是否提升了在小批量任务上的性能（第 14 行）。如果性能有所提升，GEPA 随后会在完整的数据集上评估该新系统候选者，将其添加到跟踪的候选者列表中，并标记该新系统的父辈。

（右图）GEPA 核心算法中使用的候选者选择（SelectCandidate）子程序， 其任务是确定在下一次优化迭代中待演化的最佳候选者。GEPA 的主要候选者选择策略是在（所有任务实例的）帕累托前沿中寻找非支配候选者（non-dominated candidates），并根据它们在帕累托前沿中出现的频率随机选择其中之一。

基于帕累托的候选者选择

GEPA 是一个高度模块化的算法，支持多种候选者选择策略，策略的选择决定了“探索”与“利用”之间的权衡。一种幼稚的方法是始终选择表现最好的候选者，但这通常会使优化器陷入局部最优：一旦发现某种主导策略，就很难再实现超越，优化器会在没有学到新的、潜在更好的策略的情况下耗尽预算。图 6a 展示了这种行为：在找到一个新策略（第一个子节点）后，搜索过程反复尝试对其进行微调，但未能改进，最终耗尽了预算。

为了解决这个问题，GEPA 采用了基于帕累托的“照明（illumination）”策略（Mouret & Clune, 2015），如算法 2 所示。对于每个训练实例，GEPA 都会记录所有候选者中的最高得分，从而形成一个帕累托前沿（Pareto frontier）。在至少一个任务上获得最高分的候选者会被保留，而那些被完全支配（即在所有任务上表现均不如人意）的候选者则会被剔除。从这个筛选后的集合中，GEPA 随机采样一个候选者，采样概率根据每个候选者在多少个任务中处于领先地位进行加权。这种策略帮助 GEPA 在不膨胀搜索规模的情况下跳出局部最优，通过在优化预算内将资源集中在体现“获胜”策略的候选者上，有效地平衡了探索与利用。

3 实验

我们采用标准的训练/验证/测试集划分。优化器拥有对训练集的完整访问权限（包括文本和标签）以进行程序调优。虽然优化器可以通过跟踪验证集上的得分来监控候选参数的性能（例如实现提前停止），但严禁直接访问验证实例的内容。我们在六个基准测试上进行了评估：AIME-2025、LiveBench-Math、HotpotQA、IFBench、HoVer 和 PUPA。实验使用了 Qwen3 8B 和 GPT-4.1 Mini，并与最先进的优化器 MIPROv2、Trace (OptoPrime)、TextGrad 和 GRPO 进行了对比。

表 1：Qwen3 8B 模型在不同优化器下的基准测试结果。 GEPA 和 GEPA+Merge 在除 AIME 外的所有基准测试中，均以远少于 GRPO 的尝试次数（rollouts）实现了更好的性能。例如，在 IFBench 中，GEPA 仅需 678 次尝试就找到了最优提示词，准确率达到 38.61%，超过了 GRPO 使用 24,000 次尝试后在测试集上取得的 35.88%。

表 2：在 GPT-4.1 Mini 上评估的不同优化器的基准测试结果。 作为一个提示词优化系统，GEPA 在闭源模型上同样表现出开箱即用的特性，其性能超越了目前最先进的提示词优化器，包括 MIPROv2（涵盖两种设置：仅指令优化“MIPROv2-No-Demos”以及指令与少样本联合优化“MIPROv2”）、Trace（及其 OptoPrime 优化器）和 TextGrad。

观察 1：反思性提示词演化具有极高的样本效率，且能超越权重空间的强化学习。 在四个基准测试中，GEPA 适配迅速且泛化鲁棒——在尝试次数减少多达 35 倍的情况下，表现优于 GRPO（2.4 万次尝试）最高达 19%。在 6 项任务中有 5 项超过了 GRPO。GEPA 匹配 GRPO 最佳验证得分仅需 243 到 1179 次尝试，样本效率最高提升了 78 倍。如果仅计算训练集尝试次数，GEPA 达到最优性能仅需 79 到 737 次尝试。

观察 2：反思性提示词演化使得仅靠“指令优化”就能超越“指令+少样本（few-shot）”的联合优化。 我们将 GEPA 与最先进的指令及少样本优化器 MIPROv2 进行对比，发现 GEPA 在所有设置下均持续优于 MIPROv2。在 GPT-4.1 mini 上领先幅度高达 11.1%，在 Qwen3 8B 上领先 10.3%。GEPA+Merge 在所有模型上的综合增益（+13.33%）是 MIPROv2（+5.64%）的两倍以上。这表明随着 LLM 指令遵循和自反思能力的提升，精心设计的指令优化正逐渐展现出比传统少样本方法更强的优势。

表 3：在演化框架保持不变的情况下，对比 Qwen3 8B 在不同任务下的候选者选择策略。 在每一步中，“选择最佳候选者”（SelectBestCandidate，TextGrad 使用的方法，Yuksekgonul 等，2025）仅从得分最高的候选者开始演化。“束搜索”（BeamSearch）则维持一个前 N 名候选者的池（APO 使用的方法，Pryzant 等，2023），但仍容易陷入局部最优。相比之下，GEPA 基于帕累托（Pareto）的选择策略带来了 +12.44% 的提升，显著优于贪婪策略（+6.05%）和束搜索策略（+5.11%）的增益。

图 3：不同候选者选择策略的影响对比。 * （左图） 如图所示，在每次迭代中都选择表现最好的候选者，会导致在仅一次迭代后就陷入局部最优，从而造成搜索性能欠佳。

（右图） 另一方面，通过使用基于帕勒托（Pareto）的候选者选择策略，GEPA 能够生成一个平衡的搜索树，并在相同的预算范围内找到性能更好的程序。

观察 3：下一候选者选择策略极大地影响优化轨迹和最终性能，基于帕累托的选择具有显著优势。 我们将 GEPA 的帕累托采样策略与“始终选择最佳（SelectBestCandidate）”及“束搜索（BeamSearch）”基准进行了对比。如表 3 所示，这些基准策略往往会导致搜索空间探索不足，陷入次优解。GEPA 的帕累托采样在综合性能上比束搜索高出 7.33%，比“选最优”策略高出 6.4%。图 3 强调了差异：始终选最优虽有即时提升但很快会停滞，而帕累托法通过平衡探索与利用，能在相同预算内收敛至更高性能的解。

观察 4：指令优化后的提示词计算成本更低，且比少样本提示词泛化效果更好。 反思性演化出的指令通常比少样本提示词短得多（最高短 9.2 倍）。对于复杂任务，少样本示例往往长得惊人，尤其是像 MIPROv2 这样同时优化多个示例的方法。相比之下，GEPA 的提示词保持了简洁性，同时提供了巨大的性能增益。较短的提示词不仅降低了 API 调用成本，还减少了延迟，提高了模型服务系统的整体效率。

观察 5：系统感知的交叉（Crossover）策略可以带来巨大收益，但变异与交叉之间的预算分配仍需进一步研究。 我们引入了一种名为“Merge”的交叉策略。GEPA+Merge 可以在 GEPA 的基础上再提升多达 5%（综合提升 2%）。这种增益源于 Merge 能够识别学习了互补策略的不同演化谱系，并从各谱系中挑选不同模块的最佳版本来合成一个最优候选者。虽然在 GPT-4.1 Mini 上效果显著，但在 Qwen3 8B 上效果略有下降，这可能与超参数设置及交叉策略的启动时机有关。

观察 6：GEPA 优化的提示词展现出跨模型泛化能力。 在“GEPA-Qwen-Opt”配置中，提示词是在较弱的 Qwen3-8B 模型上优化的，但随后在 GPT-4.1-Mini 上进行评估。尽管提示词源自不同系列的弱模型，但在 6 个基准测试中仍实现了 +9.00% 的综合提升（在 HotpotQA 上甚至高达 +27.67%）。令人瞩目的是，这种“迁移性能”竟然优于那些直接在 GPT-4.1-Mini 目标模型上进行优化的强基准方法，如 MIPROv2 (+5.64%) 和 TextGrad (+6.11%)。

总结

GEPA（Genetic-Pareto）作为一种创新性的提示词优化器，其核心价值在于打破了单纯依靠海量数据堆砌和盲目强化学习（RL）的传统范式，将自然语言反思深度融入复合 AI 系统的演化过程。该算法不再将大模型视为仅根据稀疏标量奖励进行权重微调的“黑盒”，而是通过捕捉和序列化模型在执行任务时的完整思考轨迹、工具调用及环境反馈，利用语言作为可解释的学习介质，进行精准的隐式信用分配与问题诊断。这种“以语言优化语言”的逻辑，让模型能够像人类复盘一样，从每一次试错中提取高层规则，并结合帕累托前沿的多样化选择策略，有效避免了搜索过程中的局部最优问题，确保了模型在不同任务场景下的鲁棒性。更具启发性的是，其系统感知的合并机制赋予了模型一种跨谱系的“联想”与“整合”能力，使其能够博采众长，合成出最优的行动方案。GEPA 的成功证明了提升人工智能的关键不在于将其训练成包罗万象的静态百科全书，而在于构建一种具备自我反思、逻辑联想与持续进化能力的动态系统，从而在极低的数据预算下实现跨模型的卓越泛化与性能飞跃，真正开启了从指令跟随向自主进化的思维跨越。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

OpenClaw实操指南42｜安全边界2：提示词注入与沙箱防护

AtomGit开源社区

如何在CV中使用transformer

AtomGit开源社区

穿透AI Agent五大范式：原理、源码与工程实践

AI Agent技术正在重塑人机交互的边界。与传统聊天机器人不同，Agent具备自主决策、工具调用和任务执行的闭环能力。本文将深入剖析五大核心范式，从原理到源码，从理论到实践，为读者提供系统化的技术指南。本文深入解析了AI Agent的五大核心范式，从理论原理到源代码实现，再到工程实践，为读者提供了完整的技术指南。关键要点总结范式选择原则：根据任务复杂度、准确度要求和成本预算动态选择工程实践建议：