【论文ing】强化学习重塑 NL2SQL:单轮对齐、多轮交互与细粒度评估的最新进展(2020–2026)
文章目录
一、问题背景与综述目标
自然语言到 SQL(NL2SQL / Text-to-SQL)旨在将用户的自然语言问题映射为在特定数据库上可执行的 SQL 查询,是自然语言接口数据库(NLIDB)的核心任务之一。随着大规模预训练语言模型(LLM)的出现,主流方法逐渐演化为“LLM + 提示/检索 + 轻量微调”的范式,但在复杂查询推理、跨库泛化和实际部署鲁棒性等方面仍存在明显瓶颈。强化学习(RL)因其“与环境交互、基于奖励信号优化策略”的特性,被越来越多地用于 Text-to-SQL,以更好地对齐模型行为与执行结果和系统目标。12
本综述聚焦“强化学习在 NL2SQL/Text-to-SQL 中的应用”,目标是:
- 梳理 RL 介入 Text-to-SQL 的主要技术路径与代表性工作(尤其是近两年出现的 SQL-R1、SQL-Trail、SkyRL-SQL 等)。
- 总结不同方法在奖励设计、训练流程和多轮交互等关键维度上的共性与差异。
- 分析当前研究面临的主要挑战和未来可能的研究方向,为后续做更细致的专题研究(如奖励设计、多轮交互框架)打基础。
二、总体发展脉络与分类视角
2.1 从早期执行奖励到 LLM+RL
最早将强化学习用于 NL2SQL 的工作多基于中小规模 Seq2Seq 或代码生成模型,通过将“执行正确性”作为奖励来优化生成序列(如 Seq2SQL 之类的工作,在现代 LLM 综述中被作为经典例子引用)。这一阶段的特点是:1
- 模型本身容量有限,RL 主要用于弥补监督信号对执行结果刻画不足的问题。
- 奖励通常是“能否成功执行 / 结果是否与标注一致”的二元信号,较为稀疏。
- 训练流程多为“先监督学习,再用 REINFORCE/Policy Gradient 做一段 RL 微调”。
随着代码类 LLM 与通用 LLM 的兴起,RL 的角色逐渐从“微调小模型”演变为“对齐大模型行为与执行目标”,包括:
- 直接在大模型 Text-to-SQL 头上做 RL 微调(如 SQL-R1 一类工作)。
- 在多轮 agent 框架下,通过 RL 学习如何与数据库环境交互(如 SQL-Trail、SkyRL-SQL 等多轮 RL 方法)。345
2.2 功能视角:RL 在 Text-to-SQL 中扮演的几种角色
结合近年的代表工作,可将 RL 在 NL2SQL 中的大致角色概括为三类:
- 单轮执行对齐(single-pass, execution-aligned RL):
- 多轮交互式推理(multi-turn, agentic RL):
- 评测/奖励机制增强(evaluation-aligned RL):
此外,还有一些工作将 RL 用于辅助模块,如 Text-to-SQL 过程中的 schema 检索、问题生成或工具使用策略等,属于“间接作用于 NL2SQL”的场景。11
三、单轮执行对齐:SQL-R1 等方法
3.1 SQL-R1:代表性的单阶段 RL NL2SQL 模型
SQL-R1 是近两年强化学习在 NL2SQL 领域中最具代表性的单阶段 RL 工作之一,其核心思想是:在一个已经通过监督学习(SFT)初始化的大模型(如 Qwen2.5-Coder-7B)上,利用分组强化策略优化(GRPO)和复合奖励函数对 NL→SQL 推理过程进行强化学习训练。其关键设计包括:576
-
训练流程:
-
复合奖励设计:
- 格式奖励(Format Reward):鼓励模型以预期的
<think>...</think>和<sql>...</sql>样式输出思维过程和 SQL,从而便于解析和监控。56 - 执行奖励(Execution Reward):根据 SQL 是否能成功执行进行打分,避免生成语法错误或无法在目标数据库上运行的语句。5
- 结果奖励(Result Reward):根据执行结果是否与 gold query 的结果一致进行更细致的反馈,引导模型关注语义等价而非仅语法正确。65
- 长度相关奖励(Length Reward):对思维过程和 SQL 长度进行归一化惩罚,以抑制过度冗长的推理或过于复杂的 SQL 结构。6
- 格式奖励(Format Reward):鼓励模型以预期的
-
候选选择与自一致性:
在 Spider 与 BIRD 等标准基准上,SQL-R1 在 7B 量级模型上达到接近或超过闭源大模型(如 GPT-4/4o)的执行准确率,在 Spider Test 上约 88–89% EX,在 BIRD Dev 上约 66–67% EX,表明单阶段 RL 在复杂 NL2SQL 场景中具有显著提升空间。765
3.2 类似思想与扩展:小样本、LLM 生成奖励等
除了 SQL-R1 这一代表,还有若干工作在相似思路下探索不同维度:
-
小样本+小模型场景:
- 一些工业界实验(如 IBM SQL-RL-GEN)使用较小的 200M–300M 参数模型,在仅有上千条训练样本的场景下,通过 RL 和 LLM 生成的奖励信号,将执行准确率提高了约 7%,体现了 RL 在“小数据+小模型”设定下的潜力。12
-
更细粒度的奖励 / 判别器:
3.3. 小结:共同特征与单轮执行对齐
总体来看,单轮执行对齐类方法的共同特征是:
- 把 NL2SQL 看作“一次性生成程序”的问题,RL 只在最终输出上给奖励。
- 奖励设计已经从单一执行结果逐步演化为“语法+执行+结果+长度”等多维复合信号。
- 依赖一个较好的 SFT 初始化,RL 阶段主要用于“对齐”和“微调”而非从零学习。
其局限在于:
- 中间生成过程缺乏显式的交互与自纠错机会,错误往往在最终一步暴露,而奖励难以精确定位问题所在。
- 对于极其复杂或 OOD 的查询,单次生成往往难以通过一次修正弥补所有偏差。
四、多轮交互与 Agent 化:SQL-Trail、SkyRL-SQL 等
4.1 SQL-Trail:多轮 RL agent 框架
SQL-Trail 提出将 Text-to-SQL 从“静态翻译任务”重塑为“与数据库环境交互的多轮推理任务”,通过多轮 RL agent 框架实现 schema 探索、错误纠正和难度感知的 turn 分配。其关键思想可以概括为:1384
-
多轮交互流程:
-
难度感知的 turn-budget 分配:
-
复合奖励面板(六项奖励):
-
两阶段训练:SFT + 多轮 RL:
在 Spider 系列和 BIRD-SQL 等基准上,SQL-Trail 在使用不足 2000 条训练样本的情况下,在执行准确率和 OOD 泛化能力上取得新的 SOTA,特别是在 Spider-Syn 和 Spider-Realistic 等更具挑战性的子集上,展示了多轮交互与 RL 对于复杂环境下稳健 Text-to-SQL 的优势。84
4.2 SkyRL-SQL:多轮 RL 的工业实践案例
SkyRL-SQL(基于 VeRL 和 SearchR1 agent loop 的多轮 RL Text-to-SQL 实践)从工业工程视角展示了多轮 RL 的优势:3
-
多轮交互协议:
- 基于
<think>、<sql>、<observation>、<solution>等标记,将思维过程、探索性 SQL 和最终解答分离,允许模型在中间步骤频繁发出探索性查询、检查中间结果并纠错。3
- 基于
-
简单但有效的奖励设计:
- 奖励函数仅包含两项:格式奖励(是否遵守交互协议)和执行奖励(最终 SQL 是否执行成功且结果匹配 gold),相较于 SQL-Trail 的多项奖励面板更为简洁。3
-
多轮 RL vs 单轮 RL 的实验观察:
SkyRL-SQL 的结果佐证了多轮 RL 对于训练“内部推理能力”和“交互式纠错能力”的作用,并显示即便最终部署在单轮场景,多轮训练带来的收益仍然存在。
4.3 进一步扩展:工具集成、多任务、协同 RL
在多轮 RL 框架基础上,有工作进一步将 Text-to-SQL agent 与其他工具结合,如检索、多模态解释器或代码执行器,通过 RL 学习何时调用何种工具,并借助执行反馈优化策略。同时,也出现了将 Text-to-SQL 任务拆分为 schema linking 与 SQL 生成两阶段、并用 cooperative RL 协同优化两个子 agent 的工作,尤其是在小模型和资源受限场景下。1415
这些扩展方向表明,多轮 RL 与 agent 框架天然适合承载“工具增强型 NL2SQL”,使得模型可以在更复杂的数据与任务环境中运作。
五、细粒度评估与奖励机制:从二元执行到 rubric-based 奖励
5.1 二元执行奖励的局限
传统 RL+NL2SQL 工作多依赖“SQL 是否执行成功、结果是否正确”这一二元信号作为奖励,这在早期小模型场景中尚可接受,但在面对长 SQL、多表 joins、复杂嵌套查询时,往往过于稀疏,难以为模型提供足够的学习信号。此外,执行结果往往无法区分“结构接近但有小错误”的候选与“完全无关”的候选,导致奖励无法指导模型在结构空间中做细致调整。15
5.2 Rubric-based 与 critique-style 奖励
为解决上述问题,近年的一些工作引入了基于 rubric 的细粒度评估与奖励机制:
- RuCo-C 等方法提出使用生成式 judge,为每个查询自动构建评价量表和批注,从而可以对 SQL 的语义正确性、结构合理性和风格规范等多个维度进行打分。910
- 在 RL 训练中,这类 judge 可以为每个候选 SQL 提供更稠密的 reward,甚至对错误类型进行区分,使模型在一步步优化中获得更具体的指导,而不仅仅是“对/错”信号。109
5.3 结构相似度与局部奖励
SQL-Trail 的实验表明,以 bigram similarity 为代表的结构相似度 reward 是其六项奖励中收益最大的单项,有效稳定了训练过程。这说明:8
- 仅凭执行结果难以捕捉“离正确 SQL 还差多远”,而结构相似度提供了一个连续的、与目标 SQL 接近程度相关的信号。
- 在多轮 RL 框架下,结合同步记录中间候选 SQL,可以为每一步的结构调整提供局部奖励,进一步提升学习效率。48
综上,细粒度评估与多维奖励正在逐步替代单一执行奖励,成为 RL+NL2SQL 的重要趋势。
六、其它相关方向:问题生成、schema 检索与间接 RL
强化学习在 Text-to-SQL 生态中并不局限于“直接优化 SQL 生成器”。还有一些工作利用 RL 改进与 NL2SQL 相关的其他环节:
-
问题/SQL 对生成与数据增强:
- 有工作提出采用 in-context reinforcement learning 框架优化问题生成模块,以产生更加复杂和多样的合成查询,从而改进后续 Text-to-SQL 训练的数据分布和难度结构。11
-
schema 检索与子库选择:
- 在工业级大规模数据库环境下,经常需要先从成千上万张表中检索相关子 schema,再交给 LLM 进行 SQL 生成。部分工作尝试使用 RL 优化检索策略,使其在复杂环境下具有更高召回率和效率。11
-
协同/多智能体 RL:
- 在小模型场景下,有研究提出将 Text-to-SQL 任务拆分为 schema linking 与 SQL generation 两个子任务,分别由两个 agent 负责,并使用 cooperative RL 联合优化,从而提高整体性能和可解释性。14
这些方向虽然不直接修改主 SQL 生成器,但通过改善训练数据、检索质量和子模块协同,对 NL2SQL 系统整体性能有间接但重要的贡献。
七、当前研究的主要挑战
尽管 RL 在 NL2SQL 中已经展示出显著潜力,但综合现有文献与实践,总体上仍面临若干核心挑战:
-
数据与算力成本:
-
训练稳定性与可复现性:
-
评测维度不足:
-
安全性与边界控制:
- 多轮 RL agent 在真实数据库环境中探索时,可能触发代价高昂或危险的查询操作;如何在保障安全与资源可控的前提下进行 RL 训练,是实际部署中必须解决的问题。3
-
与大模型对齐的关系:
- 对于极大规模闭源模型而言,如何在不访问其参数的条件下,通过 RL 或交互式对齐进一步提升 NL2SQL 能力,仍然是开放问题;同时,有必要研究 RL 对模型对齐特性的长期影响(例如是否会产生过拟合特定 schema 的偏差)。
八、未来研究方向与个人选题空间
综合现有工作,可以看到强化学习在 NL2SQL 中已经从“单纯提升指标的小技巧”发展为“重新定义任务范式的关键手段”,特别是在以下几个方向上:
-
多轮交互框架与难度感知控制:
-
细粒度奖励与可解释评估:
-
小模型 + RL 的资源受限场景:
-
多模块与多智能体协同:
-
评测标准与开放基准的建设:
对于希望在“强化学习 + NL2SQL”方向做综述或后续研究的学生而言,可以从上述几个维度中选择一个切口:例如,专注于“多轮交互 RL 框架的奖励设计与评测方法”,或者“细粒度 rubric-based 奖励在 Text-to-SQL 中的应用”,在现有工作的基础上做更系统的整理与分析,再逐渐延伸到具体方法创新。
九、结论
强化学习在 NL2SQL/Text-to-SQL 领域已经从早期的小模型执行奖励微调,发展到围绕 LLM 的单轮执行对齐、多轮交互式推理和细粒度评测与奖励的多种形态。
- SQL-R1 代表了单阶段、复合奖励驱动的 NL2SQL 推理模型,在 Spider 和 BIRD 等基准上取得接近或超过闭源大模型的性能;
- SQL-Trail 和 SkyRL-SQL 等多轮 RL agent 则展示了在复杂查询和 OOD 场景下,多轮环境交互与难度感知控制的巨大价值。
- 与此同时,以 rubric-based judge、结构相似度奖励为代表的细粒度评估方法,正在弥补传统二元执行奖励的不足,为 RL 提供更稠密、更可解释的优化信号。10956483
尽管存在数据与算力成本、训练稳定性、安全性与评测标准等挑战,现有工作已经清晰地表明:
- 在复杂数据库环境下,单纯依赖一次性生成难以满足实际需求,RL 尤其是多轮交互式 RL,为构建更鲁棒、更智能的 NL2SQL agent 提供了新的技术路径。
- 后续研究可以在奖励设计、多轮交互策略、细粒度评估框架以及小模型/资源受限场景等方向继续深入,为这一交叉领域提供更系统、更可落地的解决方案。
References
-
Text-to-SQL Empowered by Large Language Models - 作者:D Gao · 被引用次数:673 — A Survey on Deep. Learning Approaches for Text-to-SQL. VLDB J … Seq2SQL: Ge… ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
A Survey on Employing Large Language Models for Text-to … - 作者:L Shi · 2025 · 被引用次数:120 — Their findings demonstrate that generative language models trained on … ↩︎ ↩︎ ↩︎
-
Text-to-SQL just got a lot better with RL - SkyRL-SQL uses a multi-turn RL framework where the agent learns to probe the database, observe feedb… ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
SQL-Trail: Multi-Turn Reinforcement Learning with Interleaved … - Our main contributions are as follows: (1) Unified Multi-turn RL Training Framework: We present the … ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
Training Natural Language to SQL Reasoning Model By … - arXiv.org - In this work, we propose SQL-R1, a novel NL2SQL reasoning model trained via reinforcement learning (… ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
SQL-R1: Training Natural Language to SQL Reasoning Model By … - Key Results: SQL-R1 achieves execution accuracy of 88.6% on the Spider benchmark and 67.1% on the BI… ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
SQL-R1: Training Natural Language to SQL Reasoning … - NeurIPS - In existing experiments, SQL-R1 achieves execution accuracy of 88.6% and 67.1% on the benchmark Sp… ↩︎ ↩︎ ↩︎
-
[Literature Review] SQL-Trail: Multi-Turn Reinforcement Learning … - Multi-turn Reward Design: Unlike sparse binary execution rewards, SQL-TRAIL employs a six-term, rule… ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
Fine-Grained Reinforcement Learning for Text-to-SQL with … - 作者:G Wang · 2025 · 被引用次数:1 — Our framework first automatically generates query-specific evaluation r… ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
Fine-Grained Reinforcement Learning for Text-to-SQL with … - 作者:G Wang · 2025 · 被引用次数:1 — Our framework first automatically generates query-specific evaluation r… ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
In-Context Reinforcement Learning with Retrieval … - 作者:R Toteja · 2025 · 被引用次数:15 — Text-to-SQL simplifies database interactions by enabling non-experts… ↩︎ ↩︎ ↩︎ ↩︎
-
IBM/sql-rl-gen - The SQL-RL-GEN is an algorithm based on a Reinforcement Learning approach with a reward function gen… ↩︎ ↩︎
-
[2601.17699] SQL-Trail: Multi-Turn Reinforcement Learning … - arXiv - To address this limitation, we introduce SQL-Trail, a multi-turn reinforcement learning (RL) agentic… ↩︎
-
Enhanced Text-to-SQL using cooperative reinforcement … - This paper proposes a cooperative reinforcement learning (CRL) framework for Text-to-SQL that explic… ↩︎ ↩︎ ↩︎
-
Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL … - We first formulate the task as a sequential decision-making process, followed by our reward design a… ↩︎ ↩︎
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)