论文导读 | 近期 Text-to-SQL 研究现状与未来展望

PKUMOD

307人浏览 · 2026-06-05 16:22:17

PKUMOD · 2026-06-05 16:22:17 发布

摘要

Text-to-SQL 旨在将自然语言问题自动转换为可执行 SQL，是自然语言接口、智能数据分析和企业级数据问答系统中的核心任务。随着大语言模型的发展，Text-to-SQL 的研究范式已经从早期的端到端语义解析，逐渐转向以 LLM 为核心、结合检索、结构建模、执行验证和多候选选择的系统化方法。近期研究表明，当前瓶颈并不只是 SQL 语法生成，而主要集中在复杂数据库环境下的用户意图理解、Schema Linking、结构化推理、真实数据 grounding 以及语义一致性验证。

本文综述近期 Text-to-SQL 领域的代表性工作，按照模型训练、预处理与 Schema Linking、SQL 生成与候选选择三个方向进行归纳。最后，结合 CIDR 2026 关于 Semantic Data Modeling、Graph Query 与 SQL 融合的工作，讨论语义数据图可能为未来 Text-to-SQL 系统带来的新范式。

1. 引言

Text-to-SQL，也称 NL2SQL，目标是将自然语言问题转换为数据库可执行的 SQL 查询。该任务长期以来被视为自然语言处理与数据库系统之间的重要交叉问题。传统方法通常依赖语义解析、模板匹配或监督训练模型；而近年来，随着 LLM 在语言理解和代码生成方面能力增强，Text-to-SQL 的技术路线发生了明显变化。

然而，LLM 的出现并没有完全解决 Text-to-SQL。原因在于，真实场景中的 Text-to-SQL 远不只是“把一句话翻译成 SQL”。系统需要理解用户意图，定位正确数据库、表、列和值，推断 Join 路径，处理业务口径，并生成语法正确、语义一致且可执行的 SQL。尤其在企业数据库中，Schema 往往规模庞大、命名不透明、外键缺失、数据内容脏乱，业务语义也常常隐藏在历史查询和指标定义中。

因此，近期研究逐渐形成一个共识：Text-to-SQL 的核心问题正在从单一 SQL 生成，转向复杂数据库环境中的可验证结构化推理。现有技术主要聚焦在三个方向：第一，通过训练或微调提升模型内在 SQL 对数据库的理解和推理能力，以提高小模型执行Text-to-SQL的能力；第二，在生成前进行 Schema Linking、数据探索和上下文构造，在有限上下文中为大模型提供有价值的Schema信息；第三，通过多路径推理、多候选生成和选择机制提升复杂 SQL 的可靠性。

2. 模型训练：提升 LLM 内在 SQL 推理能力

2.1 PARSQL：SQL 与 Reasoning 结合训练与推理增强

PARSQL[1] 关注小语言模型在 Text-to-SQL 任务中的能力提升。相比闭源大模型，小模型在部署成本、隐私保护和推理延迟上更有优势，但其问题在于容易忽略自然语言中的隐式约束，例如排序条件、比较逻辑和嵌套查询关系。PARSQL 认为，单纯学习 question-SQL 映射不足以让模型掌握 SQL 结构背后的推理过程。

为此，PARSQL 引入 SQL Parsing and Reasoning。它设计 PARSer，将SQL解析为AST，从中抽取 WHERE、GROUP BY 、ORDER BY等约束，并删除部分约束生成sub-SQL，用于构造细粒度训练立案样本。同时，PARSQL还将SQL转换成自然语言形式的逐步解释reason，提出辅助任务，与一起进行多任务学习。在推理阶段，训练好的模型会生成多个SQL及其reason，再通过比较SQL与reason的相似度选择最终SQL。

该工作将 Text-to-SQL 从序列生成问题转化为“逻辑推理 + SQL 生成”的联合学习问题，为低资源和私有化部署场景提供了一条有效路径。

2.2 ReViSQL：高质量验证数据与 RLVR

ReViSQL[2] 的核心观点是，当前 Text-to-SQL 任务的数据质量和可验证训练更关键。该工作再BIRD数据集上构建了 BIRD-Verified，一个基于专家校验的可靠训练集。论文报告称，作者在部分 BIRD Train 数据中发现并修正了大量错误，仅提升训练数据质量，就能在相同 RLVR 算法下显著提升单次生成准确率。

方法上，ReViSQL 使用 Reinforcement Learning with Verifiable Rewards(RLVR)，即利用 SQL 执行结果作为可验证奖励信号训练模型。推理阶段，系统进一步结合执行结果对齐、majority voting 和 judge model，以提升最终准确率。ReViSQL-235B-A22B 在专家验证的 BIRD Mini-Dev 上达到 93.2% execution accuracy，超过 proxy human-level accuracy。

该工作的启发在于：对于 Text-to-SQL 这类可执行任务，clean data 和 verifiable reward 是提高模型能力的核心资源。相比不断堆叠外部模块，提升底层模型的 SQL reasoning 能力可能更直接、更稳定。

2.3 Schema on the Inside：领域 Schema 内化

Schema on the Inside[3] 面向生产系统中的高成本问题。传统 LLM-based Text-to-SQL 通常需要在每次查询时将完整 Schema 放入 Prompt，这会带来高 token 成本、高延迟和长上下文噪声。该工作提出两阶段监督微调方法，使一个自托管模型内化特定业务数据库 Schema，从而减少推理时对长 Prompt 的依赖。

论文中，该方法将输入 token 从约 17k 降低到不足 100，并在实际业务场景中取得较高执行成功率和语义准确率。这种方法尤其适用于数据库结构相对稳定、查询频繁、对延迟和成本敏感的垂直领域。其局限也比较明显：模型与具体数据库绑定较强，当 Schema 频繁变化或跨域迁移时，需要重新适配。

3. 预处理与 Schema Linking：复杂数据库中的关键瓶颈

3.1 AutoLink：面向大规模数据库的自主 Schema 探索

Schema Linking 是 Text-to-SQL 落地中的核心瓶颈。对于大规模企业数据库，完整输入所有表和字段既不现实，也会引入大量无关信息。AutoLink[4] 将 Schema Linking 定义为一个自主探索过程，让 Agent 在不输入完整 Schema 的情况下，通过多轮交互逐步发现相关表、字段和连接关系。

该方法将 Schema Linking 拆解为 schema exploration、semantic retrieval、schema verification 和 schema expansion 等动作。其核心思想是模拟数据库工程师面对复杂 Schema 时的工作流程：先根据问题定位可能相关的表，再检查字段含义，验证连接关系，并逐步扩展上下文。论文报告 AutoLink 在 BIRD-Dev 和 Spider-2.0-Lite 上取得较高 strict schema linking recall，并在大规模 Schema 下保持较好可扩展性。

AutoLink 的贡献在于，将 Schema Linking 从静态召回任务推进为动态 Agentic Exploration，使系统能够在召回率、噪声和成本之间取得更好的平衡。

3.2 APEX-SQL：以真实数据为 grounding 的探索式 Text-to-SQL

APEX-SQL[5] 进一步指出，传统 Text-to-SQL 方法过度依赖静态 Schema 表示，而真实数据库中的语义往往隐藏在数据值中。仅凭字段名和表结构，模型很难判断某个字段的真实业务含义。因此，APEX-SQL 提出 Agentic Exploration，将 Text-to-SQL 从被动翻译任务转化为主动数据探索任务。

该方法以 hypothesis-verification loop 为核心。模型先根据自然语言问题提出假设，再通过执行探索 SQL 到真实数据库中验证字段含义、值分布和表间关系。Schema Linking 阶段使用 logical planning、dual-pathway pruning 和 data profiling；SQL Generation 阶段则根据探索结果生成更有 grounding 的 SQL。论文在 BIRD 和 Spider 2.0-Snow 上均取得较好表现，并指出 agentic exploration 能显著释放 foundation model 的潜在推理能力。

APEX-SQL 的意义在于，它将真实数据内容引入 Text-to-SQL 推理过程，避免系统只依赖静态 Schema 做语义猜测。

3.4 CoRE：基于经验记忆的结构化 RAG

CoRE[6] 从 retrieval-augmented generation 的角度切入。普通 RAG 在结构化推理任务中效果有限，因为相似文本示例并不一定对应相似 SQL 结构或相似 Schema 推理路径。CoRE 构建 Experience Memory，并通过 contrastive retrieval 选择正例和反例，让模型在 few-shot context 中同时看到成功与失败经验。

论文指出，LLM 在结构化数据任务中表现不佳，原因之一是预训练阶段对结构关系暴露不足，另一个原因是难以将文本推理迁移到表格和数据库结构上。CoRE 通过经验记忆和对比式上下文学习，模拟人类专家从历史案例中迁移结构化推理模式的过程。

3.3 SchemaGraphSQL：图搜索式 Schema Linking

SchemaGraphSQL[7] 采用更算法化的思路，将数据库 Schema 建模为图结构。表和字段可以看作节点，外键或可连接关系可以看作边。系统首先构建 Schema Graph，再用轻量 LLM 从自然语言问题中识别源表和目标表，最后利用经典路径搜索算法寻找相关 Join 路径和字段集合。

为处理真实数据库中外键缺失或不一致的问题，SchemaGraphSQL 进一步加入 LLM-guided joinability discovery，用于推断潜在表连接关系。这种方法的优势在于可解释、成本低、结构约束强，避免完全依赖 LLM 在大规模 Schema 中自由选择字段。

该工作带来一个重要启发：Text-to-SQL 系统不必所有环节都交给 LLM，传统图算法仍然可以在结构化子任务中发挥关键作用。

4. SQL 生成：细化生成逻辑以提高生成质量

4.1 XiYan-SQL：多生成器与候选重组

XiYan-SQL[8] 是多生成器框架的代表。它包含 Schema Filter、多生成器 SQL 生成和选择模型三个模块。Schema Filter 负责构造多个相关 Schema，输入到不同的生成器中；多生成器通过不同微调任务和 SQL 格式生成多样化候选；最终选择模型结合 candidate reorganization 选出最优 SQL。

论文指出，仅增加候选多样性并不一定带来正确性提升，因此需要专门的选择模型，而不是简单依赖 self-consistency。XiYan-SQL 在 BIRD 和 Spider 上取得了较强性能。该方法体现了当前生成阶段的主流趋势：用多个候选覆盖搜索空间，再通过特定判别方式进行精细选择。

4.2 CHASE-SQL：多路径推理与偏好优化选择

CHASE-SQL[9] 同样采用候选生成与选择框架。其采用了三种不同风格的 generator，包括 Divide-and-Conquer CoT、Query Plan CoT、Online Synthetic Example Generation。再生成过程中，CHASE-SQL使用了反馈式修复，利用语法错误信息和查询结果对生成的SQL进行调试修复。最后，CHASE-SQL 将输出的 SQL 用一个 binary selection model 进行两两比较筛选，并选择出最高rank的结果。论文特别指出，在多候选 Text-to-SQL 系统中，selector 的质量与 generator 同样重要。过往工作中按照执行结果一致性并不总能选择正确 SQL，因为执行结果一致不等于语义正确。

CHASE-SQL 的贡献在于系统性探索了多路径候选生成和偏好选择在 Text-to-SQL 中的作用。

4.3 AV-SQL：Agentic Views 与复杂查询分解

AV-SQL[10] 面向复杂查询和大 Schema 场景，提出 Agentic Views。其核心思想是，不直接生成最终 SQL，而是先由 Agent 生成若干 Common Table Expressions，也就是 CTE-based intermediate views，用来封装中间查询逻辑和局部 Schema 信息。

系统包含 query rewriter、view generator、planner、generator 和 revisor 等 Agent。对于复杂的数据库，view generator 将在 shema chunks 上生成中间视图，后续模块再将这些视图组合为最终 SQL。Agentic Views 的价值在于将复杂 SQL 的隐式推理过程显式化。其采用的 CTE 具有可执行、可验证、可组合的特点，因此适合作为复杂 Text-to-SQL 的中间表示。

4.4 AID-SQL：难度感知的自适应上下文学习

AID-SQL[11] 关注 in-context learning 中的问题难度差异。不同难度的自然语言问题需要不同提示策略：简单问题不需要过度复杂的 CoT，复杂问题则需要更强的分解指导和示例支持。AID-SQL 首先进行 difficulty classification，再选择 difficulty-aware instruction、CoT template 和 RAG examples。

此外，该方法训练 ranking model，以更好衡量检索示例对当前 Text-to-SQL 任务的帮助，而不是仅靠文本相似度。这说明 Prompt 构造也正在从固定模板转向面向问题难度和结构特征的自适应生成。

5. 语义数据图：Text-to-SQL 的未来抽象层

除了以上直接面向 Text-to-SQL 的方法，CIDR 2026 的论文 Semantic Data Modeling, Graph Query, and SQL, Together at Last? [12]提供了一个更底层的未来方向：将 Semantic Data Modeling、Graph Query 和 SQL 统一起来。

这篇论文的出发点是，真实数据库的复杂性不仅体现在表多、字段多，还体现在业务逻辑与物理 Schema 的脱节。当前很多语义建模工具构建在 SQL 引擎之上，通过独立 API 或查询语言提供业务指标和对象模型；但这些语义层通常无法被 SQL 用户直接使用。论文提出的问题是：能否在 SQL 中定义语义模型，并使其自然可查询？

作者指出，语义数据模型和图查询之间存在天然联系。语义模型本质上是图：节点表示业务对象，边表示对象关系，属性表示对象字段，指标表示聚合逻辑；而图查询提供沿边遍历的能力，其底层对应关系数据库中的 Join。换言之，很多复杂 SQL 查询，本质上是在业务对象图上进行路径遍历、属性访问和指标计算。

下图是论文中展现的使用语义图建模后的拓展 SQL。可以看到右侧的拓展 SQL 从形式上更为简洁，易读性更高。其中复杂的指标计算被用虚拟属性替代。这些字段后续将在查询引擎内部被解释成为相应的 Join、Aggregation 等操作。在某些情况下，能够规避掉由于关系型数据库的特性产生的 double-count 问题。

对 Text-to-SQL 而言，这一方向具有重要意义。当前系统大多直接从自然语言生成物理 SQL，这要求模型理解底层表结构、字段含义、Join 关系和指标口径。但如果数据库上方存在一个稳定的 semantic data graph，模型的目标可以变为从自然语言映射到语义对象、关系和指标，再由系统将语义查询编译为物理 SQL。

这种架构可能带来三点优势。

第一，降低 Schema Linking 难度。模型不再需要直接面对上千个物理字段，而是面向业务对象和语义关系进行 linking。

第二，提高指标一致性。诸如 GMV、留存率、活跃用户、高价值客户等业务概念可以在语义层统一定义，避免模型在每次查询时重新猜测 SQL 逻辑。

第三，增强数据安全和隐私保护，通过中间语义层，可以让用户或者 LLM 在可控权限下以黑箱形式访问数据库，得到相关的数据信息，为需要调用 API 执行 Text-to-SQL 任务的中小企业提供安全的数据接口。

因此，未来 Text-to-SQL 系统可能不再是简单的“NL → SQL”，而是“NL → Semantic Query → SQL”。LLM 负责自然语言到语义图的映射，数据库系统负责语义查询到物理执行计划的编译与优化。这一方向可能成为 Text-to-SQL 从 Benchmark 走向企业级数据平台的重要基础设施。

6. 总结

近期 Text-to-SQL 研究呈现出明显的系统化趋势。模型训练方向强调通过 SQL parsing、reasoning 和 RLVR 等方法提升模型内在能力；Schema Linking 方向强调在大规模数据库中构造精确、低噪声、可扩展的上下文；SQL 生成方向则通过多候选生成和分解式推理等方式提升复杂查询的可靠性。

从方法演化看，Text-to-SQL 已经不再是单纯的文本生成任务，而是结合 LLM、检索、图算法、执行验证、候选选择和语义建模的复合系统问题。当前研究的关键挑战包括：如何在大规模 Schema 中保持高召回和低噪声，如何利用真实数据进行语义 grounding，如何设计可靠的 SQL verifier 和 selector，以及如何将业务语义从物理 Schema 中抽象出来。

未来，本文认为利用 Semantic Data Modeling 将 Graph 与关系型数据库 Schema 的进一步融合，Text-to-SQL 的目标可能从直接生成物理 SQL，转向面向语义数据图的自然语言查询。真正可靠的 Text-to-SQL 系统，不只是让模型“会写 SQL”，而是让系统能够理解业务概念、定位正确数据、验证查询逻辑，并以可治理的方式完成数据访问。

参考文献

[1] Dai, Yaxun, et al. PARSQL: Enhancing Text-to-SQL through SQL Parsing and Reasoning. ACL Findings, 2025.

[2] Zhu, Yuxuan, et al. ReViSQL: Achieving Human-Level Text-to-SQL. arXiv, 2026.

[3] Soni, Chinmay, et al. "Schema on the Inside: A Two-Phase Fine-Tuning Method for High-Efficiency Text-to-SQL at Scale." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 40. No. 47. 2026.

[4] Wang, Ziyang, et al. AutoLink: Autonomous Schema Exploration and Expansion for Scalable Schema Linking in Text-to-SQL at Scale. AAAI, 2026.

[5] Cao, Bowen, et al. APEX-SQL: Talking to the Data via Agentic Exploration for Text-to-SQL. arXiv, 2026.

[6] Gu, Jiawei, et al. "Toward structured knowledge reasoning: Contrastive retrieval-augmented generation on experience." Findings of the Association for Computational Linguistics: ACL 2025. 2025.

[7] Safdarian, AmirHossein, et al. SchemaGraphSQL: Efficient Schema Linking with Pathfinding Graph Algorithms for Text-to-SQL on Large-Scale Databases. EACL Findings, 2026.

[8] Liu, Yifu, et al. XiYan-SQL: A Novel Multi-Generator Framework for Text-to-SQL. TKDE, 2026.

[9] Pourreza, Mohammadreza, et al. CHASE-SQL: Multi-Path Reasoning and Preference Optimized Candidate Selection in Text-to-SQL. ICLR, 2025.

[10] Pham, Minh Tam, et al. AV-SQL: Decomposing Complex Text-to-SQL Queries with Agentic Views. arXiv, 2026.

[11] Li, Xiuwen, et al. "AID-SQL: Adaptive in-context learning of text-to-SQL with difficulty-aware instruction and retrieval-augmented generation." 2025 IEEE 41st International Conference on Data Engineering (ICDE). IEEE, 2025.

[12] Shute, Jeff, Colin Zheng, and Romit Kudtarkar. Semantic Data Modeling, Graph Query, and SQL, Together at Last? CIDR, 2026.