【强化学习&SWE】如何解决长距离推理和复杂多文件代码库的导航能力

文艺倾年

411人浏览 · 2026-03-21 22:06:20

文艺倾年 · 2026-03-21 22:06:20 发布

😊你好，我是小航，一个正在变秃、变强的文艺倾年。
🔔本专栏《人工智能》旨在记录最新的科研前沿，包括大模型、智能体、强化学习等相关领域，期待与你一同探索、学习、进步，一起卷起来叭！
🚩Paper：IQuest-Coder-V1 Technical Report
💻时间：202603
💭推荐指数：🌟🌟🌟🌟🌟

往期精彩专栏内容，欢迎订阅：
🔗【免训练&测试时扩展】20260221：如何无容器化进行强化学习训练
🔗【免训练&测试时扩展】20260213：Code Agent可控进化
🔗【免训练&测试时扩展】20260213：通过任务算术转移思维链能力
🔗【免训练&测试时推理】20251014：不确定性影响模型输出
🔗【低训练&测试时推理】20251014：测试时针对特定样本进行语言模型优化
🔗【免训练&强化学习】】20250619：训练无关的组相对策略优化
🔗【多智能体&强化学习】20250619：基于统一多模态思维链的奖励模型
🔗【多智能体&强化学习】20250615：构建端到端的自主信息检索代理
🔗【多智能体】20250611：基于嵌套进化算法的多代理工作流
🔗【多智能体】20250610：受木偶戏启发实现多智能体协作编排
🔗【多智能体】20250609：基于LLM自进化多学科团队医疗咨询多智能体框架
🔗【具身智能体】20250608：EvoAgent：针对长时程任务具有持续世界模型的自主进化智能体

介绍

研究问题：这篇文章要解决的问题是如何在代码智能领域缩小开放权重模型与专有领导模型（如Claude 4.5 Sonnet1）之间的差距。具体来说，当前的长距离推理和复杂多文件代码库的导航能力存在显著不足。
研究难点：该问题的研究难点包括：长距离推理和复杂代码库的导航、模型在分布变化下的稳定性、以及如何在实际部署中优化模型容量和部署占用空间。
相关工作：该问题的研究相关工作包括通用智能通过领域特定专业化显著提升的研究，以及在代码智能领域中，现有开放权重模型与专有模型之间的性能差距。

研究方法

这篇论文提出了IQuest-Coder-V1系列（7B/14B/40B/40B-Loop），一种新的大型语言模型（LLMs）
家族，用于解决代码智能领域的上述问题。具体来说，

预训练和高质熔炼：首先，采用两阶段的预训练过程，从阶段1的一般数据过渡到阶段2的广泛代码数据。然后，使用高质量的精选代码进行有针对性的熔炼阶段，确保模型的底层表示为后续复杂的逻辑任务做好准备。
双阶段中训练：为了弥合静态知识与自主行动之间的差距，引入了一个专门的中训练阶段，结合推理、自主和长上下文编码数据。
分叉后训练：认识到不同用例需要不同的优化配置，提供了两个不同的后训练路径，分别专注于指令调优和思维路径。
高效架构：循环模型结合了循环结构，使得可以对复杂代码段进行迭代计算，提供了一个在现实世界部署约束下的可扩展架构路径。

实验设计

数据收集：预训练语料库包括来自公共代码库、技术文档和编程相关网络内容的数十亿个令牌。数据清理和过滤技术确保了高质量的训练数据，实施了仓库级和文件级处理策略以有效捕捉代码结构和上下文。
训练过程：训练分为三个阶段：预训练和高质熔炼、中训练、后训练。中训练分为两个阶段，逐步增加上下文长度（32k到128k）。后训练通过监督微调和强化学习将预训练模型转化为专门的代码智能系统。
模型架构：LoopCoder架构采用循环变压器设计，两个固定迭代中执行具有共享参数的变压器块。

第一个迭代处理输入嵌入并通过位置移位的隐藏状态进行变换。
第二个迭代计算全局注意力和局部注意力，并结合基于查询表示的学习门控机制。

结果分析

代码补全：在CrossCodeEval多语言基准测试中，IQuest-Coder-V1模型在跨文件代码补全任务上表现出色，验证了其在利用跨文件上下文方面的基本能力。
代码生成：在广泛的代码生成评估中，IQuest-Coder-V1模型表现出一致的强劲性能，验证了其功能正确性和鲁棒性。
代码推理：在CRUXEval基准测试中，IQuest-Coder-V1模型在正向执行和逆向推理任务上均表现出色，表明其在理解代码行为方面的改进。
代码效率：在Mercury基准测试中，IQuest-Coder-V1模型不仅在功能上正确，而且在运行时间上也具有竞争力。
文本到SQL：在Spider和BIRD基准测试中，IQuest-Coder-V1模型在模式链接和结构化正确的SQL生成方面表现出色，表明其在跨域语义解析和可靠查询生成方面的鲁棒性。
自主编码任务：在Terminal-Bench和SWE-bench基准测试中，IQuest-Coder-V1模型在终端环境和真实世界软件工程任务中表现出色，验证了其在工具使用和长期规划方面的能力。
安全性评估：在Tulu3基准测试套件中，IQuest-Coder-V1模型在拒绝有害提示和最小化对良性输入的过度拒绝方面表现出色，验证了其在安全性方面的改进。

在这里插入图片描述

总体结论

这篇论文提出了IQuest-Coder-V1系列，一种新的大型语言模型家族，通过代码流预训练范式和多阶段进化训练，推进了自主软件工程的前沿。通过捕捉动态代码库转换和在中期训练中整合广泛的推理轨迹，IQuest-Coder-V1模型为复杂代码智能任务建立了稳健的逻辑基础。IQuest-Coder-V1在代理软件工程、竞赛编程和工具使用等多样化基准测试中表现出色，验证了训练方法的有效性。IQuest-CoderV1（Loop变体）还通过循环架构创新解决了实际部署挑战，优化了容量-效率权衡。通过开源完整的训练管道和模型检查点，本文旨在催化代码智能领域的进一步研究，并加速开发能够应对现实世界软件工程挑战的生产就绪代理系统。

不足与反思

尽管引入了循环机制以优化模型容量和部署占用之间的权衡，但在实际部署中仍存在挑战。

📌 [ 笔者 ]   文艺倾年
📃 [ 更新 ]   2026.03.21
❌ [ 勘误 ]   /* 暂无 */
📜 [ 声明 ]   由于作者水平有限，本文有错误和不准确之处在所难免，
              本人也很想知道这些错误，恳望读者批评指正！

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

光伏储能单相逆变器并网仿真模型【含个人笔记＋建模参考】

为解决光伏发电出力间歇性、波动性带来的并网稳定性差、电能质量不达标的问题，本文搭建集Boost升压电路、Buck-boost双向DC/DC储能电路、单相并网逆变器于一体的光伏储能并网仿真系统。系统以Boost电路结合扰动观察法实现光伏组件最大功率点跟踪，最大化利用太阳能资源；通过双向Buck-boost DC/DC变换器搭建储能调控体系，稳定直流母线电压，平抑光伏功率波动；并网逆变器采用电流环闭环