【Agent】Towards General Agentic Intelligence via Environment Scaling

山顶夕景

400人浏览 · 2026-05-05 21:35:46

山顶夕景 · 2026-05-05 21:35:46 发布

note

这篇论文提出了一种通过系统环境扩展和agent经验学习来提升通用agent智能的方法。通过程序化地将工具实例化为可执行的代码，并在数据库结构化的环境中进行操作，实现了大规模的可验证轨迹构建。
论文先将数万 API 按功能聚类成 1000+ 个语义域，每个域内只保留逻辑相关的工具；然后在同一个域内，采样少量、连贯的工具序列，反向合成自然语言用户 query，再在虚拟环境中执行得到多步 function call 轨迹，用于 SFT
基于这些环境，引入了两阶段agent经验学习框架（SFT），使agent能够在一般域中学习基本的工具使用技能，并在目标垂直域中进行细粒度训练。
广泛的实验结果表明，AgentScaler系列模型在开源模型中达到了最先进的性能，并在某些情况下与更大或闭源的对应模型相当。未来的研究方向包括在完全模拟的环境上集成强化学习和扩展管道以涵盖更广泛的模态和实际部署场景。

一、研究背景

研究问题：这篇文章要解决的问题是如何通过环境扩展来提升通用代理智能。具体来说，现有的语言模型在真实世界应用中存在function call调用能力不足的问题，尤其是在多样化的环境中进行交互时。
研究难点：该问题的研究难点包括：如何系统地扩展环境以覆盖更多的功能调用场景，以及如何有效地从与这些环境交互中获得的经验中训练代理的智能。
相关工作：该问题的研究相关工作包括两类方法：一类是反向范式，通过生成用户查询来匹配每个助手的功能调用；另一类是正向范式，即模拟代理-人类交互来生成轨迹数据。然而，这两类方法都存在一定的局限性，如生成的轨迹缺乏真实性或自然性，且环境不可扩展。

二、Environment Scaling

这篇论文提出了一种通过系统环境扩展来提升通用代理智能的方法。具体来说，
在这里插入图片描述

1、环境自动构建：首先，作者设计了一个系统化的流程来利用多样化的工具集。该流程包括场景收集、工具依赖图建模和功能模式程序化实现三个阶段。

场景收集：从ToolBench、API-Gen和内部工具库中收集了超过30,000个API，经过过滤和重写后，构建了API池。
工具依赖图建模：通过计算工具参数的余弦相似度，构建工具图，并使用Louvain社区检测算法进行域划分。
- 先把 3 万 + API 用聚类分成 1000 + 个 domain（域），每个域是一个独立小环境（如：天气域、机票域、外卖域）
- 每次只在同一个 domain 内采样工具，防止反向构造的query过于离谱
- 采样方式：在域内的工具依赖图上随机游走，直到设置的最大跳数 or 节点结束
功能模式程序化实现：将工具操作形式化为数据库交互，生成领域特定的数据库结构，并将工具实例化为可执行的Python代码。

2、agent任务构建：

通过前向模拟agent-人类交互来构建轨迹。具体步骤包括初始化环境状态、采样逻辑一致的工具序列、生成相应的参数并执行工具调用，确保轨迹的可验证性。
基于环境自动生成多步骤、有依赖、带约束的复杂任务（如 “查天气→订机票→预约接送”）。

在这里插入图片描述

3、agent经验学习：采用两阶段agent经验学习框架（均为SFT）。

第一阶段，agent在一般域中学习基本的工具使用技能；
第二阶段，在目标垂直域中进行细粒度训练，使agent能够选择合适的工具、参数化调用并生成上下文相关的响应。

三、实验设计

基准测试：在三个成熟的代理基准上进行评估：t-bench、t2-Bench和ACEBench-en。对于t-Bench和t2-Bench，采用pass^1指标进行评估，并分析pass^k的趋势；对于ACEBench-en，报告正常、特殊和代理类别的准确性，以及整体性能。
基线对比：将训练的一系列模型与以下类型的模型进行对比：闭源大型语言模型（如Gemini-2.5-pro、Claude-Sonnet-4、GPT-o3等）和开源大型语言模型（如GPT-OSS-120B-A5B、Deepseek-V3.1-671B-A37B等）。
模型训练：通过在Qwen3模型的不同规模上进行训练，构建AgentScaler系列模型（4B、8B、30B-A3B）。

四、实验结果

在这里插入图片描述

主要结果：闭源大型语言模型在大多数域和基准上仍然保持明显的性能优势。然而，AgentScaler在参数规模较小的情况下取得了显著的性能，特别是在t-bench、t2-Bench和ACEBench-en上。例如，AgentScaler-4B在零售和航空领域的得分分别达到了64.3和54.0，接近30B参数模型的性能。
在这里插入图片描述

消融研究：通过消融分析验证了两阶段代理经验学习框架的有效性。结果表明，第一阶段和第二阶段的训练都显著提高了模型性能，特别是第二阶段的多步代理训练进一步提升了代理集的得分。

跨领域评估：在ACEBench-zh上的评估结果显示，AgentScaler模型在所有规模上均优于其Qwen基线模型，特别是在正常和代理子集上表现出色。例如，AgentScaler-30B-A3B在整体得分上达到了81.5。

稳定性和长时工具调用挑战：AgentScaler-30B-A3B在所有评估的pass^k设置上均优于Qwen3-Thinking-30B-A3B，表明模型的稳定性显著提高。然而，长时工具调用的挑战仍然存在，工具调用数量与任务准确性之间存在负相关关系。

Reference

[1] Towards General Agentic Intelligence via Environment Scaling

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

先进制造业AI产品经理邝光前揭秘：什么是AI产品经理，如何成为AI产品经理，AI产品经理的核心能力是什么，AI产品经理的日常工作流程，想成为AI产品经理，如何破局？

AI产品经理是科技领域的热门岗位，其核心在于理解“AI是基础设施”的本质。与传统产品经理不同，AI产品经理的工作基于数据/概率驱动，关注自然语言交互、模型调优和算力成本等。核心能力包括技术理解力、场景洞察力和AI原生设计思维。日常工作涵盖需求定义、技术选型、Prompt工程和评估体系构建等。AI产品主要分为赋能型、原生型和基础设施型三类。想入行者需深度使用AI产品、学习技术知识、拆解优秀案例，并通

AtomGit开源社区

AI编辑器深度体验：从Cursor到Qoder，一个Java开发者的实战选择

选AI编辑器就跟选IDE一样——没有"最好的"，只有"最适合你的"。如果你是全栈开发、前端为主、用VS Code生态——Cursor是当前的最优选。如果你是Java开发者、重度IDEA用户、需要在企业级项目里用AI——Qoder是目前唯一能在IDEA里达到这个AI辅助深度的方案。如果你喜欢命令行、做的是独立项目、网络条件好——Codex也是一个有趣的选择。工具不重要，重要的是你用工具创造了什么。A

AtomGit开源社区

2026年GPT-5.5国内无障碍使用指南：星链4SAPI全链路部署

GPT-5.5的发布不仅证实了其技术研发的持续推进，更突显了大规模语言模型向工程化、模块化方向的发展趋势。从技术实现角度分析，该版本可能采用了可组合的模块架构，支持不同功能组件的动态加载与协同，为模型服务的灵活部署奠定了基础。：模型对复杂提示词的解析精度显著提高，在传统难点如手部结构、面部特征的生成上更加合理，有效输出率提升。：作为首个明确采用"逻辑思考链"的图像生成模型，实现了"理解-规划-生成