APEX-Agents:长期专业任务的AI代理能力测试

APEX-Agents(AI Productivity Index for Agents)是由Mercor于2026年1月推出的首个在真实、长期专业工作环境中评估AI代理的基准。该基准专注于测试AI代理在投资银行、管理咨询和企业法等高价值专业服务领域的跨应用、长视野任务执行能力

在这里插入图片描述

核心定位与适用场景

APEX-Agents的核心定位是经济上有价值的AI代理工作评估。与现有基准测试孤立提示或窄技能不同,APEX-Agents:

  • 测试跨应用任务,需要导航多个工作流
  • 模拟凌乱、不完整的工作场所上下文,分布在文档、聊天线程、文件中
  • 衡量客户就绪输出质量,能够证明专业费用合理性
  • 任务需要数小时到数天供专业人员完成

适用场景包括:

  • 专业服务自动化:投资银行、咨询、法律等高价值工作
  • 企业级任务执行:模拟真实企业环境中的复杂工作流
  • 多工具协调:测试代理在Docs、表格、PDF、电子邮件等工具间切换的能力
  • 长期规划:评估模型在数小时跨度上的任务跟踪和推理能力

评测方法论

四步流程

步骤 描述
1. 调研(Surveys) 调研高盛、麦肯锡、Cravath等数百名专家,了解他们如何花费时间
2. 场景(Scenarios) Mercor专家(VP、MD、5-10年经验的管理者)在Google Workspace中创建33个真实项目场景
3. 任务创建(Task Creation) 专家定义具体任务,包含1-10个通过/失败标准,定义"客户就绪"工作
4. 评估(Evaluation) 使用Archipelago基础设施部署代理系统性地测量任务完成

合作伙伴

  • Box:提供现实的企业文件系统结构(数据室)
  • Harvey AI:验证法律任务反映财富500强企业顶尖律师的工作

数据集统计

指标
总任务数 480
总世界数 33
每个域任务数 160个(银行、咨询、法律)
平均标准/任务 4.06
平均文件/世界 166
平均估计小时/任务 1.82
带文件输出任务 58(12.1%)

领域细分

领域 世界数 文件/世界 任务数 标准/任务 小时 文件输出
投资银行 10 172 160 2.93 1.36 27(16.9%)
企业法 12 161 160 4.57 2.40 20(12.5%)
管理咨询 11 165 160 4.68 1.69 11(6.9%)
基准总计 33 166 480 4.06 1.82 58(12.1%)

最新评测结果

截至2026年2月,APEX-Agents的最新评测结果显示:

排名 模型 组织 Pass@1分数 上下文 备注
1 Claude Opus 4.6 (High) Anthropic 29.8% ± 3.6% - 最新更新(2026年2月)
2 GPT-5.2 Codex (High) OpenAI 27.6% ± 3.4% - 编码聚焦变体
3 Gemini 3 Flash (High) Google DeepMind 24.0% ± 3.3% - 原始论文最高分
4 GPT-5.2 (High) OpenAI 23.0% ± 3.2% -
5 GPT-5.1 Codex (High) OpenAI 20.6% ± 2.9% -
6 Claude Opus 4.5 (High) Anthropic 18.4% - 来自原始论文

在这里插入图片描述

关键性能洞察

  • Pass@1 vs Pass@8:即使有8次尝试,最佳代理仅完成~40%的任务
  • 无模型准备端到端替代:显著差距仍然存在
  • 性能改进:Claude Opus 4.6在仅数周内较Opus 4.5提升62%(18.4% → 29.8%)

经济影响分析

  • AI代理自动化仅2.5%的远程工作——Business Day Nigeria(2026年2月)
  • 不适的真相:它们还没准备好真正的知识工作——Biswaroop Palit(LinkedIn)

任务类型与场景

示例任务场景

投资银行(10个世界)
  • 金融建模和估值
  • 市场研究和竞争分析
  • 并购尽职调查文档
  • IPO备案准备
  • 投资备忘录和演示
企业法(12个世界)
  • 合同审查和分析
  • 法律研究和备忘录起草
  • 监管合规文档
  • 交易尽职调查
管理咨询(11个世界)
  • 战略分析和建议
  • 市场进入策略
  • 运营效率改进
  • 客户演示文稿

工具与环境

代理在现实工作环境中导航,使用:

  • Docs(Google Docs)
  • 电子表格(Google Sheets)
  • PDF文件
  • 电子邮件
  • 聊天
  • 日历

评测维度

测量能力

  1. 长期视野规划:跨数小时工作的多步推理
  2. 跨应用导航:无缝切换工具
  3. 文件系统管理:在复杂结构中查找和使用正确文档
  4. 模糊性处理:处理不完整指令
  5. 上下文保留:在全部工作流中保持信息
  6. 输出质量:生成客户就绪的可交付成果

成功标准

  • 二元评分标准:每个任务有1-10个通过/失败标准
  • 标准级评估:平均~4个标准/任务
  • 黄金输出提供:每个任务都有参考解决方案
  • "客户就绪"标准:输出必须证明专业费用合理性

与其他Agent基准的关系

基准对比

基准 焦点 任务 环境 最高分
APEX-Agents 专业服务工作 Google Workspace, 文件 29.8%
Terminal-Bench 自主终端操作 CLI, 系统管理 ~44-65%(因版本而异)
T2-Bench (τ²-Bench) 电信系统管理 电信基础设施 ~85-90%
SWE-Bench 真实世界软件工程 代码库, GitHub Issue ~30-40%

关键差异

APEX-Agents vs 编码基准

  • 领域:商业/法律工作 vs 编程
  • 工具:Office套件 vs 终端/IDE
  • 持续时间:数小时/天 vs 分钟
  • 标准:客户就绪输出 vs 通过测试

APEX-Agents优势

  • 真实世界专业任务(非合成)
  • 由领域专家创建
  • 经济价值对齐
  • 跨应用需求

Terminal-Bench/T2-Bench优势

  • 更受控环境
  • 更清晰的成/败定义
  • 更容易自动化评估
  • 更高基线性能

局限性与失败模式分析

主要失败模式

基于研究分析,APEX-Agents中常见的代理失败:

1. 上下文保留

  • 遗忘早期决策
  • 遗忘明确约束
  • 与之前步骤矛盾

2. 文件导航

  • 无法定位正确文档
  • 误读文件层级
  • 在复杂文件夹结构中迷失

3. 模糊性管理

  • 做出假设而非请求澄清
  • 将过时逻辑应用于新情况
  • 幻觉化未说明的约束

4. 工具选择

  • 选择任务错误的应用
  • 工具切换低效
  • 当许多选项可用时出现"工具瘫痪"

5. 上下文累积

  • 不加修剪地添加不相关历史
  • 在第15+步后淹死在信息中
  • 无法区分信号与噪声

系统级挑战

从生产失败分析中:

  • 概率性 vs 确定性:代理在为可复现性构建的系统引入变异性
  • 检索噪声:上下文窗口填充速度快于可管理相关性
  • 多步错误传播:整个工作流中微小错误复合
  • 状态管理:代理缺乏显式状态机设计

什么使APEX-Agents困难?

因素 挑战
凌乱上下文 工场所数据分散、不完整,跨多个工具
长持续时间 任务需要跨数小时的持续注意力,而非秒
跨域 需要跨金融、法律、运营的知识
真实后果 错误有业务影响,非仅演示失败

对开发者的启示

来自Mercor团队

“无模型准备端到端替代专业人士。”
—— Brendan Foody,CEO

来自外部分析

“AI代理仅自动化2.5%的远程工作”
—— Business Day Nigeria(2026年2月)

“不适的真相:它们还没准备好真正的知识工作。”
—— Biswaroop Palit,LinkedIn

性能vs炒作

  • 演示与生产的差距:在受控设置中令人印象深刻,在真实工作中困难
  • 经济价值错配:任务需要高可靠性(>80%),最佳模型<30%
  • 人工监督仍然关键:代理输出需要审查和修正

总结与展望

APEX-Agents代表了AI代理评估的重要进步。通过其真实世界专业任务、专家创建和严格评分标准,它提供了对AI代理在真实、长视野工作环境中能力的准确、可比较评估

关键发现:

  1. 即使最佳Claude Opus 4.6仅达29.8%,显著低于生产可靠性要求(>80%)
  2. Agent架构差异产生6-12%性能差距,凸显检索和脚手架的重要性
  3. 企业部署已经开始:Box、Salesforce、Databricks开始代理部署
  4. 当前AI仍远不能替代专业工作者:需要人工监督和审查

启示:

  1. 企业应谨慎预期:当前代理能力远不足以自动化端到端工作流
  2. 人类+AI混合是最现实路径**:代理提供辅助,人类提供领域专长和质量控制
  3. 长期规划是核心挑战:代理在数小时跨度上的状态管理和推理能力需要重大改进
  4. 评估方法论演进:从受控基准到真实世界任务,更好反映生产需求

参考来源

  1. APEX-Agents论文:arXiv 2601.14242(v2,2026年1月27日)
  2. Mercor官方博客:介绍APEX-Agents(2026年1月21日)
  3. Hugging Face数据集:APEX-Agents数据集(CC-BY 4.0许可)
  4. Mercor榜单:APEX-Agents排行榜
  5. 评估基础设施:Archipelago(Apache 2.0许可)
  6. LinkedIn文章:AI Agents Fall Short in Real-World Work(2026年2月)
  7. Business Day Nigeria:AI自动化(2026年2月)
  8. Just Think AI:Beyond the Hype: The New APEX Test(2026年1月23日)
  9. Arize文章:Why AI Agents Break: A Field Analysis of Production Failures(2026年1月29日)

(本文基于公开信息整理,所有数据和观点均标注来源。来源包括arXiv论文、Mercor官网、Hugging Face、LinkedIn、多个行业分析文章等。)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐