阿里云AgenticSearch登顶GAIA Agent榜单Top1！

阿里云大数据AI技术

412人浏览 · 2026-04-03 10:20:55

阿里云大数据AI技术 · 2026-04-03 10:20:55 发布

背景介绍

AI Agent：从被动响应到主动执行

随着大语言模型（LLM）能力的跃升，AI系统经历从被动响应到主动执行的根本性转变。智能体(Agent)作为这一转变的核心载体，能够自主感知环境、分解复杂目标、调用外部工具并持续迭代行动，将单次推理扩展为端到端的任务完成能力，使AI首次具备独立处理多步骤、跨系统、长周期任务的潜力。2026年成为了Agent真正落地的一年。

然而，在Agent价值规模化落地的过程中，仍面临严峻挑战：

幻觉传导：错误信息在多步骤执行中被放大
任务失败率高：复杂任务中途失败导致前功尽弃
长程任务一致性难保证：执行过程中"目标漂移"现象普遍
工具调用可靠性不足：外部工具集成缺乏统一标准

GAIA：Agent能力的"试金石"

GAIA（General AI Assistants Benchmark）是由Meta AI、Hugging Face等顶级研究机构联合推出的通用AI助手评估基准，被业界公认为衡量Agent综合能力的权威标准。GAIA包含466道涵盖推理、多模态处理、网页浏览、工具使用等真实场景的题目，其中300道私有测试题用于构建全球Leaderboard。

GAIA的难度体现在：

需要多步骤推理和复杂规划能力
涉及真实世界的信息检索和验证
要求准确的工具调用和结果整合
GPT-4在GAIA上的平均得分不超过30%
人类专家水平为92%

登顶时刻

历史性突破：首次达到人类水平

阿里云AI搜索团队发布全新企业级智能体框架 Ops-Agentic-Search，以 92.36% 的准确率登顶通用Agent能力测试权威榜单GAIA，首次达到人类水平！

榜单链接：https://huggingface.co/spaces/gaia-benchmark/leaderboard

这一成绩标志着阿里云在AI Agent领域实现了从"跟跑"到"领跑"的跨越，不仅超越了Manus、OpenAI Deep Research等明星产品，更首次将Agent能力推进到人类专家水平，为AI Agent的规模化应用奠定了坚实基础。

核心技术优势

Ops-Agentic-Search是阿里云OpenSearch团队打造的企业级智能体框架，深度融合OpenSearch强大的搜索能力，构建了涵盖任务理解、动态规划、工具执行、反馈迭代、评估验证的端到端推理闭环。

框架能力概览

核心能力矩阵：

能力维度	内置支持	说明
多模态理解	✅ 原生支持	文档/图片/视频/语音全模态处理
浏览器自动化	✅ BrowserUse	自主网页浏览与信息提取
代码执行	✅ CodeAgent	Python/Shell代码生成与执行
文件操作	✅ 内置	本地文件读写与处理
MCP协议	✅ 兼容	支持MCP Server生态接入
Skills体系	✅ 自进化	自动提炼与进化可复用技能

1. 全局动态规划（Plan-with-Files）

采用创新的plan_with_files机制，将任务规划过程、中间结果、执行状态显式文件化，实现规划与执行的深度解耦。

能力特性	技术实现	业务价值
突破上下文窗口限制	计划与中间结果外置到文件	解耦任务长度与上下文长度，支持超长复杂任务
增强任务执行一致性	Agent每次行动前reload plan	确保每一步对齐最初目标，避免"目标漂移"
支持动态更新与自我修正	步骤失败触发计划重排	实现自适应执行，提升复杂任务成功率
可观测与可解释性	文件形式留存执行轨迹	每一步的目标、结果、状态均有据可查
天然支持断点续传	从文件恢复执行状态	任务中断后无需从头开始，提升稳定性

2. 自我反思机制（Reflection）

在执行过程中对自身的输出、行为或推理过程进行自我评估和迭代改进，实现质量的持续收敛。

核心机制：

    执行输出 → 交叉验证 → 错误识别 → 策略调整 → 重新执行
    ↑___________________________________________↓

能力特性	实现效果
迭代式质量收敛	多轮自我评估与错误修正，输出质量逐步逼近最优解
幻觉主动抑制	对自身输出进行交叉式验证，降低模型过度自信导致的事实偏差
长链任务稳定性	阶段性校准防止误差在多步骤执行中累积放大
策略动态自适应	依据中间反馈实时调整执行路径，避免局部"死"循环
会话内经验复用	将失败信息结构化存入短期记忆，指导后续决策优化

3. 动态上下文管理

在信息完整性、推理连贯性与资源效率之间实现最优平衡，让Agent以最精准的信息视野驱动推理。

双策略协同：

策略	机制	适用场景
Summary策略	语义级动态压缩，保留关键推理节点，将冗余内容转化为语义摘要	长对话历史、多轮推理链路
Discard策略	基于时效性/相关度/依赖性多维度评估，动态淘汰低优先级内容	上下文窗口满载、信息过载

4. 自进化Skills体系

赋予智能体自我学习与持续进化的能力，实现从"单次执行"到"经验沉淀"的跃迁。

Skills生命周期：

能力特性	说明
Skills自动提炼	无需人工干预，从多条推理路径中归纳抽象，提炼出可复用的结构化Skills
Skills自进化机制	形成「执行 → 提炼 → 应用 → 再提炼」闭环，驱动技能质量螺旋式跃升
Skills驱动推理加速	面对同类任务，已有Skills直接参与后续推理路径生成，跳过重复探索

应用场景与案例

典型应用场景

场景	描述	效果
企业知识问答	基于企业内部文档库的智能问答	回答准确率提升至92%+
市场研究报告生成	自动收集、分析、整合多源信息	研究效率提升10倍+
代码辅助开发	理解需求、生成代码、调试优化	开发效率提升50%+
数据分析报告	自动提取数据、生成可视化图表	报告生成时间从天级降至分钟级
客户服务自动化	理解用户问题、查询知识库、给出解答	问题解决率提升至90%+

案例：复杂研究任务执行

任务：“分析2025年全球AI Agent市场格局，包括主要厂商、技术路线、市场份额，并预测未来3年发展趋势”

执行过程：

Step 1: 任务分解
├── 子任务1: 收集2025年AI Agent市场主要厂商信息
├── 子任务2: 分析各厂商技术路线差异
├── 子任务3: 获取市场份额数据
└── 子任务4: 预测未来3年发展趋势

Step 2: 信息收集（并行执行）
├── 搜索权威市场报告（Gartner/IDC等）
├── 浏览厂商官网获取产品信息
├── 检索学术论文和技术博客
└── 分析开源社区活跃度

Step 3: 信息整合与分析
├── 交叉验证多源数据
├── 识别关键趋势和模式
└── 生成结构化分析报告

Step 4: 报告生成
├── 撰写执行摘要
├── 生成详细分析章节
├── 制作对比表格和图表
└── 输出最终研究报

执行结果：

自动完成20+次网页浏览
整合15+份权威报告
生成包含图表的完整研究报告
总耗时：5分钟内

AgenticSearch产品介绍

AgenticSearch是阿里云OpenSearch推出的AI搜索新范式，以智能体（Agent）为核心，融合深度检索、多步推理、工具调用与多模态理解，实现从"被动响应"到"主动执行"的跃迁。

产品核心能力

能力	说明
深度检索	Multi-Agent协同的递进式信息检索
任务执行	支持复杂多步骤任务的端到端执行
工具调用	内置浏览器、代码执行、文件操作等工具
多模态理解	支持文档、图片、视频、语音全模态处理
知识库集成	无缝对接企业知识库和OpenSearch索引
结果验证	自动验证信息准确性和来源可靠性

快速体验

产品介绍文档：https://developer.aliyun.com/article/1708935
立即体验：https://opensearch.console.aliyun.com/cn-shanghai/rag/agentic-search

总结与展望

Ops-Agentic-Search首次登顶GAIA榜单Top1，不仅是阿里云AI技术实力的体现，更是AI Agent领域的重要里程碑。我们首次将Agent能力推进到人类专家水平（92.36%），为AI Agent的规模化企业应用奠定了坚实基础。

技术贡献

开源贡献：核心技术将逐步开源，推动行业共同进步
标准制定：积极参与MCP等Agent协议标准的制定
生态建设：与百炼、钉钉等阿里云产品深度集成，构建完整Agent生态

关于阿里云OpenSearch

阿里云OpenSearch是阿里巴巴集团旗下的一站式AI搜索服务平台，为企业提供智能搜索、向量检索、AI Agent等全栈AI智能搜索能力。服务覆盖电商、内容、游戏、教育等多个行业，助力企业构建面向AI时代的AI智能搜索体验。

产品咨询：阿里云OpenSearch官网
技术支持：AgenticSearch-AI搜索交流群
榜单详情：GAIA Leaderboard

本文作者：阿里云计算平台 AI搜索团队出品，转载请注明出处。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

大语言模型 (LLM) 与 AI Agent Harness Engineering 的本质区别

在2022年底ChatGPT横空出世之后，大语言模型（LLM）迅速成为全球科技领域最热门的话题。LLM展现出了惊人的文本生成、知识问答、代码编写能力，仿佛让我们看到了通用人工智能（AGI）的曙光。然而，随着大家对LLM的使用越来越深入，其局限性也逐渐暴露出来：LLM不会主动使用外部工具（比如查天气、搜资料、订机票），不会做长期规划，不会从错误中反思学习，甚至会一本正经地"胡说八道"（幻觉问题）。为

AtomGit开源社区

为什么 Agent 执行到一半会“忘了“要做什么：记忆机制深度剖析

第一章：Agent 记忆机制的核心概念体系：从记忆的心理学定义出发，结合 LLM 的特性，重构 Agent 的记忆分类体系；详细讲解每种记忆的核心属性、适用场景、数学模型、核心要素组成；通过 ER 图展示记忆之间的关联；通过对比表分析不同记忆的优劣。第二章：Agent 执行忘事的全链路根因分析：使用故障树分析法（FTA）梳理所有可能的记忆丢失场景；详细讲解每类根因的表现形式、触发条件、底层原理；通