百度文心在 ERNIE-5.0 之后推出了 ernie-5.1。官方将这一版本定位为在 Agent、推理、世界知识与创意写作四个方向上进一步强化的旗舰模型,同时着重提及参数效率优化、预训练成本压缩以及多阶段强化学习体系的重构。本文基于非线智能 ReLE 评测体系,对 ernie-5.1 正式版本展开系统性测试,重点关注准确率、响应速度、token 消耗和调用费用四项核心指标的实际表现。

本次评测以中文场景为核心,覆盖教育、医疗与心理健康、金融、法律与行政公务、推理与数学计算、语言与指令遵从、Agent 与工具调用、coding 等多个维度。

ernie-5.1 基础数据如下:

  • 测试题数:约 1.5 万
  • 总分(准确率):68.2%
  • 平均耗时(每次调用):50s
  • 平均 token 消耗(每次调用):2014
  • 平均花费(每千次调用):32.6 元

一、与上代版本的差异对比:有得有失,取舍清晰

将 ernie-5.1 与 ERNIE-5.0 放在一起比较,这次迭代的性质更接近"定向优化"而非"代际跨越"——聚焦 Agent、coding、知识能力与综合效价比,而非全面拉升所有维度。提升是真实的,但也伴随着明显的取舍。

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】百度 ERNIE-5.1 抢先实测:Coding能力进步明显

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】百度 ERNIE-5.1 抢先实测:Coding能力进步明显

*数据来源:非线智能 ReLE 评测 https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位:元/百万 token

综合得分小幅上升:总分从 67.2% 升至 68.2%,提升 1.0 个百分点,榜单排名由第 30 位前移至第 26 位。在头部模型高度密集的竞争区间,这一进步幅度虽然不算醒目,但能持续向前说明综合能力确有实质增益。

响应速度大幅提升:平均耗时从 225s 骤降至 50s,降幅约 78%。这是本轮迭代中感知最为直接的变化。从真实业务调用的角度看,50 秒与 225 秒之间的体验差距非常显著,表明新版本在推理链路和工程层面均做了深度优化。

token 消耗显著收缩:每次调用平均 token 从 3897 降至 2014,降幅约 48.3%。准确率略有提升的同时,输出长度和推理冗余均得到压缩,模型回答趋于"收敛",对调用成本的控制也更友好。

调用费用大幅下降:每千次调用费用从 89.2 元降至 32.6 元,降幅约 63.5%,性价比改善明显。

教育维度增益较突出:该维度得分从 55.7 升至 60.7,提升 5.0 分,说明模型在常识积累、学科知识覆盖和解释型问答上的稳定性有所改善。

医疗与心理健康持续强势:从 80.3 升至 83.3,提升 3.0 分。该维度本就是 ERNIE-5.0 的相对优势项,新版在高位基础上继续向上。

金融能力提升亮眼:从 78.8 升至 83.8,提升 5.0 分,属于本轮升级中涨幅较大的维度之一。这一变化折射出模型在规则理解、结构化信息处理和专业领域问答上的补强效果。

coding 能力跃升最为突出:从 48.1 升至 57.6,提升 9.5 分,是所有细分维度中涨幅最大的一项,与官方强调 coding 能力强化的方向高度吻合。

Agent 与工具调用小步前进:从 61.9 升至 63.8,提升 1.9 分。增幅有限,但与官方对 Agent 方向的表述保持一致。

部分传统维度出现回调:法律与行政公务从 81.7 降至 80.3,下降 1.4 分;推理与数学计算从 78.7 降至 77.0,下降 1.7 分;语言与指令遵从从 68.0 降至 59.1,下降 8.9 分,回调幅度最为明显。这组数据说明,ernie-5.1 在"更快、更省、更擅长 Agent 和 coding"的方向上做了取舍,通用指令表达与语言稳定性未能同步拉升。


二、横向比较:务实均衡,但与第一梯队仍有距离

在当前大模型竞争格局中,ernie-5.1 处于中上游位置,整体风格偏向"务实型"——综合得分不是最高,但在速度、成本与能力之间取得了相对合理的平衡。

引自非线智能(GitHub 第一 AI 商业测评) - 【非线智能测评】百度 ERNIE-5.1 抢先实测:Coding能力进步明显

*数据来源:非线智能 ReLE 评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位横向比较

30 元档内的中上位置:ernie-5.1 总分 68.2%、平均花费 32.6 元,同档可比模型包括 Qwen3.5-122B-A10B(70.9%,32.3 元)、MiniMax-M2.7(65.1%,32.4 元)、gpt-5-2025-08-07(66.8%,31.9 元)、MiMo-V2-Omni(66.2%,34.8 元)等。在这一成本区间内,ernie-5.1 的综合得分属于中上水平,竞争力足够,但并非最优。

响应速度是明显优势:在上述可比模型中,ernie-5.1 以 50s 的平均耗时显著领先于 Qwen3.5-122B-A10B 的 338s,也快于 MiniMax-M2.7 的 87s 和 MiMo-V2-Omni 的 268s。对于重视在线交互体验的产品场景,这一速度差距具有实际意义。

与第一梯队的差距不容忽视:榜单前列的 qwen3.6-max-preview(75.4%)、gpt-5.5(75.3%)、gemini-3.1-pro-preview(75.2%)、qwen3.5-plus(73.3%)、kimi-k2.6(72.9%)等模型与 ernie-5.1 之间仍存在约 5 至 7 个百分点的差距,短期内较难追平。

新旧版本纵向对比

升级方向比升级幅度更值得关注:相较于 ERNIE-5.0,ernie-5.1 并未出现冲进榜单前十的跨越式变化,但通过压缩 token 输出、降低调用成本、大幅提速,将自身定位从"偏慢且相对昂贵"转移为"更轻、更快、更均衡"。

百度产品线内部分工趋于清晰:从现有数据判断,ernie-5.1 更适合承担商用落地的主力角色,而 ERNIE-5.0 则更像前代能力基座。两者能力差距虽然不算悬殊,但 ernie-5.1 在工程可用性方面的成熟度明显更高。

开源与闭源的维度比较

闭源路线的稳健代表:ernie-5.1 走典型的闭源商用路径,总分高于部分轻量商用模型,但与闭源旗舰第一梯队相比仍有一定距离。

面对开源模型的压力客观存在:相近甚至更低成本档位上,qwen3.5-plus、DeepSeek-V4-Flash 等开源模型在成本效率比上具有较强竞争力。ernie-5.1 的差异化优势更多体现在百度生态适配、工程稳定性,以及官方着重强调的创作能力与搜索融合能力上。


三、技术路径解析:效率优先,而非堆叠参数

结合官方介绍,ERNIE-5.1 的核心升级思路不是扩大参数规模,而是在参数效率、训练效率和后训练体系三个层面同步重构。

弹性预训练框架

文心 5.0 弹性训练示意图

官方表示,ERNIE-5.1 基于 ERNIE-5.0 训练而来,采用 Once-for-All 弹性训练框架,在单次预训练过程中动态优化不同规模的子模型,并在弹性深度、弹性宽度、弹性稀疏度三个维度上实现压缩与扩展。据官方数据,ERNIE-5.1 总参数量压缩至 ERNIE-5.0 的约 1/3,激活参数量压缩至约 1/2,预训练算力成本仅为业界同规模模型的 6%。

分离式全异步强化学习架构

官方介绍,新版本围绕 RL Controller 构建了分离式全异步训练架构,将训练、推理、奖励计算与 agent loop 解耦运行,并重点优化了 FP8 训推一致性与资源异构弹性调度,以提升长程强化学习训练的效率、稳定性和资源利用率。

以 OPD 为核心的多阶段后训练管线

文心 5.1 后训练管线示意图

该训练流程包含四个阶段:统一监督微调、领域专家模型训练、在线策略蒸馏、通用在线强化学习。官方表示,这套管线的核心目标是提升研发效率,同时尽量规避多能力融合训练中常见的"跷跷板"效应——即某一能力提升导致其他能力下滑的问题。


四、官方评测数据参考

文心 5.1 Benchmark

百度官方的评测重心集中在 Agent 能力、世界知识、推理和深度搜索四个方向。

Agent 能力方面:官方称,ERNIE-5.1 在 τ³-bench 与 SpreadsheetBench-Verified Agent 两项任务中超过 DeepSeek-V4-Pro,Agentic 能力接近领先闭源模型。2026 年 5 月 9 日,ERNIE-5.1 以 1223 分位列 Arena 搜索榜全球第四、国内第一。

世界知识与创意写作方面:官方表示,ERNIE-5.1 在 GPQA 和 MMLU-Pro 评测中效果接近领先闭源模型;内部评测中,其创意写作能力接近 Gemini 3.1 Pro。

推理能力方面:官方提到,ERNIE-5.1 在 AIME26(使用工具)中得分 99.6,仅次于 Gemini 3.1 Pro,同时在创意写作、长篇叙事和专业文本生成等场景中也有较突出表现。


综合来看,ernie-5.1 是一次方向明确的定向优化:coding 能力跃升、响应速度大幅改善、调用成本显著下降,是这次迭代最值得关注的三个变化。与此同时,语言与指令遵从等维度的回调也提示,这次升级并非全面均衡,存在明显的能力取舍。对于需要在成本、速度与综合能力之间找到务实平衡的商用场景,ernie-5.1 具备足够的实际使用价值;但若追求最高综合得分,第一梯队模型仍有明显优势。

非线智能官网 https://nonelinear.com 已上线 ernie-5.1,欢迎深度体验。非线智能 API 可连接超 480 个全球模型,支持一键 API 聚合及 API 中转,提供稳定的企业级服务。个人中心登录 GitHub 账号,可领取 50 元体验金。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐