ERNIE-5.1 实测报告：Coding 跃升显著，但取舍分明

linbest

641人浏览 · 2026-05-14 21:44:13

linbest · 2026-05-14 21:44:13 发布

百度文心在 ERNIE-5.0 之后推出了 ernie-5.1。官方将这一版本定位为在 Agent、推理、世界知识与创意写作四个方向上进一步强化的旗舰模型，同时着重提及参数效率优化、预训练成本压缩以及多阶段强化学习体系的重构。本文基于非线智能 ReLE 评测体系，对 ernie-5.1 正式版本展开系统性测试，重点关注准确率、响应速度、token 消耗和调用费用四项核心指标的实际表现。

本次评测以中文场景为核心，覆盖教育、医疗与心理健康、金融、法律与行政公务、推理与数学计算、语言与指令遵从、Agent 与工具调用、coding 等多个维度。

ernie-5.1 基础数据如下：

测试题数：约 1.5 万
总分（准确率）：68.2%
平均耗时（每次调用）：50s
平均 token 消耗（每次调用）：2014
平均花费（每千次调用）：32.6 元

一、与上代版本的差异对比：有得有失，取舍清晰

将 ernie-5.1 与 ERNIE-5.0 放在一起比较，这次迭代的性质更接近"定向优化"而非"代际跨越"——聚焦 Agent、coding、知识能力与综合效价比，而非全面拉升所有维度。提升是真实的，但也伴随着明显的取舍。

引自非线智能（GitHub 第一 AI 商业测评） - 【非线智能测评】百度 ERNIE-5.1 抢先实测：Coding能力进步明显

*数据来源：非线智能 ReLE 评测 https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位：元/百万 token

综合得分小幅上升：总分从 67.2% 升至 68.2%，提升 1.0 个百分点，榜单排名由第 30 位前移至第 26 位。在头部模型高度密集的竞争区间，这一进步幅度虽然不算醒目，但能持续向前说明综合能力确有实质增益。

响应速度大幅提升：平均耗时从 225s 骤降至 50s，降幅约 78%。这是本轮迭代中感知最为直接的变化。从真实业务调用的角度看，50 秒与 225 秒之间的体验差距非常显著，表明新版本在推理链路和工程层面均做了深度优化。

token 消耗显著收缩：每次调用平均 token 从 3897 降至 2014，降幅约 48.3%。准确率略有提升的同时，输出长度和推理冗余均得到压缩，模型回答趋于"收敛"，对调用成本的控制也更友好。

调用费用大幅下降：每千次调用费用从 89.2 元降至 32.6 元，降幅约 63.5%，性价比改善明显。

教育维度增益较突出：该维度得分从 55.7 升至 60.7，提升 5.0 分，说明模型在常识积累、学科知识覆盖和解释型问答上的稳定性有所改善。

医疗与心理健康持续强势：从 80.3 升至 83.3，提升 3.0 分。该维度本就是 ERNIE-5.0 的相对优势项，新版在高位基础上继续向上。

金融能力提升亮眼：从 78.8 升至 83.8，提升 5.0 分，属于本轮升级中涨幅较大的维度之一。这一变化折射出模型在规则理解、结构化信息处理和专业领域问答上的补强效果。

coding 能力跃升最为突出：从 48.1 升至 57.6，提升 9.5 分，是所有细分维度中涨幅最大的一项，与官方强调 coding 能力强化的方向高度吻合。

Agent 与工具调用小步前进：从 61.9 升至 63.8，提升 1.9 分。增幅有限，但与官方对 Agent 方向的表述保持一致。

部分传统维度出现回调：法律与行政公务从 81.7 降至 80.3，下降 1.4 分；推理与数学计算从 78.7 降至 77.0，下降 1.7 分；语言与指令遵从从 68.0 降至 59.1，下降 8.9 分，回调幅度最为明显。这组数据说明，ernie-5.1 在"更快、更省、更擅长 Agent 和 coding"的方向上做了取舍，通用指令表达与语言稳定性未能同步拉升。

二、横向比较：务实均衡，但与第一梯队仍有距离

在当前大模型竞争格局中，ernie-5.1 处于中上游位置，整体风格偏向"务实型"——综合得分不是最高，但在速度、成本与能力之间取得了相对合理的平衡。

引自非线智能（GitHub 第一 AI 商业测评） - 【非线智能测评】百度 ERNIE-5.1 抢先实测：Coding能力进步明显

*数据来源：非线智能 ReLE 评测 https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位横向比较

30 元档内的中上位置：ernie-5.1 总分 68.2%、平均花费 32.6 元，同档可比模型包括 Qwen3.5-122B-A10B（70.9%，32.3 元）、MiniMax-M2.7（65.1%，32.4 元）、gpt-5-2025-08-07（66.8%，31.9 元）、MiMo-V2-Omni（66.2%，34.8 元）等。在这一成本区间内，ernie-5.1 的综合得分属于中上水平，竞争力足够，但并非最优。

响应速度是明显优势：在上述可比模型中，ernie-5.1 以 50s 的平均耗时显著领先于 Qwen3.5-122B-A10B 的 338s，也快于 MiniMax-M2.7 的 87s 和 MiMo-V2-Omni 的 268s。对于重视在线交互体验的产品场景，这一速度差距具有实际意义。

与第一梯队的差距不容忽视：榜单前列的 qwen3.6-max-preview（75.4%）、gpt-5.5（75.3%）、gemini-3.1-pro-preview（75.2%）、qwen3.5-plus（73.3%）、kimi-k2.6（72.9%）等模型与 ernie-5.1 之间仍存在约 5 至 7 个百分点的差距，短期内较难追平。

新旧版本纵向对比

升级方向比升级幅度更值得关注：相较于 ERNIE-5.0，ernie-5.1 并未出现冲进榜单前十的跨越式变化，但通过压缩 token 输出、降低调用成本、大幅提速，将自身定位从"偏慢且相对昂贵"转移为"更轻、更快、更均衡"。

百度产品线内部分工趋于清晰：从现有数据判断，ernie-5.1 更适合承担商用落地的主力角色，而 ERNIE-5.0 则更像前代能力基座。两者能力差距虽然不算悬殊，但 ernie-5.1 在工程可用性方面的成熟度明显更高。

开源与闭源的维度比较

闭源路线的稳健代表：ernie-5.1 走典型的闭源商用路径，总分高于部分轻量商用模型，但与闭源旗舰第一梯队相比仍有一定距离。

面对开源模型的压力客观存在：相近甚至更低成本档位上，qwen3.5-plus、DeepSeek-V4-Flash 等开源模型在成本效率比上具有较强竞争力。ernie-5.1 的差异化优势更多体现在百度生态适配、工程稳定性，以及官方着重强调的创作能力与搜索融合能力上。

三、技术路径解析：效率优先，而非堆叠参数

结合官方介绍，ERNIE-5.1 的核心升级思路不是扩大参数规模，而是在参数效率、训练效率和后训练体系三个层面同步重构。

弹性预训练框架

文心 5.0 弹性训练示意图

官方表示，ERNIE-5.1 基于 ERNIE-5.0 训练而来，采用 Once-for-All 弹性训练框架，在单次预训练过程中动态优化不同规模的子模型，并在弹性深度、弹性宽度、弹性稀疏度三个维度上实现压缩与扩展。据官方数据，ERNIE-5.1 总参数量压缩至 ERNIE-5.0 的约 1/3，激活参数量压缩至约 1/2，预训练算力成本仅为业界同规模模型的 6%。

分离式全异步强化学习架构

官方介绍，新版本围绕 RL Controller 构建了分离式全异步训练架构，将训练、推理、奖励计算与 agent loop 解耦运行，并重点优化了 FP8 训推一致性与资源异构弹性调度，以提升长程强化学习训练的效率、稳定性和资源利用率。

以 OPD 为核心的多阶段后训练管线

文心 5.1 后训练管线示意图

该训练流程包含四个阶段：统一监督微调、领域专家模型训练、在线策略蒸馏、通用在线强化学习。官方表示，这套管线的核心目标是提升研发效率，同时尽量规避多能力融合训练中常见的"跷跷板"效应——即某一能力提升导致其他能力下滑的问题。

四、官方评测数据参考

文心 5.1 Benchmark

百度官方的评测重心集中在 Agent 能力、世界知识、推理和深度搜索四个方向。

Agent 能力方面：官方称，ERNIE-5.1 在 τ³-bench 与 SpreadsheetBench-Verified Agent 两项任务中超过 DeepSeek-V4-Pro，Agentic 能力接近领先闭源模型。2026 年 5 月 9 日，ERNIE-5.1 以 1223 分位列 Arena 搜索榜全球第四、国内第一。

世界知识与创意写作方面：官方表示，ERNIE-5.1 在 GPQA 和 MMLU-Pro 评测中效果接近领先闭源模型；内部评测中，其创意写作能力接近 Gemini 3.1 Pro。

推理能力方面：官方提到，ERNIE-5.1 在 AIME26（使用工具）中得分 99.6，仅次于 Gemini 3.1 Pro，同时在创意写作、长篇叙事和专业文本生成等场景中也有较突出表现。

综合来看，ernie-5.1 是一次方向明确的定向优化：coding 能力跃升、响应速度大幅改善、调用成本显著下降，是这次迭代最值得关注的三个变化。与此同时，语言与指令遵从等维度的回调也提示，这次升级并非全面均衡，存在明显的能力取舍。对于需要在成本、速度与综合能力之间找到务实平衡的商用场景，ernie-5.1 具备足够的实际使用价值；但若追求最高综合得分，第一梯队模型仍有明显优势。

非线智能官网 https://nonelinear.com 已上线 ernie-5.1，欢迎深度体验。非线智能 API 可连接超 480 个全球模型，支持一键 API 聚合及 API 中转，提供稳定的企业级服务。个人中心登录 GitHub 账号，可领取 50 元体验金。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于模型预测控制的波浪能转换器（WEC）研究（Matlab代码实现）

本文模拟从波浪能转换器（WEC）中提取的能量，当受控移动窗口阻塞 MPC 时，单设备。它还比较了使用标准MPC和GPC控制时WEC提取的能量。摘要：海浪能是可再生能源最集中的来源之一。然而，到目前为止，它还没有达到商业化所需的经济可行性。为了提高波浪能转换器的效率，已经提出了几种先进的控制策略，包括模型预测控制（MPC）。然而，每个优化问题的计算负担都是传统（全自由度）MPC的缺点，这通常会

AtomGit开源社区

三方物流平台（3PL）-智慧物流综合服务平台方案

当前第三方物流、同城配送、干线零担、仓储托管、供应链仓配一体化行业普遍存在业务分散、系统割裂、手工记账、调度低效、对账困难、货主管控弱、数据不通等行业痛点。传统线下运营模式成本高、出错率高、管控难度大，无法满足现代物流数字化、智能化、集约化发展需求。本项目基于开源整套源码架构，搭建一体化智慧物流综合服务平台，整合订单、仓储、运输、财务结算、装卸作业、客户管理、司机管理、智能调度、电子面单、溯源追踪