华为盘古 Ultra-MoE-718B-V1.1 正式开放下载!
👉模型地址:https://ai.gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1
👉Int8量化版本也同步开源:https://gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1-Int8
还记得9月底刷屏的「华为盘古718B」吗?当时凭借不堆数据、专注思考的训练哲学,在 SuperCLUE 榜单中一举冲至开源模型第三,成为业界焦点。
今天,openPangu-Ultra-MoE-718B-V1.1 正式在 GitCode 平台开源,模型权重与技术细节全面公开!
openPangu-Ultra-MoE-718B-V1.1 是基于昇腾 NPU 训练的大规模混合专家(MoE)语言模型,总参数规模达 718B,激活参数量为 39B。该模型在同一架构下融合了“快思考”与“慢思考”两种能力,实现更高效、更智能的推理与决策。
相比上一版本 openPangu-Ultra-MoE-718B-V1.0,V1.1 在 Agent 工具调用能力上显著增强,幻觉率进一步降低,模型的综合表现与稳定性也全面提升。
🤖 模型架构:更稳训练,更优均衡
openPangu-Ultra-MoE-718B-V1.1 采用业界先进的 Multi-head Latent Attention (MLA)、Multi-Token Prediction (MTP) 以及 高稀疏比混合专家架构,并在此基础上引入多项创新设计,以实现更优的性能与训练效率:
-
• Depth-Scaled Sandwich-Norm 与 TinyInit: 通过改进层归一化结构和参数初始化方式,显著提升模型训练的稳定性与收敛速度。
-
• 基于 EP-Group 的负载均衡策略: 优化负载均衡损失函数,有效增强专家路由的分布均衡性,提升专家特化与协同能力。
🔥 核心亮点:更强能力,更低幻觉
本次开源的 V1.1 版本在多个关键维度实现显著提升:
-
• 综合能力优化: 在 MMLU-Pro、GPQA 等高难度测评中,快慢思考双模式成绩全面超越 V1.0;
-
• 幻觉率大幅降低: 通过“批判内化”机制,幻觉率从 V1.0 的 10.11% 降至 3.85% (快思考模式);
-
• 工具调用能力增强: 升级 ToolACE 框架,在 Tau-Bench 等多工具协同任务中表现亮眼;
-
• 首推 Int8 量化版本 : 显存占用减少约一半,吞吐提升 20%,精度损失不足 1%。
测评结果一览:
测评集 |
测评指标 |
V1.0 快思考 |
V1.0 慢思考 |
V1.1 快思考 |
V1.1 慢思考 |
通用能力 | |||||
MMLU-Pro |
Exact Match |
80.18 |
82.40 |
83.17 | 84.84 |
GPQA-Diamond |
Avg@4 |
69.19 |
76.77 |
76.60 | 77.95 |
SuperGPQA |
Acc |
52.28 |
61.67 |
58.59 | 63.65 |
IF-Eval |
Prompt Strict |
81.70 |
80.59 |
86.88 | 81.33 |
SysBench |
Constraint Satisfaction Rate |
85.99 |
91.43 |
87.33 | 91.87 |
Hallucination-Leaderboard (HHEM) |
Hallucination Rate |
10.11 |
18.39 |
3.85 | 3.01 |
数学能力 | |||||
CNMO 2024 |
Avg@32 |
65.62 |
80.73 |
76.56 | 82.99 |
AIME25 |
Avg@16 |
40.62 |
75.21 |
49.79 | 77.50 |
AIME24 |
Avg@16 |
56.25 |
80.21 |
66.04 | 82.08 |
代码能力 | |||||
LiveCodeBench |
Avg@3 (01/25~05/25) |
45.14 |
61.14 |
36.57 |
65.71 |
Agent工具调用 | |||||
BFCL-V3 |
Acc (Prompt) |
72.32 |
56.97 |
69.81 |
72.36 |
Tau-Bench (airline) |
Avg@3 (FC) |
41.33 |
40.00 |
44.67 | 54.67 |
Tau-Bench (retail) |
Avg@3 (FC) |
68.98 |
52.75 |
66.66 |
74.20 |
Tau2-Bench (airline) |
Avg@3 (FC) |
47.33 |
52.00 |
61.33 | 66.00 |
Tau2-Bench (retail) |
Avg@3 (FC) |
74.85 |
67.25 |
72.22 |
79.24 |
Tau2-Bench (telecom) |
Avg@3 (FC) |
65.21 |
59.94 |
51.17 |
62.28 |
AceBench |
Acc (Prompt) |
79.36 |
80.93 |
78.63 |
81.32 |
注: 评测过程中,system prompt 为空, V1.1较V1.0的提升项加粗。
模型交互演示:
蓝色小球弹跳动画
地心视角太阳系运行图
🏆 成绩说话:SuperCLUE 开源第三
在 9 月最新 SuperCLUE 榜单中,openPangu-718B 稳居开源模型总榜第三,在数学推理、科学推理、代码生成等六大核心维度均表现优异。
尤其值得关注的是,其幻觉控制项得分高达 81.28,甚至超过部分闭源巨头,凸显出其在输出可靠性上的技术优势。
🛠 技术突破:如何实现“小而精”的训练?
与单纯追求数据量的思路不同,openPangu 团队坚持三大技术路径:
1. 三阶段预训练: 通用→推理→退火,逐步构建知识体系与逻辑链条;
2. 批判内化机制: 让模型学会自我审视推理过程,从源头减少幻觉;
3. 动态微调策略: 通过渐进式优化与模型融合,平衡拟合与泛化能力。
📦 开源信息:一键获取,快速部署
-
模型地址:https://ai.gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1
-
Int8 量化版本也同步开源:https://gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1-Int8
-
硬件要求: Atlas 800T A2 (64GB, >=32卡),支持裸机或 Docker 部署
-
特色功能: 通过 /no_think 标记切换快慢思考模式,支持多轮工具调用
💡 开发者说:从“可用”到“好用”的跨越
“我们追求的不仅是参数规模,更是模型在实际场景中的可靠性与实用性。”openPangu 团队表示,此次开源希望推动国产大模型从技术追赶走向生态共建,让每一位开发者都能基于高质量基座模型探索创新应用。
当大模型竞争进入“硬核技术”时代,华为盘古用开源与实干证明: 真正的突破源于对思考质量的坚持。无论是学术研究还是产业落地,openPangu-718B-V1.1 都值得你亲自体验。
👉 立即访问 GitCode:
-
https://ai.gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1
-
https://gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1-Int8
(模型仓库已开放,附详细部署指南与测评数据)


新一代开源开发者平台 GitCode,通过集成代码托管服务、代码仓库以及可信赖的开源组件库,让开发者可以在云端进行代码托管和开发。旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。
更多推荐
所有评论(0)