GLM-5 与 CogViewX:智谱第五代架构全解析
GLM-5 与 CogViewX:智谱第五代架构全解析
745B总参数,每次只激活44B,上下文窗口200K——GLM-5的尺寸比Qwen3和DeepSeek V4都大,而且全程在华为昇腾芯片上训练,不依赖CUDA。本文基于智谱官方技术资料,拆解GLM-5的架构设计和CogViewX多模态能力。
一、GLM-5 是什么来头
智谱2026年1月在香港IPO,募资约43.5亿港元,招股书里明确说要拿这笔钱做GLM-5研发。2月中旬,GLM-5通过Z.ai平台和WaveSpeed API开放使用。
几个关键数字先摆出来:
| 指标 | 数值 |
|---|---|
| 总参数 | 7450亿 |
| 激活参数 | 440亿 |
| 专家数 | 256个 |
| 每token激活专家数 | 8个(稀疏率5.9%) |
| 上下文窗口 | 200K tokens |
| 最大输出 | 128K tokens |
稀疏率5.9%的意思是:256个专家,每次推理只用8个,计算量只有全连接的约6%。这是MoE架构的核心优势——模型总参很大,但推理时只激活很小一部分。
二、架构亮点:全程昇腾训练意味着什么
GLM-5最值得关注的一点:训练和推理都可以在昇腾910B上完成,不需要英伟达GPU。
这件事有几个实际影响:
- 昇腾910B的算力特性和英伟达A100/H100不同,训练框架必须针对性优化,MindSpore做了大量适配工作
- 不依赖CUDA:整个训练栈可以在昇腾上跑,供应链被卡脖子时仍有算力可用
- MindSpore框架:华为自研的深度学习框架,类似PyTorch的地位,但算子实现和内存管理针对昇腾硬件做了深度优化
对比来看:
- DeepSeek V3/V4:训练用英伟达GPU(H800等)
- Qwen3:训练用英伟达GPU
- GLM-5:全程昇腾 + MindSpore,软件栈完全自主
三、核心技术:DSA稀疏注意力 + Slime RL
3.1 DeepSeek Sparse Attention(DSA)
GLM-5没有用标准的Full Attention,而是采用了稀疏注意力机制(DSA),核心思路:不是每个token都要和所有历史token做注意力计算,只选最相关的。
好处:
- 长上下文(200K)下的推理成本大幅降低
- 性能损失很小(智谱的测试数据显示"无损")
- 对长文档理解任务效果明显
3.2 Slime 异步强化学习框架
后训练阶段,GLM-5用了自研的Slime框架做RL训练:
- 异步更新:不像标准RLHF那样同步等待一批数据跑完,Slime允许不同批次的数据异步更新,吞吐量更高
- 支持复杂RL任务:多轮对话、工具调用、长程推理这些任务,标准RLHF处理起来很麻烦,Slime针对性做了优化
- 异步智能体RL算法:支持智能体在长程交互中持续学习,这对Agent类应用很重要
四、CogViewX 多模态能力
智谱的图像生成模型已演进到 CogView-4,几个关键能力:
4.1 支持生成汉字
这是CogView-4的一个差异化功能。大多数文生图模型(包括Midjourney、DALL-E)对中文支持不好,生成的图像里汉字往往是乱码。CogView-4可以生成正确的汉字,这对国内应用场景很实用。
4.2 任意分辨率
不像DALL-E-3那样固定分辨率,CogView-4支持任意分辨率输出,用户可以根据需求指定宽高比。
4.3 双语输入
支持中文和英文输入,不需要翻译。描中文直接出图。
4.4 性能对标
CogView-3-Plus的性能接近Midjourney V6和FLUX,已经集成到智谱清言APP里,普通用户可以直接用。
五、Benchmark 表现
GLM-5的Benchmark成绩(开源SOTA级别):
| Benchmark | 成绩 | 说明 |
|---|---|---|
| SWE-bench-Verified | 77.8 | 开源最高 |
| Terminal-Bench 2.0 | 56.2 | 开源最高 |
| vs Gemini 3.0 Pro | 超越 | 实际编程任务 |
| vs Claude Opus 4.5 | 接近 | 实际编程任务 |
SWE-bench-Verified是评估模型自动修复GitHub Issue能力的基准,77.8分意味着GLM-5可以独立解决约78%的软件工程问题。
六、商用与开源进展
| 时间 | 事件 |
|---|---|
| 2026年1月 | 香港IPO,募资43.5亿港元 |
| 2026年2月 | GLM-5通过Z.ai平台开放 |
| 2026年Q1(预计) | 开源权重发布(MIT许可) |
| 2025年全年 | 营收7.24亿元,同比增131.9% |
目前GLM-5还没有完全开源(预期Q1发布MIT许可的权重),但可以通过API使用(open.bigmodel.cn / Z.ai平台)。
对比Qwen3(已完全Apache 2.0开源)和DeepSeek V3(已MIT开源),GLM-5在开源节奏上慢了一些,但IPO之后资金到位,后续开源应该是大概率事件。
七、与Qwen3、DeepSeek V3 的选型对比
| 维度 | GLM-5 | Qwen3-235B-A22B | DeepSeek V3 |
|---|---|---|---|
| 激活参数 | 44B | 22B | 37B |
| 上下文 | 200K | 32K | 128K |
| 训练硬件 | 昇腾910B | 英伟达GPU | 英伟达GPU |
| 开源状态 | 预期MIT(Q1) | Apache 2.0(已开源) | MIT(已开源) |
| 汉字图像生成 | ✅ CogView-4 | ❌ 无 | ❌ 无 |
| SWE-bench | 77.8 | 未公开 | 未公开 |
核心差异:GLM-5的上下文最长(200K),有图像生成能力;Qwen3激活参数最小(推理最快);DeepSeek V3在两者之间。
八、总结
GLM-5有几个点值得认真看:
- 全程昇腾训练是真正的差异化,不只是营销话术
- 200K上下文在目前的开源模型里是最长的
- CogView-4支持汉字生成,多模态能力有独特价值
- SWE-bench 77.8,编程能力在开源模型里目前最高
如果应用场景需要长文档理解、图像生成、或者你有昇腾硬件想要完全自主的推理方案,GLM-5值得认真评估。否则Qwen3的部署生态更成熟,开源也更完整。
参考资料:智谱GLM-5官方技术文档、glm-5.org、Z.ai平台文档,2026年2月
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)