GLM-5 与 CogViewX：智谱第五代架构全解析

零壹AI实验室

326人浏览 · 2026-05-15 11:35:23

零壹AI实验室 · 2026-05-15 11:35:23 发布

GLM-5 与 CogViewX：智谱第五代架构全解析

745B总参数，每次只激活44B，上下文窗口200K——GLM-5的尺寸比Qwen3和DeepSeek V4都大，而且全程在华为昇腾芯片上训练，不依赖CUDA。本文基于智谱官方技术资料，拆解GLM-5的架构设计和CogViewX多模态能力。

一、GLM-5 是什么来头

智谱2026年1月在香港IPO，募资约43.5亿港元，招股书里明确说要拿这笔钱做GLM-5研发。2月中旬，GLM-5通过Z.ai平台和WaveSpeed API开放使用。

几个关键数字先摆出来：

指标	数值
总参数	7450亿
激活参数	440亿
专家数	256个
每token激活专家数	8个（稀疏率5.9%）
上下文窗口	200K tokens
最大输出	128K tokens

稀疏率5.9%的意思是：256个专家，每次推理只用8个，计算量只有全连接的约6%。这是MoE架构的核心优势——模型总参很大，但推理时只激活很小一部分。

二、架构亮点：全程昇腾训练意味着什么

GLM-5最值得关注的一点：训练和推理都可以在昇腾910B上完成，不需要英伟达GPU。

这件事有几个实际影响：

昇腾910B的算力特性和英伟达A100/H100不同，训练框架必须针对性优化，MindSpore做了大量适配工作
不依赖CUDA：整个训练栈可以在昇腾上跑，供应链被卡脖子时仍有算力可用
MindSpore框架：华为自研的深度学习框架，类似PyTorch的地位，但算子实现和内存管理针对昇腾硬件做了深度优化

对比来看：

DeepSeek V3/V4：训练用英伟达GPU（H800等）
Qwen3：训练用英伟达GPU
GLM-5：全程昇腾 + MindSpore，软件栈完全自主

三、核心技术：DSA稀疏注意力 + Slime RL

3.1 DeepSeek Sparse Attention（DSA）

GLM-5没有用标准的Full Attention，而是采用了稀疏注意力机制（DSA），核心思路：不是每个token都要和所有历史token做注意力计算，只选最相关的。

好处：

长上下文（200K）下的推理成本大幅降低
性能损失很小（智谱的测试数据显示"无损"）
对长文档理解任务效果明显

3.2 Slime 异步强化学习框架

后训练阶段，GLM-5用了自研的Slime框架做RL训练：

异步更新：不像标准RLHF那样同步等待一批数据跑完，Slime允许不同批次的数据异步更新，吞吐量更高
支持复杂RL任务：多轮对话、工具调用、长程推理这些任务，标准RLHF处理起来很麻烦，Slime针对性做了优化
异步智能体RL算法：支持智能体在长程交互中持续学习，这对Agent类应用很重要

四、CogViewX 多模态能力

智谱的图像生成模型已演进到 CogView-4，几个关键能力：

4.1 支持生成汉字

这是CogView-4的一个差异化功能。大多数文生图模型（包括Midjourney、DALL-E）对中文支持不好，生成的图像里汉字往往是乱码。CogView-4可以生成正确的汉字，这对国内应用场景很实用。

4.2 任意分辨率

不像DALL-E-3那样固定分辨率，CogView-4支持任意分辨率输出，用户可以根据需求指定宽高比。

4.3 双语输入

支持中文和英文输入，不需要翻译。描中文直接出图。

4.4 性能对标

CogView-3-Plus的性能接近Midjourney V6和FLUX，已经集成到智谱清言APP里，普通用户可以直接用。

五、Benchmark 表现

GLM-5的Benchmark成绩（开源SOTA级别）：

Benchmark	成绩	说明
SWE-bench-Verified	77.8	开源最高
Terminal-Bench 2.0	56.2	开源最高
vs Gemini 3.0 Pro	超越	实际编程任务
vs Claude Opus 4.5	接近	实际编程任务

SWE-bench-Verified是评估模型自动修复GitHub Issue能力的基准，77.8分意味着GLM-5可以独立解决约78%的软件工程问题。

六、商用与开源进展

时间	事件
2026年1月	香港IPO，募资43.5亿港元
2026年2月	GLM-5通过Z.ai平台开放
2026年Q1（预计）	开源权重发布（MIT许可）
2025年全年	营收7.24亿元，同比增131.9%

目前GLM-5还没有完全开源（预期Q1发布MIT许可的权重），但可以通过API使用（open.bigmodel.cn / Z.ai平台）。

对比Qwen3（已完全Apache 2.0开源）和DeepSeek V3（已MIT开源），GLM-5在开源节奏上慢了一些，但IPO之后资金到位，后续开源应该是大概率事件。

七、与Qwen3、DeepSeek V3 的选型对比

维度	GLM-5	Qwen3-235B-A22B	DeepSeek V3
激活参数	44B	22B	37B
上下文	200K	32K	128K
训练硬件	昇腾910B	英伟达GPU	英伟达GPU
开源状态	预期MIT（Q1）	Apache 2.0（已开源）	MIT（已开源）
汉字图像生成	✅ CogView-4	❌ 无	❌ 无
SWE-bench	77.8	未公开	未公开

核心差异：GLM-5的上下文最长（200K），有图像生成能力；Qwen3激活参数最小（推理最快）；DeepSeek V3在两者之间。

八、总结

GLM-5有几个点值得认真看：

全程昇腾训练是真正的差异化，不只是营销话术
200K上下文在目前的开源模型里是最长的
CogView-4支持汉字生成，多模态能力有独特价值
SWE-bench 77.8，编程能力在开源模型里目前最高

如果应用场景需要长文档理解、图像生成、或者你有昇腾硬件想要完全自主的推理方案，GLM-5值得认真评估。否则Qwen3的部署生态更成熟，开源也更完整。

参考资料：智谱GLM-5官方技术文档、glm-5.org、Z.ai平台文档，2026年2月

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

不只是代码：用 Agent 构建全自动数据分析与可视化流水线

本文将带你从核心原理到落地实战，从单Agent原型到多Agent企业级架构，一步步搭建一套完全不需要人工介入的端到端数据分析与可视化流水线：用户只需要输入自然语言需求，系统就能自动完成需求解析、多数据源取数、数据清洗、指标计算、可视化生成、报告输出全流程，10秒就能返回符合要求的分析结果和交互式看板。LLM Agent是以大语言模型为“大脑”，具备规划能力、记忆能力、工具调用能力的智能实体，能够自

AtomGit开源社区

智能体压缩技术：让强大的 Agent 模型跑在边缘设备上

你有没有遇到过这些场景：家里断网了，智能音箱就成了哑巴，连开灯都控制不了；智能门锁的人脸识别要传到云端匹配，不仅慢还怕人脸数据泄露；车载导航遇到信号盲区，AI助手就直接罢工。这些问题的根源都一样：现在的AI智能体太“重”了，动辄几十GB甚至上百GB的体积，只能跑在远方的云端服务器上，边缘设备（你身边的手机、门锁、手表、车载芯片）那点算力根本装不下。

AtomGit开源社区

AI Agent Harness Engineering + API Marketplace：一个新的生态机会

当AI Agent从“演示玩具”走向产业落地的关键节点，两大核心痛点正在制约行业发展：一方面90%的Agent开发者花费超过60%的时间对接外部API工具，重复编写鉴权、重试、容错逻辑，开发效率极低；另一方面全球范围内超过85%的优质API服务仅被不到10%的开发者使用，API服务商的获客成本高达收入的40%，价值严重被低估。本文提出的AI Agent线束工程（AI Agent Harness E