GLM5.1-开源模型

西里尤琦

479人浏览 · 2026-04-09 09:27:52

西里尤琦 · 2026-04-09 09:27:52 发布

智谱GLM-5.1深度拆解：开源模型首次拿下SWE-bench Pro最高分

领域：AI大模型 · 软件工程智能体 · 开源生态

国产开源模型的一个历史性节点

2026年4月8日，智谱AI（Zhipu AI）正式发布并开源 GLM-5.1。

这不是一次常规的模型迭代——它是目前 开源模型中SWE-bench Pro得分最高的模型（58.4%），同时是全球唯一支持8小时级持续自主执行的开源工程智能体，发布后24小时内在Hugging Face收到超过1.2万次下载。

SWE-bench Pro 是目前业界公认最贴近真实软件工程的评测集，它不考核"写一段代码"，而是考核"给你一个真实的开源项目bug，修复它，并通过所有单元测试"。这个测试，过去一直是闭源旗舰的专属领地。

核心参数一览

维度	GLM-5.1
总参数量	744B（7440亿）
激活参数	~40B（MoE架构）
上下文窗口	202K tokens
SWE-bench Pro	58.4%（当前开源最优）
持续执行能力	支持单任务 8小时以上自主运行
开源协议	MIT License
本地部署需求	约256GB VRAM/RAM（量化后）
API价格	输入$1.40/1M tokens，输出$4.40/1M tokens

架构解析：MoE的正确打开方式

GLM-5.1的744B参数乍听吓人，但实际上每次推理只激活约40B参数，这是 Mixture-of-Experts（混合专家） 架构的核心优势。

简单类比：你一个人脑子里有100个领域的专家，但回答问题时只有其中4-5个专家被叫醒参与——其余的继续休息。这样既保留了超大规模模型的知识容量，又控制了推理时的计算成本。

GLM-5.1的具体做法是：

输入 Token
   └─► Router（路由层）
        ├─► Expert A（代码推理专家）
        ├─► Expert F（测试策略专家）
        └─► Expert M（文档理解专家）
              └─► 输出合并

对于长周期任务，模型会在不同推理步骤中动态调用不同专家组合，从而在"读代码→理解需求→规划修改→写代码→运行测试→修复错误"这一完整链路上保持高质量输出。

8小时持续执行：这意味着什么

这是GLM-5.1最被低估的能力。

目前大多数AI编程助手的工作模式是对话轮次制：你问一句，它答一句，你再问。对于复杂任务，你需要不断地"喂入"上下文、纠正方向，本质上你是"AI的项目经理"。

GLM-5.1的8小时自主执行意味着：

你给出一个任务描述（可以是一个 GitHub Issue 或一段需求文档）
模型自动规划执行步骤
在接下来8小时内，自主调用工具（代码执行器、测试框架、搜索引擎）
遇到阻塞点时，不是停下来等你，而是自主调整策略
最终提交一个可工作的 Pull Request

这跟"AI写代码"完全是两件不同的事。前者是工具，后者是同事。

实测中有一个典型案例：用户给GLM-5.1一个有42个测试用例失败的 Django ORM 仓库，模型在7小时23分钟内修复了40个，期间执行了317次工具调用，调整了14次中间策略。

SWE-bench Pro 58.4%：数字背后的含义

模型	SWE-bench Pro	开源?
GLM-5.1	58.4%	✅ MIT
Claude Opus 4.6	~55.8%	❌
GPT-5.4	~53.2%	❌
DeepSeek-V4	~51.7%	✅
Gemini 3.1 Pro	~50.9%	❌

（数据来源：automatio.ai，2026年4月）

58.4%不是满分，但它意味着：超过一半真实世界的软件bug，GLM-5.1可以在不需要人工干预的情况下独立修复。

剩下的41.6%呢？主要集中在需要理解复杂业务领域知识（如金融计算逻辑、硬件驱动交互）的场景，这类问题需要的不只是编码能力，更需要领域先验知识。

MIT开源：为什么这比技术本身更重要

GLM-5.1采用MIT License，这意味着：

✅ 可以免费商用
✅ 可以闭源二次开发
✅ 可以本地私有化部署，数据不出域
✅ 可以基于它微调出自己的专用模型

对于企业安全合规要求高的场景（如银行代码审查、军工嵌入式开发、医疗系统维护），这比性能数字更关键。数据不离开本地服务器这一点，是很多企业选择开源方案的核心理由。

本地部署的现实难度

直说：普通开发者很难在本地跑完整的GLM-5.1。

原始模型约1.65TB，即使用GPTQ-4bit量化，也需要：

推理需求：
- GPU VRAM：256GB（8×A100-80G，或4×H100-80G）
- 内存：384GB RAM（系统内存）
- 存储：至少400GB NVMe SSD

但这有替代方案：

API调用：$1.40/1M输入tokens，适合中低频使用
Unsloth量化版：降低到约48GB VRAM，精度损失约2-3%（可接受）
云端托管：阿里云PAI、腾讯云TI已支持GLM-5.1专属推理实例

一个有意思的细节

GLM-5.1的前身 GLM-5（745B）是完整在华为昇腾芯片上训练的——这和 DeepSeek V4 的昇腾迁移路线形成了一种暗合。

国产大模型在国产芯片上的训练闭环，正在从"政策导向"变成"商业选择"。当昇腾集群能稳定支撑744B模型的完整训练，这件事本身就是一个值得记录的里程碑。

结语

GLM-5.1的发布，在2026年的AI圈代表的不仅是一个分数。

它代表的是：国产开源模型，第一次站在了全球代码智能体评测的榜首。

不是追赶，是超越。

对于一个只靠API调用就能完成40+小时复杂工程任务的模型来说，"开源"这两个字的分量远比以往更重——因为它不只是免费，它是可以拥有的。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

2026年认证杯A题完整论文发布+324种求解方案分享

针对问题三，建立电解液配方与pH值的定量预测模型。研究人员预先配制好8种母液（stock solutions），每种母液浓度已知（source molality）、密度已知（source density）：每次实验，系统按照设计好的配方，从上述母液中各取一定**体积（vol, mL）**混合，得到一份特定组成的水系混合电解液。综上所述，本文系统构建了多层次、多模型方法框架，全面揭示了水系电解液配方

AtomGit开源社区

【继电保护】小电流接地系统故障仿真-中性点不接地与经消弧线圈接地仿真模型（Simulink仿真实现）

小电流接地系统故障仿真是电力系统中非常重要的研究领域，特别是针对中性点不接地和经消弧线圈接地的情况。这两种故障情况在电力系统中都可能发生，因此对其进行仿真模型研究具有重要意义。中性点不接地故障是指变压器或发电机中性点没有接地，这种情况下，如果出现了单相接地故障，会导致系统中产生零序电流，可能对设备和系统造成严重损坏。因此，针对中性点不接地故障，需要建立相应的仿真模型，研究其对电力系统的影响，以及采

AtomGit开源社区

微电网两阶段鲁棒优化经济调度方法[3]【升级优化版本】（Matlab代码实现）

针对微电网内可再生能源和负荷的不确定性，建立了min-max-min 结构的两阶段鲁棒优化模型，可得到最恶劣场景下运行成本最低的调度方案。模型中考虑了储能、需求侧负荷及可控分布式电源等的运行约束和协调控制,并引入了不确定性调节参数，可灵活调整调度方案的保守性。基于列约束生成算法和强对偶理论,可将原问题分解为具有混合整数线性特征的主问题和子问题进行交替求解,从而得到原问题的最优解。