【AI模型】开源模型后缀含义快速入门

ChengHai37

1224人浏览 · 2026-03-17 07:00:00

ChengHai37 · 2026-03-17 07:00:00 发布

一、Qwen3.5-4B 模型后缀详解（最新：2026.3）

1. IQ (Integer Quantization - Adaptive/Quasi-Integer)

IQ 表示整数量化，通常比标准 K-means 量化在推理速度上更快。

后缀	精度	说明
IQ4_NL	4-bit	Neural/Integer 格式，基于 llama.cpp 定义（NL=Neural/Integer）
IQ4_XS	4-bit	超小模型版本，可能微调校准或粒度不同
IQ2_M	2-bit	中等精度整数量化
IQ2_XXS	2-bit	超超小模型版本

2. Q (Quantization - K-means based)

Q 表示标准 K-means 量化，通常比 IQ 更稳定但速度稍慢。

后缀	精度	说明
Q3_K_M	3-bit	中等精度，平衡速度与准确率（K=K-means）
Q3_K_S	3-bit	小模型版本
Q4_0	4-bit	标准量化（原始方法）
Q4_1	4-bit	改进异常值处理
Q4_K_M	4-bit	中等精度 K-means
Q4_K_S	4-bit	小模型版本
Q5_K_M	5-bit	中等精度，平衡速度与准确率（K=K-means）
Q5_K_S	5-bit	小模型版本
Q6_K	6-bit	标准量化

3. UD (Unsloth Dynamic)

UD 表示Unsloth 动态量化，Unsloth 库优化的方法。

后缀	精度	说明
UD-IQ2_M	2-bit	Unsloth 动态整数量化（中等）
UD-IQ2_XXS	2-bit	Unsloth 动态超小模型版本
UD-IQ3_XXS	3-bit	Unsloth 动态超超小模型版本
UD-Q2_K_XL	2-bit	Unsloth 动态 K-means（超大模型）

4. MMProj (Multimodal Projector)

MMProj 是多模态投影器文件，用于支持视觉能力。这些文件独立于模型名，例如：

mmproj-F16.gguf - F16 量化版本
mmproj-Q3_K_M.gguf - Q3_K_M 量化版本

二、命名规则总结

前缀	类型	说明
IQ	整数量化	通常推理更快（基于 llama.cpp）
Q	K-means 量化	标准格式，稳定性更高
K	K-means 标识	表示使用 K-means 聚类算法
S/M/L	大小版本	对应 Small、Medium、Large，通常反映精度/速度的权衡
UD	Unsloth 动态	Unsloth 库的优化方法

三、Qwen3.5-4B 具体参数（最新：2026.3）

名称	总参数	激活参数	架构	上下文	FP16 显存 (GB)	4bit 量化显存 (GB)	定位
Qwen3.5-0.8B	0.8B	0.8B	Dense	32K	1.6 GB	0.4 GB	极致轻量、端侧/实时交互
Qwen3.5-2B	2B	2B	Dense	32K	4 GB	1 GB	移动端/IoT、低延迟对话
Qwen3.5-4B	4B	4B	Dense	64K	8 GB	2 GB	轻量 Agent、多模态基座
Qwen3.5-9B	9B	9B	Dense	128K	18 GB	4.5 GB	性价比通用、服务器部署

四、完整开源矩阵（2026 年 3 月）

1. 轻量稠密系列 (Dense)

名称	总参数	激活参数	架构	上下文	FP16 显存	4bit 量化显存	定位
Qwen3.5-0.8B	0.8B	0.8B	Dense	32K	1.6 GB	0.4 GB	极致轻量、端侧/实时交互
Qwen3.5-2B	2B	2B	Dense	32K	4 GB	1 GB	移动端/IoT、低延迟对话
Qwen3.5-4B	4B	4B	Dense	64K	8 GB	2 GB	轻量 Agent、多模态基座
Qwen3.5-9B	9B	9B	Dense	128K	18 GB	4.5 GB	性价比通用、服务器部署

2. 中型 MoE 系列 (MoE)

名称	总参数	激活参数	架构	上下文	FP16 显存	4bit 量化显存	定位
Qwen3.5-35B-A3B	35B	3B	MoE (256 专家)	256K	6 GB	1.5 GB	Agent/深度推理、24GB+ 显存可跑
Qwen3.5-122B-A10B	122B	10B	MoE (256 专家)	1M	20 GB	5 GB	知识密集/多模态/视频、接近旗舰

3. 旗舰 MoE 系列 (MoE)

名称	总参数	激活参数	架构	上下文	FP16 显存	4bit 量化显存	定位
Qwen3.5-397B-A17B	397B	17B	MoE (512 专家)	1M	34 GB	8.5 GB	开源旗舰、全场景通用、对标闭源第一梯队

五、实际测试与选型建议（2026.3）

1. 性能测试参考（权威测评，2026.2）

能力类型	最佳选择	说明
综合能力	Qwen3.5-397B-A17B	≈91.5（开源第一，对标 GPT-5.2）
代码能力	Qwen3.5-27B	HumanEval≈89.3、SWE-bench≈76.5
Agent/工具调用	Qwen3.5-35B-A3B	ICCoding≈76.8（Agent 最强版，性能提升>60%）
中文能力	全系列 ≈92.3	CLUE/SuperCLUE 测试：全系列最强
多模态/长文本	Qwen3.5-397B-A17B	MMNU≈85.0，1M 上下文无损

2. 速度与效率对比（32K 上下文）

能力维度	最佳选择	说明
解码吞吐量	Qwen3.5-397B-A17B	8.6×Qwen3-Max，快得多的场景
长上下文效率	Qwen3.5-27B/35B-A3B	256K 下≈19.0×（超大型模型）
推理成本	Qwen3.5-4B	比 Qwen3-Max 低 60%，极低成本

3. 实际部署推荐（2026 年）

个人开发者/边缘计算

0.8B: CPU/GPU 均可跑，0.4 GB 显存需求
2B: 移动端/IoT、低延迟对话
4B: 轻量 Agent、多模态基座（推荐）
9B: 性价比通用、服务器部署

企业/开发者环境

27B: 代码/指令微调首选，推理快，部署简单
35B-A3B: Agent 深度推理、>24GB 显存可跑
122B-A10B: 知识密集/多模态/视频处理（接近旗舰）
397B-A17B: 企业级 AI 基座、全场景通用

测试建议

测试场景	推荐方案	理由
综合性能测试	397B-A17B	综合能力最强，对标 GPT-5.2
代码能力测试	27B	HumanEval≈89.3、SWE-bench≈76.5
Agent 工具调用	35B-A3B	ICCoding≈76.8、性能提升>60%
中文能力测试	全系列 ≈92.3	全系列最强，CLUE/SuperCLUE 最佳
多模态/长文本测试	397B-A17B	MMNU≈85.0、1M 上下文无损

六、选型决策树（简化版）

用户选择 → 个人设备？
    ├── 是 → 选 0.8B/2B/4B（小巧便携，推理快）
    └── 否 → 企业环境？
        ├── 代码/工程部署 → 选 27B（稠密最强、部署简单）
        ├── Agent 深度推理 → 选 35B-A3B（性能提升>60%）
        ├── 知识密集/视频处理 → 选 122B-A10B（性价比>60%）
        └── 全场景 AI 基座 → 选 397B-A17B（全能王者）