在AI模型本地部署、开源项目协作的日常场景中,我们总能遇到各种让人眼花缭乱的模型名:google_gemma-3-270m-it-qat-Q4_K_M.ggufQwen3-VL-8B-InstructDeepSeek-R1-Distill-Llama-8B-UD-IQ1_M.gguf……

这些名称里的itqatInstructQ4_K_M等标签,并非随意堆砌,而是AI行业历经迭代形成的通用命名约定。无论是Hugging Face、ModelScope的开源模型,还是llama.cpp社区的量化模型,都遵循着核心命名逻辑。

本文将系统拆解AI模型命名的底层规则、全量通用标签含义,以及不同场景下的命名规范对比,帮你彻底读懂模型名,快速选型、高效部署。

一、核心共识:AI模型通用命名结构

所有AI模型的命名,无论厂商、格式,都遵循“从核心到细节”的层级结构,越靠前的字段越关键,越靠后越偏向技术实现细节。

通用结构公式:

厂商/系列 - 版本号 - 参数量 - 模态/能力 - 微调类型 - 训练特性 - 量化/文件格式

结构拆解(按优先级排序)

位置 核心字段 含义 示例
1 厂商/系列 模型开发主体/产品系列 Qwen(阿里通义)、Gemma(Google)、Llama(Meta)
2 版本号 模型迭代版本 3、3.1、R1、Base
3 参数量 模型核心参数规模 270m(2.7亿)、8B(80亿)、70B(700亿)
4 模态/能力 模型核心功能/适用场景 VL(多模态)、Chat(对话)、RAG(检索增强)
5 微调类型 模型对齐方式/优化方向 Instruct(指令调优)、Function(函数调用)
6 训练特性 训练/压缩技术 Distill(蒸馏)、MoE(混合专家)、QAT(量化感知训练)
7 量化/格式 模型压缩方式/文件类型 Q4_K_M(4bit量化)、GGUF(文件格式)

关键规律

  • 参数量单位全球统一:K(千)、M(百万)、B(十亿),无歧义;
  • 核心功能标签优先:Instruct/Chat/VL等必靠前,体现模型核心价值;
  • 量化标签仅出现在文件名末尾:仅量化模型(.gguf/.bin)包含,未量化模型无此部分。

二、全量通用标签详解(行业共识版)

以下标签覆盖主流开源模型、量化模型,按使用场景分类,附含义、适用场景及典型案例,新手可直接对照查阅。

1. 核心能力/场景标签(最关键)

这类标签决定模型“能做什么”,是选型的核心依据,跨厂商通用。

标签 全称 核心含义 适用场景 典型案例
Base Base Model 基础预训练模型,未经过指令/对话对齐 二次微调、领域适配 Qwen3-8B-Base、Llama-3-70B-Base
Instruct Instruction Tuned 指令微调模型,适配人类自然语言指令执行 通用问答、工具调用、轻量助手 Qwen3-VL-8B-Instruct、Gemma-3-IT
IT Instruct Tuned Instruct的简写,语义完全一致 Google/Gemma系列、开源社区量化模型 gemma-3-270m-it、gemma-2-9b-it
Chat Chat Model 多轮对话优化,侧重对话流畅性与自然度 闲聊、客服、陪伴型助手 Llama-3-8B-Chat、Qwen3-7B-Chat
Function Function Calling 工具/函数调用优化,支持API/代码执行 智能体、自动化工具、API对接 Qwen-7B-Function、DeepSeek-Function
Tool Tool Use 与Function同义,侧重工具使用能力 插件生态、跨系统协作 DeepSeek-Tool-LLM
RAG Retrieval-Augmented Generation 检索增强生成优化,适配知识库问答 企业知识库、文档问答、信息检索 Phi-3-Context-Obedient-RAG
VL Vision-Language 多模态模型,支持图文理解/生成 看图问答、图像描述、视觉任务 Qwen3-VL-8B-Instruct、BLIP-2-VL
Vision Vision Model 纯视觉模型,侧重图像/视频理解 图像分类、目标检测、视觉分析 CLIP-Vision、ViT-B/32
Code Code Optimized 代码生成/理解专用模型 编程辅助、代码调试、算法开发 CodeLlama-7B-Code、DeepSeek-Coder
Math Math Reasoning 数学/逻辑推理优化模型 计算题、逻辑推导、学术计算 DeepSeek-Math-7B、Qwen-Math-14B
Reasoning Enhanced Reasoning 强化推理能力,侧重逻辑链生成 复杂问题拆解、多步骤推理 Llama-3-70B-Reasoning

2. 训练/压缩技术标签

这类标签体现模型的训练方式、架构特性,影响模型性能、体积与推理效率。

标签 全称 核心含义 特点 典型案例
SFT Supervised Fine-Tuning 监督微调,基础对齐方式 最常用,适配场景广 Qwen-7B-SFT、Llama-3-8B-SFT
DPO Direct Preference Optimization 偏好对齐算法,优化生成质量 比SFT更自然,幻觉更少 DeepSeek-DPO-7B、Qwen-DPO-14B
ORPO Odds Ratio Preference Optimization 轻量化偏好对齐,训练成本低 资源友好,效果接近DPO Llama-3-8B-ORPO、Phi-3-ORPO
Distill Distilled 模型蒸馏,压缩大模型为小模型 体积更小、推理更快,精度略有损失 DeepSeek-R1-Distill-Llama-8B
MoE Mixture of Experts 混合专家架构,高效大模型 参数量大但推理效率高,成本低 Qwen-14B-MoE、DeepSeek-MoE-32B
Merge Merged Model 模型合并,社区/厂商多模型融合 融合多个模型优势,适配多场景 Llama-3-Merge-8B、Qwen-Merge-14B
Context / 8k/32k/128k Context Window 上下文窗口长度,支持的最大文本长度 越长,能处理的文本越多 Phi-3-Context-128k、Llama-3-70B-32k

3. 量化/文件格式标签(GGUF/llama.cpp专属)

这类标签仅出现在量化模型文件(.gguf/.bin)中,是llama.cpp社区的通用约定,直接决定模型在本地的部署成本与性能。

(1)量化等级标签(按精度从高到低)
标签 位宽 核心定位 精度表现 推荐场景
FP32 32bit 原始全精度模型 最高,无损失 科研、基准测试,本地部署不推荐
FP16 16bit 半精度模型 高,轻微损失 高性能设备推理,基准对比
Q8_0 8bit 高保真量化 极高,接近FP16 高性能本地部署(显存/内存充足)
Q6_K 6bit 高质量量化 高,速度优于Q8_0 中高端设备,追求平衡
Q5_K_M 5bit 综合最佳量化 良,速度/精度平衡 本地部署主力选择(16G内存+)
Q4_K_M 4bit 高性价比量化 良,体积小、速度快 主流本地部署(8G/16G内存,首选)
Q3_K_M 3bit 轻量化量化 中,体积大幅压缩 低配置设备(4G/8G内存)
IQ2_XXS / IQ1_M 1-2bit 极限压缩量化 低,精度损失明显 极低配置设备(4G内存内),应急使用
(2)量化训练标签
标签 全称 核心含义 精度优势 典型案例
QAT Quantization-Aware Training 量化感知训练,训练阶段适配量化 比普通量化精度高10%-30% gemma-3-270m-it-qat、Qwen-8B-qat-Q4_K_M
PTQ Post-Training Quantization 后训练量化,训练完成后量化 常规精度,无额外训练成本 大部分开源量化模型
(3)文件格式标签
标签 全称 核心含义 适用场景
GGUF Generic GGUF Format llama.cpp标准格式,替代旧版GGML 本地推理(llama.cpp、ollama等)
GGML Generic GGML Format 旧版量化格式,已淘汰 仅兼容旧版工具,不推荐新部署
.bin / .pth PyTorch Model Format PyTorch原生模型格式 二次开发、微调,不适合直接本地推理

4. 语言/领域标签

这类标签标注模型的语言适配性、领域适配方向,快速筛选场景化模型。

标签 含义 典型案例
zh / Chinese 中文优化模型 Qwen3-8B-Instruct-zh、Llama-3-8B-Chinese
en 英文优化模型 Llama-3-70B-en、Gemma-2-9B-en
Multi / Multilingual 多语言模型 Qwen3-14B-Multi、Mistral-7B-Multilingual
General / UD 通用领域模型 DeepSeek-R1-Distill-Llama-8B-UD、Qwen-7B-General
Domain / Law/Med/Fina 垂直领域模型(法律/医疗/金融) Qwen-Law-7B、Med-Alpaca-13B

5. 行业高频缩写速查(必备)

缩写 全称 含义
IT Instruct Tuned 指令调优
SFT Supervised Fine-Tuning 监督微调
DPO Direct Preference Optimization 直接偏好优化
ORPO Odds Ratio Preference Optimization 比值偏好优化
QAT Quantization-Aware Training 量化感知训练
PTQ Post-Training Quantization 后训练量化
MoE Mixture of Experts 混合专家
VL Vision-Language 视觉语言
RAG Retrieval-Augmented Generation 检索增强生成
UD Universal Domain 通用领域(DeepSeek专属)

三、核心场景:通用命名规范对比

不同平台、不同模型类型的命名规范略有差异,但核心标签通用。以下是主流场景的规范对比,帮你在不同平台选型时不踩坑。

1. 开源平台规范对比(Hugging Face vs ModelScope)

规范维度 Hugging Face ModelScope 共性
核心结构 厂商/作者/项目 - 版本 - 参数量 - 能力 - 微调类型 厂商/系列 - 版本 - 参数量 - 能力 - 微调类型 遵循“核心→细节”结构,参数量、能力标签通用
命名分隔符 多用-,部分用_ 多用_,兼容- 分隔符无强制规范,不影响语义理解
量化标签 仅量化模型(.gguf)包含,后置 仅量化模型(.gguf)包含,后置 量化标签位置、含义完全一致
特殊标签 社区自定义标签多(如-chatml 阿里系标签统一(如-instruct 核心功能标签(Instruct/VL)通用
示例 meta-llama/Llama-3-8B-Instruct qwen/Qwen3-VL-8B-Instruct 结构、核心标签完全一致

2. 量化模型规范对比(GGUF vs 常规量化)

规范维度 GGUF量化模型(llama.cpp) 常规量化模型(.bin/.pth) 共性
核心结构 模型名-能力-量化方式-量化等级.gguf 模型名-能力-量化类型.bin 核心功能标签通用,量化标签仅量化模型包含
量化标签 包含Q4_K_M/IQ1_M等llama.cpp专属标签 包含QAT/PTQ等训练量化标签 量化训练标签(QAT/PTQ)通用
分隔符 统一用-分隔各模块 多用-,部分用_ 分隔符不影响语义,核心标签无歧义
示例 google_gemma-3-270m-it-qat-Q4_K_M.gguf Qwen-8B-qat-Instruct.bin 核心功能标签(it/Instruct)含义一致

3. 厂商专属命名规范对比(主流大厂)

不同厂商有细微的命名习惯,但核心标签通用,选型时可快速适配。

厂商 核心系列 命名习惯 典型案例
阿里(通义) Qwen 多用Instruct/VL,参数量用B/M Qwen3-VL-8B-Instruct、Qwen-7B-Function
Google Gemma 多用IT替代Instruct,版本号简洁 Gemma-3-270m-it、Gemma-2-9B-it-Q5_K_M
Meta Llama 版本号明确(3/3.1),Chat/Instruct标签清晰 Llama-3-8B-Chat、Llama-3-70B-Instruct
DeepSeek DeepSeek 多用Distill/UD/MoE,侧重推理优化 DeepSeek-R1-Distill-Llama-8B、DeepSeek-MoE-32B
Microsoft Phi 多用Context/Obedient/RAG,轻量化 Phi-3-Context-Obedient-RAG-Q4_K_M

四、实战拆解:典型模型名全解析

结合上述规范,拆解3个高频模型名,帮你快速掌握命名解读逻辑,做到“扫一眼就懂”。

案例1:google_gemma-3-270m-it-qat-Q4_K_M.gguf

  • 厂商/系列:Google Gemma 3
  • 参数量:270m(2.7亿参数)
  • 微调类型:it(指令调优,可直接对话)
  • 量化训练:qat(量化感知训练,精度更高)
  • 量化等级:Q4_K_M(4bit量化,本地部署首选)
  • 文件格式:GGUF(llama.cpp标准格式)
  • 解读结论:谷歌Gemma 3系列的2.7亿参数指令调优量化模型,采用量化感知训练优化,4bit量化,适合低配置本地部署。

案例2:Qwen3-VL-8B-Instruct

  • 厂商/系列:阿里通义Qwen 3
  • 模态:VL(视觉语言多模态)
  • 参数量:8B(80亿参数)
  • 微调类型:Instruct(指令调优,可直接图文问答)
  • 解读结论:阿里通义千问3系列的80亿参数图文多模态指令模型,支持看图问答、图像描述,可直接部署使用。

案例3:DeepSeek-R1-Distill-Llama-8B-UD-IQ1_M.gguf

  • 厂商/系列:DeepSeek R1
  • 训练特性:Distill(模型蒸馏,基于Llama架构)
  • 参数量:8B(80亿参数)
  • 领域:UD(通用对话)
  • 量化等级:IQ1_M(1bit极限量化,体积极小)
  • 文件格式:GGUF
  • 解读结论

原文http://ai.tekin.cn/blog/ai-model-naming-conventions-tags-standards

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐