指令模型（instruct）与基础模型（base）之间的差异

Qnesp

416人浏览 · 2026-04-05 09:09:20

Qnesp · 2026-04-05 09:09:20 发布

简单来说：

Base 模型：像一个只会“接话”的基础版模型。
Instruct 模型：像一个已经学会“听懂并执行指令”的优化版模型。

Base 模型：原始的“接话大师”

Base 模型是模型在经历海量通用文本数据（如书籍、网页、代码等）预训练后，得到的最原始形态。

核心能力：文本续写。它的核心能力是“根据上文，预测下文”。你给它什么，它就顺着这个逻辑和风格继续写下去。
开箱效果：不适合直接对话。如果你对它说“解释一下什么是机器学习”，它可能会把这句话补全成一个故事：“解释一下什么是机器学习，一个程序员问他的导师。导师笑着说……”。它不是在回答你的问题，而是在续写一个对话场景。
使用场景：微调。Base 模型就像一个可塑性极强的“胚子”，非常适合开发者根据自己的特定任务进行微调，从而让它学会执行指令。这也是你之前提到的“送祝福微调模型”的起点。

Instruct 模型：经过调教的“指令执行者”

Instruct 模型是在 Base 模型的基础上，进行了一种叫指令微调（Instruction Tuning） 的二次训练后得到的版本。

核心能力：遵循指令。它学会了识别用户的意图，能够区分“给我讲个笑话”是一个指令，而不是需要续写的文本。
开箱效果：开箱即用。你直接问它“解释一下什么是机器学习”，它会像一个助手一样，给出清晰、有条理的解释。这也是像 ChatGPT、文心一言这类聊天产品的核心模型。
使用场景：直接对话和快速原型。开发者或普通用户可以直接使用 Instruct 模型来完成日常任务，无需自己进行复杂的微调。

核心区别对比表

特性	Base 模型	Instruct 模型
核心能力	文本续写 (Text Completion)	遵循指令 (Instruction Following)
开箱效果	很差，不懂回答问题	很好，直接用于对话
训练阶段	预训练 (Pre-training)	预训练 + 指令微调 (SFT/RLHF)
主要用途	作为“胚子”进行微调	直接使用或二次微调
模板支持	不兼容对话模板	兼容 ChatML、ShareGPT 等
典型例子	`llama-2-7b`, `internlm2-chat-7b`（注意：`internlm2-chat` 是 Instruct 模型）	`llama-2-7b-chat`, `gpt-3.5-turbo`

ChatML 和 ShareGPT 是两种对话数据的格式化标准（即"对话模板"）。它们定义了如何将多轮对话（system、user、assistant 的角色和内容）转换成模型能理解的纯文本格式。

为什么需要这些模板？

模型本质上只理解文本序列，不理解"角色"这个概念。模板的作用就是：

用特殊标记区分不同角色
标记对话的开始和结束
告诉模型"现在轮到谁说话了"

ChatML 格式

ChatML（Chat Markup Language）是 OpenAI 提出的一种简单清晰的格式。

格式规范

<|im_start|>system
你是一个有帮助的助手<|im_end|>
<|im_start|>user
你好<|im_end|>
<|im_start|>assistant
你好！有什么我可以帮你的吗？<|im_end|>
<|im_start|>user
天气怎么样<|im_end|>
<|im_start|>assistant
抱歉，我无法获取实时天气信息<|im_end|>

特点

使用 <|im_start|> 和 <|im_end|> 作为分隔符
system、user、assistant 作为角色标识
清晰、简洁、不易混淆

实际应用

# ChatML 的典型应用（如智谱 GLM、Qwen）
prompt = f"<|im_start|>system\n{system_prompt}<|im_end|>\n"
for msg in conversation:
    prompt += f"<|im_start|>{msg['role']}\n{msg['content']}<|im_end|>\n"

ShareGPT 格式

ShareGPT 最初是从 ShareGPT 网站（分享 ChatGPT 对话的社区）衍生出的格式，更接近JSON 数据结构。

格式规范

{
  "conversations": [
    {"from": "human", "value": "你好"},
    {"from": "gpt", "value": "你好！有什么我可以帮你的吗？"},
    {"from": "human", "value": "天气怎么样"},
    {"from": "gpt", "value": "抱歉，我无法获取实时天气信息"}
  ]
}

或者转换成纯文本格式：

<|im_start|>user
你好<|im_end|>
<|im_start|>assistant
你好！有什么我可以帮你的吗？<|im_end|>
<|im_start|>user
天气怎么样<|im_end|>
<|im_start|>assistant
抱歉，我无法获取实时天气信息<|im_end|>

特点

更结构化（JSON 格式）
使用 human 和 gpt 而不是 user 和 assistant
常用于数据集的存储和交换

对比总结

特性	ChatML	ShareGPT
设计者	OpenAI	社区（ShareGPT）
格式	纯文本标记	JSON 结构
角色名	`system`/`user`/`assistant`	`human`/`gpt`
分隔符	`<	im_start
主要用途	模型推理（实时对话）	数据集存储（训练数据）
支持模型	GPT-4、Qwen、GLM 等	LLaMA、Alpaca、Vicuna 等

微调代码中

你之前看到的配置：

prompt_template = PROMPT_TEMPLATE.internlm2_chat

这个 internlm2_chat 就是 InternLM2 使用的对话模板，它本质上是 ChatML 的一个变种：

# InternLM2 Chat 模板（简化版）
"<|im_start|>system\n{system}<|im_end|>\n"
"<|im_start|>user\n{user}<|im_end|>\n"
"<|im_start|>assistant\n{assistant}<|im_end|>\n"

为什么需要"兼容"这些模板？

一个 Instruct 模型说它"兼容 ChatML/ShareGPT"，意味着：

训练时：使用了这些格式的数据进行微调
推理时：期望输入按照这些格式组织
数据处理：可以直接加载这些格式的数据集

实际例子

# 不兼容：直接给模型原始文本
model.generate("你好")  # ❌ 模型不知道"你好"是什么角色

# 兼容 ChatML：按格式组织
prompt = "<|im_start|>user\n你好<|im_end|>\n<|im_start|>assistant\n"
model.generate(prompt)  # ✅ 模型知道这是用户说的话

类比理解

想象你要给一个外国朋友写便条：

Base 模型：直接写"你好"，他可能以为你在练字
Instruct 模型（无模板）：写"请回答：你好"，他懂了但不够规范
ChatML：像标准书信格式——“收件人：朋友\n内容：你好\n发件人：我”，清晰明确
ShareGPT：像 JSON 数据——{"from": "me", "to": "friend", "content": "你好"}，结构化

总结：ChatML 和 ShareGPT 就是对话的标准格式化方式，让 Instruct 模型能够准确理解"这是谁在什么时候说的话"，从而实现流畅的多轮对话。

结合你之前的微调任务来理解

你的任务：制造一个“送祝福”的微调模型。
你的选择：使用 internlm2-chat-7b 作为基座模型进行微调。
关键点：你用的 internlm2-chat-7b 本身就已经是一个 Instruct 模型（从名字中的 chat 可以看出来）。
这意味着什么？
- 你的模型已经是一个“开箱即用”的通用对话模型了。
- 你要做的“微调”，是在一个已经很强的“指令执行者”基础上，进一步强化它在“送祝福”这个特定场景下的表现，让它变得更有文采、更懂人情世故。
- 这种做法通常比从 Base 模型开始微调效果更好，因为模型已经具备了强大的通用理解能力。