为什么大模型对话用`＜|im_start|＞`？ChatML特殊Token的设计哲学

Takoony

339人浏览 · 2026-03-31 21:54:50

Takoony · 2026-03-31 21:54:50 发布

当你第一次看到<|im_start|>system这样的输出时，是否也曾疑惑：为什么不用普通的XML标签？这些奇怪的符号到底是什么来头？

最近在做网络安全告警分析时，我注意到一个有趣的现象：当我让Qwen模型分析IOA告警时，它的输出里赫然出现了这样的格式：

<|im_start|>system
你是资深网络安全分析师...<|im_end|>
<|im_start|>user
请分析这个告警...<|im_end|>
<|im_start|>assistant
**攻击类型**: 真实攻击...

这让我陷入了思考：为什么大模型对话要用如此"怪异"的标记？直接用<system>、<user>这样的HTML标签不香吗？ 深挖之后，我发现这背后藏着LLM架构的核心设计哲学。

一、这不是BUG，是ChatML格式

首先明确一点：你看到的<|im_start|>和<|im_end|>不是输出错误，而是**ChatML（Chat Markup Language）**格式的标准写法。

ChatML由OpenAI在2022年提出，最初用于GPT-3.5/4的对话微调。后来国内的通义千问（Qwen）、SmolLM等开源模型也广泛采用了这一格式。它的核心作用只有一个：让模型清楚地知道"谁在说话"。

二、为什么要"多此一举"？——从tokenization说起

要理解这个设计，我们必须回到LLM的底层机制——tokenization（分词）。

2.1 一个反直觉的事实

很多人以为，模型看到的是"字符"或"单词"。实际上，模型看到的是一串整数（token IDs）。

当你输入"hello world"时，Tokenizer会把它变成类似[15496, 995]这样的ID序列。而**特殊标记（Special Tokens）**在其中的地位极其特殊。

2.2 关键区别：单token vs 多token

假设我们想标记一段"系统指令"的开始，有两种方案：

方案A：用普通文本标签<system>

<system>你是助手

Tokenizer会把它拆成：

['<', 'system', '>']  →  [27, 318, 91, 16256, 91, 29]

6个token！

方案B：用特殊token<|im_start|>system

<|im_start|>system

Tokenizer会把它变成：

[151644, 9125]

仅2个token！ 其中151644就是<|im_start|>对应的单一token ID。

2.3 这有什么本质区别？

第一，计算效率。 更短的序列意味着更少的计算量。在大规模推理中，每一个token的减少都是真金白银。

第二，语义隔离。 <|im_start|>作为一个不可分割的原子单位，模型在训练时就学会了：只要看到151644这个ID，就意味着"新的角色要开始说话了"。这种条件反射式的学习，比解析<system>这种"拼装标签"要高效得多。

第三，防止注入攻击。 如果用户输入里包含<system>这样的文本，普通标签方案可能会产生歧义。而<|im_start|>这种带管道符的奇怪组合，在正常人类语言中出现的概率几乎为零。

三、"im"到底是什么意思？

这是一个有趣的历史遗留问题。

“im” = “instant message”（即时消息）

当年OpenAI设计ChatML时，把这种格式想象成"类似微信/Slack的即时消息对话"。所以：

<|im_start|> = instant message start（消息开始）
<|im_end|> = instant message end（消息结束）

说实话，这个命名在今天看来已经有点过时——毕竟LLM的应用场景早已超越了"即时消息"的范畴。但标准一旦确立，就很难改变。就像Python的self、C语言的printf，有些名字用了就用了。

四、ChatML vs 其他方案：一场"格式战争"

不同的模型家族对"对话格式"有不同的执念：

模型系列	格式风格	示例
Qwen / SmolLM / GPT	ChatML	`<\|im_start\|>user\n你好<\|im_end\|>`
Llama 2/3	头ID包裹	`<\|start_header_id\|>user<\|end_header_id\|>`
Mistral	指令标记	`[INST] 你好 [/INST]`
ChatGLM	角色前缀	`[Round 1]\n问：你好\n答：`

你会发现，所有方案的本质都是一样的：用某种方式把"角色"和"内容"区分开。

ChatML的优势在于通用性。XML风格的开闭标签结构，天生适合多层嵌套（比如system里套function calling）。而[INST]这种指令式标记，在复杂场景下就显得力不从心。

五、从"能看懂"到"能训练"：特殊token的工程意义

作为工程师，我们更关心的是：这玩意在训练和推理中到底怎么用？

5.1 Tokenizer的"双重人格"

现代Tokenizer有一个关键参数叫split_special_tokens（或类似配置）：

# 方案1：特殊token作为整体处理（默认）
tokenizer("<|im_start|>system")  
# → [151644, 9125]

# 方案2：拆成普通字符（安全模式）
tokenizer("<|im_start|>system", split_special_tokens=True)
# → [27, 91, 318, 4906, 91, 29, 9125]