Bert两个核心训练策略MLM和NSP详细说明

KonaKent · 2026-03-19 13:48:15 发布

下面来详细解释一下 BERT 的两个核心训练策略（或称为预训练任务）：Masked Language Model（MLM，掩码语言模型） 和 Next Sentence Prediction（NSP，下一句预测）。

这两个任务是 BERT 在没有人工标注的海量文本上学习语言知识的关键。

这是 BERT 能够实现“双向”表示的最核心的训练策略。

在 BERT 之前，传统的语言模型通常是单向的（比如 GPT-1，只能从左到右看），或者只是将两个单向模型进行浅层拼接。这是因为如果让模型在训练时就能双向地看到所有词，那么预测某个词就变成了“看图说话”，模型只需复制上下文即可，无法真正学习到语言的内在规律。

MLM 的灵感来源于中学英语的“完形填空”。它的操作非常简单：

随机掩盖（Mask）：在训练时，对于输入的文本序列，随机选择 15% 的词元（Token）。然后对这些被选中的词元进行如下操作（这是一个细分的策略）：
- 80% 的概率：将其替换为特殊的 [MASK] 标记。
- 10% 的概率：将其替换为一个随机的其他词元。
- 10% 的概率：保持不变（即还是用原来的词元）。
预测（Predict）：模型的任务是根据序列中其他所有未被掩盖的词（即上下文），来预测这些被选中位置原本是什么词。

要正确预测被 [MASK] 掩盖的词，模型必须同时利用这个词的左边和右边的所有信息。

例子：句子“我 [MASK] 苹果”。
- 模型看到左边的“我”和右边的“苹果”，就能推断出中间这个词很可能是一个动词，而且大概率是“吃”、“摘”、“买”等与“我”和“苹果”都相关的词。
- 它必须融合双向的语境信息才能做出准确预测。

这是一个非常巧妙的设计，主要是为了解决 预训练-微调阶段的不一致性（Discrepancy）。

问题：在预训练阶段，模型会频繁地看到 [MASK] 标记。但在后续的下游任务微调（Fine-tuning）阶段，输入的数据中是完全没有 [MASK] 标记的。这会导致模型在微调时感到不适应。
解决方案：
- 80% [MASK]：让模型主要学习根据上下文预测被掩盖的词，这是主要目标。
- 10% 随机词：迫使模型必须学习依赖于上下文的真实表示，而不是简单地记住被掩盖位置的统计信息。如果模型发现当前位置是一个随机词（比如“我足球苹果”），它必须通过上下文判断“足球”这个词在这里是不合理的，并在预测时纠正它。这增强了模型的鲁棒性。
- 10% 保持不变：这会让模型在预测时，把注意力更多地放在上下文上，而不是仅仅关注被掩盖的位置本身。这也缓解了预训练和微调阶段的差异，因为在微调时，所有词都是“保持不变”的。

这个任务是为了让 BERT 能够理解两个句子之间的关系，特别是对于需要句子级别理解的下游任务（如问答、自然语言推理）至关重要。

在预训练时，为 BERT 构建如下的输入数据：

输入：由两个句子 A 和 B 组成的句子对，中间用 [SEP] 标记分隔，开头加上 [CLS] 标记。
- 例如：[CLS] 今天天气真好 [SEP] 我们一起去公园吧 [SEP]
正例（50% 概率）：句子 B 是句子 A 在原文中真实的下一句。标签为 IsNext。
负例（50% 概率）：句子 B 是从整个语料库中随机抽取的其他句子，与句子 A 无关。标签为 NotNext。

BERT 取输入序列中第一个特殊标记 [CLS] 的最终输出向量。因为 [CLS] 的表示经过了所有层的双向交互，理论上汇聚了整个输入句子对的聚合信息。在这个向量之上，添加一个简单的二分类层，来预测 IsNext 或 NotNext。

通过这个看似简单的二分类任务，BERT 学会了：

可以把这两个任务看作是 BERT 在预训练阶段的两个“导师”，它们从不同层面指导模型学习：

任务	学习层面	目标	类比
MLM	词元级别	学习词语在双向上下文中的准确含义，掌握语法和语义知识。	相当于让学生在句子层面做完形填空，理解每个词的用法。
NSP	句子级别	学习两个句子之间的逻辑和语义关系，掌握篇章理解能力。	相当于让学生判断两段话是否逻辑连贯，来自同一篇文章。