老码农和你一起学AI系列：关于Encoder

chilavert318

327人浏览 · 2026-03-21 08:00:00

chilavert318 · 2026-03-21 08:00:00 发布

Encoder-only架构，顾名思义，是只保留Transformer模型中编码器（Encoder）部分的架构。它是自然语言理解任务的中流砥柱，最著名的代表就是BERT（来自Google的预训练模型）。如果把Decoder-only模型（如GPT、LLaMA）比作一位“作家”，那么Encoder-only模型就是一位“阅卷老师”——它不负责创作，但极其擅长深刻理解文本的含义、结构和关系。

一、双向注意力

Encoder-only架构与Decoder-only最本质的区别在于注意力机制的方向性。

Decoder-only（如GPT）：使用掩码（Masked）自注意力，即单向的。模型在预测下一个词时，只能看到当前词左边的上文，看不到右边的下文。这适合从左到右的生成任务。
Encoder-only（如BERT）：使用全连接的自注意力，即双向的。模型在处理任何一个词时，可以同时看到这个词左边和右边的所有词。这使得它能够为每个词构建一个融合了完整上下文信息的表征，从而更准确地理解词义、句法和语义关系。

这种双向上下文的理解能力，是Encoder-only模型在自然语言理解任务上表现出色的根本原因。

二、工作原理

BERT是Encoder-only架构的奠基之作，它的预训练和微调流程清晰地展示了这种架构的工作方式。

1. 让模型学会“理解”

BERT通过两个自监督任务在大规模无标签文本上进行预训练：

掩码语言模型（Masked Language Model, MLM）：随机遮蔽输入文本中15%的词，让模型根据剩余的双向上下文去预测被遮蔽的词。这就像完形填空，迫使模型真正理解句子含义，而不仅仅是记住词语顺序。
下一句预测（Next Sentence Prediction, NSP）：给模型两个句子，让它判断第二个句子是否是第一个句子的下一句。这帮助模型理解句子间的关系，对问答、推理等任务至关重要。

2. 快速适配下游任务

预训练完成后，BERT就像一个“语言理解通才”。要让它执行具体任务（如情感分析、命名实体识别），只需在它的输出层之上添加一个简单的任务专用分类层，然后在少量标注数据上进行端到端的微调。

下游任务类型	微调适配方式	示例
句子级别任务（分类、相似度）	取模型输出的特殊标记 `[CLS]` 对应的向量，作为整个句子的表征，输入分类器。	情感分析（正面/负面）、判断两句话是否同义
词元级别任务（序列标注）	取每个词对应的输出向量，分别输入分类器，为每个词打标签。	命名实体识别（识别“张三”是人名）、词性标注

三、代表模型与演进

模型	核心特点	改进点
BERT	开创性的Encoder-only模型，提出MLM和NSP预训练任务。	-
RoBERTa	BERT的优化版，由Facebook提出。	去掉NSP任务，使用更多数据、更大批次、更长训练时间，性能更优。
ALBERT	轻量版BERT。	通过跨层参数共享和矩阵分解大幅减少参数量，训练更快。
ELECTRA	更高效的预训练方式。	用替换词检测替代MLM，模型需判断每个词是否被替换，效率更高，小参数量下表现优异。

四、应用场景

Encoder-only架构擅长一切需要理解而非生成的任务：

文本分类：新闻分类、垃圾邮件检测、情感分析。
序列标注：命名实体识别（提取人名、地名）、词性标注。
句子关系判断：语义相似度计算、自然语言推理（判断蕴含/矛盾/中立）。
阅读理解：从给定段落中抽取答案片段（抽取式问答）。
特征提取器：为下游模型提供高质量的词向量或句向量。

五、优点与局限性

优点：

理解能力强：双向上下文让语义表征更准确。
微调成本低：预训练后，只需少量标注数据即可适配新任务。
推理速度快：相比同规模的Decoder-only模型，由于没有生成时的自回归循环，推理速度更快（直接输出结果而非逐个词生成）。

局限性：

无法文本生成：由于缺乏单向生成机制，不能用于对话、故事创作等生成任务。如果强行用于生成（比如用BERT写文章），效果会很差，因为它看不到未来的词。
预训练计算量大：双向注意力在预训练时复杂度高，但这是训练阶段的问题，不影响使用。

六、架构对比一览表

架构类型	注意力方向	核心能力	典型模型	类比
Encoder-only	双向	理解、分析	BERT, RoBERTa	阅卷老师
Decoder-only	单向	生成、创作	GPT系列, LLaMA	作家
Encoder-Decoder	双向编码+单向解码	转换、摘要	T5, BART, GLM	翻译官

最后小结

Encoder-only架构是自然语言理解的基石，它通过双向注意力机制为每个词构建融合完整上下文的表征，从而深刻洞察语言的含义。虽然它不擅长生成，但在分类、抽取、匹配等任务上至今仍是工业界和学术界的主力。BERT及其后续模型（RoBERTa、ALBERT等）的广泛应用，也印证了这种架构的强大与实用。