老码农和你一起学AI系列:关于Encoder
Encoder-only架构,顾名思义,是只保留Transformer模型中编码器(Encoder)部分的架构。它是自然语言理解任务的中流砥柱,最著名的代表就是BERT(来自Google的预训练模型)。如果把Decoder-only模型(如GPT、LLaMA)比作一位“作家”,那么Encoder-only模型就是一位“阅卷老师”——它不负责创作,但极其擅长深刻理解文本的含义、结构和关系。

一、双向注意力
Encoder-only架构与Decoder-only最本质的区别在于注意力机制的方向性。
-
Decoder-only(如GPT):使用掩码(Masked)自注意力,即单向的。模型在预测下一个词时,只能看到当前词左边的上文,看不到右边的下文。这适合从左到右的生成任务。
-
Encoder-only(如BERT):使用全连接的自注意力,即双向的。模型在处理任何一个词时,可以同时看到这个词左边和右边的所有词。这使得它能够为每个词构建一个融合了完整上下文信息的表征,从而更准确地理解词义、句法和语义关系。
这种双向上下文的理解能力,是Encoder-only模型在自然语言理解任务上表现出色的根本原因。
二、工作原理
BERT是Encoder-only架构的奠基之作,它的预训练和微调流程清晰地展示了这种架构的工作方式。
1. 让模型学会“理解”
BERT通过两个自监督任务在大规模无标签文本上进行预训练:
-
掩码语言模型(Masked Language Model, MLM):随机遮蔽输入文本中15%的词,让模型根据剩余的双向上下文去预测被遮蔽的词。这就像完形填空,迫使模型真正理解句子含义,而不仅仅是记住词语顺序。
-
下一句预测(Next Sentence Prediction, NSP):给模型两个句子,让它判断第二个句子是否是第一个句子的下一句。这帮助模型理解句子间的关系,对问答、推理等任务至关重要。
2. 快速适配下游任务
预训练完成后,BERT就像一个“语言理解通才”。要让它执行具体任务(如情感分析、命名实体识别),只需在它的输出层之上添加一个简单的任务专用分类层,然后在少量标注数据上进行端到端的微调。
| 下游任务类型 | 微调适配方式 | 示例 |
|---|---|---|
| 句子级别任务(分类、相似度) | 取模型输出的特殊标记 [CLS] 对应的向量,作为整个句子的表征,输入分类器。 |
情感分析(正面/负面)、判断两句话是否同义 |
| 词元级别任务(序列标注) | 取每个词对应的输出向量,分别输入分类器,为每个词打标签。 | 命名实体识别(识别“张三”是人名)、词性标注 |
三、代表模型与演进
| 模型 | 核心特点 | 改进点 |
|---|---|---|
| BERT | 开创性的Encoder-only模型,提出MLM和NSP预训练任务。 | - |
| RoBERTa | BERT的优化版,由Facebook提出。 | 去掉NSP任务,使用更多数据、更大批次、更长训练时间,性能更优。 |
| ALBERT | 轻量版BERT。 | 通过跨层参数共享和矩阵分解大幅减少参数量,训练更快。 |
| ELECTRA | 更高效的预训练方式。 | 用替换词检测替代MLM,模型需判断每个词是否被替换,效率更高,小参数量下表现优异。 |
四、应用场景
Encoder-only架构擅长一切需要理解而非生成的任务:
-
文本分类:新闻分类、垃圾邮件检测、情感分析。
-
序列标注:命名实体识别(提取人名、地名)、词性标注。
-
句子关系判断:语义相似度计算、自然语言推理(判断蕴含/矛盾/中立)。
-
阅读理解:从给定段落中抽取答案片段(抽取式问答)。
-
特征提取器:为下游模型提供高质量的词向量或句向量。
五、优点与局限性
优点:
-
理解能力强:双向上下文让语义表征更准确。
-
微调成本低:预训练后,只需少量标注数据即可适配新任务。
-
推理速度快:相比同规模的Decoder-only模型,由于没有生成时的自回归循环,推理速度更快(直接输出结果而非逐个词生成)。
局限性:
-
无法文本生成:由于缺乏单向生成机制,不能用于对话、故事创作等生成任务。如果强行用于生成(比如用BERT写文章),效果会很差,因为它看不到未来的词。
-
预训练计算量大:双向注意力在预训练时复杂度高,但这是训练阶段的问题,不影响使用。
六、架构对比一览表
| 架构类型 | 注意力方向 | 核心能力 | 典型模型 | 类比 |
|---|---|---|---|---|
| Encoder-only | 双向 | 理解、分析 | BERT, RoBERTa | 阅卷老师 |
| Decoder-only | 单向 | 生成、创作 | GPT系列, LLaMA | 作家 |
| Encoder-Decoder | 双向编码+单向解码 | 转换、摘要 | T5, BART, GLM | 翻译官 |
最后小结
Encoder-only架构是自然语言理解的基石,它通过双向注意力机制为每个词构建融合完整上下文的表征,从而深刻洞察语言的含义。虽然它不擅长生成,但在分类、抽取、匹配等任务上至今仍是工业界和学术界的主力。BERT及其后续模型(RoBERTa、ALBERT等)的广泛应用,也印证了这种架构的强大与实用。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)