老码农和你一起学AI系列:Decoder-only架构
Decoder-only 架构是当前最主流的大语言模型架构,它的核心理念是只保留 Transformer 中的解码器部分,专门用于自回归文本生成。它的设计思想可以概括为一句话:“根据已经写下的内容,推测下一个最合适的词。”

一、核心定义
在 Transformer 原始论文中,解码器(Decoder)是用来根据编码器(Encoder)的输出生成目标序列的。但 Decoder-only 架构彻底抛弃了编码器,只保留了解码器,并让它直接处理输入文本,同时负责“理解”和“生成”两项任务。
-
输入:一串文本(如“中国的首都是”)。
-
输出:下一个词的概率分布(如“北京”概率 0.8,“南京”概率 0.1……)。
-
工作方式:自回归——每生成一个词,就把它拼接到输入末尾,再预测下一个词,直到遇到终止符。
二、核心机制
Decoder-only 与 Encoder-only(如 BERT)最本质的区别在于注意力掩码。
| 架构 | 注意力掩码 | 视野 | 类比 |
|---|---|---|---|
| Encoder-only | 无掩码(全连接) | 每个词能看到句子中所有词(包括未来词) | 阅卷老师(能看完整试卷) |
| Decoder-only | 因果掩码(上三角掩码) | 每个词只能看到它自己及之前的词 | 作家(写下一句话时,只能参考已写的内容) |
因果掩码的作用:
-
在计算注意力权重时,将当前位置
i右侧的所有位置(j > i)的分数设置为-∞,这样 softmax 后它们的权重为 0。 -
这确保了模型在预测第
i个词时,不会偷看未来的词,符合语言生成的因果规律。
三、代表性模型
| 模型系列 | 代表模型 | 特点 |
|---|---|---|
| GPT 系列 | GPT-3, GPT-4, ChatGPT | OpenAI 出品,开创了 Decoder-only 在通用对话上的统治地位。 |
| LLaMA 系列 | LLaMA, Llama 2, Llama 3 | Meta 开源,推动了社区研究,在推理效率和性能上不断优化。 |
| Qwen 系列 | Qwen, Qwen2 | 阿里云出品,中文能力强,支持工具调用。 |
| DeepSeek 系列 | DeepSeek-V2, V3 | 深度求索,采用 MoE 增强,性价比高。 |
四、训练方式
Decoder-only 的预训练任务非常简单且一致:预测下一个词(Next Token Prediction)。
-
输入:一个长文本序列(如“今天天气不错,适合出去”)。
-
目标:让模型看到“今天天气不错,适合”后,预测“出去”。
-
损失函数:交叉熵损失,计算每个位置预测词与真实词的差异。
这种训练方式天然适合海量无标注文本,并且随着模型规模增大,会涌现出上下文学习、思维链等复杂能力。
五、Decoder-only 成为主流
1. 架构简洁,扩展性强
-
只有堆叠的解码器层,没有复杂的编码器-解码器交互。
-
训练和推理可以无缝复用中间结果(如 KV 缓存),推理速度快。
2. 涌现能力突出
-
GPT-3 首次展示了大规模 Decoder-only 模型在少样本学习上的惊人能力。
-
后续研究发现,Decoder-only 在代码生成、数学推理、对话一致性上表现优异。
3. 与人类写作习惯一致
-
人类写作也是从左到右逐词产生的,Decoder-only 的自回归过程与这一认知模式高度吻合。
六、与其他架构的对比
| 维度 | Encoder-only (BERT) | Decoder-only (GPT) | Encoder-Decoder (T5) |
|---|---|---|---|
| 核心任务 | 理解、分类 | 生成、对话 | 转换、摘要 |
| 注意力 | 双向 | 单向(因果) | 编码器双向,解码器单向 |
| 典型应用 | 情感分析、实体识别 | 聊天机器人、故事续写 | 机器翻译、文本摘要 |
| 训练目标 | 掩码语言模型(MLM) | 自回归语言建模(CLM) | 去噪自编码(如T5的Span Corruption) |
| 优点 | 理解深入 | 生成流畅,涌现能力强 | 输入输出解耦,控制性好 |
| 局限 | 不能生成 | 单向理解较弱 | 参数多,推理稍慢 |
七、现代 Decoder-only 的进阶优化
今天的 Decoder-only 模型已不是原始 Transformer 解码器的简单复制,而是集成了各种改进:
-
位置编码:普遍采用 RoPE(旋转位置编码),更好地处理长文本。
-
注意力优化:使用 GQA(分组查询注意力) 或 MQA(多查询注意力) 减少 KV 缓存,提升推理速度。
-
激活函数:采用 SwiGLU 等门控激活函数,提升表达能力。
-
稀疏化:引入 MoE(混合专家),在保持总参数量的同时降低计算成本(如 DeepSeek-V3、Mixtral)。
最后小结
Decoder-only 架构就是通过因果掩码实现的自回归语言模型,它让机器学会像人一样,根据上文续写下文,是当今大语言模型的绝对主流。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)