老码农和你一起学AI系列：Decoder-only架构

chilavert318

388人浏览 · 2026-03-23 08:00:00

chilavert318 · 2026-03-23 08:00:00 发布

Decoder-only 架构是当前最主流的大语言模型架构，它的核心理念是只保留 Transformer 中的解码器部分，专门用于自回归文本生成。它的设计思想可以概括为一句话：“根据已经写下的内容，推测下一个最合适的词。”

一、核心定义

在 Transformer 原始论文中，解码器（Decoder）是用来根据编码器（Encoder）的输出生成目标序列的。但 Decoder-only 架构彻底抛弃了编码器，只保留了解码器，并让它直接处理输入文本，同时负责“理解”和“生成”两项任务。

输入：一串文本（如“中国的首都是”）。
输出：下一个词的概率分布（如“北京”概率 0.8，“南京”概率 0.1……）。
工作方式：自回归——每生成一个词，就把它拼接到输入末尾，再预测下一个词，直到遇到终止符。

二、核心机制

Decoder-only 与 Encoder-only（如 BERT）最本质的区别在于注意力掩码。

架构	注意力掩码	视野	类比
Encoder-only	无掩码（全连接）	每个词能看到句子中所有词（包括未来词）	阅卷老师（能看完整试卷）
Decoder-only	因果掩码（上三角掩码）	每个词只能看到它自己及之前的词	作家（写下一句话时，只能参考已写的内容）

因果掩码的作用：

在计算注意力权重时，将当前位置 i 右侧的所有位置（j > i）的分数设置为 -∞，这样 softmax 后它们的权重为 0。
这确保了模型在预测第 i 个词时，不会偷看未来的词，符合语言生成的因果规律。

三、代表性模型

模型系列	代表模型	特点
GPT 系列	GPT-3, GPT-4, ChatGPT	OpenAI 出品，开创了 Decoder-only 在通用对话上的统治地位。
LLaMA 系列	LLaMA, Llama 2, Llama 3	Meta 开源，推动了社区研究，在推理效率和性能上不断优化。
Qwen 系列	Qwen, Qwen2	阿里云出品，中文能力强，支持工具调用。
DeepSeek 系列	DeepSeek-V2, V3	深度求索，采用 MoE 增强，性价比高。

四、训练方式

Decoder-only 的预训练任务非常简单且一致：预测下一个词（Next Token Prediction）。

输入：一个长文本序列（如“今天天气不错，适合出去”）。
目标：让模型看到“今天天气不错，适合”后，预测“出去”。
损失函数：交叉熵损失，计算每个位置预测词与真实词的差异。

这种训练方式天然适合海量无标注文本，并且随着模型规模增大，会涌现出上下文学习、思维链等复杂能力。

五、Decoder-only 成为主流

1. 架构简洁，扩展性强

只有堆叠的解码器层，没有复杂的编码器-解码器交互。
训练和推理可以无缝复用中间结果（如 KV 缓存），推理速度快。

2. 涌现能力突出

GPT-3 首次展示了大规模 Decoder-only 模型在少样本学习上的惊人能力。
后续研究发现，Decoder-only 在代码生成、数学推理、对话一致性上表现优异。

3. 与人类写作习惯一致

人类写作也是从左到右逐词产生的，Decoder-only 的自回归过程与这一认知模式高度吻合。

六、与其他架构的对比

维度	Encoder-only (BERT)	Decoder-only (GPT)	Encoder-Decoder (T5)
核心任务	理解、分类	生成、对话	转换、摘要
注意力	双向	单向（因果）	编码器双向，解码器单向
典型应用	情感分析、实体识别	聊天机器人、故事续写	机器翻译、文本摘要
训练目标	掩码语言模型（MLM）	自回归语言建模（CLM）	去噪自编码（如T5的Span Corruption）
优点	理解深入	生成流畅，涌现能力强	输入输出解耦，控制性好
局限	不能生成	单向理解较弱	参数多，推理稍慢

七、现代 Decoder-only 的进阶优化

今天的 Decoder-only 模型已不是原始 Transformer 解码器的简单复制，而是集成了各种改进：

位置编码：普遍采用 RoPE（旋转位置编码），更好地处理长文本。
注意力优化：使用 GQA（分组查询注意力） 或 MQA（多查询注意力） 减少 KV 缓存，提升推理速度。
激活函数：采用 SwiGLU 等门控激活函数，提升表达能力。
稀疏化：引入 MoE（混合专家），在保持总参数量的同时降低计算成本（如 DeepSeek-V3、Mixtral）。

最后小结

Decoder-only 架构就是通过因果掩码实现的自回归语言模型，它让机器学会像人一样，根据上文续写下文，是当今大语言模型的绝对主流。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

cover

SpringBoot+Vue 箱包存储系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

AtomGit开源社区

cover

【2025最新】基于SpringBoot+Vue的乡村养老服务管理系统管理系统源码+MyBatis+MySQL

AtomGit开源社区

cover

LLM 入门：ChatGPT 背后的原理（下）

AtomGit开源社区

所有评论(0)

查看更多评论

chilavert318

已为社区贡献26条内容