老码农和你一起学AI系列：大语言模型架构演变史

chilavert318

495人浏览 · 2026-03-24 08:30:00

chilavert318 · 2026-03-24 08:30:00 发布

大语言模型架构的演变，本质上是一部人类探索“机器如何理解并生成语言”的技术进化史。从最初只能统计词频的N-grams，到如今能够进行复杂推理的GPT-4，每一次架构的革新都是对前一阶段局限的突破，同时为下一阶段埋下伏笔。本文将这段历史划分为四个关键阶段，梳理其中的核心驱动力与范式转变。

第一阶段：RNN/LSTM时代（2013-2017）

N-grams的“短视”

在神经网络兴起之前，主流的语言模型是N-grams。它的核心假设是：一个词出现的概率只与前面N-1个词有关。这导致模型视野极其有限——当N=3时，模型只能看到前两个词，无法捕捉“我在法国长大……所以我会说法语”中“法国”与“法语”的长距离关联。

循环连接与门机制

RNN（循环神经网络） 的诞生是一次质的飞跃。它引入了一个贯穿始终的隐藏状态，就像运动员传递的“接力棒”，让信息可以在序列中传递。这使得模型理论上可以处理任意长度的序列，第一次拥有了“记忆”。

然而，简单RNN在实际中很难学习长距离依赖——随着序列变长，早期的信息会在传递过程中被稀释（梯度消失问题）。这就像一个接力棒传递到后面时，最初的记忆早已模糊。

LSTM（长短期记忆网络） 通过精巧的门机制（遗忘门、输入门、输出门）解决了这个问题。它像一个智能档案管理员，能够决定哪些旧信息该遗忘、哪些新信息该存入、以及当前该输出什么。这让模型能够有效保留数百步之前的关键信息。

串行计算的枷锁

尽管LSTM在长序列建模上表现出色，但它仍有一个致命缺陷：必须逐词计算。要计算第t个词，必须等待前t-1个词的结果。这种天生的串行性让它无法充分利用GPU的并行计算能力，训练时间随着序列长度线性增长，成为扩展规模的瓶颈。

第二阶段：Transformer（2017）

核心突破：自注意力机制

2017年，谷歌发表论文《Attention Is All You Need》，提出了Transformer架构，彻底改变了游戏规则。

Transformer的核心是自注意力机制。它不再需要逐步传递信息，而是让序列中的所有词同时计算彼此之间的关联度。每个词都可以直接关注到其他任何词，无论距离多远。这就像从“逐词接力”变成了“全局会议”——所有信息在同一个时间步内完成交互。

更精妙的是多头注意力的设计。它让模型拥有多个“视角”——一个头可能关注语法关系，另一个头关注指代关系，第三个头关注语义关联。这相当于同时从多个维度理解文本，大大提升了模型的表达能力。

革命性意义：并行与全局视野

Transformer带来了两个根本性改变：

并行计算：自注意力的核心是矩阵乘法，这正是GPU最擅长的运算。训练时间从周缩短到天。
全局视野：任意两个词之间都可以直接建立联系，长距离依赖不再是难题。

但Transformer并非完美——它本身是置换不变的，即打乱输入顺序，输出也会同样打乱。因此需要额外加入位置编码来保留语序信息。

第三阶段：三大架构分化（2018-2020）

Transformer架构为后续发展提供了通用基础，但不同的任务需求催生了三条差异化的技术路线。

1. Encoder-only以BERT为代表

2018年，Google发布BERT，它只保留Transformer的编码器部分，采用双向自注意力——每个词在编码时可以看到句子中所有的词（包括左右两侧）。

设计哲学：理解即一切。BERT通过掩码语言模型（MLM） 进行预训练——随机遮盖输入中15%的词，让模型根据完整上下文预测被遮的词。这迫使模型真正理解句子的含义，而不是简单记住词序。

能力画像：

擅长：文本分类、情感分析、实体识别、语义匹配
不擅长：文本生成（因为它从未学习过逐词生成）

比喻：像一位阅卷老师，能深刻理解全文，但无法自己创作。

2. Decoder-only：GPT系列为代表

与BERT几乎同时，OpenAI推出了GPT。它只保留Transformer的解码器部分，并采用因果掩码（上三角掩码）确保每个词只能看到它之前的词。

设计哲学：生成即智能。GPT通过标准语言建模进行预训练——根据上文预测下一个词。这本质上是在学习“续写”的能力。

能力画像：

擅长：对话生成、故事创作、代码编写、任何需要逐词产出的任务
局限：单向注意力限制了理解深度（看不到未来的词）

比喻：像一位作家，根据已有的开头不断构思下文，但对整本书的结构把握不如阅卷老师。

3. Encoder-Decoder以T5/BART为代表

还有一类模型选择保留完整的Transformer编码器-解码器结构，如Google的T5和Facebook的BART。

设计哲学：理解是为了更好的生成。编码器负责双向理解输入，解码器负责单向生成输出，两者通过交叉注意力连接——解码器在生成每个词时，都能动态关注编码器输出的相关部分。

能力画像：

擅长：机器翻译、文本摘要、改写、任何输入输出差异大的转换任务
局限：参数多，计算开销大

比喻：像一位翻译官，先听懂对方的发言（编码），再用另一种语言表达出来（解码）。

阶段小结：三大架构的定位

架构	代表模型	注意力	核心任务	类比
Encoder-only	BERT	双向	理解、分析	阅卷老师
Decoder-only	GPT	单向（因果）	生成、对话	作家
Encoder-Decoder	T5/BART	双向编码+单向解码	转换、摘要	翻译官

第四阶段：大模型的时代（2020至今）

范式转变：从微调到规模法则

2020年，OpenAI发布GPT-3，以1750亿参数量震撼业界。更重要的是，它揭示了一个深刻规律：当模型规模突破某个临界点，新能力会“涌现”出来——上下文学习、思维链、代码生成等，这些在小型模型中不存在的能力，在大模型中自动出现。

OpenAI的扩展法则（Scaling Laws） 进一步指出：模型性能与参数量、数据量、算力之间存在稳定的幂律关系。这意味着一场“军备竞赛”的开启——谁能在更大规模上持续投入，谁就能解锁更强的能力。

Decoder-only成为主流

有趣的是，随着规模扩大，三种架构开始走向收敛，Decoder-only逐渐成为通用大模型的主流选择。原因在于：

简洁统一：一个架构同时处理理解和生成，无需复杂的编码器-解码器交互。
涌现能力强：自回归训练天然适合大规模数据，涌现出的能力远超预期。
推理高效：通过KV缓存技术，自回归生成可以复用中间结果，速度快。

GPT-4、LLaMA系列、Qwen系列、DeepSeek系列，无一例外都采用Decoder-only架构。

新维度的加入

Decoder-only成为主流，但架构创新并未停止，而是向新维度扩展：

稀疏化（MoE）：通过混合专家机制，在不增加计算成本的前提下扩大总参数量。如Mixtral 8x7B、DeepSeek-V3，每次只激活部分专家，但总参数量可达千亿级。

长上下文优化：通过改进位置编码（如RoPE）和注意力机制（如FlashAttention），上下文窗口从2K扩展到1M token，让模型能处理整本书级别的信息。

多模态扩展：从纯文本扩展到视觉、语音的统一模型（如GPT-4V、Gemini），架构上引入新的编码器对齐不同模态。

Encoder-only和Encoder-Decoder的归宿

它们并未消失，而是找到了自己的定位：

Encoder-only：退居垂类，成为Embedding模型（如text-embedding-3-small）的首选，用于检索和相似度计算。
Encoder-Decoder：仍在翻译、摘要等任务中保持优势，部分能力被Decoder-only吸收。

后扩展法则时代

随着模型规模逼近物理极限，单纯的“更大”开始遇到瓶颈。下一阶段的方向可能包括：

密度法则：从追求“大参数量”转向追求“高智能密度”，用更少的参数实现更强的能力。
世界模型：从预测下一个词转向模拟世界的因果规律，让模型真正“理解”而非“统计”。
架构融合：动态注意力机制、线性复杂度Transformer等新架构尝试突破自注意力的O(n²)瓶颈。

最后小结

回顾大语言模型架构的演变史，我们看到一条清晰的脉络：从RNN的“记忆萌芽”，到Transformer的“全局视野”，再到BERT/GPT/T5的“分工专业化”，最后汇聚于Decoder-only的“大一统帝国”。

每一次范式转移，都是在解决上一代架构的核心局限——串行被并行取代，单向被双向补充，单一架构被分工协作打破，最终又在规模中走向统一。这不仅是技术的演进，更是对人类语言智能本质的不断逼近：理解与生成，本是一体两面。未来，随着新瓶颈的出现，下一次架构革命或许已在酝酿之中。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

衣服褶皱太多不好看？PS三种方法无痕抚平衣物褶皱

AtomGit开源社区

GPT-5.5发布-Terminal-Bench-82.7-OpenAI找回主场

AtomGit开源社区

【纯AI生成】游戏《异环》口碑深度研究报告

《异环》高开低走：从万众期待到争议不断的二次元开放世界新作完美世界旗下《异环》作为首款"二次元GTA"概念游戏，凭借虚幻5引擎打造的顶级画质和都市开放世界玩法，在两年测试期间积累3500万预约量，TapTap评分9.0、B站9.5分。然而2026年4月公测后口碑急转直下，评分分别跌至7.1和8.7分。移动端优化问题成为最大痛点，中低端设备普遍出现掉帧发热；前期剧情平淡、角色设