老码农和你一起学AI系列:大语言模型架构演变史
大语言模型架构的演变,本质上是一部人类探索“机器如何理解并生成语言”的技术进化史。从最初只能统计词频的N-grams,到如今能够进行复杂推理的GPT-4,每一次架构的革新都是对前一阶段局限的突破,同时为下一阶段埋下伏笔。本文将这段历史划分为四个关键阶段,梳理其中的核心驱动力与范式转变。

第一阶段:RNN/LSTM时代(2013-2017)
N-grams的“短视”
在神经网络兴起之前,主流的语言模型是N-grams。它的核心假设是:一个词出现的概率只与前面N-1个词有关。这导致模型视野极其有限——当N=3时,模型只能看到前两个词,无法捕捉“我在法国长大……所以我会说法语”中“法国”与“法语”的长距离关联。
循环连接与门机制
RNN(循环神经网络) 的诞生是一次质的飞跃。它引入了一个贯穿始终的隐藏状态,就像运动员传递的“接力棒”,让信息可以在序列中传递。这使得模型理论上可以处理任意长度的序列,第一次拥有了“记忆”。
然而,简单RNN在实际中很难学习长距离依赖——随着序列变长,早期的信息会在传递过程中被稀释(梯度消失问题)。这就像一个接力棒传递到后面时,最初的记忆早已模糊。
LSTM(长短期记忆网络) 通过精巧的门机制(遗忘门、输入门、输出门)解决了这个问题。它像一个智能档案管理员,能够决定哪些旧信息该遗忘、哪些新信息该存入、以及当前该输出什么。这让模型能够有效保留数百步之前的关键信息。
串行计算的枷锁
尽管LSTM在长序列建模上表现出色,但它仍有一个致命缺陷:必须逐词计算。要计算第t个词,必须等待前t-1个词的结果。这种天生的串行性让它无法充分利用GPU的并行计算能力,训练时间随着序列长度线性增长,成为扩展规模的瓶颈。
第二阶段:Transformer(2017)
核心突破:自注意力机制
2017年,谷歌发表论文《Attention Is All You Need》,提出了Transformer架构,彻底改变了游戏规则。
Transformer的核心是自注意力机制。它不再需要逐步传递信息,而是让序列中的所有词同时计算彼此之间的关联度。每个词都可以直接关注到其他任何词,无论距离多远。这就像从“逐词接力”变成了“全局会议”——所有信息在同一个时间步内完成交互。
更精妙的是多头注意力的设计。它让模型拥有多个“视角”——一个头可能关注语法关系,另一个头关注指代关系,第三个头关注语义关联。这相当于同时从多个维度理解文本,大大提升了模型的表达能力。
革命性意义:并行与全局视野
Transformer带来了两个根本性改变:
-
并行计算:自注意力的核心是矩阵乘法,这正是GPU最擅长的运算。训练时间从周缩短到天。
-
全局视野:任意两个词之间都可以直接建立联系,长距离依赖不再是难题。
但Transformer并非完美——它本身是置换不变的,即打乱输入顺序,输出也会同样打乱。因此需要额外加入位置编码来保留语序信息。
第三阶段:三大架构分化(2018-2020)
Transformer架构为后续发展提供了通用基础,但不同的任务需求催生了三条差异化的技术路线。
1. Encoder-only以BERT为代表
2018年,Google发布BERT,它只保留Transformer的编码器部分,采用双向自注意力——每个词在编码时可以看到句子中所有的词(包括左右两侧)。
设计哲学:理解即一切。BERT通过掩码语言模型(MLM) 进行预训练——随机遮盖输入中15%的词,让模型根据完整上下文预测被遮的词。这迫使模型真正理解句子的含义,而不是简单记住词序。
能力画像:
-
擅长:文本分类、情感分析、实体识别、语义匹配
-
不擅长:文本生成(因为它从未学习过逐词生成)
比喻:像一位阅卷老师,能深刻理解全文,但无法自己创作。
2. Decoder-only:GPT系列为代表
与BERT几乎同时,OpenAI推出了GPT。它只保留Transformer的解码器部分,并采用因果掩码(上三角掩码)确保每个词只能看到它之前的词。
设计哲学:生成即智能。GPT通过标准语言建模进行预训练——根据上文预测下一个词。这本质上是在学习“续写”的能力。
能力画像:
-
擅长:对话生成、故事创作、代码编写、任何需要逐词产出的任务
-
局限:单向注意力限制了理解深度(看不到未来的词)
比喻:像一位作家,根据已有的开头不断构思下文,但对整本书的结构把握不如阅卷老师。
3. Encoder-Decoder以T5/BART为代表
还有一类模型选择保留完整的Transformer编码器-解码器结构,如Google的T5和Facebook的BART。
设计哲学:理解是为了更好的生成。编码器负责双向理解输入,解码器负责单向生成输出,两者通过交叉注意力连接——解码器在生成每个词时,都能动态关注编码器输出的相关部分。
能力画像:
-
擅长:机器翻译、文本摘要、改写、任何输入输出差异大的转换任务
-
局限:参数多,计算开销大
比喻:像一位翻译官,先听懂对方的发言(编码),再用另一种语言表达出来(解码)。
阶段小结:三大架构的定位
| 架构 | 代表模型 | 注意力 | 核心任务 | 类比 |
|---|---|---|---|---|
| Encoder-only | BERT | 双向 | 理解、分析 | 阅卷老师 |
| Decoder-only | GPT | 单向(因果) | 生成、对话 | 作家 |
| Encoder-Decoder | T5/BART | 双向编码+单向解码 | 转换、摘要 | 翻译官 |
第四阶段:大模型的时代(2020至今)
范式转变:从微调到规模法则
2020年,OpenAI发布GPT-3,以1750亿参数量震撼业界。更重要的是,它揭示了一个深刻规律:当模型规模突破某个临界点,新能力会“涌现”出来——上下文学习、思维链、代码生成等,这些在小型模型中不存在的能力,在大模型中自动出现。
OpenAI的扩展法则(Scaling Laws) 进一步指出:模型性能与参数量、数据量、算力之间存在稳定的幂律关系。这意味着一场“军备竞赛”的开启——谁能在更大规模上持续投入,谁就能解锁更强的能力。
Decoder-only成为主流
有趣的是,随着规模扩大,三种架构开始走向收敛,Decoder-only逐渐成为通用大模型的主流选择。原因在于:
-
简洁统一:一个架构同时处理理解和生成,无需复杂的编码器-解码器交互。
-
涌现能力强:自回归训练天然适合大规模数据,涌现出的能力远超预期。
-
推理高效:通过KV缓存技术,自回归生成可以复用中间结果,速度快。
GPT-4、LLaMA系列、Qwen系列、DeepSeek系列,无一例外都采用Decoder-only架构。
新维度的加入
Decoder-only成为主流,但架构创新并未停止,而是向新维度扩展:
稀疏化(MoE):通过混合专家机制,在不增加计算成本的前提下扩大总参数量。如Mixtral 8x7B、DeepSeek-V3,每次只激活部分专家,但总参数量可达千亿级。
长上下文优化:通过改进位置编码(如RoPE)和注意力机制(如FlashAttention),上下文窗口从2K扩展到1M token,让模型能处理整本书级别的信息。
多模态扩展:从纯文本扩展到视觉、语音的统一模型(如GPT-4V、Gemini),架构上引入新的编码器对齐不同模态。
Encoder-only和Encoder-Decoder的归宿
它们并未消失,而是找到了自己的定位:
-
Encoder-only:退居垂类,成为Embedding模型(如text-embedding-3-small)的首选,用于检索和相似度计算。
-
Encoder-Decoder:仍在翻译、摘要等任务中保持优势,部分能力被Decoder-only吸收。
后扩展法则时代
随着模型规模逼近物理极限,单纯的“更大”开始遇到瓶颈。下一阶段的方向可能包括:
-
密度法则:从追求“大参数量”转向追求“高智能密度”,用更少的参数实现更强的能力。
-
世界模型:从预测下一个词转向模拟世界的因果规律,让模型真正“理解”而非“统计”。
-
架构融合:动态注意力机制、线性复杂度Transformer等新架构尝试突破自注意力的O(n²)瓶颈。
最后小结
回顾大语言模型架构的演变史,我们看到一条清晰的脉络:从RNN的“记忆萌芽”,到Transformer的“全局视野”,再到BERT/GPT/T5的“分工专业化”,最后汇聚于Decoder-only的“大一统帝国”。
每一次范式转移,都是在解决上一代架构的核心局限——串行被并行取代,单向被双向补充,单一架构被分工协作打破,最终又在规模中走向统一。这不仅是技术的演进,更是对人类语言智能本质的不断逼近:理解与生成,本是一体两面。未来,随着新瓶颈的出现,下一次架构革命或许已在酝酿之中。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)