大语言模型架构的演变,本质上是一部人类探索“机器如何理解并生成语言”的技术进化史。从最初只能统计词频的N-grams,到如今能够进行复杂推理的GPT-4,每一次架构的革新都是对前一阶段局限的突破,同时为下一阶段埋下伏笔。本文将这段历史划分为四个关键阶段,梳理其中的核心驱动力与范式转变。

第一阶段:RNN/LSTM时代(2013-2017)

N-grams的“短视”

在神经网络兴起之前,主流的语言模型是N-grams。它的核心假设是:一个词出现的概率只与前面N-1个词有关。这导致模型视野极其有限——当N=3时,模型只能看到前两个词,无法捕捉“我在法国长大……所以我会说法语”中“法国”与“法语”的长距离关联。

循环连接与门机制

RNN(循环神经网络) 的诞生是一次质的飞跃。它引入了一个贯穿始终的隐藏状态,就像运动员传递的“接力棒”,让信息可以在序列中传递。这使得模型理论上可以处理任意长度的序列,第一次拥有了“记忆”。

然而,简单RNN在实际中很难学习长距离依赖——随着序列变长,早期的信息会在传递过程中被稀释(梯度消失问题)。这就像一个接力棒传递到后面时,最初的记忆早已模糊。

LSTM(长短期记忆网络) 通过精巧的门机制(遗忘门、输入门、输出门)解决了这个问题。它像一个智能档案管理员,能够决定哪些旧信息该遗忘、哪些新信息该存入、以及当前该输出什么。这让模型能够有效保留数百步之前的关键信息。

串行计算的枷锁

尽管LSTM在长序列建模上表现出色,但它仍有一个致命缺陷:必须逐词计算。要计算第t个词,必须等待前t-1个词的结果。这种天生的串行性让它无法充分利用GPU的并行计算能力,训练时间随着序列长度线性增长,成为扩展规模的瓶颈。

第二阶段:Transformer(2017)

核心突破:自注意力机制

2017年,谷歌发表论文《Attention Is All You Need》,提出了Transformer架构,彻底改变了游戏规则。

Transformer的核心是自注意力机制。它不再需要逐步传递信息,而是让序列中的所有词同时计算彼此之间的关联度。每个词都可以直接关注到其他任何词,无论距离多远。这就像从“逐词接力”变成了“全局会议”——所有信息在同一个时间步内完成交互。

更精妙的是多头注意力的设计。它让模型拥有多个“视角”——一个头可能关注语法关系,另一个头关注指代关系,第三个头关注语义关联。这相当于同时从多个维度理解文本,大大提升了模型的表达能力。

革命性意义:并行与全局视野

Transformer带来了两个根本性改变:

  1. 并行计算:自注意力的核心是矩阵乘法,这正是GPU最擅长的运算。训练时间从周缩短到天。

  2. 全局视野:任意两个词之间都可以直接建立联系,长距离依赖不再是难题。

但Transformer并非完美——它本身是置换不变的,即打乱输入顺序,输出也会同样打乱。因此需要额外加入位置编码来保留语序信息。

第三阶段:三大架构分化(2018-2020)

Transformer架构为后续发展提供了通用基础,但不同的任务需求催生了三条差异化的技术路线。

1. Encoder-only以BERT为代表

2018年,Google发布BERT,它只保留Transformer的编码器部分,采用双向自注意力——每个词在编码时可以看到句子中所有的词(包括左右两侧)。

设计哲学:理解即一切。BERT通过掩码语言模型(MLM) 进行预训练——随机遮盖输入中15%的词,让模型根据完整上下文预测被遮的词。这迫使模型真正理解句子的含义,而不是简单记住词序。

能力画像

  • 擅长:文本分类、情感分析、实体识别、语义匹配

  • 不擅长:文本生成(因为它从未学习过逐词生成)

比喻:像一位阅卷老师,能深刻理解全文,但无法自己创作。

2. Decoder-only:GPT系列为代表

与BERT几乎同时,OpenAI推出了GPT。它只保留Transformer的解码器部分,并采用因果掩码(上三角掩码)确保每个词只能看到它之前的词。

设计哲学:生成即智能。GPT通过标准语言建模进行预训练——根据上文预测下一个词。这本质上是在学习“续写”的能力。

能力画像

  • 擅长:对话生成、故事创作、代码编写、任何需要逐词产出的任务

  • 局限:单向注意力限制了理解深度(看不到未来的词)

比喻:像一位作家,根据已有的开头不断构思下文,但对整本书的结构把握不如阅卷老师。

3. Encoder-Decoder以T5/BART为代表

还有一类模型选择保留完整的Transformer编码器-解码器结构,如Google的T5和Facebook的BART。

设计哲学:理解是为了更好的生成。编码器负责双向理解输入,解码器负责单向生成输出,两者通过交叉注意力连接——解码器在生成每个词时,都能动态关注编码器输出的相关部分。

能力画像

  • 擅长:机器翻译、文本摘要、改写、任何输入输出差异大的转换任务

  • 局限:参数多,计算开销大

比喻:像一位翻译官,先听懂对方的发言(编码),再用另一种语言表达出来(解码)。

阶段小结:三大架构的定位

架构 代表模型 注意力 核心任务 类比
Encoder-only BERT 双向 理解、分析 阅卷老师
Decoder-only GPT 单向(因果) 生成、对话 作家
Encoder-Decoder T5/BART 双向编码+单向解码 转换、摘要 翻译官

第四阶段:大模型的时代(2020至今)

范式转变:从微调到规模法则

2020年,OpenAI发布GPT-3,以1750亿参数量震撼业界。更重要的是,它揭示了一个深刻规律:当模型规模突破某个临界点,新能力会“涌现”出来——上下文学习、思维链、代码生成等,这些在小型模型中不存在的能力,在大模型中自动出现。

OpenAI的扩展法则(Scaling Laws) 进一步指出:模型性能与参数量、数据量、算力之间存在稳定的幂律关系。这意味着一场“军备竞赛”的开启——谁能在更大规模上持续投入,谁就能解锁更强的能力。

Decoder-only成为主流

有趣的是,随着规模扩大,三种架构开始走向收敛,Decoder-only逐渐成为通用大模型的主流选择。原因在于:

  1. 简洁统一:一个架构同时处理理解和生成,无需复杂的编码器-解码器交互。

  2. 涌现能力强:自回归训练天然适合大规模数据,涌现出的能力远超预期。

  3. 推理高效:通过KV缓存技术,自回归生成可以复用中间结果,速度快。

GPT-4、LLaMA系列、Qwen系列、DeepSeek系列,无一例外都采用Decoder-only架构。

新维度的加入

Decoder-only成为主流,但架构创新并未停止,而是向新维度扩展:

稀疏化(MoE):通过混合专家机制,在不增加计算成本的前提下扩大总参数量。如Mixtral 8x7B、DeepSeek-V3,每次只激活部分专家,但总参数量可达千亿级。

长上下文优化:通过改进位置编码(如RoPE)和注意力机制(如FlashAttention),上下文窗口从2K扩展到1M token,让模型能处理整本书级别的信息。

多模态扩展:从纯文本扩展到视觉、语音的统一模型(如GPT-4V、Gemini),架构上引入新的编码器对齐不同模态。

Encoder-only和Encoder-Decoder的归宿

它们并未消失,而是找到了自己的定位:

  • Encoder-only:退居垂类,成为Embedding模型(如text-embedding-3-small)的首选,用于检索和相似度计算。

  • Encoder-Decoder:仍在翻译、摘要等任务中保持优势,部分能力被Decoder-only吸收。

后扩展法则时代

随着模型规模逼近物理极限,单纯的“更大”开始遇到瓶颈。下一阶段的方向可能包括:

  • 密度法则:从追求“大参数量”转向追求“高智能密度”,用更少的参数实现更强的能力。

  • 世界模型:从预测下一个词转向模拟世界的因果规律,让模型真正“理解”而非“统计”。

  • 架构融合:动态注意力机制、线性复杂度Transformer等新架构尝试突破自注意力的O(n²)瓶颈。

最后小结

回顾大语言模型架构的演变史,我们看到一条清晰的脉络:从RNN的“记忆萌芽”,到Transformer的“全局视野”,再到BERT/GPT/T5的“分工专业化”,最后汇聚于Decoder-only的“大一统帝国”。

每一次范式转移,都是在解决上一代架构的核心局限——串行被并行取代,单向被双向补充,单一架构被分工协作打破,最终又在规模中走向统一。这不仅是技术的演进,更是对人类语言智能本质的不断逼近:理解与生成,本是一体两面。未来,随着新瓶颈的出现,下一次架构革命或许已在酝酿之中。 

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐