【深度学习基础篇12】从 GPT 到 DeepSeek:大模型的架构革命与工程美学
在上一篇中,我们拆解了 Transformer 与 BERT 的底层逻辑。但如果你关注当下的人工智能,会发现行业的核心已经完全转移到了生成式大语言模型(LLM)。
这一篇,我们将拨开大模型的神秘面纱:从最基础的文字生成原理出发,沿着 GPT 的演进路线,深入剖析当下最具代表性的 DeepSeek 架构,并彻底搞懂 MoE、RoPE、MLA 等让人眼花缭乱的底层黑科技。
1 大语言模型
1.1 什么是大模型?
抛开那些高深莫测的名词,大语言模型的本质其实非常简单粗暴——“文字接龙”(Next Token Prediction)。![![[image-235.png|801]]](https://i-blog.csdnimg.cn/direct/ad00605bc1574acbb481abb98e411bb4.png)
原理解析:
给定一段上文,模型内部的函数 f 会计算词表中每一个词作为下一个词出现的概率。因此,每次生成的答案可能会略有不同(因为通常会根据概率分布进行采样,而不是固定选最大值)。无数次“接龙”循环往复,就生成了完整的长文本。
1.2 模型架构的统一:Only Decoder
在早期的 NLP 时代,存在三种 Transformer 的变体:
- Encoder-Only(如 BERT):擅长阅读理解和填空,不擅长生成。
- Encoder-Decoder(如 T5,BART):擅长翻译和摘要。
- Decoder-Only(如 GPT 系列):天生为“文字接龙”而生。
最终,Decoder-Only 凭借其强大的自回归生成能力和缩放定律(Scaling Law),一统了大语言模型的江湖。![![[image-233.png]]](https://i-blog.csdnimg.cn/direct/1b1c4c1b674d4aca9c6442dbb9e9951a.png)
1.2.1 什么是自回归
一句话通俗解释: “文字接龙”,每一次的输出,都变成下一次的输入。
- 学术定义: 在序列生成任务中,模型基于过去时刻的输出(或已知的历史序列),来预测当前时刻的输出。数学上表达为条件概率:P(wt∣w1,w2,…,wt−1)P(wt∣w1,w2,…,wt−1)。
- 形象比喻: 就像一个人在演讲,他脑子里其实并没有完整的一篇稿子,而是根据他刚刚说出的那半句话,顺其自然地想出下一个词该说什么。
- 输入:“深度” -> 预测:“学”
- 把预测结果加回输入:“深度学” -> 预测:“习”
- 再次加回输入:“深度学习” -> 预测:“是”
- 在大模型中的意义: 以 GPT 为代表的 Decoder-Only 架构天生就是“自回归”的。因为 Decoder 中有一个核心机制叫 Masked Attention(掩码注意力),它强制模型“只能看到前面的词,不能偷看后面的词”。这种严格的从左到右的生成方式,造就了大模型强大的文本生成能力。
1.2.2 什么是缩放定律
一句话通俗解释: “大力出奇迹”,只要算力够、数据多、模型大,它就会越来越聪明。
- 核心内涵: OpenAI 在 2020 年发表了一篇著名论文,发现了一个极其规律的现象:深度学习模型的性能(Loss 的下降),与模型的参数量、训练数据量、计算量(算力)呈现高度的幂律(对数线性)关系。
- 为什么这个定律极其重要?
- 以前搞 AI,大家都在“卷架构”(比如怎么把 CNN 改得更精妙,怎么加各种复杂的模块)。
- 有了 Scaling Law 后,OpenAI 发现:别瞎折腾架构了,最朴素的 Decoder 架构 + 无脑堆算力和数据,效果就能吊打一切精妙的架构!
- 它给了全人类一个明确的信号:只要往里砸钱(买显卡),AI 就一定会变强,而且还看不到天花板(直到引爆 AGI)。这就是为什么现在大厂都在疯狂囤英伟达显卡的原因。
1.2.3 BERT、BART 和 GPT 到底是什么?(Transformer 家族的三条科技树)
它们三者都是基于 Transformer 架构演变出来的,核心区别在于它们使用了 Transformer 的哪一部分,以及它们训练时的“考试方式”不同。
1.2.3.1 ① BERT:偏科的“阅读理解课代表”(Only-Encoder)
- 架构: 只使用了 Transformer 的 Encoder(编码器)。
- 训练方式(考试):完形填空(Masked Language Modeling)。它会随机把一句话里的词遮住(比如:“北京是中国的 [MASK]”),让模型猜中间这个词。
- 特点: 它能双向看上下文(既能看前面也能看后面),所以它极其擅长理解语义、做文本分类、情感分析。
- 致命弱点: 毫无创造力,是个哑巴。 因为它是看全局填空,不是从左到右生成的,所以没法做“文字接龙”,根本不能用来做聊天机器人。
1.2.3.2 ② GPT:偏科的“故事大王”(Only-Decoder)
- 架构: 只使用了 Transformer 的 Decoder(解码器)。
- 训练方式(考试):文字接龙(Next Token Prediction)。严格从左向右预测下一个词。
- 特点: 只能看到前面的词。一开始大家觉得它不仅计算慢,而且对上下文的理解不如 BERT 深刻。但后来随着模型越来越大(触发了 Scaling Law),量变引起质变,它不仅生成能力天下第一,理解能力也反超了 BERT。
- 结果: 成为了当今大语言模型(LLM)的绝对霸主。
1.2.3.3 ③ BART (或 T5):想要全能的“翻译官”(Encoder-Decoder)
- 架构: 保留了完整的 Transformer 架构(左边 Encoder 理解,右边 Decoder 生成)。
- 训练方式(考试):文本修复 / 序列到序列。比如把一句话打乱或者删掉几段,让模型重新输出一句完整正确的话。
- 特点: 理论上它结合了 BERT 的理解能力和 GPT 的生成能力。非常擅长机器翻译、文章摘要提取这种“一段话进,另一段话出”的任务。
- 结局: 架构太臃肿了。当参数量扩大到百亿级别时,研究人员发现 Decoder-only(GPT架构)不仅效果更好,而且训练效率更高。所以现在的千亿级大模型基本抛弃了这种双体架构。
1.2.3.4 总结:
在 Transformer 诞生之初,武林分为了三大门派:
修炼 Encoder 的 BERT,成了阅读理解的高手;修炼完整 Encoder-Decoder 的 BART,成了翻译和摘要的专家;而只修炼 Decoder 的 GPT,看似只会玩‘自回归文字接龙’的低级游戏。
但谁也没想到,GPT 误打误撞触发了深度学习的终极真理——Scaling Law(缩放定律)。事实证明,只要模型足够大、数据足够多,单纯的‘文字接龙’就能涌现出极高的逻辑推理和人类常识。最终,Decoder-Only 架构一统江湖,开启了今天的大模型时代。
1.3 大模型炼丹三部曲
训练一个成型的 ChatGPT 或 DeepSeek,通常需要经历三个阶段:
- 预训练 (Pre-training):吃掉全网海量数据,学习语言规律和世界知识(得到 Base 模型,只会无脑接龙)。
- 有监督微调 (SFT - Supervised Fine-Tuning):用高质量的问答对,教会模型“如何遵循人类的指令”(得到 Instruct 模型)。
- 人类反馈强化学习 (RLHF):通过打分机制,让模型的回答符合人类的价值观和偏好(得到最终的 Chat 模型)。
1.4 从 GPT 到 DeepSeek:架构演进与突围
哪怕是强如 GPT 架构,在参数量爆炸的今天也遇到了瓶颈。计算量太大了!显存不够用了!
为了解决这些痛点,以 DeepSeek 为代表的新一代开源模型对原生 Transformer 进行了极其硬核的魔改。
我们先来总体对比一下原生 GPT 和 DeepSeek 的架构差异:![![[image-234.png]]](https://i-blog.csdnimg.cn/direct/c518e5400cf94d2abbc027a88c70e084.png)
可以看出,核心的变革集中在两块:前馈神经网络变成了 MoE,注意力机制变成了 MLA。 接下来我们逐一拆解。
2 前置补充知识
2.1 什么是参数
它是模型“脑子”里的权重,是它学到的所有知识储备。
- 定义: 在神经网络中,参数就是连接神经元的权重矩阵(Weights, WW)和偏置(Bias, bb)。
- 形象比喻: 想象一个巨大且复杂的调音台,上面有几十亿个旋钮。
- 训练的过程,就是不断地微调这些旋钮的刻度,直到调出的声音(输出)最完美。
- 7B 模型:意味着这个模型里有 70 亿 (7 Billion) 个这样的旋钮(参数)。
- 内存占用:这些参数通常用 FP16(半精度浮点数)存储,7B 模型大约需要 14GB 显存才能装得下。
2.2 什么是激活
它是神经元的“开关”,决定了这个信号要不要往下传,或者传多少。
这个词在深度学习里有两个语境,在大模型架构中要区分清楚:
- 语境 A:激活函数 (Activation Function)
- 这是神经网络里的非线性层(如 ReLU, GELU, SwiGLU)。
- 如果没有它,神经网络不管叠多少层,本质上都只是一个简单的线性矩阵乘法,解决不了复杂问题。它赋予了模型“思考复杂逻辑”的能力。
- 语境 B:稀疏激活 (Sparse Activation) —— MoE 的核心!
- 这是在大模型 MoE 架构里的特指概念。指的是“虽然我有 100 个脑子(专家),但我每次思考只用到其中 2 个”。
- 全量激活:传统的 GPT 每次预测一个词,所有的参数都要参与计算(像全班同学一起做一个题)。
- 稀疏激活:DeepSeek 这类 MoE 模型,每次只让相关的部分参数参与计算(只有数学课代表做数学题)。
2.3 什么是前馈神经网络 / Feed Forward (FFN)?
它是 Transformer 里的“知识库”和“处理器”。
- 定义 (Feed Forward): 信号只向一个方向传播(输入 →→ 隐藏层 →→ 输出),没有回路。这是最基础的神经网络结构。
- 在 Transformer 中的地位:
- Transformer 的每一层主要由两部分组成:Attention(注意力机制) + FFN(前馈网络)。
- Attention 负责“看上下文”,搞清楚词与词之间的关系(比如“苹果”在这里是指水果还是手机)。
- FFN 负责“根据上下文提取知识”,对特征进行深加工。
- 重要性: 有研究表明,大模型的事实性知识(Fact)主要存储在 FFN 的参数里。所以 FFN 通常占据了模型约 2/3 的参数量。
![![[image-240.png|276]]](https://i-blog.csdnimg.cn/direct/c86d96e544304c879bec1726a909832f.png)
2.4 什么是专家 (Experts)?
把原本巨大的 FFN 拆碎了,每一个碎片就是一个“专家”。
- 为什么要拆? 传统的 FFN 太大了(Dense FFN),每次都要计算整个矩阵,算力消耗巨大。
- 怎么拆?
- 原来:一个巨大的全连接网络(大通才)。
- 现在:切分成 N 个小型的全连接网络(如 8 个、64 个、甚至几百个),每一个小网络就叫一个专家 (Expert)。
- 专家的本质: 专家本质上就是更小的 FFN。 它们结构完全一样,只是参数不同(因为训练时它们负责学习不同的数据模式)。
3 混合专家模型(以deepseek为例)
![![[image-241.png]]](https://i-blog.csdnimg.cn/direct/cdc70d5c52b447de93135e404adc9da8.png)
3.1 为什么要用 MoE?传统的 FFN 有什么问题?
在传统 Transformer 架构中,前馈神经网络(Feed-Forward Network, FFN)是计算量和参数量的主要来源。如果我们要扩大模型参数(比如从 7B 扩大到 67B),FFN 的矩阵也会随之成倍暴增。
3.1.1 核心痛点:稠密激活的算力诅咒
对于每一次 Token 预测,传统的稠密模型(Dense)都要激活所有的 FFN 参数。这不仅算力拉满,推理成本更是天价。
我们可以用一个直观的数字对比来理解:
- 传统 FFN:假设模型有 100B 参数,那么每个 Token 都要触发全部 100B 参数的计算,即 100B FLOPs。
- MoE 模型:总参数量可以达到 236B,但每个 Token 只需要激活其中的 21B 参数,计算量仅为 21B FLOPs。
这意味着,MoE 在参数量是传统 FFN 2.36 倍的情况下,每个 Token 的计算量却减少了 79%!这完美契合了现代 AI 基础设施的特点: - 存储成本相对便宜(硬盘、内存),可以轻松放下几百亿的参数。
- 计算成本极其昂贵(GPU 时间、电力),每一次 FLOP 都意味着真金白银的开销。
因此,MoE(Mixture of Experts – 混合专家模型)应运而生:它并不能减少模型的总参数量,反而是为了 “在不增加计算量的前提下,堆叠更多的参数”。 它被称为 稀疏激活(Sparse Activation) 技术,通过只激活与当前 Token 最相关的一小部分参数,实现了算力的 “好钢用在刀刃上”。
![![[image-238.png]]](https://i-blog.csdnimg.cn/direct/2365481c584742ffa723e22b5d783d31.png)
3.2 MoE 的定义与原理
简单来说,MoE 就是把原先庞大的 FFN 拆分成多个小型的 FFN(我们称之为 “专家”),并在前面加一个 “路由网络(Router)”。![![[image-242.png]]](https://i-blog.csdnimg.cn/direct/90648adcef54434e84c46cbb2208d937.png)
3.2.1 直观类比:医院分诊系统
![![[image-237.png]]](https://i-blog.csdnimg.cn/direct/319fe1917c6f4513949fb3a7e2a41c40.png)
为了更好地理解 MoE,我们可以把它比作一个医院的分诊系统:
- 输入 Token:就像一位生病的患者。
- Router(路由网络):就像导诊台的护士,负责根据患者的症状,判断应该去看哪个科室的医生。
- Experts(专家):就像各个科室的医生,比如内科、外科、影像科等,每个医生都有自己的专业领域。
- 输出:患者经过对应科室医生的诊断后,得到的治疗方案。
这样一来,患者(Token)不需要去看所有的医生(激活所有专家),只需要去看最相关的几个医生(激活少数专家),大大提高了效率。
3.2.2 专家的工作模式分为三种:
- 全加型 (Soft MoE):
这是最基础的 MoE 模式,逻辑上与注意力机制非常相似:
- 让 Token 经过 Router,得出分配给各个专家的权重得分。
- 让 Token 分别经过所有专家,得到各自的输出结果。
- 将所有专家的输出结果按 Router 给出的权重得分进行加权求和,得到最终输出。
问题: 这种方式依然激活了所有的专家参数,算力并没有减少,只是改变了信息的组合方式。
![![[image-239.png]]](https://i-blog.csdnimg.cn/direct/f95105ee2098455ab303302041b88759.png)
- 挑选型 (Top-K MoE):
这是目前最主流的 MoE 模式,也是实现稀疏激活的关键:
- Router 对所有专家进行打分,评估每个专家对当前 Token 的重要性。
- 只挑选得分最高的 K 个专家(例如 Top-2)进行计算,其他专家则保持 “休眠” 状态。
- 将这 K 个专家的输出结果按权重加权求和,得到最终输出。
优势:通过只激活少数专家,极大地降低了计算量,实现了 “用更少的算力,处理更多的参数” 的目标。![![[image-243.png]]](https://i-blog.csdnimg.cn/direct/37c518631503445db2b12b115edc7529.png)
-
混合型 (DeepSeek 的绝招 - DeepSeekMoE):
DeepSeek 采用了一种更聪明、更高效的策略:共享专家 (Shared Experts) + 路由专家 (Routed Experts)。 -
共享专家 (Shared Experts):这是模型中的 “劳模”,无论什么 Token 进来,都必须经过它们。它们负责提取通用的基础语法、常识和语言结构,是所有 Token 都需要的 “基础设施”。
-
路由专家 (Routed Experts):这是模型中的 “专科医生”,通过 Router 动态挑选激活。它们负责处理特定领域的专业知识、复杂推理或罕见模式,只有在遇到相关 Token 时才会被激活。
优势:这种混合架构兼顾了效率和性能。共享专家保证了模型的基础能力和稳定性,而路由专家则让模型能够高效地处理复杂和专业的任务,同时避免了不必要的计算。![![[image-244.png]]](https://i-blog.csdnimg.cn/direct/8e64377c3cbc4bcf9408a51288764544.png)
3.3 MoE 的负载均衡法则
MoE 虽然强大,但也面临一个严峻的挑战:Router 崩塌(Router Collapse)。
3.3.1 什么是 Router 崩塌?
如果 Router 在训练过程中总是倾向于把任务分配给某几个 “表现好” 的专家,那么其他专家就会逐渐被边缘化,永远得不到训练数据。这就导致了 “旱的旱死,涝的涝死” 的局面:
- 少数专家被过度使用,成为瓶颈。
- 大多数专家被闲置,参数得不到更新,模型能力大打折扣。
3.3.2 解决方案:负载均衡损失函数(Load Balancing Loss)
为了防止 Router 崩塌,在训练时必须引入负载均衡损失函数。它的作用是:
- 强迫 Router “雨露均沾”,尽量让每个专家都有机会被激活和训练。
- 确保所有专家的激活频率和数据分布尽可能均匀。
实现方式:通常会计算每个专家被激活的频率,并将其与一个均匀分布的目标进行比较,将这个差异作为额外的损失项加入到总损失中。这样,模型在优化时,不仅要考虑任务的主目标,还要兼顾专家之间的负载均衡。
4 四大底层黑科技:
除了 MoE,DeepSeek 等现代大模型还集成了以下神级优化,从根本上解决了长文本、高并发、高显存占用等工程难题。
4.1 RoPE (旋转位置编码)
原生 Transformer 使用的是基于正余弦的绝对位置编码,但在长文本中,词与词之间的“相对距离”往往比“绝对位置”更重要。
RoPE (Rotary Position Embedding) 通过在复数空间上的旋转矩阵乘法,极简地将相对位置信息注入到 Attention 计算中。
4.1.1 核心原理
对 Query 和 Key 向量施加一个与位置 m、n 相关的旋转操作:
Q R ( m ) ⋅ ( K R ( n ) ) T = Q R ( m ) R ( n ) T K T = Q R ( m − n ) K T QR(m) \cdot (KR(n))^T = QR(m)R(n)^T K^T = QR(m-n) K^T QR(m)⋅(KR(n))T=QR(m)R(n)TKT=QR(m−n)KT
这个性质使得 Attention 分数只与两个 Token 的相对位置 m-n 有关,完美捕捉了上下文依赖。
相比绝对位置编码,RoPE 在长文本上的外推性更好,如今已成为各大模型的标配。
4.2 MLA (多头潜在注意力机制)
痛点在哪?—— KV Cache 刺客。
大模型在推理时,由于每次只能吐出一个字,为了不重复计算之前的词,必须把之前算好的 K 和 V 矩阵存放在显存中(这就叫 KV Cache)。并发量一上来,显存瞬间撑爆。![![[image-245.png]]](https://i-blog.csdnimg.cn/direct/030eb6e8d90b43ce95016e133dbb5279.png)
4.2.1 KV Cache 的演进
- 演进 1:MQA (多查询注意力-Multi-query):所有 Head 共享同一份 KV,实现了极端压缩,但牺牲了一定性能。
- 演进 2:GQA (分组查询注意力-Grouped-query):分组共享 KV,在性能和压缩率之间取得了妥协。
- 终极形态:MLA (多头潜在注意力机制-Multi-Head Latent Attention):这是 DeepSeek 的独门武功,它通过一个低维的潜在空间(Latent Space)把长长的 KV 给“压缩”了,推理时直接大幅降低了显存占用!
![![[image-246.png]]](https://i-blog.csdnimg.cn/direct/8ea3c932b5354d49a6b14bb2bb70a8bf.png)
4.2.2 核心思想
MLA 不再直接存储高维的 K、V 矩阵,而是学习一个低维的潜在表示 c^Q 和 c^{KV}。在推理时,只需要缓存这个低维的潜在向量,而不是完整的 KV,从而将显存占用从 O(N*d) 降到了 O(N*d_latent),其中 d_latent << d。
4.3 SwiGLU 激活函数
将传统的 ReLU/GELU 替换为 SwiGLU。它结合了 Swish 激活函数的平滑非线性和门控线性单元(GLU)的特点,实验证明在 LLM 中具有更强的特征表达能力。
4.3.1 数学形式
SwiGLU ( x ) = Swish ( W 1 x ) ⊗ ( W 2 x ) \text{SwiGLU}(x) = \text{Swish}(W_1 x) \otimes (W_2 x) SwiGLU(x)=Swish(W1x)⊗(W2x)
- 门控机制(
⊗)让模型可以更灵活地控制信息流。 - 平滑的非线性避免了 ReLU 中的“死亡神经元”问题,提升了训练稳定性。
4.4 RMSNorm (均方根归一化)
DeepSeek 等模型将传统的 LayerNorm 替换为了 RMSNorm。
4.4.1 核心改进
- LayerNorm 计算均值和方差,进行标准化:
LayerNorm ( x ) = x − μ σ ⋅ γ + β \text{LayerNorm}(x) = \frac{x - \mu}{\sigma} \cdot \gamma + \beta LayerNorm(x)=σx−μ⋅γ+β - RMSNorm 只计算均方根(RMS),去掉了均值计算:
RMSNorm ( x ) = x RMS ( x ) 2 + ϵ ⋅ γ \text{RMSNorm}(x) = \frac{x}{\sqrt{\text{RMS}(x)^2 + \epsilon}} \cdot \gamma RMSNorm(x)=RMS(x)2+ϵx⋅γ - 这不仅减少了计算量,还提升了训练稳定性,在 Transformer 架构中表现更优。
4.5 总结
这四大黑科技,本质上都是在算力、显存和性能之间做最优权衡:
- RoPE:用更优雅的方式编码位置信息,提升长文本能力。
- MLA:通过潜在空间压缩 KV Cache,解决显存瓶颈。
- SwiGLU:用更强的激活函数提升模型表达力。
- RMSNorm:用更高效的归一化方式加速训练和推理。
它们与 MoE 一起,构成了 DeepSeek 等现代大模型高效运行的底层工程美学。
| 技术名称 | 解决的核心问题 | 核心原理 / 思路 | 相比前代的提升 | 工程价值 |
|---|---|---|---|---|
| MoE 混合专家 | 传统 FFN 参数量越大、计算量越大,推理成本爆炸 | 把 FFN 拆成多个专家,Router 只激活 Top-K 个专家 + 共享专家 | 参数量可以极大提升,但单 Token 计算量几乎不变 | 超大模型轻量化推理,性价比极高 |
| RoPE 旋转位置编码 | 绝对位置编码在长文本下失效,无法建模相对距离 | 通过复数空间旋转,把相对位置注入 Q・K 注意力计算 | 外推性极强,长文本效果远好于 sin/cos 绝对位置编码 | 现代 LLM 标配,支撑超长上下文 |
| MLA 多头潜在注意力 | KV Cache 占用显存太大,高并发直接爆显存 | 不存完整 KV,而是压缩到低维潜在空间,只存 latent 向量 | 比 MQA/GQA 显存占用更低,效果基本不掉点 | 极大提升并发,降低推理显存成本 |
| SwiGLU 激活函数 | ReLU/GELU 表达能力有限,训练易陷入局部最优 | 门控机制:两条线性路径 + Swish 激活相乘 | 特征表达更强,收敛更快,生成更顺滑 | 提升模型容量,几乎无额外成本 |
| RMSNorm 归一化 | LayerNorm 计算均值 + 方差,开销大、稳定性一般 | 只算均方根,去掉均值,简化归一化 | 计算更快、更稳定,对 Transformer 更友好 | 推理加速,训练更稳 |
5 高效训练与强化学习
模型架构搭好了,怎么炼丹才高效?DeepSeek 等现代大模型在训练和对齐阶段,集成了一系列关键技术,让“炼丹”既高效又可控。
5.1 LoRA (低秩微调)
普通开发者显卡不够,怎么微调百亿参数大模型?LoRA (Low-Rank Adaptation) 给出了完美答案。
5.1.1 核心痛点
全量微调一个 100B 参数的大模型,需要更新全部参数,这对算力和显存的要求是天文数字。例如,更新一个 Linear(10000, 10000) 的层,就需要更新 1 亿个参数,这在消费级显卡上几乎不可能完成。
5.1.2 核心思想
冻结预训练大模型的所有参数,只在特定的全连接层(如 Attention 的 Q/K/V 投影层)旁路,增加两个低秩矩阵 A 和 B。
- 原始权重更新: W 1 = W 0 + Δ W W^1 = W^0 + \Delta W W1=W0+ΔW
- LoRA 表示: Δ W ≈ A × B \Delta W \approx A \times B ΔW≈A×B,其中 A ∈ R d × r A \in \mathbb{R}^{d \times r} A∈Rd×r, B ∈ R r × d B \in \mathbb{R}^{r \times d} B∈Rr×d,秩 r ≪ d r \ll d r≪d。
- 最终输出: h = W 0 x + A ( B x ) h = W_0 x + A (B x) h=W0x+A(Bx)
训练时只更新 A 和 B,参数量瞬间下降 99%。例如,如果秩 r = 1 r=1 r=1,那么只需要更新 10000 × 1 + 1 × 10000 = 20000 10000 \times 1 + 1 \times 10000 = 20000 10000×1+1×10000=20000 个参数,而不是 1 亿个。微调出的效果却能媲美全量微调,同时大大降低了硬件门槛。
5.1.3 优势
- 显存友好:只训练少量参数,显存占用大幅降低。
- 高效快速:训练时间和成本显著减少。
- 可插拔:不同任务的 LoRA 权重可以独立保存和切换,实现“一基多模”。
5.2 RLHF 与强化学习启蒙
让模型“说人话”且“不作恶”的最后一道保护伞就是 RLHF (Reinforcement Learning from Human Feedback),而它的核心就是强化学习。
5.2.1 核心目标
预训练模型学到的是“下一个词是什么”,但 RLHF 让模型学会“下一个词应该是什么”,使其输出更符合人类的偏好、价值观和安全准则。
5.2.2 关键算法演进
5.2.2.1 PG (Policy Gradient, 策略梯度算法)
这是最朴素的强化学习算法。它的核心逻辑是:
- 做对了(得到高奖励 R R R),就增加该动作的概率。
- 做错了(得到低奖励),就减小该动作的概率。
数学形式:
θ ← θ + η ∇ R ˉ θ , ∇ R ˉ θ = 1 N ∑ n = 1 N ∑ t = 1 T n R ( τ n ) ∇ log p θ ( a t n ∣ s t n ) \theta \leftarrow \theta + \eta \nabla \bar{R}_\theta, \quad \nabla \bar{R}_\theta = \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} R(\tau^n) \nabla \log p_\theta(a_t^n | s_t^n) θ←θ+η∇Rˉθ,∇Rˉθ=N1n=1∑Nt=1∑TnR(τn)∇logpθ(atn∣stn)
- R ( τ n ) R(\tau^n) R(τn):轨迹 τ n \tau^n τn 的总奖励。
- p θ ( a t n ∣ s t n ) p_\theta(a_t^n | s_t^n) pθ(atn∣stn):在状态 s t n s_t^n stn 下采取动作 a t n a_t^n atn 的概率。
问题:步子太大容易“扯着蛋”。参数更新的方差极大,训练极不稳定,容易导致模型崩溃。
5.2.2.2 PPO (Proximal Policy Optimization, 近端策略优化)
这是 OpenAI 提出的“核武器”,也是目前 RLHF 的标配算法。它在 PG 的基础上加了一个关键的“限制条件”:不准模型一次性改变太多。
核心改进:
- 引入了一个裁剪的目标函数,限制新旧策略的差异在一个小范围内(如 0.8 到 1.2)。
- 这保证了训练的稳定性,让模型在安全的范围内缓慢且持续地向着人类偏好的方向进化。
5.2.3 RLHF 的完整流程
- SFT (监督微调):用高质量的人类对话数据微调预训练模型,让它学会基本的对话格式和知识。
- RM (奖励模型训练):用人类标注的偏好数据(如“回答A比回答B更好”)训练一个奖励模型,让它能给模型输出打分。
- PPO 优化:用奖励模型的分数作为奖励信号,通过 PPO 算法对 SFT 模型进行强化学习微调,最终得到对齐后的模型。
5.3 总结
- LoRA 是“平民化大模型”的关键,它让每一个开发者都能在有限的硬件上进行高效微调。
- RLHF (PPO) 是“对齐人类价值观”的核心,它让冰冷的统计模型变成了有温度、有安全边界的 AI 助手。
这两大技术,与 DeepSeek 的底层架构黑科技一起,共同构成了现代大模型从训练到部署的完整工程闭环。
6 总结
6.1 核心脉络回顾
- 大模型的本质:大语言模型的核心是自回归 Next Token Prediction,通过不断预测下一个词来生成完整文本。在 Transformer 的三大分支中,Decoder-Only 架构凭借其天然的生成优势和对缩放定律(Scaling Law)的完美契合,最终一统江湖。
- 训练三部曲:一个成熟的大模型要经历预训练(Pre-training)、**监督微调(SFT)和人类反馈强化学习(RLHF)**三个阶段,从“学会语言”进化到“听懂指令”,最终对齐人类价值观。
- 架构革命:从 GPT 到 DeepSeek:为应对参数量爆炸带来的算力诅咒,DeepSeek 对原生 Transformer 进行了两大核心改造:
- MoE(混合专家模型):将庞大的 FFN 拆分为共享专家与路由专家,通过稀疏激活,在参数量翻倍的同时将单 Token 计算量降低 79%,实现了“大力出奇迹”与“好钢用在刀刃上”的平衡。
- MLA(多头潜在注意力):通过低维潜在空间压缩 KV Cache,从根本上解决了长文本推理时的显存瓶颈,是继 MQA/GQA 之后的终极优化方案。
- 四大底层黑科技:除了 MoE 和 MLA,DeepSeek 还集成了 RoPE(旋转位置编码)、SwiGLU 激活函数和 RMSNorm 归一化,在位置建模、特征表达和训练效率上实现了全面升级。
- 高效训练与对齐:LoRA(低秩微调)让普通开发者也能在消费级硬件上高效定制大模型;而 RLHF(PPO)则通过强化学习,让模型从冰冷的统计机器进化为符合人类偏好的智能助手。
6.2 核心洞察
大模型的发展,本质上是一场算力、显存与模型性能之间的权衡艺术。从 GPT 的“大力出奇迹”,到 DeepSeek 的“稀疏激活+潜在压缩”,技术的演进始终围绕着如何用更少的资源,实现更强的能力。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)