文章目录

在上一篇中,我们拆解了 Transformer 与 BERT 的底层逻辑。但如果你关注当下的人工智能,会发现行业的核心已经完全转移到了生​​成式大语言模型(LLM)

这一篇,我们将拨开大模型的神秘面纱:从最基础的文字生成原理出发,沿着 GPT 的演进路线,深入剖析当下最具代表性的 DeepSeek 架构,并彻底搞懂 MoE、RoPE、MLA 等让人眼花缭乱的底层黑科技。

1 大语言模型

1.1 什么是大模型?

抛开那些高深莫测的名词,大语言模型的本质其实非常简单粗暴——“文字接龙”(Next Token Prediction)
![[image-235.png|801]]

原理解析:
给定一段上文,模型内部的函数 f 会计算词表中每一个词作为下一个词出现的概率。因此,每次生成的答案可能会略有不同(因为通常会根据概率分布进行采样,而不是固定选最大值)。无数次“接龙”循环往复,就生成了完整的长文本。

1.2 模型架构的统一:Only Decoder

在早期的 NLP 时代,存在三种 Transformer 的变体:

  • Encoder-Only(如 BERT):擅长阅读理解和填空,不擅长生成。
  • Encoder-Decoder(如 T5,BART):擅长翻译和摘要。
  • Decoder-Only(如 GPT 系列):天生为“文字接龙”而生。

最终,Decoder-Only 凭借其强大的自回归生成能力和缩放定律(Scaling Law),一统了大语言模型的江湖。
![[image-233.png]]

1.2.1 什么是自回归

一句话通俗解释: “文字接龙”,每一次的输出,都变成下一次的输入。

  • 学术定义: 在序列生成任务中,模型基于过去时刻的输出(或已知的历史序列),来预测当前时刻的输出。数学上表达为条件概率:P(wt∣w1,w2,…,wt−1)P(wt​∣w1​,w2​,…,wt−1​)。
  • 形象比喻: 就像一个人在演讲,他脑子里其实并没有完整的一篇稿子,而是根据他刚刚说出的那半句话,顺其自然地想出下一个词该说什么。
    • 输入:“深度” -> 预测:“学”
    • 把预测结果加回输入:“深度学” -> 预测:“习”
    • 再次加回输入:“深度学习” -> 预测:“是”
  • 在大模型中的意义: 以 GPT 为代表的 Decoder-Only 架构天生就是“自回归”的。因为 Decoder 中有一个核心机制叫 Masked Attention(掩码注意力),它强制模型“只能看到前面的词,不能偷看后面的词”。这种严格的从左到右的生成方式,造就了大模型强大的文本生成能力。

1.2.2 什么是缩放定律

一句话通俗解释: “大力出奇迹”,只要算力够、数据多、模型大,它就会越来越聪明。

  • 核心内涵: OpenAI 在 2020 年发表了一篇著名论文,发现了一个极其规律的现象:深度学习模型的性能(Loss 的下降),与模型的参数量、训练数据量、计算量(算力)呈现高度的幂律(对数线性)关系。
  • 为什么这个定律极其重要?
    • 以前搞 AI,大家都在“卷架构”(比如怎么把 CNN 改得更精妙,怎么加各种复杂的模块)。
    • 有了 Scaling Law 后,OpenAI 发现:别瞎折腾架构了,最朴素的 Decoder 架构 + 无脑堆算力和数据,效果就能吊打一切精妙的架构!
    • 它给了全人类一个明确的信号:只要往里砸钱(买显卡),AI 就一定会变强,而且还看不到天花板(直到引爆 AGI)。这就是为什么现在大厂都在疯狂囤英伟达显卡的原因。

1.2.3 BERT、BART 和 GPT 到底是什么?(Transformer 家族的三条科技树)

它们三者都是基于 Transformer 架构演变出来的,核心区别在于它们使用了 Transformer 的哪一部分,以及它们训练时的“考试方式”不同。

1.2.3.1 ① BERT:偏科的“阅读理解课代表”(Only-Encoder)
  • 架构: 只使用了 Transformer 的 Encoder(编码器)
  • 训练方式(考试):完形填空(Masked Language Modeling)。它会随机把一句话里的词遮住(比如:“北京是中国的 [MASK]”),让模型猜中间这个词。
  • 特点: 它能双向看上下文(既能看前面也能看后面),所以它极其擅长理解语义、做文本分类、情感分析
  • 致命弱点: 毫无创造力,是个哑巴。 因为它是看全局填空,不是从左到右生成的,所以没法做“文字接龙”,根本不能用来做聊天机器人。
1.2.3.2 ② GPT:偏科的“故事大王”(Only-Decoder)
  • 架构: 只使用了 Transformer 的 Decoder(解码器)
  • 训练方式(考试):文字接龙(Next Token Prediction)。严格从左向右预测下一个词。
  • 特点: 只能看到前面的词。一开始大家觉得它不仅计算慢,而且对上下文的理解不如 BERT 深刻。但后来随着模型越来越大(触发了 Scaling Law),量变引起质变,它不仅生成能力天下第一,理解能力也反超了 BERT。
  • 结果: 成为了当今大语言模型(LLM)的绝对霸主。
1.2.3.3 ③ BART (或 T5):想要全能的“翻译官”(Encoder-Decoder)
  • 架构: 保留了完整的 Transformer 架构(左边 Encoder 理解,右边 Decoder 生成)。
  • 训练方式(考试):文本修复 / 序列到序列。比如把一句话打乱或者删掉几段,让模型重新输出一句完整正确的话。
  • 特点: 理论上它结合了 BERT 的理解能力和 GPT 的生成能力。非常擅长机器翻译、文章摘要提取这种“一段话进,另一段话出”的任务。
  • 结局: 架构太臃肿了。当参数量扩大到百亿级别时,研究人员发现 Decoder-only(GPT架构)不仅效果更好,而且训练效率更高。所以现在的千亿级大模型基本抛弃了这种双体架构。
1.2.3.4 总结:

在 Transformer 诞生之初,武林分为了三大门派:
修炼 Encoder 的 BERT,成了阅读理解的高手;修炼完整 Encoder-Decoder 的 BART,成了翻译和摘要的专家;而只修炼 Decoder 的 GPT,看似只会玩‘自回归文字接龙’的低级游戏。
但谁也没想到,GPT 误打误撞触发了深度学习的终极真理——Scaling Law(缩放定律)。事实证明,只要模型足够大、数据足够多,单纯的‘文字接龙’就能涌现出极高的逻辑推理和人类常识。最终,Decoder-Only 架构一统江湖,开启了今天的大模型时代。

1.3 大模型炼丹三部曲

训练一个成型的 ChatGPT 或 DeepSeek,通常需要经历三个阶段:

  1. 预训练 (Pre-training):吃掉全网海量数据,学习语言规律和世界知识(得到 Base 模型,只会无脑接龙)。
  2. 有监督微调 (SFT - Supervised Fine-Tuning):用高质量的问答对,教会模型“如何遵循人类的指令”(得到 Instruct 模型)。
  3. 人类反馈强化学习 (RLHF):通过打分机制,让模型的回答符合人类的价值观和偏好(得到最终的 Chat 模型)。

1.4 从 GPT 到 DeepSeek:架构演进与突围

哪怕是强如 GPT 架构,在参数量爆炸的今天也遇到了瓶颈。计算量太大了!显存不够用了!
为了解决这些痛点,以 DeepSeek 为代表的新一代开源模型对原生 Transformer 进行了极其硬核的魔改。

我们先来总体对比一下原生 GPT 和 DeepSeek 的架构差异:
![[image-234.png]]

可以看出,核心的变革集中在两块:前馈神经网络变成了 MoE,注意力机制变成了 MLA。 接下来我们逐一拆解。

2 前置补充知识

2.1 什么是参数

它是模型“脑子”里的权重,是它学到的所有知识储备。

  • 定义: 在神经网络中,参数就是连接神经元的权重矩阵(Weights, WW)偏置(Bias, bb)
  • 形象比喻: 想象一个巨大且复杂的调音台,上面有几十亿个旋钮。
    • 训练的过程,就是不断地微调这些旋钮的刻度,直到调出的声音(输出)最完美。
    • 7B 模型:意味着这个模型里有 70 亿 (7 Billion) 个这样的旋钮(参数)。
    • 内存占用:这些参数通常用 FP16(半精度浮点数)存储,7B 模型大约需要 14GB 显存才能装得下。

2.2 什么是激活

它是神经元的“开关”,决定了这个信号要不要往下传,或者传多少。
这个词在深度学习里有两个语境,在大模型架构中要区分清楚:

  • 语境 A:激活函数 (Activation Function)
    • 这是神经网络里的非线性层(如 ReLU, GELU, SwiGLU)。
    • 如果没有它,神经网络不管叠多少层,本质上都只是一个简单的线性矩阵乘法,解决不了复杂问题。它赋予了模型“思考复杂逻辑”的能力。
  • 语境 B:稀疏激活 (Sparse Activation) —— MoE 的核心!
    • 这是在大模型 MoE 架构里的特指概念。指的是“虽然我有 100 个脑子(专家),但我每次思考只用到其中 2 个”。
    • 全量激活:传统的 GPT 每次预测一个词,所有的参数都要参与计算(像全班同学一起做一个题)。
    • 稀疏激活:DeepSeek 这类 MoE 模型,每次只让相关的部分参数参与计算(只有数学课代表做数学题)。

2.3 什么是前馈神经网络 / Feed Forward (FFN)?

它是 Transformer 里的“知识库”和“处理器”。

  • 定义 (Feed Forward): 信号只向一个方向传播(输入 →→ 隐藏层 →→ 输出),没有回路。这是最基础的神经网络结构。
  • 在 Transformer 中的地位:
    • Transformer 的每一层主要由两部分组成:Attention(注意力机制) + FFN(前馈网络)
    • Attention 负责“看上下文”,搞清楚词与词之间的关系(比如“苹果”在这里是指水果还是手机)。
    • FFN 负责“根据上下文提取知识”,对特征进行深加工。
    • 重要性: 有研究表明,大模型的事实性知识(Fact)主要存储在 FFN 的参数里。所以 FFN 通常占据了模型约 2/3 的参数量。
      ![[image-240.png|276]]

2.4 什么是专家 (Experts)?

把原本巨大的 FFN 拆碎了,每一个碎片就是一个“专家”。

  • 为什么要拆? 传统的 FFN 太大了(Dense FFN),每次都要计算整个矩阵,算力消耗巨大。
  • 怎么拆?
    • 原来:一个巨大的全连接网络(大通才)。
    • 现在:切分成 N 个小型的全连接网络(如 8 个、64 个、甚至几百个),每一个小网络就叫一个专家 (Expert)
  • 专家的本质: 专家本质上就是更小的 FFN。 它们结构完全一样,只是参数不同(因为训练时它们负责学习不同的数据模式)。

3 混合专家模型(以deepseek为例)

![[image-241.png]]

3.1 为什么要用 MoE?传统的 FFN 有什么问题?

在传统 Transformer 架构中,前馈神经网络(Feed-Forward Network, FFN)是计算量和参数量的主要来源。如果我们要扩大模型参数(比如从 7B 扩大到 67B),FFN 的矩阵也会随之成倍暴增。

3.1.1 核心痛点:稠密激活的算力诅咒

对于每一次 Token 预测,传统的稠密模型(Dense)都要激活所有的 FFN 参数。这不仅算力拉满,推理成本更是天价。
我们可以用一个直观的数字对比来理解:

  • 传统 FFN:假设模型有 100B 参数,那么每个 Token 都要触发全部 100B 参数的计算,即 100B FLOPs
  • MoE 模型:总参数量可以达到 236B,但每个 Token 只需要激活其中的 21B 参数,计算量仅为 21B FLOPs
    这意味着,MoE 在参数量是传统 FFN 2.36 倍的情况下,每个 Token 的计算量却减少了 79%!这完美契合了现代 AI 基础设施的特点:
  • 存储成本相对便宜(硬盘、内存),可以轻松放下几百亿的参数。
  • 计算成本极其昂贵(GPU 时间、电力),每一次 FLOP 都意味着真金白银的开销。
    因此,MoE(Mixture of Experts – 混合专家模型)应运而生:它并不能减少模型的总参数量,反而是为了 “在不增加计算量的前提下,堆叠更多的参数”。 它被称为 稀疏激活(Sparse Activation) 技术,通过只激活与当前 Token 最相关的一小部分参数,实现了算力的 “好钢用在刀刃上”。

![[image-238.png]]

3.2 MoE 的定义与原理

简单来说,MoE 就是把原先庞大的 FFN 拆分成多个小型的 FFN(我们称之为 “专家”),并在前面加一个 “路由网络(Router)”。
![[image-242.png]]

3.2.1 直观类比:医院分诊系统

![[image-237.png]]

为了更好地理解 MoE,我们可以把它比作一个医院的分诊系统:

  • 输入 Token:就像一位生病的患者。
  • Router(路由网络):就像导诊台的护士,负责根据患者的症状,判断应该去看哪个科室的医生。
  • Experts(专家):就像各个科室的医生,比如内科、外科、影像科等,每个医生都有自己的专业领域。
  • 输出:患者经过对应科室医生的诊断后,得到的治疗方案。

这样一来,患者(Token)不需要去看所有的医生(激活所有专家),只需要去看最相关的几个医生(激活少数专家),大大提高了效率。

3.2.2 专家的工作模式分为三种:

  • 全加型 (Soft MoE)
    这是最基础的 MoE 模式,逻辑上与注意力机制非常相似:
  1. 让 Token 经过 Router,得出分配给各个专家的权重得分。
  2. 让 Token 分别经过所有专家,得到各自的输出结果。
  3. 将所有专家的输出结果按 Router 给出的权重得分进行加权求和,得到最终输出。

问题: 这种方式依然激活了所有的专家参数,算力并没有减少,只是改变了信息的组合方式。

![[image-239.png]]

  • 挑选型 (Top-K MoE)
    这是目前最主流的 MoE 模式,也是实现稀疏激活的关键:
  1. Router 对所有专家进行打分,评估每个专家对当前 Token 的重要性。
  2. 只挑选得分最高的 K 个专家(例如 Top-2)进行计算,其他专家则保持 “休眠” 状态。
  3. 将这 K 个专家的输出结果按权重加权求和,得到最终输出。
    优势:通过只激活少数专家,极大地降低了计算量,实现了 “用更少的算力,处理更多的参数” 的目标。
    ![[image-243.png]]
  • 混合型 (DeepSeek 的绝招 - DeepSeekMoE)
    DeepSeek 采用了一种更聪明、更高效的策略:共享专家 (Shared Experts) + 路由专家 (Routed Experts)

  • 共享专家 (Shared Experts):这是模型中的 “劳模”,无论什么 Token 进来,都必须经过它们。它们负责提取通用的基础语法、常识和语言结构,是所有 Token 都需要的 “基础设施”。

  • 路由专家 (Routed Experts):这是模型中的 “专科医生”,通过 Router 动态挑选激活。它们负责处理特定领域的专业知识、复杂推理或罕见模式,只有在遇到相关 Token 时才会被激活。

优势:这种混合架构兼顾了效率和性能。共享专家保证了模型的基础能力和稳定性,而路由专家则让模型能够高效地处理复杂和专业的任务,同时避免了不必要的计算。
![[image-244.png]]

3.3 MoE 的负载均衡法则

MoE 虽然强大,但也面临一个严峻的挑战:Router 崩塌(Router Collapse)

3.3.1 什么是 Router 崩塌?

如果 Router 在训练过程中总是倾向于把任务分配给某几个 “表现好” 的专家,那么其他专家就会逐渐被边缘化,永远得不到训练数据。这就导致了 “旱的旱死,涝的涝死” 的局面:

  • 少数专家被过度使用,成为瓶颈。
  • 大多数专家被闲置,参数得不到更新,模型能力大打折扣。

3.3.2 解决方案:负载均衡损失函数(Load Balancing Loss)

为了防止 Router 崩塌,在训练时必须引入负载均衡损失函数。它的作用是:

  • 强迫 Router “雨露均沾”,尽量让每个专家都有机会被激活和训练。
  • 确保所有专家的激活频率和数据分布尽可能均匀。
    实现方式:通常会计算每个专家被激活的频率,并将其与一个均匀分布的目标进行比较,将这个差异作为额外的损失项加入到总损失中。这样,模型在优化时,不仅要考虑任务的主目标,还要兼顾专家之间的负载均衡。

4 四大底层黑科技:

除了 MoE,DeepSeek 等现代大模型还集成了以下神级优化,从根本上解决了长文本、高并发、高显存占用等工程难题。

4.1 RoPE (旋转位置编码)

原生 Transformer 使用的是基于正余弦的绝对位置编码,但在长文本中,词与词之间的“相对距离”往往比“绝对位置”更重要。
RoPE (Rotary Position Embedding) 通过在复数空间上的旋转矩阵乘法,极简地将相对位置信息注入到 Attention 计算中。

4.1.1 核心原理

对 Query 和 Key 向量施加一个与位置 mn 相关的旋转操作:
Q R ( m ) ⋅ ( K R ( n ) ) T = Q R ( m ) R ( n ) T K T = Q R ( m − n ) K T QR(m) \cdot (KR(n))^T = QR(m)R(n)^T K^T = QR(m-n) K^T QR(m)(KR(n))T=QR(m)R(n)TKT=QR(mn)KT
这个性质使得 Attention 分数只与两个 Token 的相对位置 m-n 有关,完美捕捉了上下文依赖。
相比绝对位置编码,RoPE 在长文本上的外推性更好,如今已成为各大模型的标配。

4.2 MLA (多头潜在注意力机制)

痛点在哪?—— KV Cache 刺客
大模型在推理时,由于每次只能吐出一个字,为了不重复计算之前的词,必须把之前算好的 K 和 V 矩阵存放在显存中(这就叫 KV Cache)。并发量一上来,显存瞬间撑爆。
![[image-245.png]]

4.2.1 KV Cache 的演进

  • 演进 1:MQA (多查询注意力-Multi-query):所有 Head 共享同一份 KV,实现了极端压缩,但牺牲了一定性能。
  • 演进 2:GQA (分组查询注意力-Grouped-query):分组共享 KV,在性能和压缩率之间取得了妥协。
  • 终极形态:MLA (多头潜在注意力机制-Multi-Head Latent Attention):这是 DeepSeek 的独门武功,它通过一个低维的潜在空间(Latent Space)把长长的 KV 给“压缩”了,推理时直接大幅降低了显存占用!
    ![[image-246.png]]

4.2.2 核心思想

MLA 不再直接存储高维的 K、V 矩阵,而是学习一个低维的潜在表示 c^Qc^{KV}。在推理时,只需要缓存这个低维的潜在向量,而不是完整的 KV,从而将显存占用从 O(N*d) 降到了 O(N*d_latent),其中 d_latent << d

4.3 SwiGLU 激活函数

将传统的 ReLU/GELU 替换为 SwiGLU。它结合了 Swish 激活函数的平滑非线性和门控线性单元(GLU)的特点,实验证明在 LLM 中具有更强的特征表达能力。

4.3.1 数学形式

SwiGLU ( x ) = Swish ( W 1 x ) ⊗ ( W 2 x ) \text{SwiGLU}(x) = \text{Swish}(W_1 x) \otimes (W_2 x) SwiGLU(x)=Swish(W1x)(W2x)

  • 门控机制()让模型可以更灵活地控制信息流。
  • 平滑的非线性避免了 ReLU 中的“死亡神经元”问题,提升了训练稳定性。

4.4 RMSNorm (均方根归一化)

DeepSeek 等模型将传统的 LayerNorm 替换为了 RMSNorm。

4.4.1 核心改进

  • LayerNorm 计算均值和方差,进行标准化:
    LayerNorm ( x ) = x − μ σ ⋅ γ + β \text{LayerNorm}(x) = \frac{x - \mu}{\sigma} \cdot \gamma + \beta LayerNorm(x)=σxμγ+β
  • RMSNorm 只计算均方根(RMS),去掉了均值计算:
    RMSNorm ( x ) = x RMS ( x ) 2 + ϵ ⋅ γ \text{RMSNorm}(x) = \frac{x}{\sqrt{\text{RMS}(x)^2 + \epsilon}} \cdot \gamma RMSNorm(x)=RMS(x)2+ϵ xγ
  • 这不仅减少了计算量,还提升了训练稳定性,在 Transformer 架构中表现更优。

4.5 总结

这四大黑科技,本质上都是在算力、显存和性能之间做最优权衡:

  • RoPE:用更优雅的方式编码位置信息,提升长文本能力。
  • MLA:通过潜在空间压缩 KV Cache,解决显存瓶颈。
  • SwiGLU:用更强的激活函数提升模型表达力。
  • RMSNorm:用更高效的归一化方式加速训练和推理。

它们与 MoE 一起,构成了 DeepSeek 等现代大模型高效运行的底层工程美学。

技术名称 解决的核心问题 核心原理 / 思路 相比前代的提升 工程价值
MoE 混合专家 传统 FFN 参数量越大、计算量越大,推理成本爆炸 把 FFN 拆成多个专家,Router 只激活 Top-K 个专家 + 共享专家 参数量可以极大提升,但单 Token 计算量几乎不变 超大模型轻量化推理,性价比极高
RoPE 旋转位置编码 绝对位置编码在长文本下失效,无法建模相对距离 通过复数空间旋转,把相对位置注入 Q・K 注意力计算 外推性极强,长文本效果远好于 sin/cos 绝对位置编码 现代 LLM 标配,支撑超长上下文
MLA 多头潜在注意力 KV Cache 占用显存太大,高并发直接爆显存 不存完整 KV,而是压缩到低维潜在空间,只存 latent 向量 比 MQA/GQA 显存占用更低,效果基本不掉点 极大提升并发,降低推理显存成本
SwiGLU 激活函数 ReLU/GELU 表达能力有限,训练易陷入局部最优 门控机制:两条线性路径 + Swish 激活相乘 特征表达更强,收敛更快,生成更顺滑 提升模型容量,几乎无额外成本
RMSNorm 归一化 LayerNorm 计算均值 + 方差,开销大、稳定性一般 只算均方根,去掉均值,简化归一化 计算更快、更稳定,对 Transformer 更友好 推理加速,训练更稳

5 高效训练与强化学习

模型架构搭好了,怎么炼丹才高效?DeepSeek 等现代大模型在训练和对齐阶段,集成了一系列关键技术,让“炼丹”既高效又可控。

5.1 LoRA (低秩微调)

普通开发者显卡不够,怎么微调百亿参数大模型?LoRA (Low-Rank Adaptation) 给出了完美答案

5.1.1 核心痛点

全量微调一个 100B 参数的大模型,需要更新全部参数,这对算力和显存的要求是天文数字。例如,更新一个 Linear(10000, 10000) 的层,就需要更新 1 亿个参数,这在消费级显卡上几乎不可能完成。

5.1.2 核心思想

冻结预训练大模型的所有参数,只在特定的全连接层(如 Attention 的 Q/K/V 投影层)旁路,增加两个低秩矩阵 AB

  • 原始权重更新: W 1 = W 0 + Δ W W^1 = W^0 + \Delta W W1=W0+ΔW
  • LoRA 表示: Δ W ≈ A × B \Delta W \approx A \times B ΔWA×B,其中 A ∈ R d × r A \in \mathbb{R}^{d \times r} ARd×r B ∈ R r × d B \in \mathbb{R}^{r \times d} BRr×d,秩 r ≪ d r \ll d rd
  • 最终输出: h = W 0 x + A ( B x ) h = W_0 x + A (B x) h=W0x+A(Bx)

训练时只更新 AB,参数量瞬间下降 99%。例如,如果秩 r = 1 r=1 r=1,那么只需要更新 10000 × 1 + 1 × 10000 = 20000 10000 \times 1 + 1 \times 10000 = 20000 10000×1+1×10000=20000 个参数,而不是 1 亿个。微调出的效果却能媲美全量微调,同时大大降低了硬件门槛。

5.1.3 优势

  • 显存友好:只训练少量参数,显存占用大幅降低。
  • 高效快速:训练时间和成本显著减少。
  • 可插拔:不同任务的 LoRA 权重可以独立保存和切换,实现“一基多模”。

5.2 RLHF 与强化学习启蒙

让模型“说人话”且“不作恶”的最后一道保护伞就是 RLHF (Reinforcement Learning from Human Feedback),而它的核心就是强化学习。

5.2.1 核心目标

预训练模型学到的是“下一个词是什么”,但 RLHF 让模型学会“下一个词应该是什么”,使其输出更符合人类的偏好、价值观和安全准则。

5.2.2 关键算法演进

5.2.2.1 PG (Policy Gradient, 策略梯度算法)

这是最朴素的强化学习算法。它的核心逻辑是:

  • 做对了(得到高奖励 R R R),就增加该动作的概率。
  • 做错了(得到低奖励),就减小该动作的概率。

数学形式:
θ ← θ + η ∇ R ˉ θ , ∇ R ˉ θ = 1 N ∑ n = 1 N ∑ t = 1 T n R ( τ n ) ∇ log ⁡ p θ ( a t n ∣ s t n ) \theta \leftarrow \theta + \eta \nabla \bar{R}_\theta, \quad \nabla \bar{R}_\theta = \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} R(\tau^n) \nabla \log p_\theta(a_t^n | s_t^n) θθ+ηRˉθ,Rˉθ=N1n=1Nt=1TnR(τn)logpθ(atnstn)

  • R ( τ n ) R(\tau^n) R(τn):轨迹 τ n \tau^n τn 的总奖励。
  • p θ ( a t n ∣ s t n ) p_\theta(a_t^n | s_t^n) pθ(atnstn):在状态 s t n s_t^n stn 下采取动作 a t n a_t^n atn 的概率。

问题:步子太大容易“扯着蛋”。参数更新的方差极大,训练极不稳定,容易导致模型崩溃。

5.2.2.2 PPO (Proximal Policy Optimization, 近端策略优化)

这是 OpenAI 提出的“核武器”,也是目前 RLHF 的标配算法。它在 PG 的基础上加了一个关键的“限制条件”:不准模型一次性改变太多

核心改进:

  • 引入了一个裁剪的目标函数,限制新旧策略的差异在一个小范围内(如 0.8 到 1.2)。
  • 这保证了训练的稳定性,让模型在安全的范围内缓慢且持续地向着人类偏好的方向进化。

5.2.3 RLHF 的完整流程

  1. SFT (监督微调):用高质量的人类对话数据微调预训练模型,让它学会基本的对话格式和知识。
  2. RM (奖励模型训练):用人类标注的偏好数据(如“回答A比回答B更好”)训练一个奖励模型,让它能给模型输出打分。
  3. PPO 优化:用奖励模型的分数作为奖励信号,通过 PPO 算法对 SFT 模型进行强化学习微调,最终得到对齐后的模型。

5.3 总结

  • LoRA 是“平民化大模型”的关键,它让每一个开发者都能在有限的硬件上进行高效微调。
  • RLHF (PPO) 是“对齐人类价值观”的核心,它让冰冷的统计模型变成了有温度、有安全边界的 AI 助手。

这两大技术,与 DeepSeek 的底层架构黑科技一起,共同构成了现代大模型从训练到部署的完整工程闭环。

6 总结

6.1 核心脉络回顾

  1. 大模型的本质:大语言模型的核心是自回归 Next Token Prediction,通过不断预测下一个词来生成完整文本。在 Transformer 的三大分支中,Decoder-Only 架构凭借其天然的生成优势和对缩放定律(Scaling Law)的完美契合,最终一统江湖。
  2. 训练三部曲:一个成熟的大模型要经历预训练(Pre-training)、**监督微调(SFT)人类反馈强化学习(RLHF)**三个阶段,从“学会语言”进化到“听懂指令”,最终对齐人类价值观。
  3. 架构革命:从 GPT 到 DeepSeek:为应对参数量爆炸带来的算力诅咒,DeepSeek 对原生 Transformer 进行了两大核心改造:
    • MoE(混合专家模型):将庞大的 FFN 拆分为共享专家与路由专家,通过稀疏激活,在参数量翻倍的同时将单 Token 计算量降低 79%,实现了“大力出奇迹”与“好钢用在刀刃上”的平衡。
    • MLA(多头潜在注意力):通过低维潜在空间压缩 KV Cache,从根本上解决了长文本推理时的显存瓶颈,是继 MQA/GQA 之后的终极优化方案。
  4. 四大底层黑科技:除了 MoE 和 MLA,DeepSeek 还集成了 RoPE(旋转位置编码)SwiGLU 激活函数RMSNorm 归一化,在位置建模、特征表达和训练效率上实现了全面升级。
  5. 高效训练与对齐:LoRA(低秩微调)让普通开发者也能在消费级硬件上高效定制大模型;而 RLHF(PPO)则通过强化学习,让模型从冰冷的统计机器进化为符合人类偏好的智能助手。

6.2 核心洞察

大模型的发展,本质上是一场算力、显存与模型性能之间的权衡艺术。从 GPT 的“大力出奇迹”,到 DeepSeek 的“稀疏激活+潜在压缩”,技术的演进始终围绕着如何用更少的资源,实现更强的能力。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐