【深度学习基础篇12】从 GPT 到 DeepSeek：大模型的架构革命与工程美学

ppppppatrick

533人浏览 · 2026-03-18 09:40:49

ppppppatrick · 2026-03-18 09:40:49 发布

文章目录

1 大语言模型
2 前置补充知识
3 混合专家模型(以deepseek为例)
4 四大底层黑科技：
5 高效训练与强化学习
6 总结
- 6.1 核心脉络回顾
- 6.2 核心洞察

在上一篇中，我们拆解了 Transformer 与 BERT 的底层逻辑。但如果你关注当下的人工智能，会发现行业的核心已经完全转移到了生成式大语言模型（LLM）。

这一篇，我们将拨开大模型的神秘面纱：从最基础的文字生成原理出发，沿着 GPT 的演进路线，深入剖析当下最具代表性的 DeepSeek 架构，并彻底搞懂 MoE、RoPE、MLA 等让人眼花缭乱的底层黑科技。

1 大语言模型

1.1 什么是大模型？

抛开那些高深莫测的名词，大语言模型的本质其实非常简单粗暴——“文字接龙”（Next Token Prediction）。
![[image-235.png|801]]

原理解析：
给定一段上文，模型内部的函数 f 会计算词表中每一个词作为下一个词出现的概率。因此，每次生成的答案可能会略有不同（因为通常会根据概率分布进行采样，而不是固定选最大值）。无数次“接龙”循环往复，就生成了完整的长文本。

1.2 模型架构的统一：Only Decoder

在早期的 NLP 时代，存在三种 Transformer 的变体：

Encoder-Only（如 BERT）：擅长阅读理解和填空，不擅长生成。
Encoder-Decoder（如 T5，BART）：擅长翻译和摘要。
Decoder-Only（如 GPT 系列）：天生为“文字接龙”而生。

最终，Decoder-Only 凭借其强大的自回归生成能力和缩放定律（Scaling Law），一统了大语言模型的江湖。
![[image-233.png]]

1.2.1 什么是自回归

一句话通俗解释： “文字接龙”，每一次的输出，都变成下一次的输入。

学术定义： 在序列生成任务中，模型基于过去时刻的输出（或已知的历史序列），来预测当前时刻的输出。数学上表达为条件概率：P(wt∣w1,w2,…,wt−1)P(wt∣w1,w2,…,wt−1)。
形象比喻： 就像一个人在演讲，他脑子里其实并没有完整的一篇稿子，而是根据他刚刚说出的那半句话，顺其自然地想出下一个词该说什么。
- 输入：“深度” -> 预测：“学”
- 把预测结果加回输入：“深度学” -> 预测：“习”
- 再次加回输入：“深度学习” -> 预测：“是”
在大模型中的意义： 以 GPT 为代表的 Decoder-Only 架构天生就是“自回归”的。因为 Decoder 中有一个核心机制叫 Masked Attention（掩码注意力），它强制模型“只能看到前面的词，不能偷看后面的词”。这种严格的从左到右的生成方式，造就了大模型强大的文本生成能力。

1.2.2 什么是缩放定律

一句话通俗解释： “大力出奇迹”，只要算力够、数据多、模型大，它就会越来越聪明。

核心内涵： OpenAI 在 2020 年发表了一篇著名论文，发现了一个极其规律的现象：深度学习模型的性能（Loss 的下降），与模型的参数量、训练数据量、计算量（算力）呈现高度的幂律（对数线性）关系。
为什么这个定律极其重要？
- 以前搞 AI，大家都在“卷架构”（比如怎么把 CNN 改得更精妙，怎么加各种复杂的模块）。
- 有了 Scaling Law 后，OpenAI 发现：别瞎折腾架构了，最朴素的 Decoder 架构 + 无脑堆算力和数据，效果就能吊打一切精妙的架构！
- 它给了全人类一个明确的信号：只要往里砸钱（买显卡），AI 就一定会变强，而且还看不到天花板（直到引爆 AGI）。这就是为什么现在大厂都在疯狂囤英伟达显卡的原因。

1.2.3 BERT、BART 和 GPT 到底是什么？（Transformer 家族的三条科技树）

它们三者都是基于 Transformer 架构演变出来的，核心区别在于它们使用了 Transformer 的哪一部分，以及它们训练时的“考试方式”不同。

1.2.3.1 ① BERT：偏科的“阅读理解课代表”（Only-Encoder）

架构： 只使用了 Transformer 的 Encoder（编码器）。
训练方式（考试）：完形填空（Masked Language Modeling）。它会随机把一句话里的词遮住（比如：“北京是中国的 [MASK]”），让模型猜中间这个词。
特点： 它能双向看上下文（既能看前面也能看后面），所以它极其擅长理解语义、做文本分类、情感分析。
致命弱点： 毫无创造力，是个哑巴。 因为它是看全局填空，不是从左到右生成的，所以没法做“文字接龙”，根本不能用来做聊天机器人。

1.2.3.2 ② GPT：偏科的“故事大王”（Only-Decoder）

架构： 只使用了 Transformer 的 Decoder（解码器）。
训练方式（考试）：文字接龙（Next Token Prediction）。严格从左向右预测下一个词。
特点： 只能看到前面的词。一开始大家觉得它不仅计算慢，而且对上下文的理解不如 BERT 深刻。但后来随着模型越来越大（触发了 Scaling Law），量变引起质变，它不仅生成能力天下第一，理解能力也反超了 BERT。
结果： 成为了当今大语言模型（LLM）的绝对霸主。

1.2.3.3 ③ BART (或 T5)：想要全能的“翻译官”（Encoder-Decoder）

架构： 保留了完整的 Transformer 架构（左边 Encoder 理解，右边 Decoder 生成）。
训练方式（考试）：文本修复 / 序列到序列。比如把一句话打乱或者删掉几段，让模型重新输出一句完整正确的话。
特点： 理论上它结合了 BERT 的理解能力和 GPT 的生成能力。非常擅长机器翻译、文章摘要提取这种“一段话进，另一段话出”的任务。
结局： 架构太臃肿了。当参数量扩大到百亿级别时，研究人员发现 Decoder-only（GPT架构）不仅效果更好，而且训练效率更高。所以现在的千亿级大模型基本抛弃了这种双体架构。

1.2.3.4 总结:

在 Transformer 诞生之初，武林分为了三大门派：
修炼 Encoder 的 BERT，成了阅读理解的高手；修炼完整 Encoder-Decoder 的 BART，成了翻译和摘要的专家；而只修炼 Decoder 的 GPT，看似只会玩‘自回归文字接龙’的低级游戏。
但谁也没想到，GPT 误打误撞触发了深度学习的终极真理——Scaling Law（缩放定律）。事实证明，只要模型足够大、数据足够多，单纯的‘文字接龙’就能涌现出极高的逻辑推理和人类常识。最终，Decoder-Only 架构一统江湖，开启了今天的大模型时代。

1.3 大模型炼丹三部曲

训练一个成型的 ChatGPT 或 DeepSeek，通常需要经历三个阶段：

预训练 (Pre-training)：吃掉全网海量数据，学习语言规律和世界知识（得到 Base 模型，只会无脑接龙）。
有监督微调 (SFT - Supervised Fine-Tuning)：用高质量的问答对，教会模型“如何遵循人类的指令”（得到 Instruct 模型）。
人类反馈强化学习 (RLHF)：通过打分机制，让模型的回答符合人类的价值观和偏好（得到最终的 Chat 模型）。

1.4 从 GPT 到 DeepSeek：架构演进与突围

哪怕是强如 GPT 架构，在参数量爆炸的今天也遇到了瓶颈。计算量太大了！显存不够用了！
为了解决这些痛点，以 DeepSeek 为代表的新一代开源模型对原生 Transformer 进行了极其硬核的魔改。

我们先来总体对比一下原生 GPT 和 DeepSeek 的架构差异：
![[image-234.png]]

可以看出，核心的变革集中在两块：前馈神经网络变成了 MoE，注意力机制变成了 MLA。 接下来我们逐一拆解。

2 前置补充知识

2.1 什么是参数

它是模型“脑子”里的权重，是它学到的所有知识储备。

定义： 在神经网络中，参数就是连接神经元的权重矩阵（Weights, WW）和偏置（Bias, bb）。
形象比喻： 想象一个巨大且复杂的调音台，上面有几十亿个旋钮。
- 训练的过程，就是不断地微调这些旋钮的刻度，直到调出的声音（输出）最完美。
- 7B 模型：意味着这个模型里有 70 亿 (7 Billion) 个这样的旋钮（参数）。
- 内存占用：这些参数通常用 FP16（半精度浮点数）存储，7B 模型大约需要 14GB 显存才能装得下。

2.2 什么是激活

它是神经元的“开关”，决定了这个信号要不要往下传，或者传多少。
这个词在深度学习里有两个语境，在大模型架构中要区分清楚：

语境 A：激活函数 (Activation Function)
- 这是神经网络里的非线性层（如 ReLU, GELU, SwiGLU）。
- 如果没有它，神经网络不管叠多少层，本质上都只是一个简单的线性矩阵乘法，解决不了复杂问题。它赋予了模型“思考复杂逻辑”的能力。
语境 B：稀疏激活 (Sparse Activation) —— MoE 的核心！
- 这是在大模型 MoE 架构里的特指概念。指的是“虽然我有 100 个脑子（专家），但我每次思考只用到其中 2 个”。
- 全量激活：传统的 GPT 每次预测一个词，所有的参数都要参与计算（像全班同学一起做一个题）。
- 稀疏激活：DeepSeek 这类 MoE 模型，每次只让相关的部分参数参与计算（只有数学课代表做数学题）。

2.3 什么是前馈神经网络 / Feed Forward (FFN)？

它是 Transformer 里的“知识库”和“处理器”。

定义 (Feed Forward)： 信号只向一个方向传播（输入 →→ 隐藏层 →→ 输出），没有回路。这是最基础的神经网络结构。
在 Transformer 中的地位：
- Transformer 的每一层主要由两部分组成：Attention（注意力机制） + FFN（前馈网络）。
- Attention 负责“看上下文”，搞清楚词与词之间的关系（比如“苹果”在这里是指水果还是手机）。
- FFN 负责“根据上下文提取知识”，对特征进行深加工。
- 重要性： 有研究表明，大模型的事实性知识（Fact）主要存储在 FFN 的参数里。所以 FFN 通常占据了模型约 2/3 的参数量。

2.4 什么是专家 (Experts)？

把原本巨大的 FFN 拆碎了，每一个碎片就是一个“专家”。

为什么要拆？ 传统的 FFN 太大了（Dense FFN），每次都要计算整个矩阵，算力消耗巨大。
怎么拆？
- 原来：一个巨大的全连接网络（大通才）。
- 现在：切分成 N 个小型的全连接网络（如 8 个、64 个、甚至几百个），每一个小网络就叫一个专家 (Expert)。
专家的本质： 专家本质上就是更小的 FFN。 它们结构完全一样，只是参数不同（因为训练时它们负责学习不同的数据模式）。

3 混合专家模型(以deepseek为例)

![[image-241.png]]

3.1 为什么要用 MoE？传统的 FFN 有什么问题？

在传统 Transformer 架构中，前馈神经网络（Feed-Forward Network, FFN）是计算量和参数量的主要来源。如果我们要扩大模型参数（比如从 7B 扩大到 67B），FFN 的矩阵也会随之成倍暴增。

3.1.1 核心痛点：稠密激活的算力诅咒

对于每一次 Token 预测，传统的稠密模型（Dense）都要激活所有的 FFN 参数。这不仅算力拉满，推理成本更是天价。
我们可以用一个直观的数字对比来理解：

传统 FFN：假设模型有 100B 参数，那么每个 Token 都要触发全部 100B 参数的计算，即 100B FLOPs。
MoE 模型：总参数量可以达到 236B，但每个 Token 只需要激活其中的 21B 参数，计算量仅为 21B FLOPs。
这意味着，MoE 在参数量是传统 FFN 2.36 倍的情况下，每个 Token 的计算量却减少了 79%！这完美契合了现代 AI 基础设施的特点：
存储成本相对便宜（硬盘、内存），可以轻松放下几百亿的参数。
计算成本极其昂贵（GPU 时间、电力），每一次 FLOP 都意味着真金白银的开销。
因此，MoE（Mixture of Experts – 混合专家模型）应运而生：它并不能减少模型的总参数量，反而是为了 “在不增加计算量的前提下，堆叠更多的参数”。 它被称为 稀疏激活（Sparse Activation） 技术，通过只激活与当前 Token 最相关的一小部分参数，实现了算力的 “好钢用在刀刃上”。

![[image-238.png]]

3.2 MoE 的定义与原理

简单来说，MoE 就是把原先庞大的 FFN 拆分成多个小型的 FFN（我们称之为 “专家”），并在前面加一个 “路由网络（Router）”。
![[image-242.png]]

3.2.1 直观类比：医院分诊系统

![[image-237.png]]

为了更好地理解 MoE，我们可以把它比作一个医院的分诊系统：

输入 Token：就像一位生病的患者。
Router（路由网络）：就像导诊台的护士，负责根据患者的症状，判断应该去看哪个科室的医生。
Experts（专家）：就像各个科室的医生，比如内科、外科、影像科等，每个医生都有自己的专业领域。
输出：患者经过对应科室医生的诊断后，得到的治疗方案。

这样一来，患者（Token）不需要去看所有的医生（激活所有专家），只需要去看最相关的几个医生（激活少数专家），大大提高了效率。

3.2.2 专家的工作模式分为三种：

全加型 (Soft MoE)：
这是最基础的 MoE 模式，逻辑上与注意力机制非常相似：

让 Token 经过 Router，得出分配给各个专家的权重得分。
让 Token 分别经过所有专家，得到各自的输出结果。
将所有专家的输出结果按 Router 给出的权重得分进行加权求和，得到最终输出。

问题: 这种方式依然激活了所有的专家参数，算力并没有减少，只是改变了信息的组合方式。

![[image-239.png]]

挑选型 (Top-K MoE)：
这是目前最主流的 MoE 模式，也是实现稀疏激活的关键：

Router 对所有专家进行打分，评估每个专家对当前 Token 的重要性。
只挑选得分最高的 K 个专家（例如 Top-2）进行计算，其他专家则保持 “休眠” 状态。
将这 K 个专家的输出结果按权重加权求和，得到最终输出。
优势：通过只激活少数专家，极大地降低了计算量，实现了 “用更少的算力，处理更多的参数” 的目标。

混合型 (DeepSeek 的绝招 - DeepSeekMoE)：
DeepSeek 采用了一种更聪明、更高效的策略：共享专家 (Shared Experts) + 路由专家 (Routed Experts)。
共享专家 (Shared Experts)：这是模型中的 “劳模”，无论什么 Token 进来，都必须经过它们。它们负责提取通用的基础语法、常识和语言结构，是所有 Token 都需要的 “基础设施”。
路由专家 (Routed Experts)：这是模型中的 “专科医生”，通过 Router 动态挑选激活。它们负责处理特定领域的专业知识、复杂推理或罕见模式，只有在遇到相关 Token 时才会被激活。

优势：这种混合架构兼顾了效率和性能。共享专家保证了模型的基础能力和稳定性，而路由专家则让模型能够高效地处理复杂和专业的任务，同时避免了不必要的计算。
![[image-244.png]]

3.3 MoE 的负载均衡法则

MoE 虽然强大，但也面临一个严峻的挑战：Router 崩塌（Router Collapse）。

3.3.1 什么是 Router 崩塌？

如果 Router 在训练过程中总是倾向于把任务分配给某几个 “表现好” 的专家，那么其他专家就会逐渐被边缘化，永远得不到训练数据。这就导致了 “旱的旱死，涝的涝死” 的局面：

少数专家被过度使用，成为瓶颈。
大多数专家被闲置，参数得不到更新，模型能力大打折扣。

3.3.2 解决方案：负载均衡损失函数（Load Balancing Loss）

为了防止 Router 崩塌，在训练时必须引入负载均衡损失函数。它的作用是：

强迫 Router “雨露均沾”，尽量让每个专家都有机会被激活和训练。
确保所有专家的激活频率和数据分布尽可能均匀。
实现方式：通常会计算每个专家被激活的频率，并将其与一个均匀分布的目标进行比较，将这个差异作为额外的损失项加入到总损失中。这样，模型在优化时，不仅要考虑任务的主目标，还要兼顾专家之间的负载均衡。

4 四大底层黑科技：

除了 MoE，DeepSeek 等现代大模型还集成了以下神级优化，从根本上解决了长文本、高并发、高显存占用等工程难题。

4.1 RoPE (旋转位置编码)

原生 Transformer 使用的是基于正余弦的绝对位置编码，但在长文本中，词与词之间的“相对距离”往往比“绝对位置”更重要。
RoPE (Rotary Position Embedding) 通过在复数空间上的旋转矩阵乘法，极简地将相对位置信息注入到 Attention 计算中。

4.1.1 核心原理

对 Query 和 Key 向量施加一个与位置 m、n 相关的旋转操作：
$\cdot (KR(n))^T = QR(m)R(n)^T K^T = QR(m-n) K^T$
这个性质使得 Attention 分数只与两个 Token 的相对位置 m-n 有关，完美捕捉了上下文依赖。
相比绝对位置编码，RoPE 在长文本上的外推性更好，如今已成为各大模型的标配。

4.2 MLA (多头潜在注意力机制)

痛点在哪？—— KV Cache 刺客。
大模型在推理时，由于每次只能吐出一个字，为了不重复计算之前的词，必须把之前算好的 K 和 V 矩阵存放在显存中（这就叫 KV Cache）。并发量一上来，显存瞬间撑爆。
![[image-245.png]]

4.2.1 KV Cache 的演进

演进 1：MQA (多查询注意力-Multi-query)：所有 Head 共享同一份 KV，实现了极端压缩，但牺牲了一定性能。
演进 2：GQA (分组查询注意力-Grouped-query)：分组共享 KV，在性能和压缩率之间取得了妥协。
终极形态：MLA (多头潜在注意力机制-Multi-Head Latent Attention)：这是 DeepSeek 的独门武功，它通过一个低维的潜在空间（Latent Space）把长长的 KV 给“压缩”了，推理时直接大幅降低了显存占用！

4.2.2 核心思想

MLA 不再直接存储高维的 K、V 矩阵，而是学习一个低维的潜在表示 c^Q 和 c^{KV}。在推理时，只需要缓存这个低维的潜在向量，而不是完整的 KV，从而将显存占用从 O(N*d) 降到了 O(N*d_latent)，其中 d_latent << d。

4.3 SwiGLU 激活函数

将传统的 ReLU/GELU 替换为 SwiGLU。它结合了 Swish 激活函数的平滑非线性和门控线性单元（GLU）的特点，实验证明在 LLM 中具有更强的特征表达能力。

4.3.1 数学形式

$\text{SwiGLU}(x) = \text{Swish}(W_1 x) \otimes (W_2 x)$

门控机制（⊗）让模型可以更灵活地控制信息流。
平滑的非线性避免了 ReLU 中的“死亡神经元”问题，提升了训练稳定性。

4.4 RMSNorm (均方根归一化)

DeepSeek 等模型将传统的 LayerNorm 替换为了 RMSNorm。

4.4.1 核心改进

LayerNorm 计算均值和方差，进行标准化：
$\text{LayerNorm}(x) = \frac{x - \mu}{\sigma} \cdot \gamma + \beta$
RMSNorm 只计算均方根（RMS），去掉了均值计算：
$\text{RMSNorm}(x) = \frac{x}{\sqrt{\text{RMS}(x)^2 + \epsilon}} \cdot \gamma$
这不仅减少了计算量，还提升了训练稳定性，在 Transformer 架构中表现更优。

4.5 总结

这四大黑科技，本质上都是在算力、显存和性能之间做最优权衡：

RoPE：用更优雅的方式编码位置信息，提升长文本能力。
MLA：通过潜在空间压缩 KV Cache，解决显存瓶颈。
SwiGLU：用更强的激活函数提升模型表达力。
RMSNorm：用更高效的归一化方式加速训练和推理。

它们与 MoE 一起，构成了 DeepSeek 等现代大模型高效运行的底层工程美学。

技术名称	解决的核心问题	核心原理 / 思路	相比前代的提升	工程价值
MoE 混合专家	传统 FFN 参数量越大、计算量越大，推理成本爆炸	把 FFN 拆成多个专家，Router 只激活 Top-K 个专家 + 共享专家	参数量可以极大提升，但单 Token 计算量几乎不变	超大模型轻量化推理，性价比极高
RoPE 旋转位置编码	绝对位置编码在长文本下失效，无法建模相对距离	通过复数空间旋转，把相对位置注入 Q・K 注意力计算	外推性极强，长文本效果远好于 sin/cos 绝对位置编码	现代 LLM 标配，支撑超长上下文
MLA 多头潜在注意力	KV Cache 占用显存太大，高并发直接爆显存	不存完整 KV，而是压缩到低维潜在空间，只存 latent 向量	比 MQA/GQA 显存占用更低，效果基本不掉点	极大提升并发，降低推理显存成本
SwiGLU 激活函数	ReLU/GELU 表达能力有限，训练易陷入局部最优	门控机制：两条线性路径 + Swish 激活相乘	特征表达更强，收敛更快，生成更顺滑	提升模型容量，几乎无额外成本
RMSNorm 归一化	LayerNorm 计算均值 + 方差，开销大、稳定性一般	只算均方根，去掉均值，简化归一化	计算更快、更稳定，对 Transformer 更友好	推理加速，训练更稳

5 高效训练与强化学习

模型架构搭好了，怎么炼丹才高效？DeepSeek 等现代大模型在训练和对齐阶段，集成了一系列关键技术，让“炼丹”既高效又可控。

5.1 LoRA (低秩微调)

普通开发者显卡不够，怎么微调百亿参数大模型？LoRA (Low-Rank Adaptation) 给出了完美答案。

5.1.1 核心痛点

全量微调一个 100B 参数的大模型，需要更新全部参数，这对算力和显存的要求是天文数字。例如，更新一个 Linear(10000, 10000) 的层，就需要更新 1 亿个参数，这在消费级显卡上几乎不可能完成。

5.1.2 核心思想

冻结预训练大模型的所有参数，只在特定的全连接层（如 Attention 的 Q/K/V 投影层）旁路，增加两个低秩矩阵 A 和 B。

原始权重更新： $W^1 = W^0 + \Delta W$
LoRA 表示： $\Delta W \approx A \times B$ ，其中 $\in \mathbb{R}^{d \times r}$ ， $\in \mathbb{R}^{r \times d}$ ，秩 $\ll d$ 。
最终输出： $h = W_0 x + A (B x)$

训练时只更新 A 和 B，参数量瞬间下降 99%。例如，如果秩 $r = 1$ ，那么只需要更新 $10000 \times 1 + 1 \times 10000 = 20000$ 个参数，而不是 1 亿个。微调出的效果却能媲美全量微调，同时大大降低了硬件门槛。

5.1.3 优势

显存友好：只训练少量参数，显存占用大幅降低。
高效快速：训练时间和成本显著减少。
可插拔：不同任务的 LoRA 权重可以独立保存和切换，实现“一基多模”。

5.2 RLHF 与强化学习启蒙

让模型“说人话”且“不作恶”的最后一道保护伞就是 RLHF (Reinforcement Learning from Human Feedback)，而它的核心就是强化学习。

5.2.1 核心目标

预训练模型学到的是“下一个词是什么”，但 RLHF 让模型学会“下一个词应该是什么”，使其输出更符合人类的偏好、价值观和安全准则。

5.2.2 关键算法演进

5.2.2.1 PG (Policy Gradient, 策略梯度算法)

这是最朴素的强化学习算法。它的核心逻辑是：

做对了（得到高奖励 $R$ ），就增加该动作的概率。
做错了（得到低奖励），就减小该动作的概率。

数学形式：
$\theta \leftarrow \theta + \eta \nabla \bar{R}_\theta, \quad \nabla \bar{R}_\theta = \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} R(\tau^n) \nabla \log p_\theta(a_t^n | s_t^n)$

$R(\tau^n)$ ：轨迹 $\tau^n$ 的总奖励。
$p_\theta(a_t^n | s_t^n)$ ：在状态 $s_t^n$ 下采取动作 $a_t^n$ 的概率。

问题：步子太大容易“扯着蛋”。参数更新的方差极大，训练极不稳定，容易导致模型崩溃。

5.2.2.2 PPO (Proximal Policy Optimization, 近端策略优化)

这是 OpenAI 提出的“核武器”，也是目前 RLHF 的标配算法。它在 PG 的基础上加了一个关键的“限制条件”：不准模型一次性改变太多。

核心改进：

引入了一个裁剪的目标函数，限制新旧策略的差异在一个小范围内（如 0.8 到 1.2）。
这保证了训练的稳定性，让模型在安全的范围内缓慢且持续地向着人类偏好的方向进化。

5.2.3 RLHF 的完整流程

SFT (监督微调)：用高质量的人类对话数据微调预训练模型，让它学会基本的对话格式和知识。
RM (奖励模型训练)：用人类标注的偏好数据（如“回答A比回答B更好”）训练一个奖励模型，让它能给模型输出打分。
PPO 优化：用奖励模型的分数作为奖励信号，通过 PPO 算法对 SFT 模型进行强化学习微调，最终得到对齐后的模型。

5.3 总结

LoRA 是“平民化大模型”的关键，它让每一个开发者都能在有限的硬件上进行高效微调。
RLHF (PPO) 是“对齐人类价值观”的核心，它让冰冷的统计模型变成了有温度、有安全边界的 AI 助手。

这两大技术，与 DeepSeek 的底层架构黑科技一起，共同构成了现代大模型从训练到部署的完整工程闭环。

6 总结

6.1 核心脉络回顾

大模型的本质：大语言模型的核心是自回归 Next Token Prediction，通过不断预测下一个词来生成完整文本。在 Transformer 的三大分支中，Decoder-Only 架构凭借其天然的生成优势和对缩放定律（Scaling Law）的完美契合，最终一统江湖。
训练三部曲：一个成熟的大模型要经历预训练（Pre-training）、**监督微调（SFT）和人类反馈强化学习（RLHF）**三个阶段，从“学会语言”进化到“听懂指令”，最终对齐人类价值观。
架构革命：从 GPT 到 DeepSeek：为应对参数量爆炸带来的算力诅咒，DeepSeek 对原生 Transformer 进行了两大核心改造：
- MoE（混合专家模型）：将庞大的 FFN 拆分为共享专家与路由专家，通过稀疏激活，在参数量翻倍的同时将单 Token 计算量降低 79%，实现了“大力出奇迹”与“好钢用在刀刃上”的平衡。
- MLA（多头潜在注意力）：通过低维潜在空间压缩 KV Cache，从根本上解决了长文本推理时的显存瓶颈，是继 MQA/GQA 之后的终极优化方案。
四大底层黑科技：除了 MoE 和 MLA，DeepSeek 还集成了 RoPE（旋转位置编码）、SwiGLU 激活函数和 RMSNorm 归一化，在位置建模、特征表达和训练效率上实现了全面升级。
高效训练与对齐：LoRA（低秩微调）让普通开发者也能在消费级硬件上高效定制大模型；而 RLHF（PPO）则通过强化学习，让模型从冰冷的统计机器进化为符合人类偏好的智能助手。

6.2 核心洞察

大模型的发展，本质上是一场算力、显存与模型性能之间的权衡艺术。从 GPT 的“大力出奇迹”，到 DeepSeek 的“稀疏激活+潜在压缩”，技术的演进始终围绕着如何用更少的资源，实现更强的能力。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

多款方案全面适配开源鸿蒙OpenHarmony 6.1，将纳入官方LTS 长期支持版本

AtomGit开源社区

FreeModbus移植与使用

FreeModbus简介：FreeModbus是一款开源的Modbus协议栈，采用C语言编写，轻量级且跨平台，广泛用于嵌入式系统中实现Modbus通信。它支持RTU、ASCII和TCP模式，具有高可移植性，可运行于裸机或RTOS环境，适用于STM32、ARM、AVR等多种微控制器。使用场景：工业自动化中连接PLC与传感器；能源管理中用于智能电表数据采集；楼宇自控系统中实现设备通信；物联网终端中作为

AtomGit开源社区

【汽车芯片功能安全分析与故障注入实践 11】故障输出分类：从 Raw Campaign Results 到 Detected、Safe、Unsafe 与Unresolved

Fault outcome classification 是把 raw campaign execution data 转换成功能安全证据的步骤。核心结论是：Classification 必须保守、可追溯、由 policy 驱动。

AtomGit开源社区

所有评论(0)

查看更多评论

ppppppatrick

@weixin_62712120

已为社区贡献3条内容

【深度学习基础篇12】从 GPT 到 DeepSeek：大模型的架构革命与工程美学

ppppppatrick

文章目录

1 大语言模型

1.1 什么是大模型？

1.2 模型架构的统一：Only Decoder

1.2.1 什么是自回归

1.2.2 什么是缩放定律

1.2.3 BERT、BART 和 GPT 到底是什么？（Transformer 家族的三条科技树）

1.2.3.1 ① BERT：偏科的“阅读理解课代表”（Only-Encoder）

1.2.3.2 ② GPT：偏科的“故事大王”（Only-Decoder）

1.2.3.3 ③ BART (或 T5)：想要全能的“翻译官”（Encoder-Decoder）

1.2.3.4 总结:

1.3 大模型炼丹三部曲

1.4 从 GPT 到 DeepSeek：架构演进与突围

2 前置补充知识

2.1 什么是参数

2.2 什么是激活

2.3 什么是前馈神经网络 / Feed Forward (FFN)？

2.4 什么是专家 (Experts)？

3 混合专家模型(以deepseek为例)

3.1 为什么要用 MoE？传统的 FFN 有什么问题？

3.1.1 核心痛点：稠密激活的算力诅咒

3.2 MoE 的定义与原理

3.2.1 直观类比：医院分诊系统

3.2.2 专家的工作模式分为三种：

3.3 MoE 的负载均衡法则

3.3.1 什么是 Router 崩塌？

3.3.2 解决方案：负载均衡损失函数（Load Balancing Loss）

4 四大底层黑科技：

4.1 RoPE (旋转位置编码)

4.1.1 核心原理

4.2 MLA (多头潜在注意力机制)

4.2.1 KV Cache 的演进

4.2.2 核心思想

4.3 SwiGLU 激活函数

4.3.1 数学形式

4.4 RMSNorm (均方根归一化)

4.4.1 核心改进

4.5 总结

5 高效训练与强化学习

5.1 LoRA (低秩微调)

5.1.1 核心痛点

5.1.2 核心思想

5.1.3 优势

5.2 RLHF 与强化学习启蒙

5.2.1 核心目标

5.2.2 关键算法演进

5.2.2.1 PG (Policy Gradient, 策略梯度算法)

5.2.2.2 PPO (Proximal Policy Optimization, 近端策略优化)

5.2.3 RLHF 的完整流程

5.3 总结

6 总结

6.1 核心脉络回顾

6.2 核心洞察

所有评论(0)

温馨提示：您尚未绑定手机号

ppppppatrick