模型背后：LLM内部机制

冬至喵喵

400人浏览 · 2026-04-25 12:52:06

冬至喵喵 · 2026-04-25 12:52:06 发布

一、整体架构：Transformer

现代大模型几乎都基于 Transformer 架构（2017 年由 Google 提出）。其核心思想是用"注意力机制"来处理序列数据，而不是像 RNN 那样逐步递推。

二、核心机制详解

2.1 Token 化（Tokenization）

输入文本首先被切分成 token（词片段），例如 "unhappiness" 可能被切成 ["un", "happi", "ness"]。模型处理的是 token 序列，而非原始字符。

2.2 词嵌入（Embedding）

每个 token 被映射为一个高维向量（如 4096 维），这个向量捕捉了词的语义信息。位置编码（Positional Encoding） 会叠加在上面，让模型知道每个 token 在序列中的位置。

2.3 自注意力机制（Self-Attention）

这是 Transformer 的核心。对于序列中的每个 token，模型会计算它与其他所有 token 的"相关性权重"，然后加权聚合信息。

每个 token 会生成三个向量：

Q（Query）：我在找什么？
K（Key）：我能提供什么？
V（Value）：我实际携带的信息

注意力分数的计算公式为：

Attention(Q, K, V) = softmax(QKᵀ / √d) · V

这让模型能够捕捉长距离依赖，比如理解代词指代关系。

2.4 多头注意力（Multi-Head Attention）

并行运行多个注意力头（如 32 个），每个头关注不同类型的语义关系（句法、语义、指代等），最后拼接结果。

2.5 前馈网络（FFN）

每个注意力层之后接一个两层全连接网络，负责对信息进行非线性变换和"记忆存储"。研究表明 FFN 层存储了大量事实性知识。

2.6 层叠结构（Stacking Layers）

上述结构重复堆叠（GPT-4 估计有 120+ 层），浅层捕捉语法，深层捕捉语义和推理。

2.7 自回归生成（Autoregressive Generation）

推理时，模型每次只预测下一个 token，然后将其加入输入，再预测下一个，循环往复。这就是为什么生成是逐字出现的。

三、堆叠的 Transformer 块

3.1 单个 Transformer 块的结构

每个 Transformer 块（也叫 Layer）包含两个子模块：

输入 x
  ↓
[Multi-Head Self-Attention] + 残差连接 → LayerNorm
  ↓
[Feed-Forward Network (FFN)] + 残差连接 → LayerNorm
  ↓
输出 x'

残差连接（Residual Connection） 的作用是将输入直接加到输出上：

output = LayerNorm(x + SubLayer(x))

这解决了深层网络的梯度消失问题。

3.2 为什么要"堆叠"？

单个 Transformer 块的表达能力有限，堆叠多层可以让模型逐层抽象：

Token Embeddings
      ↓
  Block 1  ← 捕捉局部语法（词性、短语结构）
      ↓
  Block 2  ← 捕捉句子内部关系
      ↓
  Block 3  ← 捕捉跨句语义
      ↓
   ......
      ↓
  Block N  ← 捕捉高层抽象概念、推理关系
      ↓
最终隐藏状态 h

不同层关注的信息是不同的。研究（如 BERTology）发现：浅层更关注语法，深层更关注语义和世界知识。GPT-3 有 96 层，GPT-4 估计超过 120 层。

四、语言建模头（Language Modeling Head）

4.1 它是什么？

语言建模头（LM Head）是模型最顶层的一个线性变换，负责将最后一个 Transformer 块输出的隐藏向量，转换为词表上的概率分布。

最后一层 Block 的输出
  h ∈ R^(d_model)         ← 比如维度 4096
        ↓
  线性层（无偏置）
  W ∈ R^(vocab_size × d_model)   ← 比如 32000 × 4096
        ↓
  logits ∈ R^(vocab_size)  ← 每个词的原始分数
        ↓
  Softmax
        ↓
  概率分布 P(next token | context)

4.2 权重共享（Weight Tying）

LM Head 的权重矩阵 W 通常与最底层的**词嵌入矩阵（Embedding Matrix）**共享，即它们是同一个矩阵。这样做大幅减少参数量，同时语义上也合理——"把词映射到向量"和"把向量映射回词"本质上是互逆操作。

4.3 推理时的采样策略

得到概率分布后，有多种采样策略：

策略	说明
Greedy	每次取概率最高的 token
Temperature	调整分布的"平坦度"，temperature 越高越随机
Top-k	只从概率最高的 k 个 token 中采样
Top-p (nucleus)	从累积概率达到 p 的最小集合中采样

4.4 完整的前向传播流程

输入文本: "The cat sat on the"
        ↓
  Tokenizer → [The, cat, sat, on, the]
        ↓
  Embedding + Positional Encoding
        ↓
  Block 1 → Block 2 → ... → Block N
        ↓
  取最后一个位置的隐藏向量 h_last
        ↓
  LM Head（线性层 + Softmax）
        ↓
  输出概率: P("mat")=0.32, P("floor")=0.18, ...
        ↓
  采样得到下一个 token → 拼接回输入 → 继续循环

五、训练过程

大模型的训练分三个阶段：

5.1 预训练（Pre-training）

在海量文本上做"下一个 token 预测"，学习语言的统计规律和世界知识。这一步消耗绝大部分算力。

5.2 指令微调（SFT, Supervised Fine-Tuning）

用高质量的"问题—回答"对进行监督学习，让模型学会遵循指令。

5.3 强化学习对齐（RLHF）

通过人类反馈训练奖励模型，再用 PPO 等算法优化，让输出更符合人类偏好（有用、无害、诚实）。

六、前向推理的输出质量保障

6.1 训练数据的统计压缩

模型在预训练阶段看过海量的人类书写文本，本质上是在学习"什么样的词序列在人类语言中是合理的"。通顺性主要来自这里——训练数据中几乎不存在语法混乱的句子，所以模型学到的分布天然倾向于生成流畅的文本。

6.2 注意力机制维持上下文一致性

每次预测下一个 token 时，模型通过注意力机制"看到"整个已生成的上下文，并计算当前位置与所有历史 token 的关联权重，保证了局部连贯性。

已生成: "今天天气很好，我决定去公园__"
                              ↑
注意力会强烈关注"公园"、"天气好"、"决定"
→ 下一个词大概率是"散步"、"跑步"、"玩"
而不是"手术"、"编程"

6.3 RLHF 对"好输出"的强化

预训练只保证流畅，不保证有用或正确。RLHF 在此基础上做了关键的校正：人类标注员对模型的多个输出进行排序，训练出一个奖励模型，然后用强化学习让语言模型朝着"人类认为好的输出"方向优化。

6.4 Chain-of-Thought 推理

模型并没有内置的逻辑推理模块，但训练数据中包含大量推理过程的文本（数学解题步骤、论文推导、代码注释等），模型学会了模拟推理的形式。

Chain-of-Thought（思维链）技术正是利用了这一点——让模型先生成中间步骤，再给出答案：

不用 CoT: "问题 → 直接答案"         （容易出错）
用   CoT: "问题 → 步骤1 → 步骤2 → 步骤3 → 答案"
                    ↑ 每一步都约束了下一步的预测空间

七、涌现能力（Emergent Abilities）

当模型规模超过某个阈值，会突然涌现出小模型完全不具备的能力，比如逻辑推理、代码生成、少样本学习（In-context Learning）。这背后的机制目前仍是研究热点。

八、局限性的根源

理解了机制，也就理解了局限：

局限性	根本原因
幻觉（Hallucination）	模型本质上是概率预测，没有"知道自己不知道"的内在机制
知识截止	知识来自训练数据，无法实时更新
上下文窗口限制	注意力计算复杂度是 O(n²)，处理超长文本代价极高
无持久记忆	每次对话独立，没有跨会话的记忆（除非外挂存储）
精确计算弱	模型是在"预测看起来像正确答案的 token"，而非真正执行算法