A Comprehensive Survey on Large Language Models--论文精度(上)

2301_78002904

327人浏览 · 2026-05-13 18:07:06

2301_78002904 · 2026-05-13 18:07:06 发布

论文信息：A Comprehensive Survey on Large Language Models (arXiv, 截至 2025)
核心线索：以 Transformer 架构为基石，沿着 “基座模型训练 → 能力激发 → 自主智能体” 的技术栈，系统梳理了超过 500 篇文献。本文侧重前半部分。

大型语言模型综合综述

1. 全局架构：组织逻辑

作者按如下技术栈递进：

Part I (Ch1-3)：历史与基础（Transformer、分词）
Part II (Ch4-6)：模型架构演化（Encoder-Decoder之争、SSM 挑战者、MoE 扩容）
Part III (Ch7-10)：预训练之道（目标、数据、缩放定律、已训基石模型）
Part IV (Ch11-12)：微调与对齐（LoRA 等 PEFT 方法、RLHF/DPO 等对齐技术）
后续章节：推理、知识、工程、智能体、多模态、评估、安全、应用。

2. 模型架构的演进：从 Transformer 到 MoE

2.1 三大范式分出胜负

范式	代表模型	核心优势	致命局限
Encoder-Only	BERT	深度双向理解，适合文本分类	无法做流畅的文本生成
Encoder-Decoder	T5, BART	理论上全能，统一框架	双塔结构复杂，训练推理成本高
Decoder-Only	GPT, LLaMA	极度通用，上下文学习，完美生成	早期被认为单向性影响理解（后被证伪）

结论：Decoder-only 的下一词预测（CLM） 范式以极简的架构统一了绝大多数能力，成为 LLM 事实标准。

2.2 Decoder-only 内部组件精进

一个现代的 Decoder-only Transformer Block 的“标准形态”为：
x → RMSNorm → Masked GQA (with RoPE) → + → RMSNorm → SwiGLU → +

注意力机制：从 MHA 演进到 GQA（分组共享 KV 头），推理缓存大减；FlashAttention 通过 IO 感知算法大幅提升长序列速度。
位置编码：RoPE（旋转位置编码）凭借优秀的相对位置建模和长度外推能力成为绝对王者。
前馈网络：SwiGLU 门控机制取代了 ReLU，提升了表达力。
归一化：RMSNorm + Pre-LN 组合，计算更快、训练更稳。

2.3 挑战者：状态空间模型 (SSM)

动机：对抗 Transformer 自注意力的 (O(N^2)) 计算复杂度死穴。
核心思想：像 RNN 一样，通过维护一个固定大小的隐藏状态来线性地更新上下文历史。
关键突破 Mamba：引入内容感知的选择性机制（将状态矩阵 B/C 变为输入的函数），让模型学会“动态忽略”不重要的信息，首次在语言建模上匹敌 Transformer。
出路：纯 SSM 在某些回忆任务上不如注意力，因此 Jamba 等混合架构（部分 Mamba 层 + 部分注意力层）成为更务实的未来。

2.4 模型容量飞跃：混合专家 (MoE)

动机：打破“总参数量 = 激活计算量”的铁律，实现稀疏激活。
核心机制：包含多个并行 FFN“专家”，由动态路由器 (Gating) 为每个 Token 选择 Top-K 个专家进行计算。
演进与落地：
- Switch Transformer：实现万亿参数标杆。
- Mixtral 8x7B：以 13B 激活推理的成本达到了超越 70B 模型的效果，引爆社区。
- DeepSeekMoE：采用细粒度专家+共享专家，极致专精。
局限：总显存占用极大、微调魔鬼、分布式通信开销高。

3. 预训练之“道”：目标、数据与心法

3.1 预训练目标：合久必分，分久必合

最终答案：回归最朴素的 因果语言建模（CLM）。在大规模训练下，单项的“下一词预测”蕴含了逻辑、常识与推理的全部火花。
现代补充：引入多 Token 预测，强迫模型一次预测未来的 N 个词，提升样本效率并加速推理。

3.2 预训练数据：炼金术士的配方

来源：以 Common Crawl 为基石，辅以代码（GitHub）、书籍、论文、维基百科。
工程关键三步：① 基于规则的初筛 去除垃圾；② 精确+模糊去重 避免记忆；③ 科学配比（DoReMi） 用算法寻找最优的领域数据混合比例。
核心洞见：代码数据对提升逻辑推理至关重要；合成数据是一把双刃剑，用不好会导致模型崩溃。

3.3 缩放定律：科学花钱的艺术

Chinchilla 定律：推翻了“模型为王”的旧思想。在固定算力下，模型参数和数据量必须等比例扩大（约每1个参数配20个Token）。
数据受限：高质量的文本数据即将被耗尽，重复多遍数据的收益会指数级衰减。
推理时缩放 (OpenAI o1)：开辟了在推理时“多思考”替代“训更大” 的新范式，打破了模型测试定型不可改的观念。

4. 基础模型生态位：三足鼎立

阵营	主要玩家	战略定位
闭源巨兽	OpenAI(GPT), Google(Gemini), Anthropic(Claude)	绝对能力上限、原生多模态、企业级安全保障
开源先锋	Meta(LLaMA), Mistral, 阿里(Qwen)	权重的民主化、无限的可定制性、垂直领域的生态构建
东方新势力	DeepSeek (V3, R1)	极致算效比，打破烧钱信仰，用极低成本逼近甚至反超闭源前沿

5. 微调实战：从“暴力修改”到“微创手术” (LoRA)

5.1 为什么需要参数高效微调 (PEFT)?

显存黑洞：全量微调百亿模型需要 TB 级显存。
灾难性遗忘：覆盖式更新会破坏通用知识。
部署成本：无法为每个用户保存一个全量模型副本。

5.2 LoRA (低秩适应) 深度剖析

核心直觉：模型对新任务的适应，本质上可以在一个极低秩的子空间中完成。你不需要扳动万亿旋钮，只需推一把“船舵”。
数学实现：冻结原权重 (W_0)，学习降维矩阵 A 和升维矩阵 B，使更新量 (\Delta W = BA)。秩 (r) 常设极小（2~8），参数量缩减上万倍。
压倒性优势：
1. 零推理延迟：训练后可直接将 (BA) 融入原模型，无需任何额外网络层。
2. 即插即用：不破坏原模型，可制作各种任务“外挂插件”。
最佳实践：放在自注意力层的 Q 和 V 投影矩阵上，能最高效地改变模型的“关注点”和“表达风格”，而不会去改动底层事实性知识。