论文信息:A Comprehensive Survey on Large Language Models (arXiv, 截至 2025)
核心线索:以 Transformer 架构为基石,沿着 “基座模型训练 → 能力激发 → 自主智能体” 的技术栈,系统梳理了超过 500 篇文献。本文侧重前半部分。

大型语言模型综合综述

1. 全局架构:组织逻辑

作者按如下技术栈递进:

  • Part I (Ch1-3):历史与基础(Transformer、分词)
  • Part II (Ch4-6):模型架构演化(Encoder-Decoder之争、SSM 挑战者、MoE 扩容)
  • Part III (Ch7-10):预训练之道(目标、数据、缩放定律、已训基石模型)
  • Part IV (Ch11-12):微调与对齐(LoRA 等 PEFT 方法、RLHF/DPO 等对齐技术)
  • 后续章节:推理、知识、工程、智能体、多模态、评估、安全、应用。

2. 模型架构的演进:从 Transformer 到 MoE

2.1 三大范式分出胜负
范式 代表模型 核心优势 致命局限
Encoder-Only BERT 深度双向理解,适合文本分类 无法做流畅的文本生成
Encoder-Decoder T5, BART 理论上全能,统一框架 双塔结构复杂,训练推理成本高
Decoder-Only GPT, LLaMA 极度通用,上下文学习,完美生成 早期被认为单向性影响理解(后被证伪)

结论:Decoder-only 的下一词预测(CLM) 范式以极简的架构统一了绝大多数能力,成为 LLM 事实标准。

2.2 Decoder-only 内部组件精进

一个现代的 Decoder-only Transformer Block 的“标准形态”为:
x → RMSNorm → Masked GQA (with RoPE) → + → RMSNorm → SwiGLU → +

  • 注意力机制:从 MHA 演进到 GQA(分组共享 KV 头),推理缓存大减;FlashAttention 通过 IO 感知算法大幅提升长序列速度。
  • 位置编码RoPE(旋转位置编码)凭借优秀的相对位置建模和长度外推能力成为绝对王者。
  • 前馈网络SwiGLU 门控机制取代了 ReLU,提升了表达力。
  • 归一化RMSNorm + Pre-LN 组合,计算更快、训练更稳。
2.3 挑战者:状态空间模型 (SSM)
  • 动机:对抗 Transformer 自注意力的 (O(N^2)) 计算复杂度死穴。
  • 核心思想:像 RNN 一样,通过维护一个固定大小的隐藏状态来线性地更新上下文历史。
  • 关键突破 Mamba:引入内容感知的选择性机制(将状态矩阵 B/C 变为输入的函数),让模型学会“动态忽略”不重要的信息,首次在语言建模上匹敌 Transformer。
  • 出路:纯 SSM 在某些回忆任务上不如注意力,因此 Jamba 等混合架构(部分 Mamba 层 + 部分注意力层)成为更务实的未来。
2.4 模型容量飞跃:混合专家 (MoE)
  • 动机:打破“总参数量 = 激活计算量”的铁律,实现稀疏激活
  • 核心机制:包含多个并行 FFN“专家”,由动态路由器 (Gating) 为每个 Token 选择 Top-K 个专家进行计算。
  • 演进与落地
    • Switch Transformer:实现万亿参数标杆。
    • Mixtral 8x7B:以 13B 激活推理的成本达到了超越 70B 模型的效果,引爆社区。
    • DeepSeekMoE:采用细粒度专家+共享专家,极致专精。
  • 局限:总显存占用极大、微调魔鬼、分布式通信开销高。

3. 预训练之“道”:目标、数据与心法

3.1 预训练目标:合久必分,分久必合
  • 最终答案:回归最朴素的 因果语言建模(CLM)。在大规模训练下,单项的“下一词预测”蕴含了逻辑、常识与推理的全部火花。
  • 现代补充:引入多 Token 预测,强迫模型一次预测未来的 N 个词,提升样本效率并加速推理。
3.2 预训练数据:炼金术士的配方
  • 来源:以 Common Crawl 为基石,辅以代码(GitHub)、书籍、论文、维基百科。
  • 工程关键三步① 基于规则的初筛 去除垃圾;② 精确+模糊去重 避免记忆;③ 科学配比(DoReMi) 用算法寻找最优的领域数据混合比例。
  • 核心洞见代码数据对提升逻辑推理至关重要;合成数据是一把双刃剑,用不好会导致模型崩溃。
3.3 缩放定律:科学花钱的艺术
  • Chinchilla 定律:推翻了“模型为王”的旧思想。在固定算力下,模型参数和数据量必须等比例扩大(约每1个参数配20个Token)
  • 数据受限:高质量的文本数据即将被耗尽,重复多遍数据的收益会指数级衰减。
  • 推理时缩放 (OpenAI o1):开辟了在推理时“多思考”替代“训更大” 的新范式,打破了模型测试定型不可改的观念。

4. 基础模型生态位:三足鼎立

阵营 主要玩家 战略定位
闭源巨兽 OpenAI(GPT), Google(Gemini), Anthropic(Claude) 绝对能力上限、原生多模态、企业级安全保障
开源先锋 Meta(LLaMA), Mistral, 阿里(Qwen) 权重的民主化、无限的可定制性、垂直领域的生态构建
东方新势力 DeepSeek (V3, R1) 极致算效比,打破烧钱信仰,用极低成本逼近甚至反超闭源前沿

5. 微调实战:从“暴力修改”到“微创手术” (LoRA)

5.1 为什么需要参数高效微调 (PEFT)?
  • 显存黑洞:全量微调百亿模型需要 TB 级显存。
  • 灾难性遗忘:覆盖式更新会破坏通用知识。
  • 部署成本:无法为每个用户保存一个全量模型副本。
5.2 LoRA (低秩适应) 深度剖析
  • 核心直觉:模型对新任务的适应,本质上可以在一个极低秩的子空间中完成。你不需要扳动万亿旋钮,只需推一把“船舵”。
  • 数学实现:冻结原权重 (W_0),学习降维矩阵 A 和升维矩阵 B,使更新量 (\Delta W = BA)。秩 (r) 常设极小(2~8),参数量缩减上万倍。
  • 压倒性优势
    1. 零推理延迟:训练后可直接将 (BA) 融入原模型,无需任何额外网络层。
    2. 即插即用:不破坏原模型,可制作各种任务“外挂插件”。
  • 最佳实践放在自注意力层的 Q 和 V 投影矩阵上,能最高效地改变模型的“关注点”和“表达风格”,而不会去改动底层事实性知识。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐