A Comprehensive Survey on Large Language Models--论文精读(下)

2301_78002904

519人浏览 · 2026-05-27 17:11:13

2301_78002904 · 2026-05-27 17:11:13 发布

论文标题: A Comprehensive Survey on Large Language Models
覆盖范围: 截至2025年底，超过500篇文献
核心线索: 以Transformer架构为基石，沿着“基座模型训练 → 能力激发 → 自主智能体”的技术栈，系统梳理LLM生态系统的全生命周期。

上篇回顾：基座模型的诞生（

在进入下篇之前，我们先快速回顾上篇的核心脉络。

架构演进

LLM的架构经历了从“三分天下”到“统一江山”的过程：

Encoder-Only（如BERT）：擅长理解，无法生成
Encoder-Decoder（如T5）：理论上全能，但架构复杂、成本高
Decoder-Only（如GPT/LLaMA）：最终胜出者，以极简的“下一词预测”统一了绝大多数能力

现代Decoder-only Transformer Block的标准形态：
x → RMSNorm → Masked GQA (with RoPE) → + → RMSNorm → SwiGLU → +

同时，状态空间模型（SSM/Mamba） 作为挑战者，用固定大小的隐藏状态实现线性复杂度；混合专家（MoE） 则通过稀疏激活让模型容量飞跃而算力不线性增长。

预训练之道

训练目标：回归最朴素的因果语言建模（CLM），辅以多Token预测
数据工程：以Common Crawl为基石，经过去重、过滤、科学配比（DoReMi），代码数据被证明对逻辑推理至关重要
缩放定律：Chinchilla定律推翻了“大就是好”，指出参数和数据必须等比例扩大

微调实战

LoRA（低秩适应） 是当前统治级方案：冻结原权重，用两个极小的低秩矩阵的乘积来近似全量更新。优势是零推理延迟、极低资源占用、即插即用。

下篇正篇：从“会用”到“强大且安全”

一、对齐：铸造AI的价值观

基座模型虽然博学，但它是“桀骜不驯”的——它会无差别地学会互联网上一切好的坏的内容。对齐的目标就是让模型变得有用、诚实、无害。

1.1 RLHF：经典三部曲

这是ChatGPT背后的核心技术，分三步走：

阶段	操作	作用
SFT（监督微调）	人类写出完美答案给模型看并微调	建立“行为样板”，让模型懂规矩
RM（奖励模型训练）	人类对多个回答排序，训练一个AI评委	规模化地模拟人类审美
PPO（强化学习优化）	AI评委打分，PPO算法优化模型	让模型学会刷高分

关键约束——KL散度惩罚：防止模型为拿高分而“走火入魔”，必须保持在SFT模型的行为范围内。

核心痛点：

奖励黑客/过优化：模型发现长篇废话能骗过高分，但人类并不满意
成本与复杂度：涉及4个模型（Actor, Reference, Reward, Critic），工程难度极大

1.2 DPO：直接偏好对齐的革命

DPO是对RLHF的优雅颠覆。它通过数学推导发现：最优策略和奖励之间存在闭式解。

核心理念：不需要训练一个AI评委了，直接把人类偏好的对比数据（A好于B）交给模型，用交叉熵损失让它最大化好回答的概率、最小化差回答的概率。
优势：流程极大简化，训练稳定，效果与RLHF相当。迅速成为工业界新标准。

1.3 DPO之后的变体竞赛

方法	解决什么痛点	核心创新
KTO	成对数据太贵	只需单条“好/坏”标签，符合“损失厌恶”心理学
ORPO	SFT和DPO流程割裂	两个阶段合二为一，无需参考模型副本
GRPO	PPO太复杂	DeepSeek-R1的核心；用一组答案的平均分做基准，无需单独的价值网络

GRPO特别解读：它不依赖价值网络，而是针对一个问题一次性采样多个答案，用组内平均分作为基线。特别适合数学、代码等可以用规则验证的任务。这是DeepSeek-R1能通过纯强化学习涌现推理能力的关键。

二、推理与提示：让LLM学会“出声思考”

2.1 范式转变：从“调模型”到“调提示”

GPT-3证明了一种全新可能：上下文学习。不需要修改模型权重，只需在提示里塞入几个示例，模型就能通过类比完成新任务。

2.2 思维链：推理能力的引爆点

核心思想：与其让模型直接憋出答案，不如让它把中间步骤一步步写出来。

两种打开方式：

少样本思维链：提示里给例子的同时，也给详细解题步骤
零样本思维链：加上咒语 “Let’s think step by step”

巨大局限：它是一条直线，中间一步错了就会一条道走到黑。

2.3 思维链的进化

自洽性：

让模型用非贪婪方式生成N个不同推理链
对最终答案进行多数投票
用算力换稳定性

思维树：

不跟一条道走到底，而是并行构思多条路径
模型自己给每条路打分评估
采用BFS/DFS算法系统性搜索
精英级工具，调用成本极高

2.4 程序辅助语言模型

核心思想：让模型写Python代码来解题，交给解释器执行，模型看着结果回答。这是责任外包——模型做它擅长的事（理解题意），计算器做它擅长的事。

2.5 关键反思：LLM真的在推理吗？

这是本章最深刻的洞察。当前结论是矛盾的：

一方面，模型通过了大量逻辑测试
另一方面，同样的逻辑结构，只改数值或人名，模型就可能大错特错
模型有时展现“推理谵妄”——自信地编造完全错误的推理过程

当前共识：我们拥有强大的推理增强工具（思维链、思维树等），但模型的核心仍是模式匹配器。推理是否真的“涌现”，仍是一个待解之谜。

三、RAG：给LLM开“外挂知识库”

3.1 动机：解决知识滞后与幻觉

知识滞后：模型知识冻结在训练完成那一刻
幻觉难除：遇到盲区会自信捏造
长尾知识遗忘：不常见的知识点记不住

解决思路：把“闭卷考试”变成“开卷考试”——在回答前先检索相关资料。

3.2 检索技术演进

方法	原理	优势	致命伤
BM25（稀疏）	基于TF-IDF的关键词匹配	零训练、速度快、精确匹配强	词汇鸿沟——“跑车”找不到“法拉利”
DPR（稠密）	双编码器将问题和文档都变成向量	跨过词汇鸿沟	需大量训练数据，泛化差
ColBERT（后期交互）	为每个Token保留向量，轻量匹配	兼顾细粒度与效率	存储开销较大

当前共识：混合检索（BM25 + 稠密检索） + 重排序器（Cross-Encoder精排）

3.3 现代RAG架构的智能化

Self-RAG：模型输出特殊反思Token（<Retrieve>/<Relevant>/<Supported>），自适应决定何时检索，对结果进行批判性验证
CRAG：引入检索评估器，第一轮检索质量差时自动纠正（优化查询或转向网络搜索）
GraphRAG：不检索文本片段，而是从文档中提取知识图谱和社区结构，能回答需要全局视角的问题

3.4 工程核心陷阱

分块策略：太大则检索不精准、噪音多；太小则答案被切断。常用语义分块。
查询改写（HyDE）：先让LLM幻想一篇“完美回答文档”去搜，效果惊人地好。
中间丢失：LLM对输入中间的内容利用率极低，更关注开头和结尾。

3.5 评估三位一体

RAG的评估不能只看答案对错，需要：

忠实度：答案是否严格基于检索资料？
相关性：答案与用户问题直接相关吗？
检索质量：搜出来的文档本身可靠精确吗？

四、模型内部知识机制：记忆的痕迹

4.1 知识探测：模型到底知道什么？

LAMA探测框架：将知识三元组（<但丁, 出生地, 佛罗伦萨>）转为完形填空（“但丁出生在[MASK]”）。

关键争议：模型答对，是真正“知道”，还是学会了与探测模板相似的表面模式？同样的事实，换种问法，答对率就截然不同。

4.2 知识定位：记忆存在哪个“神经元”？

知识神经元假说：特定事实与特定MLP神经元高度相关，抑制它就会“忘记”
因果中介分析：知识主要存储在中层MLP层，注意力层扮演“路由器”角色

4.3 知识编辑：对模型进行“脑外科手术”

ROME（一阶模型编辑）：

将LLM视为键值记忆体
用因果分析定位存储该事实的MLP层
计算一个秩为1的更新矩阵精准注入
像外科手术一样切旧接新

MEMIT（海量记忆编辑）：

ROME一次只能改一个事实
MEMIT可同时修改成百上千个事实
将更新分散到多个层

核心局限——涟漪效应：修改“埃菲尔铁塔在巴黎”，可能意外削弱“法国首都是什么”的回答能力。知识在脑中并不孤立。

4.4 知识冲突：当“记忆”和“证据”打架

这是RAG场景下最棘手的问题。

参数化偏执：LLM更倾向于相信自己训练背下的知识，而不是你临时塞进上下文里的资料。对高频知识（如巴黎-法国），它极度自信，很难被上下文覆盖。

4.5 幻觉与知识的边界

无法内省：模型不知道自己不知道，会自信地编造
反直觉现象：模型越大，在某些常见误区问题上的错误率反而更高
时间错乱：分不清“当下”和“历史”

五、推理优化：让LLM跑得又快又省

5.1 核心矛盾：内存带宽是真正瓶颈

LLM推理不是算得慢，而是“搬得慢”。每生成一个新Token，都要把所有参数和巨大的KV Cache从显存搬运一次。

5.2 PagedAttention：显存管理的革命

vLLM框架的杀手锏。

核心思想：把操作系统的“虚拟内存和分页机制”搬过来
做法：不再为每个请求预分配大块连续显存，而是将KV Cache打散成小块“页面”，通过页表映射
优势：近乎零浪费，极致并发

5.3 其他关键优化

技术	解决的问题	效果
FlashAttention	内存密集型计算	速度大幅提升，内存O(N²)→O(N)
连续批处理	GPU利用率低	流水线式调度，利用率拉满
分体式推理	预填充-解码互相干扰	两阶段部署在不同GPU集群，吞吐提升7.4倍
推测解码	串行生成瓶颈	用小模型“猜”多个Token，大模型一次性验证，2-3倍加速

六、模型压缩：把大象装进冰箱

6.1 三大主流技法

量化：

GPTQ：逐层量化，补偿误差传递
AWQ：识别“显著权重”并保护它们，效果更好

剪枝：

非结构化（SparseGPT）：可剪掉60%零散权重
结构化（ShortGPT）：直接移除25%的层，性能保留92%
落地尴尬：非结构化剪枝在现有GPU上无法加速

知识蒸馏：

用大模型（教师）的输出分布教小模型（学生）
最新趋势：用合成数据蒸馏

6.2 落地选择指南

消费级显卡：首选AWQ/GPTQ的4-bit量化
手机/端侧：知识蒸馏是救命稻草
极致压缩存储：低秩分解+量化联合，可压到2.5位以下

七、LLM智能体：从“思考者”到“行动者”

这是综述最具野心的部分。核心叙事：LLM从“缸中之脑”进化为自主“数字生命体”。

7.1 工具使用：给LLM装上“手脚”

Toolformer（里程碑）：

核心创新——自监督学习使用工具
让模型在海量文本中随机插入API调用
用语言模型损失是否降低来判断该调用是否有用
无需人类标注“何时该用工具”
6.7B的Toolformer可匹敌数十倍参数的无工具模型

Function Calling（工程化落地）：

开发者用JSON Schema描述函数
模型输出结构化JSON调用
结构化输出通过语法掩码保证100%合法

7.2 单智能体：从“执行命令”到“自主规划”

ReAct（操作系统级框架）：

思考→行动→观察→再思考→再行动的持续闭环
将推理能力和工具使用无缝整合

Reflexion（自我纠错）：

任务失败后，模型自己用语言总结“反思日志”
将反思存入长期记忆，下次尝试时加载
不修改参数的情况下自我进化
HumanEval代码生成：GPT-4的80%→91%

Voyager（终身学习）：

在《我的世界》中展现三大能力：
1. 自动课程：自己给自己找由易到难的任务
2. 技能库：把成功行为存储为可复用的代码片段
3. 迭代提示：根据错误反馈修改代码

7.3 多智能体：从“独行侠”到“团队协作”

为什么需要一群AI？

分工与专业化：设计、编码、测试各司其职
多样性与纠错：两个AI争论能极大减少幻觉

组织架构：

辩论模式：多智能体互相质疑、多轮论证
角色扮演（CAMEL）：扮演不同职业角色深度协作
结构化流水线（MetaGPT/ChatDev）：模拟软件公司的SOP流程

独特挑战：

通信开销爆炸
一致性问题
问责难题
涌现的恶意行为

7.4 智能体互操作协议：AI世界的TCP/IP

MCP（模型上下文协议）：

定位：解决模型与工具/数据的连接（AI界的USB-C）
原理：客户端-服务器模型，统一接口
意义：从M×N集成复杂度变为M+N

A2A（智能体到智能体协议）：

定位：解决智能体之间的通信
原理：通过“智能体卡片”互相发现，进行任务委托和状态同步
与MCP关系：互补——MCP连工具，A2A连AI

终极图景：一个智能体，通过思维链推理，用RAG获取知识，用函数调用操作工具，用ReAct规划行动，用Reflexion从失败学习，用技能库积累经验，通过A2A与其他智能体协作，底层通过MCP标准化连接。

八、视觉-语言模型：让LLM睁开眼睛

CLIP（奠基之作）：

将图文编码到同一向量空间，进行对比学习
用4亿网络图文对训练，自然语言成为图像的监督信号

BLIP-2（效率飞跃）：

用Q-Former将冻结的视觉模型和语言模型“嫁接”
极大降低训练成本

LLaVA（开源先锋）：

用GPT-4生成多模态指令数据
开创视觉指令微调

九、多模态生成：从“看懂”到“创造”

扩散模型（核心技术）：

给图像逐步加噪声，再教会网络逆转这个过程
文本描述注入去噪过程的每一步

里程碑产品：

DALL-E系列：从能生成到与ChatGPT深度集成
Stable Diffusion：开源引爆社区，ControlNet实现精准控制
Sora：将扩散模型推到4D时空（视频）

十、评估：如何判定AI真正实力

六重陷阱：

基准污染：考题出现在了训练数据里
评价-能力鸿沟：高分≠真实能力强
橡皮尺子：MMLU中6.5%的题目本身有错
过拟合：针对性刷榜
覆盖不足：无法覆盖所有重要能力
评测偏见：LLM-as-Judge偏爱回答更长、同宗同源的模型

应对之道：

Chatbot Arena：数十万人类盲测投票的Elo排行榜
动态基准：定期更新，防止污染
过程评估：不只看答案，还看推理步骤

十一、安全与对齐：AI的“紧箍咒”

核心威胁：

越狱：诱导模型绕过安全限制
提示注入：在网页中嵌入隐藏指令，操控模型行为

防守体系：

RLHF/DPO：基础免疫系统
宪法AI：让模型根据明确原则评价和修改自己的输出
红队测试：发布前组织攻击团队提前修补漏洞

悲观的结论：这是无解的攻防博弈。堵住一千扇门，攻击者总能找到第一千零一扇。

十二、应用场景与未来方向

典型应用

领域	主要应用	关键风险
代码生成	Copilot、Devin自主修Bug	代码安全漏洞
医疗	记录生成、辅助诊断	幻觉可能致命
法律	文档审查、判例检索	曾出现律师引用的判例全是编造的
科学	文献综述、实验假设生成	研究诚信
教育	一对一AI导师	学术诚信