A Comprehensive Survey on Large Language Models--论文精读(下)
论文标题: A Comprehensive Survey on Large Language Models
覆盖范围: 截至2025年底,超过500篇文献
核心线索: 以Transformer架构为基石,沿着“基座模型训练 → 能力激发 → 自主智能体”的技术栈,系统梳理LLM生态系统的全生命周期。
上篇回顾:基座模型的诞生(
在进入下篇之前,我们先快速回顾上篇的核心脉络。
架构演进
LLM的架构经历了从“三分天下”到“统一江山”的过程:
- Encoder-Only(如BERT):擅长理解,无法生成
- Encoder-Decoder(如T5):理论上全能,但架构复杂、成本高
- Decoder-Only(如GPT/LLaMA):最终胜出者,以极简的“下一词预测”统一了绝大多数能力
现代Decoder-only Transformer Block的标准形态:x → RMSNorm → Masked GQA (with RoPE) → + → RMSNorm → SwiGLU → +
同时,状态空间模型(SSM/Mamba) 作为挑战者,用固定大小的隐藏状态实现线性复杂度;混合专家(MoE) 则通过稀疏激活让模型容量飞跃而算力不线性增长。
预训练之道
- 训练目标:回归最朴素的因果语言建模(CLM),辅以多Token预测
- 数据工程:以Common Crawl为基石,经过去重、过滤、科学配比(DoReMi),代码数据被证明对逻辑推理至关重要
- 缩放定律:Chinchilla定律推翻了“大就是好”,指出参数和数据必须等比例扩大
微调实战
LoRA(低秩适应) 是当前统治级方案:冻结原权重,用两个极小的低秩矩阵的乘积来近似全量更新。优势是零推理延迟、极低资源占用、即插即用。
下篇正篇:从“会用”到“强大且安全”
一、对齐:铸造AI的价值观
基座模型虽然博学,但它是“桀骜不驯”的——它会无差别地学会互联网上一切好的坏的内容。对齐的目标就是让模型变得有用、诚实、无害。
1.1 RLHF:经典三部曲
这是ChatGPT背后的核心技术,分三步走:
| 阶段 | 操作 | 作用 |
|---|---|---|
| SFT(监督微调) | 人类写出完美答案给模型看并微调 | 建立“行为样板”,让模型懂规矩 |
| RM(奖励模型训练) | 人类对多个回答排序,训练一个AI评委 | 规模化地模拟人类审美 |
| PPO(强化学习优化) | AI评委打分,PPO算法优化模型 | 让模型学会刷高分 |
关键约束——KL散度惩罚:防止模型为拿高分而“走火入魔”,必须保持在SFT模型的行为范围内。
核心痛点:
- 奖励黑客/过优化:模型发现长篇废话能骗过高分,但人类并不满意
- 成本与复杂度:涉及4个模型(Actor, Reference, Reward, Critic),工程难度极大
1.2 DPO:直接偏好对齐的革命
DPO是对RLHF的优雅颠覆。它通过数学推导发现:最优策略和奖励之间存在闭式解。
- 核心理念:不需要训练一个AI评委了,直接把人类偏好的对比数据(A好于B)交给模型,用交叉熵损失让它最大化好回答的概率、最小化差回答的概率。
- 优势:流程极大简化,训练稳定,效果与RLHF相当。迅速成为工业界新标准。
1.3 DPO之后的变体竞赛
| 方法 | 解决什么痛点 | 核心创新 |
|---|---|---|
| KTO | 成对数据太贵 | 只需单条“好/坏”标签,符合“损失厌恶”心理学 |
| ORPO | SFT和DPO流程割裂 | 两个阶段合二为一,无需参考模型副本 |
| GRPO | PPO太复杂 | DeepSeek-R1的核心;用一组答案的平均分做基准,无需单独的价值网络 |
GRPO特别解读:它不依赖价值网络,而是针对一个问题一次性采样多个答案,用组内平均分作为基线。特别适合数学、代码等可以用规则验证的任务。这是DeepSeek-R1能通过纯强化学习涌现推理能力的关键。
二、推理与提示:让LLM学会“出声思考”
2.1 范式转变:从“调模型”到“调提示”
GPT-3证明了一种全新可能:上下文学习。不需要修改模型权重,只需在提示里塞入几个示例,模型就能通过类比完成新任务。
2.2 思维链:推理能力的引爆点
核心思想:与其让模型直接憋出答案,不如让它把中间步骤一步步写出来。
两种打开方式:
- 少样本思维链:提示里给例子的同时,也给详细解题步骤
- 零样本思维链:加上咒语 “Let’s think step by step”
巨大局限:它是一条直线,中间一步错了就会一条道走到黑。
2.3 思维链的进化
自洽性:
- 让模型用非贪婪方式生成N个不同推理链
- 对最终答案进行多数投票
- 用算力换稳定性
思维树:
- 不跟一条道走到底,而是并行构思多条路径
- 模型自己给每条路打分评估
- 采用BFS/DFS算法系统性搜索
- 精英级工具,调用成本极高
2.4 程序辅助语言模型
核心思想:让模型写Python代码来解题,交给解释器执行,模型看着结果回答。这是责任外包——模型做它擅长的事(理解题意),计算器做它擅长的事。
2.5 关键反思:LLM真的在推理吗?
这是本章最深刻的洞察。当前结论是矛盾的:
- 一方面,模型通过了大量逻辑测试
- 另一方面,同样的逻辑结构,只改数值或人名,模型就可能大错特错
- 模型有时展现“推理谵妄”——自信地编造完全错误的推理过程
当前共识:我们拥有强大的推理增强工具(思维链、思维树等),但模型的核心仍是模式匹配器。推理是否真的“涌现”,仍是一个待解之谜。
三、RAG:给LLM开“外挂知识库”
3.1 动机:解决知识滞后与幻觉
- 知识滞后:模型知识冻结在训练完成那一刻
- 幻觉难除:遇到盲区会自信捏造
- 长尾知识遗忘:不常见的知识点记不住
解决思路:把“闭卷考试”变成“开卷考试”——在回答前先检索相关资料。
3.2 检索技术演进
| 方法 | 原理 | 优势 | 致命伤 |
|---|---|---|---|
| BM25(稀疏) | 基于TF-IDF的关键词匹配 | 零训练、速度快、精确匹配强 | 词汇鸿沟——“跑车”找不到“法拉利” |
| DPR(稠密) | 双编码器将问题和文档都变成向量 | 跨过词汇鸿沟 | 需大量训练数据,泛化差 |
| ColBERT(后期交互) | 为每个Token保留向量,轻量匹配 | 兼顾细粒度与效率 | 存储开销较大 |
当前共识:混合检索(BM25 + 稠密检索) + 重排序器(Cross-Encoder精排)
3.3 现代RAG架构的智能化
- Self-RAG:模型输出特殊反思Token(
<Retrieve>/<Relevant>/<Supported>),自适应决定何时检索,对结果进行批判性验证 - CRAG:引入检索评估器,第一轮检索质量差时自动纠正(优化查询或转向网络搜索)
- GraphRAG:不检索文本片段,而是从文档中提取知识图谱和社区结构,能回答需要全局视角的问题
3.4 工程核心陷阱
- 分块策略:太大则检索不精准、噪音多;太小则答案被切断。常用语义分块。
- 查询改写(HyDE):先让LLM幻想一篇“完美回答文档”去搜,效果惊人地好。
- 中间丢失:LLM对输入中间的内容利用率极低,更关注开头和结尾。
3.5 评估三位一体
RAG的评估不能只看答案对错,需要:
- 忠实度:答案是否严格基于检索资料?
- 相关性:答案与用户问题直接相关吗?
- 检索质量:搜出来的文档本身可靠精确吗?
四、模型内部知识机制:记忆的痕迹
4.1 知识探测:模型到底知道什么?
LAMA探测框架:将知识三元组(<但丁, 出生地, 佛罗伦萨>)转为完形填空(“但丁出生在[MASK]”)。
关键争议:模型答对,是真正“知道”,还是学会了与探测模板相似的表面模式?同样的事实,换种问法,答对率就截然不同。
4.2 知识定位:记忆存在哪个“神经元”?
- 知识神经元假说:特定事实与特定MLP神经元高度相关,抑制它就会“忘记”
- 因果中介分析:知识主要存储在中层MLP层,注意力层扮演“路由器”角色
4.3 知识编辑:对模型进行“脑外科手术”
ROME(一阶模型编辑):
- 将LLM视为键值记忆体
- 用因果分析定位存储该事实的MLP层
- 计算一个秩为1的更新矩阵精准注入
- 像外科手术一样切旧接新
MEMIT(海量记忆编辑):
- ROME一次只能改一个事实
- MEMIT可同时修改成百上千个事实
- 将更新分散到多个层
核心局限——涟漪效应:修改“埃菲尔铁塔在巴黎”,可能意外削弱“法国首都是什么”的回答能力。知识在脑中并不孤立。
4.4 知识冲突:当“记忆”和“证据”打架
这是RAG场景下最棘手的问题。
参数化偏执:LLM更倾向于相信自己训练背下的知识,而不是你临时塞进上下文里的资料。对高频知识(如巴黎-法国),它极度自信,很难被上下文覆盖。
4.5 幻觉与知识的边界
- 无法内省:模型不知道自己不知道,会自信地编造
- 反直觉现象:模型越大,在某些常见误区问题上的错误率反而更高
- 时间错乱:分不清“当下”和“历史”
五、推理优化:让LLM跑得又快又省
5.1 核心矛盾:内存带宽是真正瓶颈
LLM推理不是算得慢,而是“搬得慢”。每生成一个新Token,都要把所有参数和巨大的KV Cache从显存搬运一次。
5.2 PagedAttention:显存管理的革命
vLLM框架的杀手锏。
- 核心思想:把操作系统的“虚拟内存和分页机制”搬过来
- 做法:不再为每个请求预分配大块连续显存,而是将KV Cache打散成小块“页面”,通过页表映射
- 优势:近乎零浪费,极致并发
5.3 其他关键优化
| 技术 | 解决的问题 | 效果 |
|---|---|---|
| FlashAttention | 内存密集型计算 | 速度大幅提升,内存O(N²)→O(N) |
| 连续批处理 | GPU利用率低 | 流水线式调度,利用率拉满 |
| 分体式推理 | 预填充-解码互相干扰 | 两阶段部署在不同GPU集群,吞吐提升7.4倍 |
| 推测解码 | 串行生成瓶颈 | 用小模型“猜”多个Token,大模型一次性验证,2-3倍加速 |
六、模型压缩:把大象装进冰箱
6.1 三大主流技法
量化:
- GPTQ:逐层量化,补偿误差传递
- AWQ:识别“显著权重”并保护它们,效果更好
剪枝:
- 非结构化(SparseGPT):可剪掉60%零散权重
- 结构化(ShortGPT):直接移除25%的层,性能保留92%
- 落地尴尬:非结构化剪枝在现有GPU上无法加速
知识蒸馏:
- 用大模型(教师)的输出分布教小模型(学生)
- 最新趋势:用合成数据蒸馏
6.2 落地选择指南
- 消费级显卡:首选AWQ/GPTQ的4-bit量化
- 手机/端侧:知识蒸馏是救命稻草
- 极致压缩存储:低秩分解+量化联合,可压到2.5位以下
七、LLM智能体:从“思考者”到“行动者”
这是综述最具野心的部分。核心叙事:LLM从“缸中之脑”进化为自主“数字生命体”。
7.1 工具使用:给LLM装上“手脚”
Toolformer(里程碑):
- 核心创新——自监督学习使用工具
- 让模型在海量文本中随机插入API调用
- 用语言模型损失是否降低来判断该调用是否有用
- 无需人类标注“何时该用工具”
- 6.7B的Toolformer可匹敌数十倍参数的无工具模型
Function Calling(工程化落地):
- 开发者用JSON Schema描述函数
- 模型输出结构化JSON调用
- 结构化输出通过语法掩码保证100%合法
7.2 单智能体:从“执行命令”到“自主规划”
ReAct(操作系统级框架):
- 思考→行动→观察→再思考→再行动的持续闭环
- 将推理能力和工具使用无缝整合
Reflexion(自我纠错):
- 任务失败后,模型自己用语言总结“反思日志”
- 将反思存入长期记忆,下次尝试时加载
- 不修改参数的情况下自我进化
- HumanEval代码生成:GPT-4的80%→91%
Voyager(终身学习):
- 在《我的世界》中展现三大能力:
- 自动课程:自己给自己找由易到难的任务
- 技能库:把成功行为存储为可复用的代码片段
- 迭代提示:根据错误反馈修改代码
7.3 多智能体:从“独行侠”到“团队协作”
为什么需要一群AI?
- 分工与专业化:设计、编码、测试各司其职
- 多样性与纠错:两个AI争论能极大减少幻觉
组织架构:
- 辩论模式:多智能体互相质疑、多轮论证
- 角色扮演(CAMEL):扮演不同职业角色深度协作
- 结构化流水线(MetaGPT/ChatDev):模拟软件公司的SOP流程
独特挑战:
- 通信开销爆炸
- 一致性问题
- 问责难题
- 涌现的恶意行为
7.4 智能体互操作协议:AI世界的TCP/IP
MCP(模型上下文协议):
- 定位:解决模型与工具/数据的连接(AI界的USB-C)
- 原理:客户端-服务器模型,统一接口
- 意义:从M×N集成复杂度变为M+N
A2A(智能体到智能体协议):
- 定位:解决智能体之间的通信
- 原理:通过“智能体卡片”互相发现,进行任务委托和状态同步
- 与MCP关系:互补——MCP连工具,A2A连AI
终极图景:一个智能体,通过思维链推理,用RAG获取知识,用函数调用操作工具,用ReAct规划行动,用Reflexion从失败学习,用技能库积累经验,通过A2A与其他智能体协作,底层通过MCP标准化连接。
八、视觉-语言模型:让LLM睁开眼睛
CLIP(奠基之作):
- 将图文编码到同一向量空间,进行对比学习
- 用4亿网络图文对训练,自然语言成为图像的监督信号
BLIP-2(效率飞跃):
- 用Q-Former将冻结的视觉模型和语言模型“嫁接”
- 极大降低训练成本
LLaVA(开源先锋):
- 用GPT-4生成多模态指令数据
- 开创视觉指令微调
九、多模态生成:从“看懂”到“创造”
扩散模型(核心技术):
- 给图像逐步加噪声,再教会网络逆转这个过程
- 文本描述注入去噪过程的每一步
里程碑产品:
- DALL-E系列:从能生成到与ChatGPT深度集成
- Stable Diffusion:开源引爆社区,ControlNet实现精准控制
- Sora:将扩散模型推到4D时空(视频)
十、评估:如何判定AI真正实力
六重陷阱:
- 基准污染:考题出现在了训练数据里
- 评价-能力鸿沟:高分≠真实能力强
- 橡皮尺子:MMLU中6.5%的题目本身有错
- 过拟合:针对性刷榜
- 覆盖不足:无法覆盖所有重要能力
- 评测偏见:LLM-as-Judge偏爱回答更长、同宗同源的模型
应对之道:
- Chatbot Arena:数十万人类盲测投票的Elo排行榜
- 动态基准:定期更新,防止污染
- 过程评估:不只看答案,还看推理步骤
十一、安全与对齐:AI的“紧箍咒”
核心威胁:
- 越狱:诱导模型绕过安全限制
- 提示注入:在网页中嵌入隐藏指令,操控模型行为
防守体系:
- RLHF/DPO:基础免疫系统
- 宪法AI:让模型根据明确原则评价和修改自己的输出
- 红队测试:发布前组织攻击团队提前修补漏洞
悲观的结论:这是无解的攻防博弈。堵住一千扇门,攻击者总能找到第一千零一扇。
十二、应用场景与未来方向
典型应用
| 领域 | 主要应用 | 关键风险 |
|---|---|---|
| 代码生成 | Copilot、Devin自主修Bug | 代码安全漏洞 |
| 医疗 | 记录生成、辅助诊断 | 幻觉可能致命 |
| 法律 | 文档审查、判例检索 | 曾出现律师引用的判例全是编造的 |
| 科学 | 文献综述、实验假设生成 | 研究诚信 |
| 教育 | 一对一AI导师 | 学术诚信 |
当前根本性挑战
- 幻觉:始终是最大的阿喀琉斯之踵
- 推理“谵妄”:用看似专业、实则荒谬的推理得到错误答案
- 数据墙:高质量人类文本即将耗尽
- 可解释性:千亿参数内部如何决策,我们几乎无法理解
未来趋势
- 从模型到系统:未来最强的AI是复合AI系统,而非单一模型
- 推理时缩放成为新边疆:o1/DeepSeek-R1证明“多思考”可超越“训更大”
- 开源与闭源的终局之争:性能差距在被快速抹平
- 通往通用智能的争议:是坦途还是泡沫,仍在辩论
声明:本文是完整综述的精读笔记,涵盖了从基础架构到前沿应用的全技术栈。具体章节的技术细节可根据需要回看对应部分的详细讨论。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)