论文标题: A Comprehensive Survey on Large Language Models
覆盖范围: 截至2025年底,超过500篇文献
核心线索: 以Transformer架构为基石,沿着“基座模型训练 → 能力激发 → 自主智能体”的技术栈,系统梳理LLM生态系统的全生命周期。

上篇回顾:基座模型的诞生(

在进入下篇之前,我们先快速回顾上篇的核心脉络。

架构演进

LLM的架构经历了从“三分天下”到“统一江山”的过程:

  • Encoder-Only(如BERT):擅长理解,无法生成
  • Encoder-Decoder(如T5):理论上全能,但架构复杂、成本高
  • Decoder-Only(如GPT/LLaMA):最终胜出者,以极简的“下一词预测”统一了绝大多数能力

现代Decoder-only Transformer Block的标准形态:
x → RMSNorm → Masked GQA (with RoPE) → + → RMSNorm → SwiGLU → +

同时,状态空间模型(SSM/Mamba) 作为挑战者,用固定大小的隐藏状态实现线性复杂度;混合专家(MoE) 则通过稀疏激活让模型容量飞跃而算力不线性增长。

预训练之道

  • 训练目标:回归最朴素的因果语言建模(CLM),辅以多Token预测
  • 数据工程:以Common Crawl为基石,经过去重、过滤、科学配比(DoReMi),代码数据被证明对逻辑推理至关重要
  • 缩放定律:Chinchilla定律推翻了“大就是好”,指出参数和数据必须等比例扩大

微调实战

LoRA(低秩适应) 是当前统治级方案:冻结原权重,用两个极小的低秩矩阵的乘积来近似全量更新。优势是零推理延迟、极低资源占用、即插即用。

下篇正篇:从“会用”到“强大且安全”

一、对齐:铸造AI的价值观

基座模型虽然博学,但它是“桀骜不驯”的——它会无差别地学会互联网上一切好的坏的内容。对齐的目标就是让模型变得有用、诚实、无害

1.1 RLHF:经典三部曲

这是ChatGPT背后的核心技术,分三步走:

阶段 操作 作用
SFT(监督微调) 人类写出完美答案给模型看并微调 建立“行为样板”,让模型懂规矩
RM(奖励模型训练) 人类对多个回答排序,训练一个AI评委 规模化地模拟人类审美
PPO(强化学习优化) AI评委打分,PPO算法优化模型 让模型学会刷高分

关键约束——KL散度惩罚:防止模型为拿高分而“走火入魔”,必须保持在SFT模型的行为范围内。

核心痛点

  • 奖励黑客/过优化:模型发现长篇废话能骗过高分,但人类并不满意
  • 成本与复杂度:涉及4个模型(Actor, Reference, Reward, Critic),工程难度极大
1.2 DPO:直接偏好对齐的革命

DPO是对RLHF的优雅颠覆。它通过数学推导发现:最优策略和奖励之间存在闭式解

  • 核心理念:不需要训练一个AI评委了,直接把人类偏好的对比数据(A好于B)交给模型,用交叉熵损失让它最大化好回答的概率、最小化差回答的概率。
  • 优势:流程极大简化,训练稳定,效果与RLHF相当。迅速成为工业界新标准。
1.3 DPO之后的变体竞赛
方法 解决什么痛点 核心创新
KTO 成对数据太贵 只需单条“好/坏”标签,符合“损失厌恶”心理学
ORPO SFT和DPO流程割裂 两个阶段合二为一,无需参考模型副本
GRPO PPO太复杂 DeepSeek-R1的核心;用一组答案的平均分做基准,无需单独的价值网络

GRPO特别解读:它不依赖价值网络,而是针对一个问题一次性采样多个答案,用组内平均分作为基线。特别适合数学、代码等可以用规则验证的任务。这是DeepSeek-R1能通过纯强化学习涌现推理能力的关键。

二、推理与提示:让LLM学会“出声思考”

2.1 范式转变:从“调模型”到“调提示”

GPT-3证明了一种全新可能:上下文学习。不需要修改模型权重,只需在提示里塞入几个示例,模型就能通过类比完成新任务。

2.2 思维链:推理能力的引爆点

核心思想:与其让模型直接憋出答案,不如让它把中间步骤一步步写出来。

两种打开方式:

  1. 少样本思维链:提示里给例子的同时,也给详细解题步骤
  2. 零样本思维链:加上咒语 “Let’s think step by step”

巨大局限:它是一条直线,中间一步错了就会一条道走到黑。

2.3 思维链的进化

自洽性

  • 让模型用非贪婪方式生成N个不同推理链
  • 对最终答案进行多数投票
  • 用算力换稳定性

思维树

  • 不跟一条道走到底,而是并行构思多条路径
  • 模型自己给每条路打分评估
  • 采用BFS/DFS算法系统性搜索
  • 精英级工具,调用成本极高
2.4 程序辅助语言模型

核心思想:让模型写Python代码来解题,交给解释器执行,模型看着结果回答。这是责任外包——模型做它擅长的事(理解题意),计算器做它擅长的事。

2.5 关键反思:LLM真的在推理吗?

这是本章最深刻的洞察。当前结论是矛盾的:

  • 一方面,模型通过了大量逻辑测试
  • 另一方面,同样的逻辑结构,只改数值或人名,模型就可能大错特错
  • 模型有时展现“推理谵妄”——自信地编造完全错误的推理过程

当前共识:我们拥有强大的推理增强工具(思维链、思维树等),但模型的核心仍是模式匹配器。推理是否真的“涌现”,仍是一个待解之谜。

三、RAG:给LLM开“外挂知识库”

3.1 动机:解决知识滞后与幻觉
  • 知识滞后:模型知识冻结在训练完成那一刻
  • 幻觉难除:遇到盲区会自信捏造
  • 长尾知识遗忘:不常见的知识点记不住

解决思路:把“闭卷考试”变成“开卷考试”——在回答前先检索相关资料。

3.2 检索技术演进
方法 原理 优势 致命伤
BM25(稀疏) 基于TF-IDF的关键词匹配 零训练、速度快、精确匹配强 词汇鸿沟——“跑车”找不到“法拉利”
DPR(稠密) 双编码器将问题和文档都变成向量 跨过词汇鸿沟 需大量训练数据,泛化差
ColBERT(后期交互) 为每个Token保留向量,轻量匹配 兼顾细粒度与效率 存储开销较大

当前共识:混合检索(BM25 + 稠密检索) + 重排序器(Cross-Encoder精排)

3.3 现代RAG架构的智能化
  • Self-RAG:模型输出特殊反思Token(<Retrieve>/<Relevant>/<Supported>),自适应决定何时检索,对结果进行批判性验证
  • CRAG:引入检索评估器,第一轮检索质量差时自动纠正(优化查询或转向网络搜索)
  • GraphRAG:不检索文本片段,而是从文档中提取知识图谱和社区结构,能回答需要全局视角的问题
3.4 工程核心陷阱
  • 分块策略:太大则检索不精准、噪音多;太小则答案被切断。常用语义分块。
  • 查询改写(HyDE):先让LLM幻想一篇“完美回答文档”去搜,效果惊人地好。
  • 中间丢失:LLM对输入中间的内容利用率极低,更关注开头和结尾。
3.5 评估三位一体

RAG的评估不能只看答案对错,需要:

  1. 忠实度:答案是否严格基于检索资料?
  2. 相关性:答案与用户问题直接相关吗?
  3. 检索质量:搜出来的文档本身可靠精确吗?

四、模型内部知识机制:记忆的痕迹

4.1 知识探测:模型到底知道什么?

LAMA探测框架:将知识三元组(<但丁, 出生地, 佛罗伦萨>)转为完形填空(“但丁出生在[MASK]”)。

关键争议:模型答对,是真正“知道”,还是学会了与探测模板相似的表面模式?同样的事实,换种问法,答对率就截然不同。

4.2 知识定位:记忆存在哪个“神经元”?
  • 知识神经元假说:特定事实与特定MLP神经元高度相关,抑制它就会“忘记”
  • 因果中介分析:知识主要存储在中层MLP层,注意力层扮演“路由器”角色
4.3 知识编辑:对模型进行“脑外科手术”

ROME(一阶模型编辑)

  • 将LLM视为键值记忆体
  • 用因果分析定位存储该事实的MLP层
  • 计算一个秩为1的更新矩阵精准注入
  • 像外科手术一样切旧接新

MEMIT(海量记忆编辑)

  • ROME一次只能改一个事实
  • MEMIT可同时修改成百上千个事实
  • 将更新分散到多个层

核心局限——涟漪效应:修改“埃菲尔铁塔在巴黎”,可能意外削弱“法国首都是什么”的回答能力。知识在脑中并不孤立。

4.4 知识冲突:当“记忆”和“证据”打架

这是RAG场景下最棘手的问题。

参数化偏执:LLM更倾向于相信自己训练背下的知识,而不是你临时塞进上下文里的资料。对高频知识(如巴黎-法国),它极度自信,很难被上下文覆盖。

4.5 幻觉与知识的边界
  • 无法内省:模型不知道自己不知道,会自信地编造
  • 反直觉现象:模型越大,在某些常见误区问题上的错误率反而更高
  • 时间错乱:分不清“当下”和“历史”

五、推理优化:让LLM跑得又快又省

5.1 核心矛盾:内存带宽是真正瓶颈

LLM推理不是算得慢,而是“搬得慢”。每生成一个新Token,都要把所有参数和巨大的KV Cache从显存搬运一次。

5.2 PagedAttention:显存管理的革命

vLLM框架的杀手锏。

  • 核心思想:把操作系统的“虚拟内存和分页机制”搬过来
  • 做法:不再为每个请求预分配大块连续显存,而是将KV Cache打散成小块“页面”,通过页表映射
  • 优势:近乎零浪费,极致并发
5.3 其他关键优化
技术 解决的问题 效果
FlashAttention 内存密集型计算 速度大幅提升,内存O(N²)→O(N)
连续批处理 GPU利用率低 流水线式调度,利用率拉满
分体式推理 预填充-解码互相干扰 两阶段部署在不同GPU集群,吞吐提升7.4倍
推测解码 串行生成瓶颈 用小模型“猜”多个Token,大模型一次性验证,2-3倍加速

六、模型压缩:把大象装进冰箱

6.1 三大主流技法

量化

  • GPTQ:逐层量化,补偿误差传递
  • AWQ:识别“显著权重”并保护它们,效果更好

剪枝

  • 非结构化(SparseGPT):可剪掉60%零散权重
  • 结构化(ShortGPT):直接移除25%的层,性能保留92%
  • 落地尴尬:非结构化剪枝在现有GPU上无法加速

知识蒸馏

  • 用大模型(教师)的输出分布教小模型(学生)
  • 最新趋势:用合成数据蒸馏
6.2 落地选择指南
  • 消费级显卡:首选AWQ/GPTQ的4-bit量化
  • 手机/端侧:知识蒸馏是救命稻草
  • 极致压缩存储:低秩分解+量化联合,可压到2.5位以下

七、LLM智能体:从“思考者”到“行动者”

这是综述最具野心的部分。核心叙事:LLM从“缸中之脑”进化为自主“数字生命体”。

7.1 工具使用:给LLM装上“手脚”

Toolformer(里程碑):

  • 核心创新——自监督学习使用工具
  • 让模型在海量文本中随机插入API调用
  • 用语言模型损失是否降低来判断该调用是否有用
  • 无需人类标注“何时该用工具”
  • 6.7B的Toolformer可匹敌数十倍参数的无工具模型

Function Calling(工程化落地):

  • 开发者用JSON Schema描述函数
  • 模型输出结构化JSON调用
  • 结构化输出通过语法掩码保证100%合法
7.2 单智能体:从“执行命令”到“自主规划”

ReAct(操作系统级框架):

  • 思考→行动→观察→再思考→再行动的持续闭环
  • 将推理能力和工具使用无缝整合

Reflexion(自我纠错):

  • 任务失败后,模型自己用语言总结“反思日志”
  • 将反思存入长期记忆,下次尝试时加载
  • 不修改参数的情况下自我进化
  • HumanEval代码生成:GPT-4的80%→91%

Voyager(终身学习):

  • 在《我的世界》中展现三大能力:
    1. 自动课程:自己给自己找由易到难的任务
    2. 技能库:把成功行为存储为可复用的代码片段
    3. 迭代提示:根据错误反馈修改代码
7.3 多智能体:从“独行侠”到“团队协作”

为什么需要一群AI?

  • 分工与专业化:设计、编码、测试各司其职
  • 多样性与纠错:两个AI争论能极大减少幻觉

组织架构

  • 辩论模式:多智能体互相质疑、多轮论证
  • 角色扮演(CAMEL):扮演不同职业角色深度协作
  • 结构化流水线(MetaGPT/ChatDev):模拟软件公司的SOP流程

独特挑战

  • 通信开销爆炸
  • 一致性问题
  • 问责难题
  • 涌现的恶意行为
7.4 智能体互操作协议:AI世界的TCP/IP

MCP(模型上下文协议)

  • 定位:解决模型与工具/数据的连接(AI界的USB-C)
  • 原理:客户端-服务器模型,统一接口
  • 意义:从M×N集成复杂度变为M+N

A2A(智能体到智能体协议)

  • 定位:解决智能体之间的通信
  • 原理:通过“智能体卡片”互相发现,进行任务委托和状态同步
  • 与MCP关系:互补——MCP连工具,A2A连AI

终极图景:一个智能体,通过思维链推理,用RAG获取知识,用函数调用操作工具,用ReAct规划行动,用Reflexion从失败学习,用技能库积累经验,通过A2A与其他智能体协作,底层通过MCP标准化连接。

八、视觉-语言模型:让LLM睁开眼睛

CLIP(奠基之作):

  • 将图文编码到同一向量空间,进行对比学习
  • 用4亿网络图文对训练,自然语言成为图像的监督信号

BLIP-2(效率飞跃):

  • 用Q-Former将冻结的视觉模型和语言模型“嫁接”
  • 极大降低训练成本

LLaVA(开源先锋):

  • 用GPT-4生成多模态指令数据
  • 开创视觉指令微调

九、多模态生成:从“看懂”到“创造”

扩散模型(核心技术):

  • 给图像逐步加噪声,再教会网络逆转这个过程
  • 文本描述注入去噪过程的每一步

里程碑产品

  • DALL-E系列:从能生成到与ChatGPT深度集成
  • Stable Diffusion:开源引爆社区,ControlNet实现精准控制
  • Sora:将扩散模型推到4D时空(视频)

十、评估:如何判定AI真正实力

六重陷阱

  1. 基准污染:考题出现在了训练数据里
  2. 评价-能力鸿沟:高分≠真实能力强
  3. 橡皮尺子:MMLU中6.5%的题目本身有错
  4. 过拟合:针对性刷榜
  5. 覆盖不足:无法覆盖所有重要能力
  6. 评测偏见:LLM-as-Judge偏爱回答更长、同宗同源的模型

应对之道

  • Chatbot Arena:数十万人类盲测投票的Elo排行榜
  • 动态基准:定期更新,防止污染
  • 过程评估:不只看答案,还看推理步骤

十一、安全与对齐:AI的“紧箍咒”

核心威胁

  • 越狱:诱导模型绕过安全限制
  • 提示注入:在网页中嵌入隐藏指令,操控模型行为

防守体系

  • RLHF/DPO:基础免疫系统
  • 宪法AI:让模型根据明确原则评价和修改自己的输出
  • 红队测试:发布前组织攻击团队提前修补漏洞

悲观的结论:这是无解的攻防博弈。堵住一千扇门,攻击者总能找到第一千零一扇。

十二、应用场景与未来方向

典型应用
领域 主要应用 关键风险
代码生成 Copilot、Devin自主修Bug 代码安全漏洞
医疗 记录生成、辅助诊断 幻觉可能致命
法律 文档审查、判例检索 曾出现律师引用的判例全是编造的
科学 文献综述、实验假设生成 研究诚信
教育 一对一AI导师 学术诚信
当前根本性挑战
  • 幻觉:始终是最大的阿喀琉斯之踵
  • 推理“谵妄”:用看似专业、实则荒谬的推理得到错误答案
  • 数据墙:高质量人类文本即将耗尽
  • 可解释性:千亿参数内部如何决策,我们几乎无法理解
未来趋势
  1. 从模型到系统:未来最强的AI是复合AI系统,而非单一模型
  2. 推理时缩放成为新边疆:o1/DeepSeek-R1证明“多思考”可超越“训更大”
  3. 开源与闭源的终局之争:性能差距在被快速抹平
  4. 通往通用智能的争议:是坦途还是泡沫,仍在辩论

声明:本文是完整综述的精读笔记,涵盖了从基础架构到前沿应用的全技术栈。具体章节的技术细节可根据需要回看对应部分的详细讨论。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐