大模型后训练：小白程序员进阶指南，收藏必备！

程序员糖仔

539人浏览 · 2026-05-18 11:55:54

程序员糖仔 · 2026-05-18 11:55:54 发布

大模型后训练技术（PoLMs）在特定场景下克服了预训练模型的局限，如推理能力不足、伦理风险和领域适应性差等。本文将深入解析PoLMs的五大核心范式：微调、对齐、推理、高效和集成与适应，涵盖模型压缩、参数高效微调、知识蒸馏、多模态集成、领域适应和模型融合等关键技术，帮助读者全面了解大模型后训练的原理和方法，并掌握进阶技巧。

导读

预训练大语言模型在特定场景下常具有诸多局限，包括推理能力不足、伦理风险以及领域适应性不足等问题。这些挑战促使先进的后训练语言模型（PoLMs）应运而生，如 OpenAI-o3、DeepSeek-R1、Gemini 3、 Qwen3系列等（统称为大型推理模型，LRMs）。

大模型后训练过程主要围绕五大核心范式展开：

微调：提升特定任务准确性；
对齐：确保伦理一致性以及与人类偏好匹配；
推理：推动多步推理能力；
高效：优化资源利用；
集成与适应：扩展多模态能力。

总体认知

一、预训练与后训练

大语言模型的训练过程主要分为两个阶段：预训练和后训练。

预训练

预训练的概念源自计算机视觉任务中的迁移学习，其主要目标是利用大规模数据集开发通用模型，便于后续针对不同下游任务进行微调。预训练的一大优势在于可以利用任何未标注的文本语料，提供丰富的训练数据。然而，早期的静态预训练方法，如神经网络语言模型（NNLM）和Word2vec，难以适应不同的文本语义环境，这推动了BERT和XLNet等动态预训练技术的发展。BERT通过利用Transformer架构，并在大规模未标注数据集上采用自注意力机制，有效解决了静态方法的局限性。确立了“预训练-微调”学习范式，催生了包括GPT-2和BART在内的多种模型架构的创新。

后训练

后训练是指在模型完成预训练后，为特定任务或用户需求进一步优化和适应模型的技术与方法。自 GPT-3 (175B参数)发布以来，后训练领域迎来了创新高峰，包括利用微调（利用标注数据或特定任务数据调整模型参数）、对齐策略（优化模型以更好地契合用户偏好）、知识适应（让模型融入领域知识）、推理能力提升（增强模型逻辑推理和决策能力）等后训练技术来提升模型性能。这些统称为后训练语言模型（PoLMs），推动了像GPT-4、LLaMA-3、Gemini-3、Claude-3.5 等模型的发展，显著提升了 LLM 的能力。然而，后训练模型在适应新任务时仍面临训练或大幅调整参数的挑战。

二、PoLMs 的发展

2018 年，BERT 和 GPT 的发布重新定义了 NLP 基准。

自 2020 年起，缀微调和提示微调等创新方法通过修改模型输入而非重训练整个架构，实现了多任务灵活性，节省了计算资源并拓宽了应用范围。

2021 年，人类反馈强化学习（RLHF）出现，通过人类评价对齐模型输出，提升了实际对话场景的实用性。

2022 年，RLHF 采用近端策略优化算法（PPO），进一步提升了对齐稳定性并缓解了对噪声反馈的过拟合。同时，链式思维（CoT）提示作为推理增强策略出现，鼓励模型在复杂任务中表达中间步骤，提高了透明度和准确性，尤其在逻辑推理和问题解决领域表现突出。

2022 至 2024 年间，领域适应技术如检索增强生成（RAG）通过集成外部知识库，无需重训练就实现了专业领域的上下文丰富输出，极大提升了知识的时效性。伦理对齐方面， 2023 年直接偏好优化（DPO）简化了 RLHF 流程，直接优化模型输出以匹配人类偏好，提升了训练效率和稳定性。多模态方面，PaLM-E 和 Flamingo 等模型率先实现了视觉-语言集成，BLIP-2 和 LLaVA 则将多模态扩展到医学影像等更广领域。与此同时，在提升模型推理效率方面，Google 的 Switch-C Transformer 引入了稀疏激活机制的专家混合（MoE）架构。推理能力提升方面，自我博弈和蒙特卡洛树搜索（MCTS）与 CoT 集成，增强了 LLM 的决策能力，为高级推理模型奠定了基础。

到 2025 年，DeepSeek-R1 的出现成为 PoLMs 创新的里程碑，摒弃了传统的有监督微调（SFT），转向链式思维推理和探索性强化学习策略。以 DeepSeek-R1-Zero 为例，集成了自我验证、反思和扩展 CoT 生成，验证了强化学习驱动推理激励在开放研究范式下的有效性，并引入了蒸馏技术，将复杂推理模式从大模型迁移到小模型。

三、公式基础

通过了解大模型后训练过程需要的基础数学公式，可以进一步了解其背后的原理，直观感受技术的演进。

1. 策略优化原理

近端策略优化（PPO）算法是强化学习中的关键技术，遵从actor-critic强化学习范式，尤其适用于如人类反馈强化学习（RLHF）等场景。PPO 通过限制策略更新的幅度，确保模型行为的变化逐步且可控，从而防止性能出现灾难性波动。这对于微调大语言模型尤为重要，因为较大的策略更新可能导致模型行为不可预测。

1）定义

在 PPO 中，状态表示模型在时刻的环境，包括模型决策所需的全部信息。动作是模型在状态下的选择，构成模型决策序列。每执行一个动作，智能体会收到奖励，作为环境反馈，指示该动作的成败。优势函数衡量在当前策略下，在状态采取动作的优越性，也就是该动作的价值相较于该状态下所有动作价值的期望(也即是该状态的状态价值)的收益。其形式定义为动作价值函数与状态价值函数的差值：其中，表示在状态采取动作并遵循策略后获得的期望累计奖励，是从状态出发遵循策略的期望累计奖励，两者均考虑了未来奖励的折扣因子。

2）策略更新

PPO通过优势函数对策略进行增量优化，采用如下剪切目标函数：其中，是当前策略与旧策略在动作上的概率比值：是第步的优势估计，剪切函数将策略更新限制在安全范围，由超参数控制。该机制确保更新不会偏离旧策略过多，从而保证训练过程的稳定性。

3）价值函数更新

价值函数估算在策略下，从状态出发的期望累计奖励。为保证价值函数估算准确，需最小化预测值与实际奖励的均方误差：其中，是从状态获得的实际累计奖励，是当前策略下的估算值。目标是调整参数，使预测值与实际奖励的差距最小化，提高价值函数的准确性。

2. RLHF 原理

人类反馈强化学习（RLHF）是一种通过引入人类生成反馈来对齐模型与人类偏好的关键方法。该方法通过显式捕捉人类输入的奖励函数，使模型更好地适应用户偏好和实际应用场景。

1）定义

在 RLHF 中，语言模型在词汇表上生成序列概率分布。模型生成的序列来自输入空间，每个 token 依赖于之前的 token。模型输出的条件概率分布为：模型在输入空间、数据分布和输出空间上进行任务训练。例如，在文本摘要任务中，GPT-2 通过 RLHF 训练，目标是根据数据集(如CNN、DailyMail、TL;DR)预测文本摘要。

2）目标函数

策略是与原始模型结构相同的语言模型，初始时。目标是通过优化策略，最大化输入输出对的期望奖励。奖励函数为每对输入输出分配一个标量值，最优策略通过如下最大化问题获得：该目标函数是标准强化学习问题，模型通过与环境交互，在人类反馈引导下学习最大化期望奖励。

3. DPO 原理

直接偏好优化（DPO）在 RLHF 基础上，直接根据人类偏好优化模型输出，通常以成对比较的形式表达。DPO 摒弃了传统奖励函数，专注于通过最大化偏好奖励优化模型行为。

1）目标函数

DPO 采用与前述方法相同的 RL 目标，在一般奖励函数下，KL 约束奖励最大化的最优解为：其中，是归一化分区函数。即使采用最大似然估计近似真实奖励，分区函数也可近似，简化了优化过程。该公式通过直接调整策略以匹配人类反馈，实现了更高效的偏好优化。

2）偏好模型

采用 Bradley-Terry 模型对两个输出和的偏好建模，最优策略满足如下偏好模型：其中，表示在输入下人类偏好输出胜于的概率。该方法有效地将人类偏好融入模型优化过程。

4. GRPO 原理

群体相对策略优化（GRPO）算法是强化学习中近端策略优化（PPO）的一种变体，首次在 DeepSeek 的相关工作中提出(DeepSeekMath:Pushing the Limits of Mathematical Reasoning in Open Language Models )。GRPO 省略了critic模型，改用群体分数估算基线，与 PPO 相比显著降低了训练资源消耗。

1）定义

GRPO 与 PPO 的最大区别在于优势函数的计算方法。PPO 中优势函数来源于 Q 值与 V 值的差异。

2）目标函数

具体而言，对于每个问题，GRPO 从旧策略中采样一组输出，然后通过最大化如下目标优化策略模型：其中，和是超参数，是仅基于每组内部输出的相对奖励计算的优势。

PoLMs 的微调方法

微调是将预训练的大型语言模型适应特定任务的基石，通过有针对性的参数调整来提升模型适用能力。该过程利用特定任务的数据集来优化性能，以弥补通用预训练模型与特定领域需求之间的差距。主要有三种微调范式：有监督微调，通过标注的数据集提升任务准确性；自适应微调，通过指令微调和基于提示的方法等定制模型行为；强化微调，结合强化学习通过奖励信号优化输出，实现动态交互下的性能持续提升。

一、有监督微调

有监督微调（SFT）通过特定任务的标注数据集，调整预训练模型的参数，使其适配到具体任务。SFT后的模型既精准又具备上下文适应性，同时保留泛化能力。

预训练LLMs通过海量语料学到通用语言模式，而SFT 架起了预训练阶段通用语言知识与目标应用需求之间的桥梁。

1. SFT 数据集准备

1）数据集构建
SFT 数据集通常结构为，其中为指令，为对应实例。这种配对使LLM能够识别特定于任务的模式并生成相关输出。

2）SFT 数据集筛选
筛选确保最终数据集中仅保留高质量的指令-实例对。筛选函数用于评估每对的质量，得到精筛子集：其中为用户设定的质量阈值。例如，指令跟随难度（IFD）指标量化指令对模型生成预期响应的引导效果。IFD 函数表达为：其中为指令，为预期响应，为模型参数。该指标比较有无指令时生成响应的概率，归一化衡量指令的引导效果。未达阈值的对将被剔除，形成精筛数据集。

3）SFT 数据集评估
评估 SFT 数据集需选取高质量子集作为模型性能基准。该子集可从精筛数据集中抽样或独立划分以保证公正。传统 SFT 评估方法如 Few-Shot GPT 和微调策略是资源密集型的，而指令挖掘则更高效。指令挖掘使用线性质量规则和一组指标来衡量数据集质量，例如响应长度和平均奖励模型得分，以评估这些指标与整体数据集质量之间的相关性。

2. SFT 过程

微调数据集准备好后，我们就可以准备微调预训练模型了。在微调阶段，模型参数通过微调数据集进行调整，使模型与应用需求对齐。该阶段常用的目标函数为交叉熵损失。对于有个样本和个类别的分类任务，表达为：其中为样本在类别的真实标签，为模型预测概率。最小化该损失推动模型更好地对齐真实标签，提升目标任务表现。

3. 全参数微调

全参数微调指调整预训练模型的所有参数，相较于如 LoRA 或 Prefix-tuning 等参数高效方法只调整部分参数。全参数微调常用于高精度需求场景，如医疗和法律领域，但计算开销巨大。例如，微调65B参数模型需超 100GB GPU 内存，在资源受限环境面临挑战。为缓解压力，出现了如 LOMO 等内存优化技术，减少梯度和优化器状态的内存占用。参数更新规则为：其中为第次迭代的参数，为学习率，为损失函数梯度。混合精度训练、激活检查点等技术也有助于降低内存需求，使大模型能在有限硬件上微调。

GPT-3 到 InstructGPT

典型的全参数微调案例是 GPT-3 到 InstructGPT 的转变，模型全部参数通过指令任务数据集微调，获得最优性能，但计算成本极高。

二、自适应微调

自适应微调通过引入额外提示，定制预训练模型行为，以更好地满足用户需求并处理更广泛任务。该方法为模型输出生成提供灵活框架，显著提升 LLMs 的适应性。主要方法包括指令微调和基于提示的微调，两者均通过任务特定引导提升模型的灵活性和准确性。

1. 指令微调-Instruction Tuning

指令微调通过在指令数据集上微调基础 LLM，显著提升模型在多任务和多领域的泛化能力。指令微调的效果高度依赖于指令数据集的质量和广度。高质量数据集应涵盖多语言、多领域和多任务复杂度，确保模型具备广泛适用性。此外，指令的清晰性和组织性对模型理解和执行任务至关重要。微调阶段任务分布均衡也很重要，避免因任务覆盖不均导致过拟合或性能下降。比例任务采样、加权损失函数等方法有助于解决这些问题，确保每个任务对微调过程均有贡献。通过精心构建和管理指令数据集，可大幅提升微调 LLMs 的泛化能力，使其在多任务和多领域中表现卓越。

2. 前缀微调-Prefix-Tuning

前缀微调是一种参数高效的微调方法，通过在语言模型每层 Transformer 中添加可训练的前缀 token，而保持核心模型参数不变。这些前缀向量为任务特别设定，作为虚拟 token 嵌入。优化前缀向量时采用重参数化技巧，即学习一个小型多层感知机（MLP）函数，将小矩阵映射到前缀参数，而非直接优化前缀向量，有助于稳定训练过程。优化后仅保留前缀向量用于提升任务表现。

通过在输入序列前添加连续提示，并利用层级提示，可在无需全模型微调的情况下引导模型生成任务特定输出。仅调整前缀参数，提升了参数效率。P-Tuning v2 在 Transformer 架构中引入层级提示向量，专用于自然语言理解任务，并通过多任务学习优化跨任务共享提示，提升不同参数规模下的模型表现。前缀微调有助于大语言模型快速高效适应特定任务，适合灵活高效应用场景。

3. 提示微调-Prompt-Tuning

提示微调是一种高效适配大语言模型的方法，通过优化输入层的可训练向量，而非修改模型内部参数。该技术在离散提示方法基础上引入软提示 token，可采用无约束格式或前缀结构。这些学习到的提示嵌入与输入文本嵌入结合后输入模型，引导模型输出，同时保持预训练权重不变。

P-tuning（采用灵活方法结合上下文、提示和目标 token，适用于理解和生成任务，通过双向 LSTM 架构增强软提示表示学习）和标准提示微调（采用更简单设计，将前缀提示加到输入，仅在训练时更新提示嵌入）是两种典型提示微调方法。研究表明，提示微调在许多任务上可达到全参数微调的性能，但训练参数显著减少。P-Tuning v2 等新方法已证明提示微调可在不同模型规模下有效扩展，处理复杂任务。提示微调成为传统微调的高效替代方案，性能相当但计算和内存成本更低。

三、强化微调

强化微调（ReFT）是一种将强化学习（RL）与有监督微调（SFT）结合的高级微调技术，提升模型解决复杂动态问题的能力。与传统 SFT 通常为每个问题使用单一 Chain-of-Thought（CoT）注释不同，ReFT 允许模型探索多条有效推理路径，从而提升泛化能力和问题解决技巧。

ReFT 过程始于标准 SFT 阶段，模型先在标注数据上学习基础任务解决能力。随后，模型通过如 PPO 等 RL 算法进一步优化。在强化阶段，模型为每个问题生成多条 CoT 注释，探索不同推理路径。通过将模型预测答案与真实答案对比，正确输出获得奖励，错误输出受到惩罚。该迭代过程促使模型调整策略，最终提升推理能力。

ReFT 分两阶段进行。SFT 阶段：模型多轮遍历训练数据，学习每个问题的正确 CoT 注释。 ReFT 阶段：以 SFT 训练好的模型为起点，模型根据当前策略生成备选 CoT
注：上表给出了大型语言模型在后训练方法中反馈类型的分类。此表概述了常见的反馈类及其在六个指标中的定义属性：粒度（范围：事件、片段或步骤），参与（参与：观察的、主动的或共同生成的），Arity（实例计数：单个、多个或三元）、抽象（目标：特征或实例）、意图（目的：评估性、描述性或文字）和显式性（直接性：显式或隐式）。

1）主要反馈

此类反馈直接影响 RLHF 的奖励模型。例如，批评反馈关注对智能体行为的显式人类评估，常通过二元或多标签注释来降低噪声。比较反馈允许评估者对多个输出或轨迹进行比较，尽管更大的选择集能提供更丰富信号，但也可能导致因果混淆。时序反馈通过在不同时间点提供判断来优化轨迹评估，代理奖励则通过近似奖励函数引导模型实现用户目标。社交行为反馈利用隐性线索（如面部表情）使智能体目标与用户情感一致。改进反馈强调实时人类干预以增量优化策略。自然语言反馈则通过文本信息传达偏好和改进建议。

2）补充反馈

除主要反馈外，还有两类补充奖励建模过程。紧急停止（e-stop）允许人类通过中止智能体轨迹进行干预，但不提供替代方案，特点是隐性参与和防止不良行为。重要性标签则标记特定观察对实现目标的重要性，提供显式但不直接改变行为的反馈。此类反馈因情境而异，作为补充输入强化奖励模型的学习过程。

3）表征特定反馈

某些反馈类型主要用于增强表征学习，而非直接塑造奖励函数。特征轨迹反馈要求人类演示某一特征的单调变化，从而动态扩展特征集。相似性查询通过比较轨迹三元组，利用轨迹空间的距离指导表征学*。通过这些表征特定反馈，RLHF 能更好地泛化到新任务和新场景。

2. RLHF 的奖励模型

真实奖励函数通常未知，因此需要基于人类偏好构建可学习的奖励模型。该模型预测候选输出对于输入符合人类期望的程度。训练数据通常由人类评估者对输出对进行比较或标注，模型一般采用交叉熵损失进行训练。为防止策略偏离初始模型太多，奖励函数中引入了由超参数控制的惩罚项：其中表示微调策略生成输出的概率，为原始模型的概率。该项确保策略在适应人类反馈的同时，仍受原有知识约束。

评估奖励函数至关重要，因为它直接影响学习效果和策略性能。准确评估该函数有助于确定适合的奖励结构，从而实现模型输出与人类偏好的对齐。然而，在安全敏感领域，标准 rollout 方法和离线策略评估可能因在线交互风险、偏见及对真实奖励的需求而不可行。为应对这些挑战，常用两种方法：

1）距离函数

近期研究关注于奖励评估距离函数，考虑潜在变换（如势能塑造）。例如，EPIC 衡量奖励函数在多种变换下的等价性，DARD 则优化规范化以确保评估基于可行转移。EPIC 类距离方法推广了 EPIC 的方法论，允许规范化、归一化和度量函数的多样性，STARC 在保留 EPIC 理论性质的基础上提供了更多灵活性。

2）可视化与人工检查

其他方法依赖可解释性和人工策划数据集来评估奖励函数的有效性。PRFI 通过预处理简化奖励函数，同时保持等价性，从而提升其透明度。CONVEXDA 和 REWARDFUSION 则提出了用于测试奖励模型对语义变化响应一致性的数据集。这些技术共同提升了奖励函数的评估可靠性，强化了大语言模型与人类偏好的对齐。

3. RLHF 的策略学习

RLHF 的策略学习包括在线和离线两种方式，通过人类反馈优化策略。

1）在线学习-Online Learning

在在线 RLHF 中，系统实时收集对新生成模型轨迹的人类偏好。DPS 等算法利用贝叶斯更新管理对决过程，PPS 和 PEPS 融合动态规划与 bandit 思想优化策略行为。LPbRL 通过特征嵌入捕捉不断变化的奖励结构，PbOP 则将最小二乘估计应用于转移动态和偏好信号。近期，PARL 将反馈采集视为策略优化的组成部分，提升了数据收集效率。

2）离线学习-Offline Learning

在离线 RLHF 中，利用先前收集的偏好标注轨迹进行策略学习或优化。例如，研究了基于成对比较数据的悲观最大似然估计方法，为策略学*建立了性能界限。FREEHAND 和 DCPPO 等扩展方法推广到未知偏好模型，探索离线数据覆盖与策略泛化的关系。此外，针对 Boltzmann 成对比较模型的过拟合问题进行了研究，DCPPO 进一步探讨了动态离散选择模型以提升反馈效率。

3）在线与离线学习的融合-Blending Online and Offline Learning

混合方法结合离线预训练与在线偏好聚合，既利用预收集数据，又能实时更新。PFERL 采用两阶段方法以最小化人类查询次数，PERL 则探索乐观最小二乘策略以实现主动探索。对决强化学习（Dueling RL）及其扩展（如 PRPRL 中的 REGIME）通过合理划分数据采集与反馈收集，优化了样本效率、标注成本和策略性能之间的权衡。

二、AI 反馈强化学习（RLAIF）

强化学习与 AI 反馈（RLAIF）扩展了 RLHF 范式，通过利用大语言模型生成反馈信号。这种方法可以补充或替代人工反馈，在人工标注稀缺、成本高昂或不一致的任务中，提供更具可扩展性、低成本的偏好数据。

1. RLAIF 与 RLHF 的对比

在大规模应用 RLHF 时，主要挑战在于其对人工生成偏好标签的依赖，这需要大量资源来收集、整理和标注数据。数据标注过程既耗时又昂贵，且人工评估者可能带来不一致性。

RLHF 与 RLAIF 的关键区别在于反馈来源：RLHF 依赖人工生成的偏好，而 RLAIF 使用 AI 生成的反馈来指导策略更新。RLAIF 在人类评估者的评价下，能够达到与 RLHF 相当甚至更优的性能。值得注意的是，RLAIF 不仅超越了传统的监督微调基线，而且使用与策略模型规模相同的 LLM 偏好标注器，突显了该方法的高效性。

RLAIF 的主要优势在于无需持续人工干预即可扩展反馈循环。通过用 AI 生成反馈替代人工反馈，RLAIF 促进了 LLM 在多任务中的持续改进，缓解了人工标注带来的瓶颈。

2. RLAIF 训练流程

RLAIF 的训练流程包括多个关键阶段：

1）AI 反馈收集

在此阶段，AI 系统根据预设标准生成反馈，这些标准可能包括任务相关指标、响应的正确性或输出的适当性。与需要解释和人工标注的人工反馈不同，AI 反馈可以在广泛的模型输出中一致生成。这一特性使 AI 反馈能够持续提供，极大地扩展了反馈循环。

2）奖励模型训练

随后，AI 生成的反馈用于训练或优化奖励模型。该模型将输入-输出对映射到相应的奖励，使模型输出与反馈所指示的期望结果对齐。传统 RLHF 依赖直接人工反馈评估输出，而 RLAIF 使用 AI 生成标签，虽然可能带来一致性和偏见问题，但在可扩展性和独立于人力资源方面具有优势。

3）策略更新

最后阶段是根据前一步训练的奖励模型更新模型策略。通过强化学*算法调整模型参数，优化策略以在各种任务中最大化累积奖励。该过程是迭代的，奖励模型不断引导模型输出更好地符合预期目标。

三、直接偏好优化（DPO）

尽管 RLHF 有效，但在奖励模型训练以及将其用于微调大语言模型的阶段，过程复杂且易不稳定。难点在于构建能准确反映人类偏好的奖励模型，以及在优化该奖励的同时保持语言模型与原始模型的接近性。

为了解决这些问题，直接偏好优化被提出，作为一种更稳定且计算效率更高的替代方案。DPO 通过直接将奖励函数与最优策略关联，简化了奖励优化程。它将奖励最大化问题视为基于人类偏好数据的单阶段策略训练问题，从而避免了奖励模型拟合的复杂性和对 Bradley-Terry 模型的依赖。

1. DPO 的基础

RLHF包括训练奖励模型（RM）和通过强化学习微调语言模型。DPO 简化了这一过程，直接利用人类偏好数据训练语言模型，从而在策略中隐式地捕获奖励模型。

1）KL 正则化奖励最大化目标

DPO以KL正则化奖励最大化框架为起点，其目标如下：其中，表示奖励函数，是控制与参考策略接近程度的系数，表示 Kullback-Leibler 散度。表示从数据分布中采样的输入，表示从策略中采样的输出。

2）最优策略的推导

在适当假设下，方程的解可表示为 Boltzmann 分布：其中归一化项保证是有效的概率分布：3）奖励的重参数化
对上述最优策略取自然对数，可将奖励与最优策略关联起来：其中是常数，不影响奖励的两两比较。如果已知最优策略，则真实奖励可确定到该常数项。

4）Bradley–Terry 偏好模型

在 Bradley-Terry 模型下，人类对两个输出和的偏好由其奖励差决定。偏好的概率为：将奖励重参数化公式代入上式，得到最终偏好模型：该表达式将人类偏好概率与最优策略和参考策略的比值联系起来。

DPO 的目标

DPO 通过直接从偏好数据学习策略，避免了显式奖励建模。给定偏好三元组数据集，其中为更受偏好的输出，为较不受偏好的输出，DPO 最大化观测偏好的似然。其目标函数为：其中是逻辑 Sigmoid 函数，表示与参考策略之间的奖励差。通过最大化，策略可无需单独奖励模型而与人类偏好对齐。

由于 DPO 目标继承了 RLHF 的 KL 正则化形式，因此在明确定义的偏好假设下保留了理论一致性，并将训练过程统一为单阶段。这样，DPO 能更直接地将语言模型与人类评价对齐，降低系统复杂性并提升训练稳定性。

3. DPO 的训练细节

DPO 框架基于两个核心模型：参考策略和目标策略。参考策略通常为预训练且经监督微调的语言模型，在训练过程中保持不变。目标策略则从初始化，并通过偏好反馈迭代更新，从而更好地与人类判断对齐。

1）数据收集与准备

DPO 依赖于精心整理的偏好数据集。对于每个提示，从参考策略采样多个候选响应。人工标注者根据连贯性、相关性和清晰度等标准对这些响应进行比较或排序。最终的偏好标签成为优化目标策略的核心训练信号。

2）训练流程

目标策略通过一系列基于梯度的更新来优化 DPO 损失。具体步骤如下：

生成：为每个提示生成候选输出。

标注：人工标注者比较生成的输出，确定其相对偏好。

优化：利用这些两两偏好，迭代更新，使其更好地模拟人类偏好的输出。

在整个过程中，保持不变，作为衡量改进的稳定基线。

3）实践注意事项

选择一个稳健的参考策略对于 DP O 的有效初始化至关重要。SFT通常能为提供良好的基线，使后续的偏好驱动更新能专注于细节优化而非基础能力的习得。此外，偏好数据需足够多样，以覆盖用户期望的不同变化，从而提升模型的适应性并防止过拟合于狭窄任务。

4. DPO 变体

DPO的变体算法是来应对特定的对齐挑战并优化文本生成的不同方面。

1）优化生成的 DPO

令牌级和迭代式 DPO 策略有助于更细粒度或持续地与人类偏好对齐。令牌级 DPO将问题重构为一个 bandit 问题，采用由定义的马尔可夫决策过程（MDP）。这种方法缓解了对不受偏好令牌的过度 KL 散度问题。TDPO采用顺序前向 KL 散度而非反向 KL，提升了文本生成的对齐性和多样性保持能力。迭代式 DPO通过多轮偏好评估（通常由模型自身执行）不断优化输出。成对 Cringe 优化（PCO）将二元反馈扩展到成对设置，利用软边界平衡探索与利用。步进式 DPO将偏好数据集分区，并进行迭代更新，每轮使用更新后的策略作为下一轮的基线。

2）可控与灵活的 DPO

部分 DPO 变体旨在管理冗长性并减少对固定参考策略的依赖。R-DPO通过在目标函数中加入正则项来惩罚输出长度，解决过于冗长或重复的响应问题。SimPO通过归一化响应长度并简化损失函数以同时处理期望与非期望输出，消除了对参考策略的需求。RLOO利用 REINFORCE 算法，无需训练价值模型，显著降低了计算开销。它将整个响应视为单一动作，并从稀疏奖励中学习，相较于传统的基于 PPO 的方法，简化了实现流程。

3）列表式 DPO

与仅限于成对比较的偏好数据不同，列表式 DPO 方法针对输出集合进行优化。列表式偏好优化（LiPO）直接在候选响应的排序列表上应用学习排序技术，相较于重复的成对比较提升了效率。RRHF将偏好对齐融入 SFT，无需单独的参考模型。PRO将列表式偏好分解为更简单的二元任务，简化了 SFT 期间的对齐过程。

4）负面 DPO

某些任务需要从不期望或有害的输出中学习：Negating Negatives（NN）丢弃正面响应，并最大化与较不受偏好输出的差异。负面偏好优化（NPO）对负面偏好进行梯度上升，有效减少有害输出并缓解灾难性崩溃。

PoLMs 的推理训练方法

推理是使大语言模型能够处理多步逻辑、复杂推断和复杂决策任务的核心支柱。有两种提升模型推理能力的核心技术：

自我优化推理，引导模型自主检测并纠正自身推理步骤中的错误；以及基于强化学习的推理，通过奖励优化提升模型链式思考的一致性和深度。这些方法共同提升了模型在长程决策、逻辑证明、数学推理等复杂任务中的鲁棒性。

一、推理中的自我优化

推理仍然是优化 LLMs 以应对复杂逻辑推断和情境决策任务的核心挑战。在此背景下，自我优化成为一种强大的机制，能够在文本生成过程中或之后迭代定位并纠正错误，显著提升推理深度和整体可靠性。自我优化方法可分为四类：内在自我优化，依赖模型自身的内部推理循环；外部自我优化，结合外部反馈资源；微调的内在自我优化，基于自生成修正迭代更新模型推理过程；以及微调的外部自我优化，利用外部信号和微调以更自适应、长期的方式优化推理。

1. 内在自我优化

内在自我优化方法专注于赋能模型自身在无需外部工具的情况下检测并修复错误。例如，RCI 提示仅在发现矛盾或错误时触发修正，避免对轻微不确定性过度反应。CAI 修订则纠正不良输出（如冒犯性文本），同时教会模型自我调节响应。同样，Self-Refine 利用从低质量提示到高保真指令的转变，优化中间逻辑以提升一致性。CoVe 通过将多答案问题拆分为子任务，并分别验证每个子任务，确保整个推理链的精确性和一致性。

弱到强泛化（W2SG）方法利用先进算法，使强学生模型能够从能力较弱的教师模型产生的噪声演示中有效学习。该框架在不同领域取得了多项关键进展和应用。近期研究通过多种创新进一步提升了 W2SG。例如，集成学习技术已成功应用于提升 W2SG 方法的鲁棒性和有效性。

2. 外部自我优化

这些方法涉及外部反馈源或计算工具来指导和纠正模型的推理。CRITIC 系统性地检查逐步输出，提升复杂推理任务的可靠性。Reflexion 和 Self-Debug 分别将生成答案与参考解或少样本示例进行比较，迭代优化逻辑。FLARE 和 Logic-LM 等技术结合外部文档或符号求解器的参考，减少逻辑失误。RARR 和 SelfEvolve 证明，验证中间状态（如编译器消息或相关知识源）是早期修剪错误路径并引导模型获得正确解答的有效方式。RLHF提出了基于人类反馈的迭代偏好学习，包括在线场景下的迭代版直接偏好优化算法，以及离线场景下的多步拒绝采样策略。PIT则通过人类偏好数据隐式学习改进目标。

3. 微调的内在自我优化

通过专门针对内部修正进行微调，这些方法系统性地强化了 LLM 的自我纠错循环。Self-Critique 旨在通过自我审查提升摘要质量，SelFee 则利用迭代反馈循环确保更高的逻辑一致性。Volcano 通过在 LLM 架构中微调专用修正模块，减少多模态幻觉，RL4F 则利用基于强化学*的批判循环，在需要深入推理的基准测试中平均提升 10% 的性能。REFINER 同样专注于中间推理路径，无需改变模型原始生成过程，证明通过训练模型仔细复查部分输出可实现持续改进。此外，易到难泛化作为 W2SG 的一种有前景的变体，模型先在易于验证的样本上训练，再处理更复杂任务。其中一个显著实现是先在可由人类验证的样本上训练强奖励模型，再用其指导更强模型完成挑战性任务。此外，W2SG 的有效性已在计算机视觉等领域
状态空间是 MDP 的核心，每个状态代表当前推理轨迹，包括语言和结构信息。具体来说，包含初始查询、之前的推理步骤，以及编码逻辑依赖和中间结论的内部记忆表示，如部分解或推断关系。状态会随着推理过程动态演化，既整合显式生成的路径，也融合上下文理解的隐含知识。例如，在数学证明中，可能包括题目陈述、已推导的方程和可用定理的记忆，确保模型在多步推理或文本生成等任务中保持逻辑连贯。

2）动作空间

动作空间定义了每一步可能的决策，动作即选择下一个推理步骤。动作可以是生成自然语言片段、应用预定义的逻辑或数学变换（如代数简化）、从知识库中选取相关定理或规则，或在获得结论时终止推理。动作空间可离散（如在形式化证明中选择有限逻辑规则），也可连续（如在开放式推理中生成自由文本），体现了 LLM 的生成灵活性。这种双重性使模型能适应结构化领域（如符号逻辑）和非结构化领域（如常识推理），灵活调整策略，始终朝着问题的解决方向前进。

3）状态转移函数

状态转移函数描述了每次动作后状态的演化，决定了 MDP 框架下推理轨迹的推进。与传统 RL 环境中外部变量引入的随机性不同，LLM 的推理转移主要是确定性的，由模型的自回归输出或结构化推理规则驱动，如在证明中应用演绎步骤。但由于模型知识有限、状态不明确或文本生成中的概率采样，仍会出现不确定性。自回归 LLM 的转移过程通常是可预测的序列生成，但错误累积或理解偏差的可能性要求 RL 设计具备鲁棒性，以确保在多样化场景下推理的可靠性。这种“确定性中带不确定”的动态，凸显了需要自适应策略来稳定推理过程，无论是精确的数学推导还是复杂的文本生成。

4）奖励函数

奖励函数是 MDP 的评估核心，为每一步推理质量提供关键反馈，指导模型学习。与游戏等传统 RL 任务的显式奖励不同，推理任务的奖励设计需兼顾稀疏与密集，反映任务复杂性和目标。稀疏奖励如仅在最终答案正确时赋值，简单但在多步任务中学习速度慢；密集奖励则根据每步正确性、逻辑有效性或与人类偏好的一致性，提供细粒度指导。这种灵活性使奖励函数能适应多样推理需求，无论是证明中有效推理规则的应用，还是叙述段落的连贯性，确保模型获得有意义的信号，优化即时和长期推理策略。

5）折扣因子

折扣因子：标量，决定即时与未来奖励的权衡。较高的鼓励多步推理优化，促进深层次的推理链而非短期策略。

综上，MDP 框架的目标是学习最优推理策略，以最大化期望累计奖励：该框架支持应用 PPO 或 A2C 等 RL 技术，通过环境反馈不断优化 LLM 的推理能力。

推理中的奖励设计

与游戏分数等传统 RL 任务不同，LLM 推理需要结构化奖励设计，兼顾正确性、效率和信息量。常见方法包括：

1）二元正确性奖励

最终答案正确则，否则为 0，简单但反馈稀疏，方差较大；

2）逐步准确性奖励

根据推理规则有效性或中间步骤一致性，逐步提供反馈，指导多步推理；

3）自一致性奖励

衡量多条推理路径的一致性，路径一致则奖励更高，提升鲁棒性；

4）偏好型奖励

基于 RLHF 或 RLAIF，由人类或 AI 反馈训练的模型评估推理质量，为复杂任务提供细致指导。

3. 基础模型的大规模强化学习

大规模强化学习已成为提升 LLM 推理能力的变革性后训练范式，突破了传统 SFT 的局限，转向动态、自我进化的优化策略。该方法利用大规模计算框架和迭代奖励反馈，直接优化基础模型，无需预先标注数据，实现复杂推理技能的自主发展。通过大规模 RL，LLM 能解决多步推理任务（如数学问题、逻辑推理、战略规划），而传统 SFT 受限于静态人工数据。DeepSeek-R1 就是这一范式的典型代表，采用先进 RL 技术，在优化资源效率的同时实现了最前沿的推理表现。本节将详细介绍 DeepSeek-R1 的关键方法，包括新型优化算法、自适应探索和轨迹管理，这些共同推动了 RL 驱动推理的潜力。

1）群体相对策略优化（GRPO）

DeepSeek-R1-Zero 模型采用了 Proximal Policy Optimization（PPO）的高级变体—群体相对策略优化（GRPO），以缓解传统 RL 训练 LLM 时的高计算和资源消耗。与标准 PPO 依赖Critic网络不同，GRPO 通过群体基线估计简化优化流程，大幅降低训练开销，同时保持策略更新的鲁棒性。这种高效性使大规模 RL 能在资源有限的系统上部署，支持跨长轨迹的推理策略迭代优化。GRPO 的应用使 DeepSeek-R1-Zero 成为可扩展的推理增强方案，是当前 RL 驱动推理研究的基石。

2）DeepSeek-R1-Zero

DeepSeek-R1-Zero 展现了大规模 RL 的变革潜力，无需传统 SFT 预训练，完全依靠 RL 自我进化。该方法通过奖励反馈迭代优化内部推理链，无需预标注数据，模型能自主发展复杂推理技能。在多步推理任务（如数学问题、逻辑推导）中表现显著提升，证明了 RL 能从基础模型激发高级推理能力。作为最强开源推理模型之一，DeepSeek-R1-Zero 的成功验证了冷启动 RL 策略的可行性，既节省资源，又能达到最前沿水平。

3）步进式奖励建模

为指导整个推理轨迹，DeepSeek-R1 采用步进式奖励模型，在每个时间步提供细粒度反馈，定义为，其中包含人工标注的 CoT 序列及步骤级正确性标签。这种密集奖励结构不同于仅在序列末端给出奖励的稀疏方式，能即时、有效地评估每步推理质量，帮助模型精准优化策略。借助专家数据，奖励模型确保反馈符合人类推理标准，在长链推理任务中保持一致性和准确性，是解决复杂逻辑合成问题的关键。

4）自适应探索

DeepSeek-R1 通过自适应探索机制优化策略目标：其中熵项由自适应系数调节，依据轨迹奖励方差动态调整。该方法平衡探索与利用，训练初期鼓励多样推理路径，方差降低后收敛于最优策略，从而提升推理的鲁棒性和效率。

5）轨迹剪枝

为提升推理过程的计算效率，DeepSeek-R1 引入双注意力评论器，结合局部步骤评估与全局轨迹上下文，综合评估每个状态的价值。当时，剪除低价值推理路径，将资源集中于高质量轨迹。该机制减少无效探索，加速收敛，确保模型优先处理高质量推理序列，是其在复杂推理任务中表现卓越的关键。

4. 冷启动 RL 推理

DeepSeek-R1-Zero 进一步推动 RL 应用，采用冷启动策略，完全依赖大规模 RL，从未训练的基础模型出发。该自我进化方法通过迭代反馈优化推理链，无需预标注数据，直接在推理任务上训练。DeepSeek-R1-Zero 的表现与 SFT 初始化模型（如 DeepSeek-R1）相当甚至更优，既减少了对大规模标注数据的依赖，也展示了 RL 自主发展复杂推理能力的潜力，为未来 LLM 发展提供了可扩展范式。总体而言，RL 为推理能力提升提供了有力框架，奖励设计、策略优化（如 GRPO）和探索机制至关重要。未来研究可探索融合模仿学习或自监督目标的混合方法，进一步优化推理能力，巩固 RL 在 LLM 推理中的核心地位。

高效PoLMs

后训练效率专注于 LLMs 在初始预训练后的运行性能。其主要目标是优化关键部署指标（如处理速度、内存使用和资源消耗），从而使LLMs更适用于实际应用场景。实现后训练优化的方法主要分为三类：模型压缩，通过剪枝、量化等技术减少整体计算负载；参数高效微调，仅更新部分模型参数或采用专用模块，降低再训练成本；知识蒸馏，将更大的预训练模型的知识迁移到较小模型上，使小模型在资源消耗更低的情况下获得相近的性能。

一、模型压缩

模型压缩是一类旨在降低LLMs规模和计算需求的技术，包括训练后量化、参数剪枝和低秩近似。

1. 训练后量化-PTQ

量化是 LLMs 的关键压缩方法之一，它将高精度数据类（如 32位浮点数）转换为低精度格式（如 8 位整数）。其转换公式为：其中表示量化常数，指元素的绝对最大值，用于将浮点数转换为整数。LLM 量化包括训练后量化（PTQ）和量化感知训练（QAT）。PTQ 在模型完成训练后调整模型权重和激活值，利用小型校准数据集优化计算效率和性能。

1）仅权重量化（WOQ）

WOQ 主要压缩模型权重以提升效率。GPTQ 采用分层量化和最优脑量化（OBQ），将权重压缩至 3 或 4 位，降低内存和处理时间。QuIP 通过非一致性处理实现 2 位量化，进一步提升紧凑性。AWQ 和 OWQ 则通过对敏感权重保持高精度，减少推理时的精度损失。SpQR 结合稀疏量化与解码，实现高效逐 token 推理并保持模型响应性。

2）权重-激活联合量化（WAQ）

WAQ 将权重和激活值联合量化以提升效率。LLM.int8()针对激活异常值采用精确存储，并量化至 8 位以保持性能。SmoothQuant采用逐通道缩放，将量化难点从激活转移到权重，实现无损量化。OS+通过通道级偏移和缩放缓解异常值影响，提升效率。OmniQuant将量化难点从激活转移到权重，并微调极值裁剪阈值。RPTQ通过通道分组，确保量化参数的一致性，进一步提升效率。

3）KV-Cache 量化（KVQ）

KV-Cache量化解决了LLMs在输入token数量增加时的内存优化难题。KVQuant针对大上下文长度推理提出专用方法，在性能损失极小的情况下实现高效推理。KIVI通过对key和value cache分别采用不同量化策略，实现无需微调的2位量化和显著内存节省。WKVQuant进一步采用二维量化和跨块正则化，带来与权重-激活量化相当的内存效率和接近的性能。

2. 参数剪枝

参数剪枝是提升LLMs效率的重要技术，通过减少模型规模和复杂度而不损失精度。剪枝分为非结构化剪枝和结构化剪枝。

1）非结构化剪枝

非结构化剪枝通过去除不重要的权重提升LLMs的稀疏性。SparseGPT 采用一次性剪枝实现高达60%的稀疏度且损失极小。Wanda基于权重幅值和激活进行剪枝，无需再训练。SAMSP利用Hessian矩阵敏感性动态调整稀疏度，减少误差。DSnoT通过迭代剪枝提升性能。Flash-LLM则从全局内存检索稀疏权重，并在片上缓冲区密集重构以实现高效计算。

2）结构化剪枝

结构化剪枝针对参数组整体剪枝，提升硬件效率并简化结构。例如，LLM-runer评估LLaMA重要性并用LoRA恢复剪枝后精度。FLAP利用结构化指标无须微调即可优化压缩。SliceGPT采用PCA剪枝并保持效率。Sheared LLaMA通过正则化剪枝优化模型形状。LoRAPrune基于LoRA重要性迭代结构化剪枝提升效率。Deja Vu通过预测关键注意力头和MLP参数，利用上下文稀疏性降低延迟并保持精度。

低秩近似

低秩近似通过将权重矩阵近似为更小的矩阵和，实现，从而减少参数数量并提升运行效率。例如，TensorGPT采用张量列分解（TTD）开发更高效的嵌入格式。LoSparse将低秩近似与剪枝结合，专注于压缩相关神经元成分。FWSVD实现加权SVD，ASVD提供无训练SVD，两者均面向后训练效率。SVD-LLM进一步通过建立奇异值与压缩损失的直接关系提升压缩效果。

二、参数高效微调（Parameter-Efficient Fine-Tuning）

参数高效微调（PEFT）的过程是将LLMs的主干参数全部冻结，仅对新添加的少量参数进行修改。PEFT方法分为四类：加性PEFT、选择性PEFT、重参数化PEFT和混合PEFT。

1. 加性PEFT

加性PEFT通过在LLMs中加入新的可训练模块，而不改变原有参数，实现特定任务的微调，同时保留基础模型的知识，从而高效完成微调。

1）Adapters

Adapter在Transformer块中集成了紧凑层，其定义如下：其中，adapter 层包含降维投影矩阵、非线性激活函数和升维投影矩阵。为隐藏层维度，为瓶颈维度，降低复杂度同时保持性能。在此基础上，Serial Adapter 在每个 Transformer 块中引入了两个模块；AdapterFusion 通过在后放置 adapter 提高了效率；Parallel Adapter（PA）让 adapter 与子层并行运行，CoDA 也采用了并行优化。与 AdapterFusion 不同，MerA 通过最优传输技术统一了 adapter 的权重和激活。

2）Soft Prompt

Soft prompt 通过在输入序列中添加可调向量（而非优化离散 token）提升模型性能，其形式化如下：其中表示 soft prompt token，为原始输入 token，和分别为 soft prompt 和原始输入 token 的数量。Prefix Tuning 在 Transformer 层间引入可学习向量，通过重参数化稳定训练，并被 P-Tuning v2 和 APT 进一步优化。Prompt Tuning 则专注于初始嵌入层，实现低计算成本的大模型优化。Xprompt 和 IDPG 简化了 prompt 的生成与插入。SPoT 和 PTP 解决了稳定性和收敛速度问题，DePT 和 SMoP 通过优化 prompt 结构降低了计算需求。

3）其他加性方法

除上述技术外，(IA) 和 SSF 等方法通过对模型参数进行极小但有效的调整，实现了训练后高效微调。自注意力和前馈网络（FFN）操作定义如下：
其中表示 Hadamard 乘积，缩放向量和可平滑地集成到和的权重矩阵中。此外，IPA 可将 GPT-4 等 LLM 与用户需求对齐，无需更改底层模型，从而在微调过程中保持高效。

2. 选择性 PEFT

选择性 PEFT 通过仅微调部分参数提升效率。具体做法是对参数应用二值掩码，其中每个表示是否被选中微调。更新后的参数集表达为：其中为学习率，为损失函数的梯度。仅选中的参数会被更新，从而降低计算成本并保持有效性。早期方法包括 Diff pruning，通过可微范数对可学习二值掩码进行正则化；FishMask 基于 Fisher 信息选择更相关参数；LT-SFT 应用彩票假设（Lottery Ticket Hypothesis）识别关键参数；SAM 采用二阶*似进行选择；Child-tuning 在子网络中动态选择参数。此外，FAR 和 BitFit 通过优化特定参数组进一步体现了选择性 PEFT 的思想。

3. 重新参数化 PEFT

重新参数化 PEFT 主要采用低秩参数化以提升效率。LoRA（低秩适应）引入了两个可训练矩阵，和，并将输出修改为：其中是缩放因子。这种方法允许高效地适应新任务，同时保留核心知识。在 LoRA 的基础上，Intrinsic SAID 通过最小化微调参数空间进一步降低计算需求。动态变体如 DyLoRA 和 AdaLoRA 可根据任务需求动态调整秩，AdaLoRA 还结合了基于 SVD 的剪枝以提升效率。SoRA 通过去除正交约束简化了流程，Laplace-LoRA 则采用贝叶斯校准进行微调。

Compacter 和 VeRA 进一步减少了参数复杂度。此外，DoRA 优化了方向分量的更新，HiRA 采用 Hadamard 积实现高秩更新，从而提升了效率和性能。为应对多任务和不断变化的领域，Terra 集成了时变矩阵，ToRA 则利用 Tucker 分解进一步优化 LoRA 结构。

除了结构设计外，PiSSA 和 LoRA-GA 通过 SVD 和梯度对齐优化了 LoRA 的初始化。同时，LoRA+、LoRA-Pro 和 CopRA 进一步优化了梯度更新策略。ComLoRA 则采用竞争学*机制，选择表现最佳的 LoRA 组件。

4. 混合型 PEFT

混合型 PEFT 方法通过集成或优化多种微调策略提升后训练效率。典型方法 UniPELT 将 LoRA、前缀微调和适配器融合于 Transformer 块中，并通过前馈网络（FFN）产生标量的门控机制动态激活各组件，从而优化参数利用率。另一创新方法 MAM Adapter 通过在自注意力层中战略性地放置前缀微调，并在前馈层中使用缩放并行适配器，进一步优化了该技术。此外，基于 NAS 的方法如 NOAH 和 AUTOPEFT 通过识别针对特定任务的最优 PEFT 配置提升后训练效率。HeadMap 采用贪婪方法识别关键注意力头（即知识电路），并通过将这些注意力头的输出映射
黑盒 KD 指学生模型仅从教师模型的输出 logits 学习，而无法访问其内部表示或架构细节。这种方法最初由 Hinton 提出，因其灵活性被广泛采用。黑盒 KD 的主要优势在于将教师模型视为一个不透明黑盒，即使教师模型为专有或预训练模型且访问受限，也能实现知识迁移。

在实际应用中，大型教师 LLMs（如 GPT-4）常用于生成高质量输出，而较小的语言模型（SLMs），如 GPT-2，则作为学生模型。这些 SLMs 在保持强泛化能力的同时优化了效率，适合部署于资源受限环境。

白盒蒸馏

白盒 KD 在传统蒸馏范式基础上，利用教师模型的内部表示进行更丰富的监督。当教师模型架构已知且可访问时，白盒 KD 能为学生模型提供更丰富的信息。与黑盒 KD 仅将教师模型视为不透明函数不同，白盒 KD 允许学生模型不仅从教师输出 logits 学习，还能利用其中间激活、隐藏层甚至注意力权重。

DeepSeek-R1：推理模式的直接蒸馏

DeepSeek-R1 通过将大规模模型中的复杂推理模式蒸馏到紧凑架构中，显著提升了SLMs的推理能力，而无需在SLMs上直接进行高成本的强化学习。该方法称为直接蒸馏，利用由大型教师模型生成的约 80 万样本的精心数据集，其中包括 20 万条由 DeepSeek-V3 生成的非推理实例和 60 万条由 DeepSeek-R1-Stage1 检查点生成的推理实例。这些样本为 SFT 阶段提供了基础，使开源基础模型（如 Qwen 和 LLaMA mini 变体）能够继承大型模型的复杂推理能力。

DeepSeek-R1 的直接蒸馏过程分为结构化管道。首先，经过大规模数据预训练的教师模型生成涵盖推理与非推理输出的多样语料，捕捉逻辑模式和事实知识。非推理数据（约 20 万条）提供了通用知识基线，推理数据（约 60 万条）则包含多步推理链，体现了教师模型的高级能力。随后，这些数据用于 SFT 阶段，学生模型通过对齐输出分布进行训练，利用推理数据直接微调小模型，实现紧凑的推理模型蒸馏。与传统强化学习直接应用于小模型（因容量有限导致推理能力不足）不同，DeepSeek-R1 的直接蒸馏通过迁移预优化的推理行为，提升了性能并降低了资源消耗。

DeepSeek-R1 KD 方法的显著特点在于跨模型规模保持推理完整性。通过集成 DeepSeek-R1-Stage1（经大规模强化学习优化的检查点）的推理轨迹，学生模型不仅能复制事实准确性，还能模拟复杂的推理过程，如数学问题求解或逻辑推断。这种有针对性的迁移不同于传统 KD 侧重分类任务，凸显了 DeepSeek-R1 在推理导向蒸馏方面的创新。此外，该方法通过利用教师模型预计算的推理输出，减少了学生模型强化学习迭代需求，提升了训练效率和可扩展性。该方法为将高级推理能力蒸馏到紧凑 LLM 提供了范例，为未来后训练优化工作提供了蓝图。

PoLMs的集成与适应

集成与适应技术对于提升大语言模型（LLMs）在多样化真实世界应用中的多功能性和有效性至关重要。这些方法使 LLMs 能够无缝处理异构数据类型，适应专业领域，并融合多种架构优势，从而应对复杂、多层次的挑战。多模态集成：使模型能够处理文本、图像和音频等多样数据模态；领域适应：针对特定行业或用例优化模型；模型融合：将不同模型的能力整合以优化整体性能。这些方法共同提升了 LLMs 的适应性、效率和鲁棒性，拓宽了其在各类任务和场景中的应用范围。

一、多模态集成

尽管有监督微调提升了 LLMs 在特定任务中的表现，但其在充分发挥多模态能力方面仍有限，因此需要更复杂的后训练方法。这些技术使 LMMs 能够应对复杂的跨模态任务，通过将多样数据类型集成到统一框架中。通常，LMMs 包含模态编码器、预训练的 LLM 主干和模态连接器。该架构为后训练方法奠定了基础，通过优化各组件，实现强大的多模态集成与性能提升。

1. 模态连接

模态连接方法对于将多模态数据综合为一致的表示框架至关重要，主要分为三类：基于投影、基于查询和基于融合的方法。

1）基于投影的模态连接
投影方法将不同模态输入转换为统一的文本嵌入空间，使其特征与 LLMs 的语言维度对齐，实现无缝集成。例如，LLaMA-Adapter 通过引入图像编码器，将 LLMs 扩展为多模态系统，实现基于图像的指令跟踪。其升级版 LLaMA-Adapter V2 在 LLMs 早期层嵌入视觉标签，提升视觉知识的融合。FROMAGe 通过微调冻结的 LLM 和视觉编码器的输入输出层，实现跨模态交互；LLaVA-1.5 利用双线性多层感知机（MLP）增强多模态处理的鲁棒性。Shikra 通过集成空间坐标提升自然语言对话能力，VILA 优化视觉-语言预训练以实现更强的零样本能力。DetGPT 将推理驱动的目标检测与自然语言交互结合，利用投影技术实现高效多模态通信。SOLO 采用单一 Transformer 架构，实现端到端的视觉-语言建模，直接接受原始图像像素和文本输入，无需单独的预训练视觉编码器。MiniGPT-4 通过单一投影层将冻结的视觉编码器与 Vicuna 对齐，采用两阶段训练实现 GPT-4 级能力。Idefics 以自回归设计和多阶段预训练实现高效推理。LaVIT 通过离散视觉分词器统一视觉与语言，实现无缝生成。DeepSeek-VL2 通过动态分块和多头潜在注意力提升高分辨率图像理解。Qwen2.5-VL 通过重新设计的视觉 Transformer，在感知和视频理解任务中表现突出。

2）基于查询的模态连接
查询方法通过可学习的查询 token 从不同模态中提取结构化信息，弥合文本与非文本数据的鸿沟。BLIP-2 首创查询 Transformer，将文本与视觉输入高效集成。Video-LLaMA 将该技术扩展到视频理解，结合多种视觉编码器；InstructBLIP 优化查询机制，确保指令精确执行。X-LLM 通过专用接口对齐多模态输入，mPLUG-Owl 和 Qwen-VL 优化 Q-Former 架构以提升计算效率。LION 进一步展示了查询方法在视觉知识融合中的有效性，提升了 LMMs 在多任务中的表现。Qwen-VL 系列基于 Qwen-7B，集成视觉感受器、位置感知适配器和三阶段训练流程，实现多语言、细粒度视觉-语言理解。Lyrics 框架通过视觉细化器（图像标注、目标检测、语义分割）和多尺度查询 Transformer（MQ-Former），提升大规模视觉-语言模型的语义感知能力。

3）基于融合的模态连接
融合方法通过将多模态特征直接嵌入 LLMs 架构，在推理阶段实现更深层次的跨模态交互。Flamingo 采用交叉注意力层，在 token 预测时融合视觉特征，实现动态多模态处理。OpenFlamingo 允许冻结的 LLMs 关注视觉编码器输出，提升灵活性。Otter 引入指令微调，增强多模态指令跟随能力。CogVLM 在 Transformer 层集成视觉专家模块，实现特征无缝融合。Obelics 利用交错的图文训练数据，展现了融合方法在实现一致多模态表现上的鲁棒性。InternVL 扩展视觉编码器至 60 亿参数，并通过语言中间件（QLLaMA）逐步对齐 LLMs。Llama 3 是 Meta 开发的新一代多语言、工具型基础模型，参数规模达 4050 亿，支持 128K token 上下文窗口，通过提升数据质量、大规模训练和结构化后训练策略实现优化。

2. 模态编码器

模态编码器将原始多模态输入压缩为紧凑且语义丰富的表示，支持在多样任务和模态下高效处理。这些组件对于将异构数据转换为 LLMs 可兼容格式至关重要，应用涵盖视觉推理、音频理解等。

1）视觉编码器
视觉编码器是多模态学习的基础，使 LMMs 能够理解和生成视觉数据。CLIP 通过对比学习建立图文联合表示，提升跨模态对齐能力。EVA 优化视觉注意力机制，提高效率。ImageBind 构建多模态统一嵌入空间，提升零样本识别能力。SigLIP 引入配对 sigmoid 损失优化图文预训练，DINOv2 采用无监督学习从多源数据中提取鲁棒视觉特征。LLaVA 通过自指导策略将图像转化为文本描述，利用先进 LLMs 生成新型数据集。Video-ChatGPT 支持大规模指令数据集下的视频对话理解，BT-Adapter 通过高效时序建模优化视频理解。VideoChat 专注于时空推理，利用专用数据集，CoDi-2 和 Mipha 在多模态处理上实现效率提升。VL-Mamba 和 Cobra 引入状态空间模型优化推理，SPHINX-Tiny 强调数据多样性和训练效率。

2）音频编码器
音频编码器提升了 LMMs 处理和理解听觉输入的能力，拓展了多模态范围。SpeechGPT 集成大规模语音数据集与卷积、Transformer 架构，实现强大的指令跟随能力。AudioPaLM 结合文本与语音处理，采用通用语音模型（USM）编码器，在零样本语言翻译等任务中表现优异。WavCaps 利用 CNN14 和 HTSAT 缓解音频-语言数据稀缺问题，借助先进 LLMs 优化数据集质量，提升学*效果，凸显音频模态在多模态系统中的关键作用。

3）其他编码器
除视觉和音频外，3D 理解和多模态融合等编码器也是构建全面 LMMs 的关键。NEXT-GPT 支持文本、图像、视频和音频的跨模态内容生成，通过最小参数调整推进类人 AI 能力。ImageBind-LLM 对齐视觉与语言嵌入，提升跨模态指令跟随能力。LL3DA 处理点云数据，实现 3D 推理与规划，提出空间理解新方法。X-LLM 针对图像和视频输入采用 Q-Former，语音采用 C-Former，将音频特征压缩为 token 级嵌入，提升多模态学*效率。

二、域自适应

域自适应（Domain Adaptation, DA）是提升大语言模型（LLM）在特定领域表现的关键后训练策略，确保其在目标应用中的高效性。DA 基于迁移学习原理，将初始模型通过适应函数转化为领域专用模型：

该过程使能够应对指定领域的独特需求和复杂性，从而优化其性能和相关性。通过提升 LLM 在编程、数学推理等领域的能力，DA 不仅增强了领域专用能力，还提高了计算效率，克服了通用模型在领域术语和推理范式上的不足。此外，DA 显著减少了训练领域专用模型所需的大量标注数据和计算资源，成为后训练方法的核心。

1. 知识编辑

知识编辑是一种高级后训练方法，旨在修改 LLM 以满足领域特定需求，同时保持其基础能力。该技术通过有针对性的参数调整，既保留模型原有性能，又能快速集成新的或更新的领域知识。知识编辑支持模型对不断变化的知识环境进行快速适应，成为后训练流程不可或缺的一环。主要方法如外部知识利用、集成和内在编辑。

1）知识编辑的形式化定义
设原始 LLM 参数为，在数据集上预训练。令为包含新或更新信息的数据集。知识编辑的目标是通过调整得到修正后的参数，使模型有效吸收并尽量减少对性能的影响。形式化为约束优化问题：其中其中表示在新数据集上的损失函数（如交叉熵）。为保护原始数据集上的性能，需满足如下约束：为限制性能损失的小常数。该公式确保能集成新知识同时保留原有知识库。实际操作中，可限制在特定结构（如注意力层或前馈网络），以降低计算开销并避免全面重训练。

2）知识识别
知识编辑的首要阶段是检测并吸收新信息。PokeMQA采用可编程范围检测器和知识提示高效检索相关事实。SERAC结合反事实模型和分类器，判断新知识源的适用性，采用最小侵入式方法保护基础模型，无需大规模结构修改。EvEdit基于事件提出知识锚点和更新边界，解决知识更新导致的涟漪效应。

3）知识关联
在识别后，将新信息与模型现有知识框架关联。Transformer-Patcher适配 Transformer 架构以集成更新事实，CaliNET重新校准参数以匹配事实内容。Eva-KELLM，MELO，REMEDI等方法针对特定行为进行精细更新，GRACE则提升知识插入后的预测准确性，实现与原有表示的无缝融合。

4）内在知识编辑
最后阶段将关联后的事实嵌入模型内部结构，实现全面吸收。传统微调计算资源消耗大，先进技术可缓解此负担。受限微调和元学习减少知识丢失和过拟合风险。Editable Training 和 KnowledgeEditor 支持快速参数调整，性能影响小；SLAG， MEND，MALMEN解决编辑冲突并支持大规模更新，确保基础能力的同时集成新领域知识。LLM Surgery 通过反向梯度移除过时数据、梯度下降集成新事实，并引入 KL 散度项保护现有知识，实现高效计算。KNE 采用知识神经元集成方法，仅定位并更新与新知识强相关的神经元，实现更精确编辑并保护无关知识。OVERTONE 针对异质 token 过拟合问题，提出 token 级平滑技术，自适应优化训练目标，保护预训练知识并提升模型对新知识的推理能力。这些技术确保模型在集成新知识的同时保留基础能力。

2. 检索增强生成（RAG）

检索增强生成（Retrieval-Augmented Generation, RAG）将传统信息检索与现代 LLM 结合，提升生成内容的相关性和事实准确性。RAG 动态检索外部信息并嵌入生成过程，弥补 LLM 在领域知识上的不足，减少幻觉内容。该方法在需要精确、最新信息的领域（如问答系统、科学研究、医疗）表现尤为突出，能高效处理复杂查询和知识密集型任务。此外，RAG 能降低对话系统中误导性回答的发生率，提升知识驱动的自然语言生成质量。

因无训练 RAG 可能因缺乏任务优化而影响知识利用效率，因此我们聚焦于基于训练的 RAG 方法。三种主流训练策略——独立训练、顺序训练和联合训练——提升了模型的适应性和集成能力。

1）独立训练
该策略将检索器和生成器作为独立模块训练，可灵活选择稀疏或稠密检索器以适应任务需求。DPR采用双 BERT 网络分别编码查询和段落，通过对比学习优化检索，无需生成器参与。Reward-RAG 仅根据 GPT 反馈微调检索器，生成器保持不变。

2）顺序训练
顺序训练通过依次优化模块提升效率，促进检索器与生成器协同。Retriever-First 方法（如 RETRO）先预训练 BERT 检索器，再训练编码-解码器以集成检索内容，提升性能。LLM-First 方法（如 RA-DIT）则先微调语言模型以有效利用检索知识，再优化检索器以增强一致性和连贯性。

3）联合训练
联合训练在端到端框架下同步优化检索器和生成器。RAG通过最小化负对数似然联合训练两者，REALM则利用最大内积搜索（MIPS）提升检索精度。这些方法能根据任务需求调整，最大化外部知识利用并减少生成错误。

三、模型融合

模型融合已成为提升大语言模型（LLM）在训练和推理阶段性能与效率的重要后训练策略。该方法通过整合多个专用模型为统一架构，避免了大量的再训练需求，并有效应对了模型规模庞大和计算资源消耗等挑战。与在混合数据集上训练不同，模型融合是将单任务模型集成为具备多任务能力的整体，从而为多任务学习提供了一种资源高效的范式。通过简化训练流程并促进通用模型的开发，模型融合优化了 LLM 在多样化应用场景下的部署。给定候选模型集合，目标是设计一个融合函数，生成统一模型，通常以基础模型为锚点：

1. 分层级的模型融合方法

模型融合技术系统性地分为三大层级：权重级、输出级和模型级融合。

1）权重级模型融合

权重级融合直接操作参数空间，适用于架构相似或任务相关的模型。形式化地，给定参数集合，线性融合方案将其聚合为统一参数：其中Model Soup 通过线性组合不同任务微调后的模型权重，得到高效的单一模型。Task Arithmetic (TA) 则通过参数算术操作提升模型适应性。为缓解参数对齐问题，TIES-merging 保证参数一致性，DARE 通过概率性调整参数差异，优化融合过程的连贯性与效率。

2）输出级模型融合

当模型架构或初始化差异较大时，输出级融合更为适用。该方法聚合模型的输出分布而非内部参数，公式如下：其中和分别为模型和的概率分布。类似集成策略，该方法将多个模型的预测合成为统一输出。LLMBlender 通过独立生成输出并结合排序与生成过程进行融合，FuseLLM
该方法采用参数平均或任务向量算术，任务向量定义为第个任务微调参数与初始参数的差异：多任务学习可通过实现。尽管计算高效且概念简洁，但该方法易受任务间参数干扰影响，限制了在复杂任务场景下的应用。

2）加权融合

该策略根据各模型的重要性动态分配融合系数，优化融合结果。MetaGPT 通过归一化每个任务向量的平方 L2 范数计算最优权重：参数变化较大的任务获得更高权重。SLERP 采用球面插值实现参数平滑过渡，保持模型连续性，Layer-wise AdaMerging 则在每层优化系数，提升融合的任务精度。

3）子空间融合

该方法将模型参数投影到稀疏子空间，减少干扰并保持计算效率，解决参数贡献重叠问题。TIES-Merging 保留幅值最大的 20% 参数并解决符号冲突，DARE 缩放稀疏权重以减少冗余，Concrete 通过双层优化生成自适应掩码，确保模型组件的精细整合并降低任务间干扰。

4）路由式融合

该技术根据输入特征动态融合模型，实现上下文响应式集成。SMEAR 计算样本依赖的专家权重以突出关键特征，Weight-Ensembling MoE 通过输入驱动路由线性层实现选择性激活，Twin-Merging 融合任务共享与任务私有知识，构建灵活的融合框架，提升多任务鲁棒性。

5）后校准

该方法在融合后通过对齐统一模型与独立模型的隐藏表示，纠正表示偏差，缓解性能下降。Representation Surgery 通过提升表示一致性，增强融合模型的鲁棒性与准确性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

以上全套大模型资料如何领取？

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于神经网络的汽车与自行车的分类算法设计与实现，采用ResNet50和迁移学习，准确率达到99%

AtomGit开源社区

曲辕RPA-AI自动搭建流程

摘要：曲辕RPA通过AI自动搭建流程功能实现零学习成本，用户可通过对话描述需求自动生成RPA流程，支持持续优化和错误修复。系统提供元素捕获辅助、流程分析、指令教学等功能，支持手动与AI混合编辑。建议使用高版本（RPA≥8.9.0）并配置优质大语言模型以获得最佳效果，遇到问题可尝试重新提问或切换思考模式。不推荐使用上下文较短的glm-5.1和kimi-2.6模型。

AtomGit开源社区

【空间压榨到倒计时】真 · O(1) 原地起飞：我与 AI 死磕 LeetCode 1260 的 6 阶进化录

从最初粗糙的 K次单步模拟到直觉的二维分块翻车；看到官方完美的一维映射新矩阵解法；被激发出空间强迫症，跨越空间鸿沟推导出了真 · O(1) 空间的环状多米诺置换（DFS与纯迭代）；惊叹于 AI 抛出的三次翻转美学；最终，用最大公约数（GCD）定理在数论层面实现终极闭环。刷题的乐趣从来不在于 AC 数量的堆砌，而在于你能不能在一个看似简单的官方及格方案后面，把问题的底层物理结构和数学本

AtomGit开源社区

所有评论(0)

查看更多评论

程序员糖仔

@qq_46094651

已为社区贡献217条内容

大模型后训练：小白程序员进阶指南，收藏必备！

程序员糖仔

导读

1. 策略优化原理

2. RLHF 原理

3. DPO 原理

4. GRPO 原理

1. SFT 数据集准备

2. SFT 过程

3. 全参数微调

1. 指令微调-Instruction Tuning

2. 前缀微调-Prefix-Tuning

3. 提示微调-Prompt-Tuning

2. RLHF 的奖励模型

3. RLHF 的策略学习

1. RLAIF 与 RLHF 的对比

2. RLAIF 训练流程

1. DPO 的基础

3. DPO 的训练细节

4. DPO 变体

1）优化生成的 DPO

2）可控与灵活的 DPO

3）列表式 DPO

4）负面 DPO

1. 内在自我优化

2. 外部自我优化

3. 微调的内在自我优化

2）动作空间

3）状态转移函数

4）奖励函数

5）折扣因子

3. 基础模型的大规模强化学习

1）群体相对策略优化（GRPO）

2）DeepSeek-R1-Zero

3）步进式奖励建模

4）自适应探索

5）轨迹剪枝

4. 冷启动 RL 推理

1. 训练后量化-PTQ

2. 参数剪枝

1. 加性PEFT

1）Adapters

2）Soft Prompt

3）其他加性方法

2. 选择性 PEFT

3. 重新参数化 PEFT

4. 混合型 PEFT

1. 模态连接

2. 模态编码器

1. 知识编辑

2. 检索增强生成（RAG）

1. 分层级的模型融合方法

1）权重级模型融合

2）输出级模型融合

2）加权融合

3）子空间融合

4）路由式融合

5）后校准

如何学习大模型 AI ？

① 全套AI大模型应用开发视频教程

② 大模型系统化学习路线

③ 大模型学习书籍&文档

④ AI大模型最新行业报告

⑤ 大模型项目实战&配套源码

⑥ 大模型大厂面试真题

以上资料如何领取？

为什么大家都在学大模型？

这些资料真的有用吗？

以上全套大模型资料如何领取？

所有评论(0)

温馨提示：您尚未绑定手机号

程序员糖仔