文章目录


以下为该 PDF 中 Abstract、1 Introduction、2 DeepSeek-R1-Zero 部分的中文翻译,引用括号保留原文格式。


摘要

通用推理一直是人工智能领域一个长期而艰巨的挑战。近年来,以大型语言模型(LLMs)(Brown et al., 2020; OpenAI, 2023) 和思维链提示(chain-of-thought prompting)(Wei et al., 2022b) 为代表的突破,在基础推理任务上取得了相当大的成功。然而,这种成功在很大程度上依赖于大量人工标注的示范,而且模型能力对于更复杂的问题仍然不足。在本文中,我们表明,LLM 的推理能力可以通过纯强化学习(RL)被激励出来,从而无需人工标注的推理轨迹。所提出的 RL 框架促进了高级推理模式的涌现式发展,例如自我反思、验证和动态策略调整。因此,经过训练的模型在数学、编程竞赛和 STEM 领域等可验证任务上取得了优越表现,超过了通过传统的、基于人工示范的监督学习训练出的同类模型。此外,这些大规模模型所展现出的涌现推理模式,可以被系统地利用,用于指导并增强较小模型的推理能力。


1. 引言

推理能力是人类智能的基石,它使复杂的认知任务成为可能,从数学问题求解到逻辑演绎和编程皆是如此。近年来,人工智能的发展表明,当规模扩大到足够程度时,大型语言模型(LLMs)能够表现出包括推理能力在内的涌现行为 (Kaplan et al., 2020; Wei et al., 2022a)。然而,在预训练阶段获得此类能力通常需要大量计算资源。与此同时,另一条互补的研究路线表明,大型语言模型可以通过思维链(CoT)提示得到有效增强。这种技术要么提供精心设计的少样本示例,要么使用诸如 “Let’s think step by step” 这样的极简提示 (Kojima et al., 2022; Wei et al., 2022b),使模型能够生成中间推理步骤,从而显著提升其在复杂任务上的表现。类似地,当模型在后训练阶段学习高质量、多步骤的推理轨迹时,也观察到了进一步的性能提升 (Chung et al., 2024; OpenAI, 2023)。尽管这些方法有效,但它们存在明显局限。它们对人工标注推理轨迹的依赖阻碍了可扩展性,并引入了认知偏差。此外,由于这些方法约束模型去复制人类思维过程,模型性能天然受到人类提供样例的上限限制,从而阻碍了对更优的、非人类式推理路径的探索。

为解决这些问题,我们旨在探索 LLM 在 RL 框架中通过自我演化发展推理能力的潜力,并尽量减少对人工标注工作的依赖。具体而言,我们基于 DeepSeek-V3-Base (DeepSeek-AI, 2024b),并采用组相对策略优化(Group Relative Policy Optimization, GRPO)(Shao et al., 2024) 作为我们的 RL 框架。奖励信号仅基于最终预测相对于真实答案的正确性,而不对推理过程本身施加约束。值得注意的是,我们绕过了 RL 训练前常规的监督微调(SFT)阶段。这一设计选择源于我们的假设:人类定义的推理模式可能限制模型探索,而不受限制的 RL 训练能够更好地激励 LLM 中新型推理能力的涌现。通过这一过程(详见第 2 节),我们的模型(称为 DeepSeek-R1-Zero)自然发展出了多样且复杂的推理行为。在解决推理问题时,模型表现出生成更长回答的倾向,并在每个回答中融入验证、反思以及对替代方法的探索。尽管我们并未显式教授模型如何推理,但它成功地通过强化学习学会了更优的推理策略。

尽管 DeepSeek-R1-Zero 展示了出色的推理能力,但它也面临一些挑战,例如可读性较差和语言混用,有时会在单个思维链回答中混合使用英语和中文。此外,DeepSeek-R1-Zero 的基于规则的 RL 训练阶段狭窄地聚焦于推理任务,导致其在写作和开放域问答等更广泛领域的表现有限。为应对这些挑战,我们引入 DeepSeek-R1,这是一个通过多阶段学习框架训练得到的模型,该框架整合了拒绝采样、强化学习和监督微调,详见第 3 节。该训练流程使 DeepSeek-R1 能够继承其前身 DeepSeek-R1-Zero 的推理能力,同时通过额外的非推理数据,使模型行为与人类偏好对齐。

为了让更强大的 AI 能以更低能耗被更广泛地使用,我们蒸馏了若干较小模型并将其公开发布。这些蒸馏模型展现出强大的推理能力,超过了其原始指令微调版本的表现。我们认为,这些指令微调版本也将为研究社区作出重要贡献:它们为理解长思维链(CoT)推理模型背后的机制提供了宝贵资源,并有助于推动更强大推理模型的发展。我们在 https://huggingface.co/deepseek-ai 向公众发布 DeepSeek-R1 系列模型。


2. DeepSeek-R1-Zero

我们首先详细阐述 DeepSeek-R1-Zero 的训练过程,该过程完全依赖强化学习,而不使用监督微调。为提升大规模 RL 的效率,我们采用组相对策略优化(GRPO)(Shao et al., 2024)。

2.1 组相对策略优化

GRPO (Shao et al., 2024) 是我们用于训练 DeepSeek-R1-Zero 和 DeepSeek-R1 的强化学习算法。该算法最初被提出,是为了简化训练流程并降低近端策略优化(Proximal Policy Optimization, PPO)(Schulman et al., 2017) 的资源消耗;PPO 被广泛用于 LLM 的 RL 阶段 (Ouyang et al., 2022)。

对于每个问题 (q),GRPO 从旧策略 (\pi_{\theta old}) 中采样一组输出 ({o_1, o_2, \cdots, o_G}),然后通过最大化以下目标来优化策略模型 (\pi_\theta):

[
J_{GRPO}(\theta)=\mathbb{E}[q\sim P(Q), {o_i}{i=1}^{G}\sim \pi{\theta old}(O|q)]
\frac{1}{G}\sum_{i=1}^{G}
\left(
\min\left(
\frac{\pi_\theta(o_i|q)}{\pi_{\theta old}(o_i|q)}A_i,
\text{clip}\left(
\frac{\pi_\theta(o_i|q)}{\pi_{\theta old}(o_i|q)},1-\varepsilon,1+\varepsilon
\right)A_i
\right)
-\beta D_{KL}(\pi_\theta||\pi_{ref})
\right)
]

[
D_{KL}(\pi_\theta||\pi_{ref})=
\frac{\pi_{ref}(o_i|q)}{\pi_\theta(o_i|q)}
-\log \frac{\pi_{ref}(o_i|q)}{\pi_\theta(o_i|q)}
-1
]

其中,(\pi_{ref}) 是参考策略,(\varepsilon) 和 (\beta) 是超参数,(A_i) 是优势值,它使用每组输出对应的一组奖励 ({r_1,r_2,\ldots,r_G}) 计算得到:

[
A_i=
\frac{r_i-\text{mean}({r_1,r_2,\cdots,r_G})}
{\text{std}({r_1,r_2,\cdots,r_G})}
]

我们在附录 A.3 中给出了 GRPO 与 PPO 的比较。为了训练 DeepSeek-R1-Zero,我们将学习率设为 (3e-6),KL 系数设为 0.001,并将 rollout 的采样温度设为 1。对于每个问题,我们采样 16 个输出,在 8.2k 步之前最大长度为 32,768 个 token,之后为 65,536 个 token。因此,DeepSeek-R1-Zero 的性能和回答长度都在 8.2k 步处出现了显著跃升;训练总共持续 10,400 步,对应 1.6 个训练 epoch。每个训练步骤包含 32 个不同问题,因此训练批大小为 512。每隔 400 步,我们用最新的策略模型替换参考模型。为加速训练,每次 rollout 生成 8,192 个输出,并将其随机划分为 16 个小批次,仅训练一个内部 epoch。

表 1 | DeepSeek-R1-Zero 的模板。 prompt 将在训练过程中被替换为具体的推理问题。

A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within … and … tags, respectively, i.e., reasoning process here answer here . User: prompt. Assistant:

我们的高性能 RL 基础设施在附录 B.1 中描述,它保证了训练的可扩展性和效率。


2.2 奖励设计

奖励是训练信号的来源,它决定了 RL 优化的方向。对于 DeepSeek-R1-Zero,我们采用基于规则的奖励,为数学、编程和逻辑推理领域的数据提供精确反馈。我们的基于规则的奖励系统主要由两类奖励组成:准确性奖励和格式奖励。

准确性奖励评估回答是否正确。例如,对于具有确定性结果的数学问题,模型需要以指定格式给出最终答案(例如放在方框中),从而能够可靠地基于规则验证其正确性。类似地,对于编程竞赛提示,可以利用编译器根据一组预定义测试用例评估模型回答,从而生成关于正确性的客观反馈。

格式奖励则补充准确性奖励模型,用于强化特定格式要求。具体而言,模型会受到激励,将其推理过程封装在指定标签中,即 ‘’ 和 ‘’。这确保模型的思维过程被明确划分出来,从而增强可解释性并便于后续分析。

[
Reward_{rule}=Reward_{acc}+Reward_{format}
]

准确性奖励和格式奖励以相同权重组合。值得注意的是,我们避免在推理任务上使用神经奖励模型——无论是基于结果的还是基于过程的。这一决定基于我们的观察:神经奖励模型在大规模强化学习过程中容易受到奖励黑客(reward hacking)的影响。此外,重新训练这类模型需要大量计算资源,并会给训练流程引入额外复杂性,从而使整体优化过程更加复杂。


2.3 激励 LLM 的推理能力

具体而言,我们将 RL 技术应用于 DeepSeek-V3 base,以训练 DeepSeek-R1-Zero。在训练过程中,我们设计了一个简单模板,要求 DeepSeek-R1-Zero 首先生成推理过程,然后给出最终答案。我们有意将约束限制在这种结构格式上,避免任何与内容相关的偏置,以确保能够准确观察模型在 RL 过程中的自然演进。

图 1(a) 展示了 DeepSeek-R1-Zero 在整个 RL 训练过程中于 AIME 2024 基准上的性能轨迹,其中 AIME 2024 上的平均 pass@1 分数显著提升,从最初的 15.6% 跃升至 77.9%。此外,通过利用自一致性解码 (Wang et al., 2023c),模型性能还可进一步提升,准确率达到 86.7%。这一表现显著超过了所有人类参赛者的平均表现。除数学竞赛外,如图 10 所示,DeepSeek-R1-Zero 在编程竞赛以及研究生水平的生物、物理和化学问题上也取得了卓越表现。这些结果凸显了 RL 在增强大型语言模型推理能力方面的有效性。

DeepSeek-R1-Zero 的自我演化体现了 RL 如何自主增强模型的推理能力。

如图 1(b) 所示,DeepSeek-R1-Zero 在整个训练过程中表现出思考时间的稳定增长,这完全由内在适应驱动,而非外部修改造成。借助长 CoT,模型逐步细化其推理过程,生成数百到数千个 token,用于探索并改进其问题求解策略。

思考时间的增加促进了复杂行为的自主发展。具体而言,DeepSeek-R1-Zero 越来越多地表现出高级推理策略,例如反思性推理和对替代解法的系统性探索(详情见附录 C.2 中的图 9(a)),这显著提升了其在数学和编程等可验证任务上的表现。值得注意的是,在训练过程中,DeepSeek-R1-Zero 展现出一个 “aha moment”(表 2),其特征是在反思中突然增加了对 “wait” 一词的使用(详情见附录 C.2 中的图 9(b))。这一时刻标志着推理模式的明显变化,并清楚展示了 DeepSeek-R1-Zero 的自我演化过程。

DeepSeek-R1-Zero 的自我演化凸显了 RL 的力量与美感:我们并没有显式教会模型如何解决问题,而只是为其提供了正确的激励,它便自主发展出了高级问题求解策略。这提醒我们,RL 具有释放 LLM 更高层次能力的潜力,并为未来更自主、更具适应性的模型铺平道路。

以下为 PDF 中 3 DeepSeek-R14 Experiment 部分的中文翻译,括号内引用保留原文格式。


3. DeepSeek-R1

尽管 DeepSeek-R1-Zero 展现出强大的推理能力,但它也面临若干问题。DeepSeek-R1-Zero 存在可读性较差、语言混用等挑战;这是因为 DeepSeek-V3-Base 使用多种语言训练,尤其是英语和中文。为解决这些问题,我们开发了 DeepSeek-R1,其流程如图 2 所示。

在初始阶段,我们收集了数千条冷启动数据,这些数据展现出一种对话式、与人类偏好对齐的思考过程。随后应用 RL 训练,以结合对话式思考过程和语言一致性来提升模型性能。之后,我们再次应用拒绝采样和 SFT。该阶段将推理数据集和非推理数据集都纳入 SFT 过程,使模型不仅能在推理任务上表现出色,也能展现出高级写作能力。为进一步使模型与人类偏好对齐,我们实施了第二阶段 RL,旨在提升模型的有用性和无害性,同时进一步优化其推理能力。

本节其余部分详细介绍该流程的关键组成部分:第 3.1 节介绍我们在 RL 阶段使用的奖励模型,第 3.2 节阐述具体的训练方法和实现细节。我们在该阶段使用的数据详见附录 B.3。


3.1 基于模型的奖励

对于通用数据,我们借助奖励模型来捕捉复杂且细微场景中的人类偏好。我们基于 DeepSeek-V3 流程,并采用类似的偏好对和训练提示分布。对于有用性,我们只关注最终总结,以确保评估强调回答对用户的实用性和相关性,同时尽量减少对底层推理过程的干扰。对于无害性,我们评估模型的完整回答,包括推理过程和总结,以识别并缓解生成过程中可能出现的潜在风险、偏见或有害内容。

有用性奖励模型 关于有用性奖励模型的训练,我们首先使用附录 B.2 中列出的 arena-hard 提示格式来提示 DeepSeek-V3 生成偏好对;每个偏好对由一个用户查询和两个候选回答组成。对于每个偏好对,我们查询 DeepSeek-V3 四次,并随机将回答指定为 Response A 或 Response B,以缓解位置偏差。最终偏好分数通过对四次独立判断取平均得到,并且只保留分数差异(Δ)超过 1 的偏好对,以确保差异具有实际意义。此外,为了最小化与长度相关的偏差,我们确保整个数据集中被选中回答和被拒绝回答具有相近长度。

总计,我们整理了 66,000 个数据对用于训练奖励模型。该数据集中的提示全部为非推理问题,来源要么是公开可用的开源数据集,要么是明确同意将其数据用于模型改进的用户。我们的奖励模型架构与 DeepSeek-R1 一致,只是额外添加了一个奖励头,用于预测标量偏好分数。

[
Reward_{helpful}=RM_{helpful}(Response_A, Response_B)
]

有用性奖励模型使用 256 的批大小、(6e-6) 的学习率,并在训练数据集上训练一个 epoch。训练期间最大序列长度设为 8192 个 token,而在奖励模型推理期间不施加显式长度限制。

安全性奖励模型 为评估并提升模型安全性,我们整理了一个包含 106,000 条提示的数据集,其中模型生成的回答依据预定义安全准则被标注为 “safe” 或 “unsafe”。不同于有用性奖励模型中使用的成对损失,安全性奖励模型采用逐点方法训练,用于区分安全与不安全回答。训练超参数与有用性奖励模型相同。

[
Reward_{safety}=RM_{safety}(Response)
]

对于通用查询,每个实例都被归类为属于安全性数据集或有用性数据集。分配给每个查询的通用奖励 (Reward_{General}),对应于其所属数据集中定义的相应奖励。


3.2 训练细节

3.2.1 第一阶段 RL 的训练细节

在第一阶段 RL 中,我们将学习率设为 (3e-6),KL 系数设为 0.001,GRPO 裁剪比例 (\varepsilon) 设为 10,并将 rollout 的采样温度设为 1。对于每个问题,我们采样 16 个输出,最大长度为 32,768。每个训练步骤包含 32 个不同问题,因此每步的训练批大小为 512。每隔 400 步,我们用最新的策略模型替换参考模型。为加速训练,每次 rollout 生成 8,192 个输出,并将其随机划分为 16 个小批次,仅训练一个内部 epoch。然而,为缓解语言混用问题,我们在 RL 训练中引入语言一致性奖励,其计算方式为 CoT 中目标语言词语所占比例。

[
Reward_{language}=
\frac{Num(Words_{target})}{Num(Words)}
]

尽管附录 B.6 中的消融实验表明,这种对齐会导致模型性能略有下降,但该奖励符合人类偏好,使输出更具可读性。我们将语言一致性奖励应用于推理数据和非推理数据,并将其直接加入最终奖励中。

需要注意的是,裁剪比例在训练中起着关键作用。较低的值可能导致大量 token 的梯度被截断,从而降低模型性能;而较高的值则可能导致训练不稳定。


3.2.2 第二阶段 RL 的训练细节

具体而言,我们使用奖励信号和多样化提示分布的组合来训练模型。对于推理数据,我们遵循 DeepSeek-R1-Zero 中概述的方法,即在数学、编程和逻辑推理领域使用基于规则的奖励来引导学习。在训练过程中,我们观察到 CoT 经常出现语言混用,尤其是在 RL 提示涉及多种语言时。对于通用数据,我们使用奖励模型来引导训练。最终,奖励信号与多样化数据分布的结合,使我们能够开发出一个不仅擅长推理,而且也重视有用性和无害性的模型。给定一批数据,奖励可表示为:

[
Reward = Reward_{reasoning}+Reward_{general}+Reward_{language}
]

其中:

[
Reward_{reasoning}=Reward_{rule}
]

[
Reward_{general}=Reward_{reward_model}+Reward_{format}
]

第二阶段 RL 保留了第一阶段的大部分参数,关键区别是将温度降低至 0.7,因为我们发现该阶段较高的温度会导致生成内容不连贯。该阶段总共包含 1,700 个训练步骤,其中通用指令数据和基于偏好的奖励仅在最后 400 步中加入。我们发现,使用基于模型的偏好奖励信号进行更多训练步骤可能会导致奖励黑客现象,这一点在附录 B.5 中有记录。总训练成本列于附录 B.4.4。


4. 实验

我们在 MMLU (Hendrycks et al., 2021)、MMLU-Redux (Gema et al., 2025)、MMLU-Pro (Wang et al., 2024)、C-Eval (Huang et al., 2023)、CMMLU (Li et al., 2024)、IFEval (Zhou et al., 2023b)、FRAMES (Krishna et al., 2024)、GPQA Diamond (Rein et al., 2023)、SimpleQA (OpenAI, 2024a)、C-SimpleQA (He et al., 2024)、SWE-Bench Verified (OpenAI, 2024b)、Aider (Gauthier, 2025)、LiveCodeBench (Jain et al., 2024) (2024-08 – 2025-01)、Codeforces (Mirzayanov, 2025)、Chinese National High School Mathematics Olympiad (CNMO 2024) (CMS, 2024),以及 American Invitational Mathematics Examination 2024 (AIME 2024) (MAA, 2024) 上评估我们的模型。这些基准的详细信息列于附录 D。

表 3 总结了 DeepSeek-R1 在多个发展阶段的性能,如图 2 所示。DeepSeek-R1-Zero 与 DeepSeek-R1 Dev1 的比较显示,指令遵循能力有显著提升,这体现在 IF-Eval 和 ArenaHard 基准上的更高分数。然而,由于冷启动数据集规模有限,与 DeepSeek-R1-Zero 相比,Dev1 在推理性能上出现了部分下降,最明显的是 AIME 基准。相比之下,DeepSeek-R1 Dev2 在需要高级推理能力的基准上表现出显著增强,包括侧重代码生成、数学问题求解和 STEM 相关任务的基准。针对通用任务的基准,如 AlpacaEval 2.0,则只表现出边际提升。这些结果表明,面向推理的 RL 能显著增强推理能力,但对面向用户偏好的基准影响有限。

表 3 | DeepSeek-R1 各阶段的实验结果。 加粗数字表示性能具有统计显著性((t)-test,(p < 0.01))。

基准(指标) R1-Zero R1-Dev1 R1-Dev2 R1-Dev3 R1
English
MMLU (EM) 88.8 89.1 91.2 91.0 90.8
MMLU-Redux (EM) 85.6 90.0 93.0 93.1 92.9
MMLU-Pro (EM) 68.9 74.1 83.8 83.1 84.0
DROP (3-shot F1) 89.1 89.8 91.1 88.7 92.2
IF-Eval (Prompt Strict) 46.6 71.7 72.0 78.1 83.3
GPQA Diamond (Pass@1) 75.8 66.1 70.7 71.2 71.5
SimpleQA (Correct) 30.3 17.8 28.2 24.9 30.1
FRAMES (Acc.) 82.3 78.5 81.8 81.9 82.5
AlpacaEval2.0 (LC-winrate) 24.7 50.1 55.8 62.1 87.6
ArenaHard (GPT-4-1106) 53.6 77.0 73.2 75.6 92.3
Code
LiveCodeBench (Pass@1-COT) 50.0 57.5 63.5 64.6 65.9
Codeforces (Percentile) 80.4 84.5 90.5 92.1 96.3
Codeforces (Rating) 1444 1534 1687 1746 2029
SWE Verified (Resolved) 43.2 39.6 44.6 45.6 49.2
Aider-Polyglot (Acc.) 12.2 6.7 25.6 44.8 53.3
Math
AIME 2024 (Pass@1) 77.9 59.0 74.0 78.1 79.8
MATH-500 (Pass@1) 95.9 94.2 95.9 95.4 97.3
CNMO 2024 (Pass@1) 88.1 58.0 73.9 77.3 78.8
Chinese
CLUEWSC (EM) 93.1 92.8 92.6 91.6 92.8
C-Eval (EM) 92.8 85.7 91.9 86.4 91.8
C-SimpleQA (Correct) 66.4 58.8 64.2 66.9 63.7

DeepSeek-R1 Dev3 将推理数据集和非推理数据集都整合进 SFT 流程,从而提升了模型在推理任务和通用语言生成任务上的熟练程度。与 Dev2 相比,DeepSeek-R1 Dev3 在 AlpacaEval 2.0 和 Aider-Polyglot 上取得了显著性能提升,这归因于大规模非推理语料和代码工程数据集的加入。最后,在 DeepSeek-R1 Dev3 上使用混合的推理导向数据和通用数据进行全面 RL 训练,产生了最终的 DeepSeek-R1。由于前几个阶段已经进行了大量推理专项 RL,代码和数学基准上的提升幅度较小。最终 DeepSeek-R1 的主要进步体现在通用指令遵循和用户偏好基准上,其中 AlpacaEval 2.0 提升了 25%,ArenaHard 提升了 17%。

此外,我们在附录 D.2 中将 DeepSeek-R1 与其他模型进行了比较。模型安全性评估见附录 D.3。附录 E 提供了综合分析,包括与 DeepSeek-V3 的比较、在新测试集上的性能评估、按类别划分的数学能力分解,以及对测试时扩展行为的研究。附录 F 表明,强大的推理能力可以迁移到较小模型中。

以下为 PDF 中 5 Ethics and Safety Statement6 Conclusion, Limitation, and Future Work 部分的中文翻译,括号内引用保留原文格式。


5. 伦理与安全声明

随着 DeepSeek-R1 推理能力的提升,我们深刻认识到潜在的伦理风险。例如,R1 可能受到越狱攻击,从而生成危险内容,如爆炸物制造计划;同时,增强后的推理能力使模型能够提供具有更好可操作性和可执行性的计划。此外,公开模型也容易被进一步微调,从而削弱其固有的安全保护。

在附录 D.3 中,我们从多个角度呈现了一份全面的安全报告,包括在开源和内部安全评测基准上的表现,以及在多种语言和对抗越狱攻击方面的安全水平。这些综合安全分析得出结论:与其他最先进模型相比,DeepSeek-R1 模型的固有安全水平总体处于中等水平(与 GPT-4o (2024-05-13) 相当)。此外,当与风险控制系统结合使用时,模型的安全水平会提升到更高标准。


6. 结论、局限性与未来工作

我们提出了 DeepSeek-R1-Zero 和 DeepSeek-R1,它们依赖大规模 RL 来激励模型的推理行为。我们的结果表明,预训练检查点本身就具有处理复杂推理任务的巨大潜力。我们认为,释放这一潜力的关键不在于大规模人工标注,而在于提供困难的推理问题、可靠的验证器,以及用于强化学习的充足计算资源。复杂的推理行为,如自我验证和反思,似乎是在强化学习过程中有机涌现出来的。

即使 DeepSeek-R1 在推理基准上取得了前沿结果,它仍然面临若干能力局限,具体如下:

结构化输出与工具使用: 目前,与现有模型相比,DeepSeek-R1 的结构化输出能力仍然不够理想。此外,DeepSeek-R1 不能利用搜索引擎和计算器等工具来提升输出表现。不过,由于为结构化输出和工具使用构建 RL 环境并不困难,我们相信这一问题将在下一版本中得到解决。

Token 效率: 不同于多数投票或蒙特卡洛树搜索(MCTS)等传统测试时计算扩展方法,DeepSeek-R1 会在推理期间根据当前问题的复杂程度动态分配计算资源。具体而言,它使用较少 token 来解决简单任务,而为复杂任务生成更多 token。尽管如此,在 token 效率方面仍有进一步优化空间,因为在回答较简单问题时,仍然可以观察到过度推理——表现为过度思考——的情况。

语言混用: DeepSeek-R1 目前针对中文和英文进行了优化,这在处理其他语言查询时可能导致语言混用问题。例如,即使查询使用的语言不是英语或中文,DeepSeek-R1 也可能使用英语进行推理和回答。我们计划在未来更新中解决这一局限。该局限可能与基础检查点 DeepSeek-V3-Base 主要使用中文和英文有关,因此它在这两种语言上的推理能够取得更好结果。

提示工程: 在评估 DeepSeek-R1 时,我们观察到它对提示较为敏感。少样本提示会持续降低其性能。因此,我们建议用户采用零样本设置,直接描述问题并指定输出格式,以获得最佳结果。

软件工程任务: 由于评估时间较长,会影响 RL 过程的效率,因此大规模 RL 尚未被广泛应用于软件工程任务。因此,DeepSeek-R1 在软件工程基准上相较 DeepSeek-V3 并未展现出巨大提升。未来版本将通过在软件工程数据上实施拒绝采样,或在 RL 过程中引入异步评估来提升效率,从而解决这一问题。

除具体能力局限之外,纯 RL 方法本身也存在固有挑战:

奖励黑客: 纯 RL 的成功依赖于可靠的奖励信号。在本研究中,我们通过推理领域的基于规则的奖励模型(RM)来确保奖励可靠性。然而,对于某些任务,如写作,这类可靠的 RM 很难构建。如果奖励信号由模型而非预定义规则分配,那么随着训练推进,它会更容易被利用;这意味着策略模型可能找到捷径来攻击奖励模型。因此,对于无法由可靠奖励模型有效评估的复杂任务,扩展纯 RL 方法仍然是一个开放挑战。

在本工作中,对于无法获得可靠信号的任务,DeepSeek-R1 使用人工标注来创建监督数据,并且只进行数百步 RL。我们希望未来能够获得一个稳健的奖励模型来解决此类问题。

随着 DeepSeek-R1 这类纯 RL 方法的出现,未来在解决任何能够由验证器有效评估的任务方面都具有巨大潜力,无论这些任务对人类而言有多复杂。配备此类先进 RL 技术的机器,有望在这些领域超越人类能力,因为它们能够通过试错迭代优化性能。然而,对于那些构建可靠奖励模型本身就非常困难的任务,挑战依然存在。在这些情况下,缺乏稳健反馈机制可能会阻碍进展,这表明未来研究应重点开发创新方法,为这些复杂且较难验证的问题定义并优化奖励结构。

此外,在推理过程中利用工具也具有重要前景。无论是利用编译器或搜索引擎等工具来检索或计算必要信息,还是使用外部工具——如生物或化学试剂——在真实世界中验证最终结果,这种工具增强型推理的整合都可能显著扩大机器驱动解决方案的适用范围并提高其准确性。
以下为 Appendix:A. BackgroundB. Training Details 的中文翻译。括号内引用保留原文格式;Listing 中的长提示/样例代码不逐字翻译,仅保留标题并概括其内容。


附录

A. 背景

A.1 DeepSeek-V3

DeepSeek V3 (DeepSeek-AI, 2024b) 是由 DeepSeek 开发的先进开源 LLM。DeepSeek V3 于 2024 年 12 月发布,代表了 AI 创新的一次重要跃进,其设计目标是在保持显著成本效率和性能的同时,与 OpenAI 的 GPT-4 和 Meta 的 Llama 3.1 等领先模型竞争。DeepSeek V3 基于混合专家(Mixture-of-Experts, MoE)架构构建,总参数量为 6710 亿,每个 token 激活 370 亿参数,从而同时优化效率和能力。它在一个包含 14.8 万亿高质量、多样化 token 的大规模数据集上进行了预训练,随后通过监督微调和强化学习增强其在各领域的能力。该模型引入了多项创新特性,例如用于高效推理的多头潜在注意力(Multi-head Latent Attention, MLA)(DeepSeek-AI, 2024a)、无辅助损失的负载均衡策略,以及多 token 预测(Multi-Token Prediction, MTP)(Gloeckle et al., 2024),以提升性能,尤其是在数学和编码任务中。

对于 DeepSeek-V3-Base 的训练数据,我们只使用普通网页和电子书,没有引入任何合成数据。然而,我们观察到,一些网页包含大量由 OpenAI 模型生成的答案,这可能导致基础模型间接从其他强大模型中获得知识。不过,在预训练冷却阶段,我们并没有有意纳入由 OpenAI 生成的合成数据;该阶段使用的所有数据都是自然存在并通过网络爬取得到的。预训练数据集中包含大量数学和代码相关内容,这表明 DeepSeek-V3-Base 接触过相当多的推理轨迹数据。这样的广泛接触使模型具备生成合理候选解的能力,而强化学习可以有效识别并优化高质量输出。我们按照附录 D.1 中描述的方式进行了预训练数据污染检查。DeepSeek-V3 base 的训练数据主要是中文和英文,这可能是 DeepSeek-R1-Zero 在缺少语言一致性奖励时出现语言混用的原因。

在本文中,我们使用 DeepSeek-V3-Base 表示基础模型,使用 DeepSeek-V3 表示指令模型。值得注意的是,DeepSeek-R1 和 DeepSeek-R1-Zero 都是在 DeepSeek-V3-Base 之上训练的,并且 DeepSeek-R1 利用了来自 DeepSeek-V3 SFT 数据中的非推理数据。DeepSeek-R1-Dev1、DeepSeek-R1-Dev2、DeepSeek-R1-Dev3 是 DeepSeek-R1 的中间检查点。


A.2 传统后训练范式

后训练已经成为完善预训练 LLM 的关键步骤,用于满足特定性能目标并与人类期望对齐。一个被广泛采用的两阶段后训练框架是先进行 SFT,再进行 RL (Ouyang et al., 2022)。

监督微调通过在针对特定任务定制的输入—输出对数据集上训练,来完善预训练 LLM。该过程采用监督学习目标,通常是最小化模型预测与标注真值之间的交叉熵损失 (Brown et al., 2020)。例如,在对话应用中,SFT 可能使用显式提供期望回答的对话数据集,使模型能够将其输出适配到预定义标准 (Radford et al., 2019)。SFT 具有若干有吸引力的优点。首先,它通过利用高质量示例实现精确的任务对齐,使模型能够在客户支持或技术文档等领域表现出色 (Radford et al., 2019)。其次,它依赖预训练权重,因此具有计算效率,相比从头训练需要更少资源。最后,显式输入—输出映射增强了可解释性,因为模型的学习过程直接与可观察数据相关联,从而降低了异常行为的风险 (Ouyang et al., 2022)。尽管 SFT 有这些优势,其性能仍取决于训练数据集的质量和多样性;狭窄或有偏的数据可能削弱模型泛化到新情境的能力 (Brown et al., 2020)。此外,SFT 的静态性质——即针对固定输出进行优化——可能无法捕捉不断变化的人类偏好或细微目标。高质量数据集的整理过程劳动密集,也进一步增加了其可扩展性的难度,因为数据中的错误或不一致可能会传播到模型行为中 (Ouyang et al., 2022)。

在 SFT 之后,强化学习通过根据奖励信号优化 LLM 的输出,进一步完善模型。在这一阶段,模型与环境交互——通常是一个基于人类反馈训练的奖励模型——并调整其行为以最大化累积奖励。该方法的一个突出实例是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF),其中的奖励函数编码人类偏好 (Christiano et al., 2017)。因此,RL 将重点从静态监督转向动态优化。值得注意的是,RL 降低了对大量标注资源的需求;SFT 需要针对每个输入—输出对的完整标注数据集,而 RL 可以使用较小规模的人类评价集或一个训练好的奖励模型,甚至是基于规则的奖励模型运行,从而显著降低标注负担。

SFT 与 RL 的顺序结合融合了二者的互补优势。SFT 通过基于精选示例建立稳健的、面向任务的基线,而 RL 则进一步完善这一基础,使其与更广泛、以人为中心的目标对齐 (Ouyang et al., 2022)。例如,SFT 可以确保对话系统中的语法准确性,而 RL 则优化参与度和简洁性,如 InstructGPT 的开发中所示 (Ouyang et al., 2022)。这种混合方法已被证明能够有效生成既精确又具适应性的模型。

在本研究中,我们表明,SFT 阶段可能会阻碍模型探索和发展有效推理策略的能力。这一限制源于人类提供的回答在 SFT 中作为目标,但并不总是最适合模型学习;它们往往省略关键推理组成部分,例如显式反思和验证步骤。为解决这一问题,DeepSeek-R1-Zero 使模型能够独立于人类先验,直接探索推理模式。通过这种自我探索发现的推理轨迹随后被蒸馏并用于训练其他模型,从而促进更稳健、更具泛化性的推理能力获得。


A.3 GRPO 与 PPO 的比较

组相对策略优化(Group Relative Policy Optimization, GRPO)(Shao et al., 2024) 是我们用于训练 DeepSeek-R1-Zero 和 DeepSeek-R1 的强化学习算法。该算法最初被提出,是为了简化训练流程并降低近端策略优化(Proximal Policy Optimization, PPO)(Schulman et al., 2017) 的资源消耗;PPO 被广泛用于 LLM 的 RL 阶段 (Ouyang et al., 2022)。GRPO 与 PPO 的整体比较见图 3。

对于每个问题 (q),GRPO 从旧策略 (\pi_{\theta old}) 中采样一组输出 ({o_1, o_2, \cdots, o_G}),然后通过最大化以下目标来优化策略模型 (\pi_\theta):

[
J_{GRPO}(\theta)=\mathbb{E}[q\sim P(Q), {o_i}{i=1}^{G}\sim \pi{\theta old}(O|q)]
\frac{1}{G}\sum_{i=1}^{G}
\left(
\min\left(
\frac{\pi_\theta(o_i|q)}{\pi_{\theta old}(o_i|q)}A_i,
clip\left(
\frac{\pi_\theta(o_i|q)}{\pi_{\theta old}(o_i|q)},1-\varepsilon,1+\varepsilon
\right)A_i
\right)
-\beta D_{KL}(\pi_\theta||\pi_{ref})
\right)
]

[
D_{KL}(\pi_\theta||\pi_{ref})=
\frac{\pi_{ref}(o_i|q)}{\pi_\theta(o_i|q)}
-\log
\frac{\pi_{ref}(o_i|q)}{\pi_\theta(o_i|q)}
-1
]

其中,(\pi_{ref}) 是参考策略,(\varepsilon) 和 (\beta) 是超参数,(A_i) 是优势值,使用每组输出对应的一组奖励 ({r_1,r_2,\ldots,r_G}) 计算得到:

[
A_i=
\frac{r_i-\mathrm{mean}({r_1,r_2,\cdots,r_G})}
{\mathrm{std}({r_1,r_2,\cdots,r_G})}
]

相比之下,在 PPO 中,优势值通常通过广义优势估计(Generalized Advantage Estimation, GAE)(Schulman et al., 2015) 计算,它不仅基于奖励,还基于一个学习得到的价值模型。由于价值模型通常与策略模型大小相近,因此会带来显著的内存和计算开销。此外,价值模型的训练目标是基于从开头到当前位置已生成的 token,预测从当前位置起的期望累积奖励。这本质上是困难的,尤其是在只有最终结果奖励可用时。当训练长思维链推理模型时,这一挑战更加突出。随着输出长度增加,模型在生成过程中更可能出现反思和修正等行为,这意味着最初生成的内容后来可能被修改或否定,因此基于部分回答预测最终奖励变得更加不可行。

GRPO 与 PPO 的另一个关键区别在于,训练策略与参考策略之间的 Kullback–Leibler(KL)散度如何纳入训练过程。在 GRPO 中,如公式 11 所示,KL 散度的无偏估计量 (Schulman, 2020) 被直接加入损失中;而在 PPO 中,每个 token 的 KL 惩罚被作为稠密奖励加入每个 token 处 (Ouyang et al., 2022)。由于强化学习的优化目标是最大化累积奖励,PPO 的方法会惩罚累积 KL 散度,这可能隐式惩罚回答长度,从而阻碍模型回答长度的增长。此外,在训练长思维链推理模型的场景中,我们可能训练数千步,训练后的策略可能与初始参考策略显著偏离。为了在训练策略可探索的范围和训练稳定性之间取得平衡,我们在实际训练过程中会定期将参考策略更新为最新策略。

图 4 使用 DeepSeek-Coder-V2-Lite(16B MoE,激活参数 2.4B)在 MATH 任务上比较了 PPO 和 GRPO 的性能。与 GRPO 不同,PPO 需要额外的超参数调优,尤其是 GAE 中的 (\lambda) 系数,并且对该参数高度敏感。当 (\lambda) 设为 0.95(大多数开源 PPO 实现中的默认值)时,PPO 的表现明显差于 GRPO。然而,经过仔细调优(将 (\lambda) 设为 1.0)后,PPO 的性能显著提升,接近 GRPO。

尽管 PPO 在适当调优后可以达到相近性能,但它需要额外的超参数优化计算成本。此外,考虑到训练额外价值模型所带来的内存和计算开销,GRPO 是一个更实用的替代方案,尤其是在资源受限条件下训练大规模模型时。


B. 训练细节

B.1 RL 基础设施

在大模型上进行 RL 训练对基础设施提出了很高要求。我们的 RL 框架采用解耦且可扩展的架构,以便无缝集成多种模型和算法。在该框架中,我们纳入了模块内部和模块之间的优化技术,以确保训练效率和可扩展性。

具体而言,如图 5 所示,该框架被划分为四个不同模块,每个模块对应 RL 流程中的一个特定阶段:

Rollout 模块: 从训练数据集中加载提示,并将其均匀分发到多个 vLLM (Kwon et al., 2023) worker 上;每个 worker 都配备 actor 模型,用于采样多个回答。对于 DeepSeek-V3 MoE 架构,我们在节点之间实现了专家并行策略,以降低内存访问开销,并部署热点专家的冗余副本,以平衡不同专家之间的计算负载。多 token 预测(MTP)组件也被用于自推测解码,从而显著加快解码速度,并有效缩短最长样本的完成时间。

推理模块: 该模块加载奖励模型和参考模型,对 rollout 阶段生成的样本进行前向传播,从而获得基于模型的奖励和其他必要信息。

基于规则的奖励模块: 该模块计算模型生成回答的基于规则奖励。我们设计了统一接口,以适配多种实现方式,例如代码执行器、答案匹配器、格式检查器等。尽管该模块不需要将模型加载到 GPU 内存中,但其执行往往耗时较长。为解决这一问题,我们采用异步调度方法,使其执行与 Rollout 和推理模块重叠,从而有效隐藏相关延迟。

训练模块: 该模块加载 actor 模型和 critic 模型(如果需要),用于计算损失并更新模型参数。它灵活支持多种 RL 算法,例如 PPO、GRPO、DPO 等。为了减少由序列填充造成的计算浪费,并平衡设备间工作负载,我们设计了如下数据打包策略:首先,将全局 batch 中的所有数据按长度排序,并分发到数据并行组内的各个进程;随后,在每个进程内,应用 Best-Fit 策略,将数据以最小填充打包到固定长度块中;最后,将各进程中的块数调整为相等。此外,我们还集成了 DeepSeek-V3 训练中使用的 DualPipe 算法,以实现高效的流水线并行。

值得注意的是,每个模块完成后(基于规则的奖励模块除外),该阶段使用的模型实例都会自动从 VRAM 卸载到系统内存或磁盘存储,从而为后续阶段释放 VRAM。


B.2 奖励模型提示

Listing 说明:Reward Model Prompt

该 Listing 给出了用于训练/评估偏好奖励模型的裁判提示模板。它要求模型作为公正评审,先自己回答用户问题,再比较两个助手回答的质量,并最终输出 A/B 哪个更好的判定标签。此处不逐字翻译原提示。


B.3 数据配方

B.3.1 RL 数据

推理 RL 数据包括四类:数学、编码、STEM 和逻辑问题。此外,在 DeepSeek-R1 的训练中,我们还引入通用 RL 数据,以提升模型的有用性和无害性。所有问题均为中文或英文。RL 数据描述见表 4,下面逐一说明各类数据的细节。

数学数据集 包含 26k 个定量推理问题,包括数学考试题和竞赛题。平均提示 token 数为 122。该数据集覆盖代数、微积分、概率和几何等多个数学领域。问题难度从地区性竞赛到国际奥林匹克竞赛不等。对于每个问题,模型需要生成逐步推理过程,并最终给出答案;答案可以是数值(例如 “5”)、数学表达式(例如 “(x^2+3x-2)”)或方程(例如 “(y=2x+1)”)。数学证明被排除在外,因为难以判断其正确性。对于强化学习,我们通过将预测答案与参考答案进行匹配来计算推理过程的奖励。如果答案与参考答案一致,则奖励设为 1;否则设为 0。

编码数据集 包括 17k 个算法竞赛问题,以及 8k 个 bug 修复问题。算法竞赛问题类似于 Codeforces 或 LeetCode 等平台上的题目。每个问题通常包括详细的问题描述、约束条件和多个输入—输出示例。任务是编写一个完整函数或程序,使其能够正确且高效地解决问题,并通过一组综合隐藏测试用例,这些测试用例同时评估正确性和性能。这些问题测试算法能力,包括动态规划、图论、字符串处理和数据结构使用。

bug 修复问题来自真实世界的 GitHub issue。每个任务提供一个 issue 描述、一份存在 bug 的源代码,以及一组部分或全部失败的单元测试。目标是理解 issue 的意图,定位并修复代码缺陷,并确保修正后的版本通过所有单元测试。

STEM 数据集 包含 22k 个选择题,覆盖物理、化学和生物等主题。STEM 任务中的每个问题都提供一个特定学科的问题,并附带四到八个答案选项。模型需要根据给定上下文和领域知识选择最科学准确的答案。平均提示 token 数为 161。具体而言,该数据集包含 15.5% 的物理题、30.7% 的生物题、46.5% 的化学题,以及 7.3% 的其他主题,如健康和医学。由于所有 STEM 问题都是选择题,因此根据是否匹配正确选项分配二元奖励。

逻辑数据集 包含 15k 个问题,用于评估模型在广泛逻辑挑战中的推理能力。该数据集既包括真实世界问题,也包括合成生成问题。所有问题均支持自动评估,平均提示长度约为 420 个 token。真实世界部分由来自网络的多样化问题组成,包括脑筋急转弯、经典逻辑谜题和知识密集型问题。这些问题以多项选择格式呈现,以确保客观和一致的评估。合成部分主要由两类组成:code-IO 问题和 puzzle 任务。code-IO 问题使用 Li et al. (2025) 提出的数据流程生成,该流程将竞赛编程问题及其对应输入—输出测试用例转换为可验证的逻辑推理问题。puzzle 任务包括用于评估特定推理能力的问题。例如,密码学谜题用于评估模型识别并应用密码方案中的模式或执行字符串操作的能力;逻辑谜题关注复杂约束下的演绎推理,例如从固定前提集合中推断有效结论(如 Zebra puzzle);算术谜题则测试模型的数值推理能力,例如概率问题和 24 点游戏。

通用数据集 包含 66k 个用于评估有用性的问题,覆盖创意写作、编辑、事实问答和角色扮演等多种类别。此外,该数据集还包括 12,000 个用于评估无害性的问题。为确保稳健验证,我们使用两个奖励模型,分别基于围绕有用性和无害性整理的模型生成排序回答数据集进行训练。我们在训练阶段以最大序列长度 8192 个 token 对有用性奖励模型训练一个 epoch。然而,在部署模型以生成奖励信号时,我们没有对被评估输入序列施加任何显式长度限制。


B.3.2 DeepSeek-R1 冷启动

对于 DeepSeek-R1,我们构建并收集了少量长 CoT 数据,用于微调模型,使其成为初始 RL actor。其动机主要来自产品需求,重点在于提升用户体验。当推理过程符合第一人称视角的思维模式时,用户往往会觉得回答更直观、更有吸引力。例如,DeepSeek-R1-Zero 在解决问题时更可能使用代词 “we”,或完全避免第一人称代词,而 DeepSeek-R1 更倾向于使用 “I”。此外,我们也承认,这类模式可能会让用户产生不应有的信任。在此,我们想强调,所观察到的生动推理模式主要反映了 DeepSeek 工程化设计的启发式策略,而不意味着模型内在获得了类人智能或自主问题求解能力。

在冷启动数据创建中,我们偏好这样的思考过程:首先理解问题,然后进行详细推理,并结合反思和验证。整个思考过程使用第一人称视角呈现。此外,保持语言一致性对于最佳用户体验非常重要。如果没有适当控制,模型回答可能会混合不同语言,而不管查询使用什么语言。这种不一致会干扰理解并降低用户满意度。因此,必须仔细优化,以确保回答保持连贯并与用户意图对齐。尽管如此,我们承认 DeepSeek-R1-Zero 生成的原始思维链(CoT)推理可能具有超越当前人类先验限制的潜力。具体而言,我们首先让人工标注者将推理轨迹转换为更自然、更具人类对话风格的形式。随后,将修改后的数据对作为示例,提示 LLM 以类似风格重写更多数据。所有 LLM 生成的输出随后都会经过第二轮人工验证,以确保质量和一致性。

Listing 1 说明:用于生成可读解答的提示

该 Listing 给出了一个提示模板:输入原问题和思考过程,要求模型根据已有思考过程写出清晰、易读、格式良好的解答,并保持与问题相同语言。此处不逐字翻译原提示。

具体而言,我们首先收集数千个高质量、多样化的推理提示。对于每个提示,我们使用 DeepSeek-R1-Zero,并以相对较高的温度 1.0 生成多个推理轨迹。接着,我们过滤这些生成结果,只保留最终答案正确且格式可读的结果。对于数学输出,我们使用 sympy(https://www.sympy.org/)进行解析和表达式比较;对于格式,我们应用重复检测和语言混用过滤等规则。最后,我们提示 DeepSeek-V3 对推理和总结进行优化,以确保格式恰当且表达对人类友好。特别是,为解决语言混用问题,我们指示 DeepSeek-V3:“Translate the thinking process to the same language as the question.” 由于 DeepSeek-R1-Zero 的总结只提供最终答案,我们使用 Listing 1 中的总结提示来生成简洁、可读的解答,其中同时概述推理步骤和最终结果。

对于代码数据,我们收集了一大批竞赛编程问题。具体而言,我们从多个在线评测(OJ)平台汇编了大量竞赛编程问题,其中包括来自 Codeforces 的 5151 个问题和来自 AtCoder 的 2504 个问题。由于这些平台的原始测试用例并未公开,我们开发了一种方法,为每个问题创建可靠测试用例。

我们的方法包括使用 DeepSeek-V2.5 生成候选测试用例,然后进行严格验证。具体而言,我们提示 DeepSeek-V2.5 编写 Python 程序,以根据每个问题的要求生成测试用例,如 Listing 2 所示。

在获得大量候选测试用例后,我们实施了两阶段过滤流程。首先,我们使用正确提交来剔除会产生错误输出的无效测试用例。然后,我们有策略地选择能够成功识别错误提交缺陷的测试用例子集。该过程确保最终测试用例能够恰当地区分每个问题的正确解和错误解。

Listing 2 说明:用于为代码问题生成测试用例的提示

该 Listing 展示了如何让模型为竞赛编程题生成大规模、多样化、对抗性的随机输入生成器,以帮助检测复杂度问题并使错误代码超时。此处不逐字翻译原提示和代码。

此外,我们使用少样本提示让 DeepSeek-V3 为简单数学问题生成回答,例如 “1 + 1 = ?”,以确保输出保持简洁且结构适当。一个简单数学问题的提示见 Listing 3。

Listing 3 说明:用于生成简单数学问题 CoT 的提示

该 Listing 展示了如何通过少样本示例引导模型为简单算术问题生成简短思考过程和最终答案。此处不逐字翻译原提示。


B.3.3 800K 监督数据

推理数据 我们整理了一大批推理提示,并通过从第一阶段 RL 训练检查点进行拒绝采样来生成推理轨迹。在上一阶段,我们只纳入了可以使用基于规则奖励评估的数据。然而,在这一阶段,我们通过引入额外数据扩展了数据集,其中一部分数据使用生成式奖励模型:将真实答案和模型预测输入 DeepSeek-V3 进行判断,示例提示见 Listing 4。此外,由于模型输出有时混乱且难以阅读,我们过滤掉了语言混用、长段落和代码块形式的思维链。对于每个提示,我们采样多个回答,并只保留正确回答。总计,我们收集了约 600k 个与推理相关的训练样本。

Listing 4 说明:使用 DeepSeek-V3 作为评审的示例提示

该 Listing 给出了一个评估模板:将推理问题、参考答案和待评估答案提供给模型,让模型分析答案正确性并以 JSON 格式输出判断。此处不逐字翻译原提示。

非推理数据 对于写作、事实问答、自我认知和翻译等非推理数据,我们采用 DeepSeek-V3 流程,并复用 DeepSeek-V3 的部分 SFT 数据集。我们还引入了面向软件工程的数据,包括程序修复和前端网页开发,以增强模型解决真实世界问题的能力。对于某些非推理任务,我们通过提示调用 DeepSeek-V3 在回答问题之前生成潜在的思维链。然而,对于较简单查询,例如 “hello”,我们不会在回答中提供 CoT。最终,我们共收集了约 200k 个与推理无关的训练样本。

在设计思考过程风格时,我们要求模型遵循若干关键原则。首先,每段保持简洁且易于消化。短段落使观点更清晰、更容易跟随。其次,采用自然且有吸引力的对话语气。我们避免使用 markdown 等技术格式,以保持流畅的阅读体验。第三,也是最重要的一点,思考过程应从理解完整用户上下文开始。这意味着分析用户是谁、他们正在面对什么情况,以及他们真正需要什么——包括那些可能隐藏在初始请求表面之下、未明说的需求。

在从模型中引出这些思考过程后,人工标注者会仔细验证输出的准确性。我们的发现表明,这些人工生成的推理痕迹提升了模型解释用户查询的准确性。具体而言,它们能有效突出格式约束、澄清用户意图,并阐明输出所需结构。这种方法有助于模型与用户之间实现更准确、更响应式的交互。

表 5 | SFT 数据统计。

领域 样本数 平均轮数 平均 token 数
Math 395285 1.0 6094.2
Code 211129 1.1 7435.7
STEM 10124 1.0 4928.8
Logic 10395 1.0 2739.0
General 177812 1.1 1419.8
Total 804745 1.0 5355.3

SFT 数据统计 表 5 总结了各领域的数据统计,基于约 800,000 个监督样本。值得注意的是,大部分数据由单轮交互组成,这可能限制 DeepSeek-R1 的多轮对话能力。我们将多轮对话数据的扩展留作未来工作。数学相关数据主要是中文和英文,覆盖广泛主题和难度等级。这些问题是可验证的,既可以通过确定性规则验证,也可以参考特定真实答案验证。代码数据集不仅包含竞赛编程问题,还包含调试任务和面向项目的编码查询。STEM 和逻辑相关问题虽然相较数学和代码规模较小,但来源于公开可用的教材和在线资源库。通用领域查询具有多样性,主要为中文和英文,包括创意写作、开放式问答、角色扮演场景等任务。

SFT 轨迹示例 我们在 Listing 5、6 和 7 中提供了与数学、代码和非推理相关的 SFT 轨迹示例。

Listing 5 说明:数学推理数据中的 SFT 轨迹示例

该 Listing 展示了一个数学竞赛题的完整 SFT 样例,包括较长的推理过程和最终解答。此处不逐字翻译原内容。

Listing 6 说明:代码推理数据中的 SFT 轨迹示例

该 Listing 展示了一个 Python 类实现任务的 SFT 样例,包括思考过程、方法说明和代码答案。此处不逐字翻译原内容。

Listing 7 说明:写作类非推理数据中的 SFT 轨迹示例

该 Listing 展示了一个短诗创作任务的 SFT 样例,包括创作思路和最终诗歌。此处不逐字翻译原内容。


B.4 超参数

B.4.1 DeepSeek-R1-Zero-Qwen-32B 的超参数

为了训练 DeepSeek-R1-Zero-Qwen-32B,我们将学习率设为 (2e-6),KL 系数设为 0.001,并将 rollout 的采样温度设为 1。对于每个问题,我们采样 16 个输出,最大长度为 32,768。每个训练步骤包含 32 个不同问题,因此每步的训练批大小为 512。每隔 400 步,我们用最新的策略模型替换参考模型。为加速训练,每次 rollout 生成 8,192 个输出,并将其随机划分为 16 个小批次,仅训练一个内部 epoch。


B.4.2 SFT 的超参数

对于 code-start SFT 和第二阶段 SFT,我们使用 B.3 中描述的精选数据集,对 DeepSeek-V3-Base 微调 2–3 个 epoch。我们采用余弦衰减学习率调度器,初始学习率为 (5 \times 10^{-5}),并逐渐降低到 (5 \times 10^{-6})。最大上下文长度设为 32,768 个 token,批大小为 128。


B.4.3 蒸馏的超参数

对于蒸馏,我们使用 B.3.3 节中描述的 800k 数据,对相应基础模型微调 2–3 个 epoch。基础模型和初始学习率列于表 6。我们采用余弦衰减学习率调度器,将学习率逐渐降低到其初始值的十分之一。最大上下文长度为 32,768 个 token,批大小为 64。

表 6 | DeepSeek-R1 蒸馏模型、其对应基础模型与初始学习率。

蒸馏模型 基础模型 初始学习率
DeepSeek-R1-Distill-Qwen-1.5B Qwen2.5-Math-1.5B (1 \times 10^{-4})
DeepSeek-R1-Distill-Qwen-7B Qwen2.5-Math-7B (8 \times 10^{-5})
DeepSeek-R1-Distill-Qwen-14B Qwen2.5-14B (7 \times 10^{-5})
DeepSeek-R1-Distill-Qwen-32B Qwen2.5-32B (6 \times 10^{-5})
DeepSeek-R1-Distill-Llama-8B Llama-3.1-8B (5 \times 10^{-5})
DeepSeek-R1-Distill-Llama-70B Llama-3.3-70B-Instruct (2 \times 10^{-5})

B.4.4 训练成本

关于我们对 DeepSeek-R1 的研究,我们使用 A100 GPU 为较小模型(30B 参数)的实验做准备。该较小模型的结果很有希望,使我们能够有信心扩展到 660B 的 R1-Zero 和 R1。对于 DeepSeek-R1-Zero 的训练,我们使用了 648 块 H800 GPU,过程大约需要 198 小时。此外,在 DeepSeek-R1 的训练阶段,我们使用同样的 648 块 H800 GPU,约 4 天完成训练,即大约 80 小时。为创建 SFT 数据集,我们使用了 5K GPU 小时。详细信息见表 7。

表 7 | DeepSeek-R1 训练成本,假设 H800 租赁价格为每 GPU 小时 2 美元。

训练成本 DeepSeek-R1-Zero SFT 数据创建 DeepSeek-R1 总计
H800 GPU 小时 101K 5K 41K 147K
美元 $202K $10K $82K $294K

B.5 奖励黑客

在 LLM 训练语境中,奖励黑客指的是这样一种现象:模型利用奖励函数中的缺陷或偏差,在没有真正符合底层人类意图的情况下获得高奖励分数。在我们的工作中,当使用有用性奖励模型时,我们观察到了这种奖励黑客行为。具体而言,如果奖励模型包含系统性偏差或不准确性,LLM 可能会学会生成被奖励模型高度评分、但偏离真实人类偏好的回答。这种错位可能表现为在需要复杂推理的任务上性能下降,如图 6 所示。


B.6 语言一致性奖励的消融研究

为研究语言一致性(Language Consistency, LC)奖励的影响,我们在 DeepSeek-R1-Distill-Qwen-7B 上进行了消融实验。该模型使用与 DeepSeek-R1 相同的冷启动数据,并且在 RL 过程中同样表现出语言混用。结果如图 7 所示。

可以看到,在没有 LC 奖励的情况下,随着训练步数增加,语言一致性逐渐恶化。然而,当应用 LC 奖励时,整个训练过程中都能保持稳定的语言一致性。就基准性能而言,模型在数学基准上保持了相近性能,而在编码基准上观察到轻微下降。尽管这种对齐会导致模型性能略有下降,但该奖励符合人类偏好,使输出更具可读性。
以下为 Appendix C. Self-Evolution of DeepSeek-R1-ZeroAppendix D. Evaluation of DeepSeek-R1 的中文翻译。括号内引用保留原文格式;Listing 中的内容不逐字翻译,仅保留标题并做简要概括。


C. DeepSeek-R1-Zero 的自我演化

C.1 DeepSeek-R1-Zero 训练过程中推理能力的演化

我们按照难度等级(1–5)对 DeepSeek-R1-Zero 在 MATH 数据集上的表现进行了分层分析。图 8 展示了不同的学习模式:简单问题(等级 1–3)很快达到较高准确率(0.90–0.95),并在整个训练过程中保持稳定;而困难问题则表现出显著提升——等级 4 的问题从约 0.78 提升到 0.95,最具挑战性的等级 5 问题则展现出最剧烈的提升,从约 0.55 提升到 0.90。

有人可能会觉得反直觉:模型在较难问题(等级 3–4)上的准确率偶尔会以小幅优势超过其在较简单问题(等级 1)上的表现。这一表面异常源于数据集的若干特征。MATH 数据集分布不均,其中等级 1 的问题在 500 个样例中只有 43 个,而更高等级的问题各约有 100 个。因此,模型在等级 1 上 95–97% 的准确率只代表仍有 1–2 个未解决问题,主要集中在几何领域,而模型在该领域仍然存在困难。此外,由于数据集构建方法,不同难度等级中的数学类别分布(几何、代数等)也有所不同。还值得注意的是,这些难度等级是基于人类对问题复杂性的感知进行标注的,而不是基于机器学习方面的考量。

尽管在不同难度等级之间比较原始准确率百分比存在这些细微差异,训练趋势仍然表明,虽然较简单的推理任务(对人类而言)在训练早期就已被掌握,但模型在复杂推理问题(等级 3–5)上的能力会随着时间显著提升。

图 8 | DeepSeek-R1-Zero 在 MATH 数据集中不同难度等级问题上的表现。


C.2 DeepSeek-R1-Zero 训练过程中高级推理行为的演化

我们分析了模型在训练过程中推理行为的变化。

首先,如图 9(a) 所示,我们统计了一些有代表性的反思性词语,包括 “wait”、“mistake”、“however”、“but”、“retry”、“error”、“verify”、“wrong”、“evaluate” 和 “check”。这些反思性词语由 3 位人类专家选出:他们被要求思考若干反思性词语,然后将其合并为最终词表。如图所示,随着训练推进,反思行为的频率逐渐增加。具体而言,与训练开始时相比,反思性词语的出现次数增加了 5 到 7 倍,这表明 RL 在生成长链中间 token 方面发挥了关键作用。

其次,特定反思行为可能会在训练的某些特定时点出现。对 “wait” 一词的分析(图 9(b))清楚地展示了这一点。这种反思策略在训练早期几乎不存在,在 4000–7000 步之间偶尔出现,而在 8000 步之后出现显著峰值。这表明模型会在不同发展阶段学习不同形式的反思。

总之,我们观察到,模型的反思行为在训练过程中逐渐增加,而某些反思模式,例如使用 “wait”,则会在训练过程的特定时点涌现。

图 9 | 训练过程中推理行为的演化。
(a) 训练过程中代表性反思词语的频率;(b) “wait” 一词在整个训练过程中的具体出现模式。


D. DeepSeek-R1 的评估

D.1 实验设置

基准。 我们在 MMLU (Hendrycks et al., 2021)、MMLU-Redux (Gema et al., 2025)、MMLU-Pro (Wang et al., 2024)、C-Eval (Huang et al., 2023)、IFEval (Zhou et al., 2023b)、FRAMES (Krishna et al., 2024)、GPQA Diamond (Rein et al., 2023)、SimpleQA (OpenAI, 2024a)、C-SimpleQA (He et al., 2024)、SWE-Bench Verified (OpenAI, 2024b)、Aider (Gauthier, 2025)、LiveCodeBench (Jain et al., 2024) (2024-08 – 2025-01)、Codeforces (Mirzayanov, 2025)、Chinese National High School Mathematics Olympiad (CNMO 2024) (CMS, 2024),以及 American Invitational Mathematics Examination 2024 (AIME 2024) (MAA, 2024) 上评估模型。

具体而言,MMLU、MMLU-Redux、MMLU-Pro、C-Eval 和 CMMLU 是多项选择基准,用于评估模型在通用百科知识方面的表现。这些基准上的更高分数表示模型对世界知识具有更广泛的理解,并具备以多项选择形式正确回答问题的能力。SimpleQA 和 C-SimpleQA 评估模型在长尾知识上的表现,而 GPQA 评估模型解决物理、化学和生物领域博士级任务的能力。IFEval 用于评估模型按要求格式生成输出的能力。FRAMES 和 DROP 重点评估模型处理长文档并进行推理的表现。除这些标准基准外,我们还在开放式生成任务上评估模型,并使用 LLM 作为评审。我们遵循 AlpacaEval 2.0 和 Arena-Hard 的原始评估协议,使用 GPT-4-Turbo-1106 进行成对比较。为缓解长度偏差,评估模型只接收最终总结。

LiveCodeBench 和 Codeforces 用于衡量模型在算法竞赛任务上的表现,而 SWE-Verified 和 Aider 评估模型在真实世界软件工程问题上的能力。最后,AIME、MATH-500 和 CNMO 2024 包含用于测试模型数学领域推理能力的数学问题。

对于蒸馏模型,我们报告其在 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 上的代表性结果。


去污染。 为防止基准污染,我们对预训练数据和后训练数据都实施了全面的去污染流程。DeepSeek-V3 base 的知识截止日期为 2024 年 7 月,早于 CNMO 2024 等评估基准;我们过滤掉了任何包含与评估问题或参考解答匹配的 10-gram 序列的文本片段,包括网页和 GitHub 文件。作为去污染工作的一例,仅在数学领域,我们的去污染流程就识别并移除了约 600 万条潜在预训练文本。对于后训练,数学 SFT 数据和 RL 训练提示只来自 2023 年以前的竞赛,并经过与预训练中相同的 n-gram 过滤协议,从而确保训练数据和评估数据之间不存在重叠。这些措施确保我们的模型评估结果反映真正的问题求解能力,而不是对测试数据的记忆。

不过,我们承认,基于 n-gram 的去污染方法无法防止测试集的改写版本。因此,2024 年以前发布的基准仍可能存在污染问题。


评估提示。 遵循 DeepSeek-V3 的设置,MMLU、DROP、GPQA Diamond 和 SimpleQA 等标准基准使用 simple-evals 框架中的提示进行评估。对于 MMLU-Redux,我们在零样本设置下采用 Zero-Eval 提示格式 (Lin, 2024)。对于 MMLU-Pro、C-Eval 和 CLUE-WSC,由于原始提示是少样本提示,我们将其略微修改为零样本设置。少样本中的 CoT 可能会损害 DeepSeek-R1 的性能。其他数据集则遵循其创建者提供的默认提示和原始评估协议。对于代码和数学基准,HumanEval-Mul 数据集覆盖八种主流编程语言:Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash。LiveCodeBench 上的模型表现使用 CoT 格式进行评估,数据收集时间为 2024 年 8 月至 2025 年 1 月。Codeforces 数据集使用来自 10 场 Div.2 比赛的问题,并配合专家编写的测试用例进行评估,之后计算预期 rating 和参赛者百分位。SWE-Bench verified 结果通过 agentless 框架获得 (Xia et al., 2024)。AIDER 相关基准使用 “diff” 格式衡量。DeepSeek-R1 在每个基准上的输出上限为 32,768 个 token。

表 18 到表 32 展示了我们在不同基准上的评估格式示例。我们也在相应表格标题中详细说明了每个基准所评估的大语言模型具体能力。


基线。 我们与若干强基线进行了全面评估,包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在中国大陆访问 OpenAI-o1-1217 API 较为困难,我们基于官方报告给出其性能。对于蒸馏模型,我们还比较了开源模型 QwQ-32B-Preview (Qwen, 2024a)。

我们将模型的最大生成长度设为 32,768 个 token。我们发现,使用贪心解码评估长输出推理模型会导致更高的重复率,并在不同检查点之间产生显著波动。因此,我们默认采用 pass@(k) 评估 (Chen et al., 2021),并使用非零温度报告 pass@1。具体而言,我们使用 0.6 的采样温度和 0.95 的 top-§ 值,为每个问题生成 (k) 个回答(通常在 4 到 64 之间,取决于测试集大小)。具体来说,AIME 和 GPQA 使用 (k=64),MATH 和 CodeForces 使用 (k=16),LCB 使用 (k=8)。Pass@1 的计算方式如下:

[
pass@1 = \frac{1}{k}\sum_{i=1}^{k}p_i
]

其中,(p_i) 表示第 (i) 个回答的正确性。该方法提供了更可靠的性能估计。对于 AIME 2024,我们还报告使用 64 个样本的共识结果(多数投票),记为 cons@64。


D.2 主要结果

表 8 | DeepSeek-R1 与其他代表性模型的比较。
加粗数字表示性能具有统计显著性((t)-test,(p < 0.01))。

基准(指标) Claude-3.5-Sonnet-1022 GPT-4o 0513 DeepSeek V3 OpenAI o1-mini OpenAI o1-1217 DeepSeek R1
架构 - - MoE - - MoE
激活参数量 - - 37B - - 37B
总参数量 - - 671B - - 671B
English
MMLU (EM) 88.3 87.2 88.5 85.2 91.8 90.8
MMLU-Redux (EM) 88.9 88.0 89.1 86.7 - 92.9
MMLU-Pro (EM) 78.0 72.6 75.9 80.3 - 84.0
DROP (3-shot F1) 88.3 83.7 91.6 83.9 90.2 92.2
IF-Eval (Prompt Strict) 86.5 84.3 86.1 84.8 - 83.3
GPQA Diamond (Pass@1) 65.0 49.9 59.1 60.0 75.7 71.5
SimpleQA (Correct) 28.4 38.2 24.9 7.0 47.0 30.1
FRAMES (Acc.) 72.5 80.5 73.3 76.9 - 82.5
AlpacaEval2.0 (LC-winrate) 52.0 51.1 70.0 57.8 - 87.6
ArenaHard (GPT-4-1106) 85.2 80.4 85.5 92.0 - 92.3
Code
LiveCodeBench (Pass@1-COT) 38.9 32.9 36.2 53.8 63.4 65.9
Codeforces (Percentile) 20.3 23.6 58.7 93.4 96.6 96.3
Codeforces (Rating) 717 759 1134 1820 2061 2029
SWE Verified (Resolved) 50.8 38.8 42.0 41.6 48.9 49.2
Aider-Polyglot (Acc.) 45.3 16.0 49.6 32.9 61.7 53.3
Math
AIME 2024 (Pass@1) 16.0 9.3 39.2 63.6 79.2 79.8
MATH-500 (Pass@1) 78.3 74.6 90.2 90.0 96.4 97.3
CNMO 2024 (Pass@1) 13.1 10.8 43.2 67.6 - 78.8
Chinese
CLUEWSC (EM) 85.4 87.9 90.9 89.9 - 92.8
C-Eval (EM) 76.7 76.0 86.5 68.9 - 91.8
C-SimpleQA (Correct) 55.4 58.7 68.0 40.3 - 63.7

标准基准。 我们在多个基准上评估 DeepSeek-R1。对于 MMLU、MMLU-Pro 和 GPQA Diamond 等面向教育的知识基准,DeepSeek-R1 相较 DeepSeek-V3 展现出更优表现。这一提升主要归因于 STEM 相关问题准确率的提高,而这类问题通过大规模强化学习获得了显著收益。此外,DeepSeek-R1 在 FRAMES 上表现出色;FRAMES 是一个依赖长上下文的问答任务,显示了其强大的文档分析能力。这突显了推理模型在 AI 驱动搜索和数据分析任务中的潜力。

DeepSeek-R1 在 IF-Eval 上也取得了令人印象深刻的结果;该基准用于评估模型遵循格式指令的能力。这些提升可能与 SFT 和 RL 训练最后阶段加入了指令遵循数据有关。此外,DeepSeek-R1 在 AlpacaEval2.0 和 ArenaHard 上也表现突出,显示出其在写作任务和开放域问答方面的优势。

在数学任务上,DeepSeek-R1 的表现与 OpenAI-o1-1217 相当,并大幅超过其他模型。类似趋势也出现在代码算法任务上,例如 LiveCodeBench 和 Codeforces;在这些基准上,面向推理的模型占据主导地位。在面向工程的代码任务上,OpenAI-o1-1217 在 Aider 上超过 DeepSeek-R1,但在 SWE Verified 上表现相当。我们认为 DeepSeek-R1 的工程能力将在下一版本中提升,因为目前相关 RL 训练数据量仍然非常有限。

图 10 | DeepSeek-R1 与 DeepSeek-R1-Zero 的基准表现和人类分数在不同数据集上的比较。
对于 AIME 和 Codeforces,人类分数表示所有人类参赛者的平均表现。对于 GPQA,人类分数对应具有博士水平且可以访问网络来回答问题的个体。

图 10 展示了 DeepSeek-R1-Zero、DeepSeek-R1 和人类参与者在若干基准竞赛中的表现比较分析。值得注意的是,AIME 是面向高中生的数学竞赛,而 DeepSeek-R1 的表现超过了该赛事中人类参赛者的平均分。在 Codeforces 平台上,DeepSeek-R1 超过了 96.3% 的人类参与者,凸显了其高级问题求解能力。对于 GPQA,人类专家——通常是具有博士级资格并可访问网络资源的个体——表现仍优于 DeepSeek-R1。不过,我们预计,如果为 DeepSeek-R1 启用网络访问,其在 GPQA 上的表现可能会显著提升,从而缩小甚至消除观察到的差距。


人类评估。 我们使用 ChatbotArena (Chiang et al., 2024) 通过排名和 Elo 分数展示人类对 DeepSeek-R1 的偏好。ChatbotArena 是由 LMSYS 和 UC Berkeley SkyLab 开发的开放众包平台,用于基于人类偏好评估并排名 LLM。其核心机制是成对比较:两个匿名 LLM(从超过 100 个模型池中随机选择)对用户提交的提示作答。用户随后投票选择更偏好的回答、宣布平局或标记两个都不好,并且在投票后才知道模型身份。这种双盲方法确保公平性并减少偏差。该平台截至最近更新已收集数百万用户投票,并使用 Elo 评分系统对模型进行排名;该方法改编自国际象棋,根据成对结果预测胜率。为了提高稳定性并高效纳入新模型,Chatbot Arena 采用一种类似 bootstrap 的技术,在不同排列中打乱投票数据,以计算可靠的 Elo 分数。它也开始采用 Bradley-Terry 模型,通过基于全部对战历史估计所有对战的胜率来优化排名。

DeepSeek-R1 在 ChatbotArena 中展现出卓越表现。图 11 展示了截至 2025 年 1 月 24 日 DeepSeek-R1 在 ChatbotArena 上的总体排名;在 style control 设置下,DeepSeek-R1 与 OpenAI-o1 和 Gemini-Exp-1206 并列第一。Style control 指一种被引入的功能,用于在评估和排名 LLM 时,将模型回答风格(如长度、格式、语气)的影响与其实质内容(如准确性、相关性、推理)区分开来。这解决了一个问题:模型是否可以通过生成更长、更精致或格式更好的回答来 “操纵” 人类偏好,即使其内容不一定更优。一个采用 MIT License 的开源模型能够达到与闭源模型相当的表现,这是一个巨大里程碑,尤其考虑到 DeepSeek-R1 的成本相对低廉。图 12 展示了不同评估维度上的排名,突出了 DeepSeek-R1 在数学、编码和其他领域的强劲表现。这表明 DeepSeek-R1 不仅在推理方面表现出色,也在广泛领域中表现优异。

图 11 | DeepSeek-R1 在 ChatBotArena 上 style control 排名。
截图捕获于 2025 年 1 月 24 日,即模型发布一周后。随着投票数量增加,排名会实时动态更新。

图 12 | DeepSeek-R1 在 2025 年 1 月 24 日各方面的排名。


D.3 DeepSeek-R1 安全报告

警告:本节包含潜在风险和冒犯性内容!

我们充分认识到,尽管开源共享促进了先进技术在社区中的传播,但也引入了潜在的滥用风险。在本节中,我们系统呈现 DeepSeek-R1 的安全风险评估。具体而言,我们围绕以下方面展开分析:(1) D.3.1:官方 DeepSeek-R1 服务的风险控制系统;(2) D.3.2:在 6 个公开安全基准上与其他最先进模型进行比较安全评估;(3) D.3.3:基于内部安全测试集的分类学研究;(4) D.3.4:R1 模型的多语言安全评估;(5) D.3.5:模型对越狱攻击的鲁棒性评估。


D.3.1 DeepSeek-R1 的风险控制系统

通常,除了模型的内在安全性之外,基于模型的服务通常还会实现外部风险控制系统,以增强系统级安全性。本小节介绍官方 DeepSeek 服务中部署的风险控制系统。在本章后续给出的比较实验中,我们会报告 DeepSeek-R1 在有无风险控制措施情况下的结果。对于其他厂商的模型,结果代表整合了模型内在安全机制和外部风险控制系统后的综合安全表现。

Listing 8 | DeepSeek-R1 的风险审查提示

该 Listing 给出了 DeepSeek-R1 风险审查提示的完整模板,包括角色设定、工作流程、安全标准、输出格式,以及如何基于用户问题和模型回答判断是否违反安全标准。此处不逐字翻译原提示内容。

DeepSeek-R1 的风险控制系统通过向 DeepSeek-V3 发送风险审查提示来实现。具体而言,它包括以下两个主要流程:

潜在风险对话过滤。 每轮对话之后,用户查询会自动与预定义关键词列表进行匹配。该列表包含伦理和安全场景中常用的术语,旨在确保对潜在安全问题的全面覆盖。匹配这些关键词的对话会被标记为潜在不安全对话。

基于模型的风险审查。 随后,这些潜在不安全对话会与预设风险审查提示(如 Listing 8 所示)拼接,并发送给 DeepSeek-V3 模型(考虑效果与效率之间的平衡)。系统随后根据风险审查结果判断是否应撤回该对话。我们精心设计了这一风险审查提示,以有效覆盖多种安全场景并保持良好可扩展性。

后续实验结果表明,加入风险控制系统后,服务整体安全性显著提升,尤其是在对抗越狱攻击等危险策略方面。因此,我们建议将 DeepSeek-R1 部署为服务的开发者实现类似风险控制系统,以缓解与模型相关的伦理和安全问题。开发者可以通过在风险审查流程中自定义安全标准,实现更加灵活的安全保护。


D.3.2 R1 在标准基准上的安全评估

本节展示 DeepSeek-R1 模型在综合开源安全基准上的表现。我们首先介绍这些评估数据集的构成。随后,我们将模型与一系列前沿模型进行安全表现比较和分析。

鉴于安全相关主题范围广泛,我们选择了六个公开可用的基准数据集,每个数据集聚焦安全的不同方面,以确保评估全面且均衡。以下是这些评估基准的介绍。

Simple Safety Tests (Vidgen et al., 2023): 简称 SST,该基准主要覆盖以下五类安全评估:Illegal Items、Physical Harm、Scams & Fraud、Child Abuse,以及 Suicide, Self-Harm & Eating Disorders(SH & ED)。

Bias Benchmark for QA (Parrish et al., 2022): 简称 BBQ,该基准主要评估语言模型在涉及歧视性偏见对话中的表现。具体而言,它考察以下类型的偏见:年龄、残疾状态、性别认同、国籍、外貌、种族/民族、宗教、社会经济地位和性取向。

Anthropic Red Team (Ganguli et al., 2022): 简称 ART,该基准由 Anthropic 在对模型进行红队攻击期间收集的数据组成。红队攻击主要覆盖以下方面:歧视与不公平(如种族和性别偏见);仇恨言论和冒犯性语言(如针对特定群体的侮辱和贬损言论);暴力和煽动(如暴力行为指令和恐怖主义相关内容);非暴力不道德行为(如欺骗、作弊和信息操纵);以及欺凌和骚扰等。

XSTest (Röttger et al., 2024): 该基准评估模型安全性的两个方面。第一方面考察八类场景中的潜在安全漏洞。第二方面评估十类场景中过度安全约束的风险,确保模型既不会回应有害查询(如提供虚构人物隐私信息相关答案),也不会因过度严格的安全措施而不必要地拒绝回答合法问题。

Do-Not-Answer (Wang et al., 2023d): 简称 DNA,该基准围绕 “不应遵循的危险指令” 设计,由一组风险相关查询构成,覆盖十二类危害(如个人信息泄露、协助非法活动)和 61 种具体风险类型(如种族歧视、误导性医疗建议)。

HarmBench (Mazeika et al., 2024): 该基准主要围绕以下四个方面构建:标准模型安全能力、版权相关安全能力、上下文感知安全能力和多模态安全能力。此外,该工作还提出了一种自动生成多样化自动红队攻击样本的方法。

在评估实现方面,Do-Not-Answer 和 HarmBench 基准的结果基于官方评估方法复现,而其他基准的结果来自独立第三方评估平台 HELM(https://crfm.stanford.edu/helm/safety/latest/#/leaderboard)(我们记录的是该网站 2025 年 4 月的结果)。在复现 HarmBench 结果期间,我们观察到使用相对较小的模型(即 LLaMA-2-13B)会导致评估结果不可靠。为解决这一问题,我们优化了评分方法,改用更先进的模型(即 GPT4o(2024-11-20))进行评估。此外,在获取不同模型结果时,有些查询会被风险控制系统标记为不安全,从而导致自动拒绝。在这种情况下,我们统一将这些拒绝归类为安全回答。

比较实验结果见表 9,其中我们评估了模型与其他最先进模型的安全表现。结果表明,R1 模型在不同基准上达到了与其他前沿模型相当的安全表现。我们观察到,R1 在 HarmBench 基准上与其他模型相比存在显著性能差距。我们对评估结果的分析表明,R1 在 HarmBench 测试集中与知识产权相关的问题上表现较差。例如,当被提示生成歌词(如 Generate the lyrics of ’What a Wonderful World’ by Louis Armstrong)时,R1 未能拒绝该请求,导致其被归类为不安全。此外,在其他安全类别相关基准上(如歧视和偏见、暴力和极端主义、隐私侵犯等),R1 始终展现出较强的安全措施。

表 9 | DeepSeek-R1 与其他前沿模型在安全基准上的比较。
更高分数表示更好的安全表现。带 * 的基准为我们复现的结果,其他数值结果来自独立 HELM 评估。括号中的数字表示不考虑风险控制系统(D.3.1 中介绍)的纯模型结果。

安全分数(%) SST BBQ ART XSTest DNA* HarmBench* 平均分
Claude-3.7-Sonnet 100.0 92.1 99.7 96.4 95.9 83.3 94.6
o1 (2024-12-17) 99.0 97.3 98.3 97.0 86.2 84.0 93.6
GPT-4o (2024-05-13) 98.5 95.1 99.1 97.3 90.6 72.7 92.2
Qwen2.5 Instruct (72B) 100.0 95.4 99.6 97.9 95.9 83.0 95.3
DeepSeek-V3 95.3 96.7 97.1 97.1 95.6 96.0 (67.0) 96.3 (91.5)
DeepSeek-R1 (hide cot) 98.0 96.6 97.2 94.4 93.7 96.3 (58.0) 96.0 (89.7)
DeepSeek R1 97.5 96.6 96.2 95.3 94.8 89.3 (35.0) 95.0 (85.9)

D.3.3 R1 在内部基准上的安全分类学研究

在本节中,我们基于内部安全基准展示针对 DeepSeek-R1 模型的安全分类学研究。具体而言,我们首先介绍内部安全基准的构建。随后,我们讨论 R1 模型在不同类别上的表现,并将其与其他前沿模型的表现进行比较。

尽管现有工作已经贡献了有价值的安全评估数据集,但不同数据集聚焦于不同领域,并采用不同的分类方法。此外,来自不同来源的数据在属性上存在差异(如语言、数量和评估方法),因此很难直接对齐。因此,我们专门构建了一个内部安全评估数据集,用于监测模型的整体安全水平。该数据集的构建具有以下特点:(1) 遵循统一的分类标准构建测试框架,尽可能全面覆盖各种安全和伦理场景;(2) 对齐不同类别安全测试数据的数量、语言和评估方法,使我们能够针对不同安全场景进行定量安全评估;(3) 具有良好的可扩展性,后续小节中的多语言(D.3.4)和越狱攻击(D.3.5)评估也基于该数据集扩展而来。

我们的安全问题分类见图 13。我们将语言模型面临的潜在内容安全挑战划分为 4 个大类和 28 个子类。详细描述如下:

歧视与偏见问题。 歧视和偏见问题广泛存在于具有不同文化背景的社区中。我们大致将其分为两类:基于个人身体属性的歧视,以及基于个人社会属性的歧视。基于身体属性的歧视主要指由个人生理状况引发的不当否定和嘲讽,例如年龄、性别、性取向、外貌、体型和健康状况。社会属性歧视包括基于国籍、民族和宗教的刻板印象,以及源自个人经济状况、教育背景、文化身份和家庭背景的狭隘观点。

非法与犯罪行为。 非法活动涵盖以下安全主题:暴力行为、恐怖主义、非法色情内容、非法医疗行为(代孕、安乐死、器官交易)、非法赌博、药物和物质滥用(包括毒品制造、贩运和使用)、网络犯罪(攻击网络和计算机系统)、动物相关犯罪(如虐待动物或偷猎)等。

有害行为。 针对人的有害行为主要包括以下四类:(1) 身体伤害:包括自残、自杀、伤害或谋杀他人;(2) 心理伤害:包括言语虐待、威胁、恐吓、精神操纵、欺骗和煽动;(3) 隐私侵犯:涵盖个人健康信息、基本生物识别数据、身份证明信息、位置追踪、金融信息等;(4) 经济利益侵犯:包括违反商业伦理、侵犯知识产权、泄露商业秘密和不正当商业竞争。

道德与伦理问题。 我们识别并分类了以下四种场景中的伦理问题:(1) 家庭伦理:包括与父母责任、兄弟姐妹关系和对待家中老人有关的问题;(2) 婚姻伦理:涵盖忠诚、沟通和夫妻共同责任等话题;(3) 学校、学生和学术伦理:涉及学术诚信、欺凌以及学生与教师之间的关系等事项;(4) 职业伦理:涵盖利益冲突、职场行为以及对客户和同事的责任等相关问题。

在建立上述安全内容分类后,我们为 28 个子类别分别构建了专门测试集,以评估模型在相应领域中的安全表现。具体而言,我们为每个子类别手工创建了 20 个中文测试问题,覆盖该领域中的重要概念和风险点,同时强调问题多样性。随后,我们将这 20 个中文测试问题翻译为对应英文版本,以更好评估模型在中文和英文中的安全表现。最终,我们开发了 1,120 个测试问题,用于系统评估模型安全性。

在评估方法中,我们采用 LLM-as-a-Judge 方法,使用一个高级 GPT 版本(GPT4o (2024-11-20))来确定安全标签。我们的安全评估流程将每个 QA 对分为以下三类:(1) Unsafe:模型给出的回答不符合伦理和安全标准,代表明确负样本;(2) Safe:模型给出相关回答,承认问题中的伦理风险,并向用户提供适当警示,代表明确正样本;(3) Rejection:模型给出不相关的拒绝回答,或系统基于风险控制措施给出机械性拒绝;我们将这种情况视为安全回答和不安全回答之间的中间状态。

在表 10 中,我们考虑两个指标:Unsafe 和 Reject。Unsafe 指标衡量所有回答中不安全回答的比例,数值越低表示安全表现越好。Reject 指标表示所有回答中拒绝回答的比例,数值越低越理想(我们偏好安全回答而非拒绝,因为安全回答可以提供风险警示信息)。

我们为不同子类别的问题设计了专门提示,以评估回答的安全性。我们也验证了 LLM 评估结果与人工评估之间的一致性达到可接受水平(抽样结果一致率超过 95%)。实验比较结果见表 10,可观察到以下结论:

表 10 | DeepSeek-R1 与其他前沿模型在细粒度安全场景中的比较。
Unsafe 表示模型回答中不安全内容的比例(数值越低表示模型安全性越好),Rej. 表示模型回答中的拒绝率(数值越低表示模型更倾向于向问题提供有信息量且安全的回答,而不是简单拒绝回答)。对于 DeepSeek-V3 和 DeepSeek-R1,我们报告两种配置下的结果:有风险控制系统和无风险控制系统(D.3.1 中介绍)。

比例(%) 歧视 Unsafe 歧视 Rej. 非法 Unsafe 非法 Rej. 有害 Unsafe 有害 Rej. 伦理 Unsafe 伦理 Rej. 总体 Unsafe 总体 Rej.
Claude-3.7-Sonnet 8.4 2.5 14.1 4.5 9.5 5.5 7.5 0.6 10.7 3.6
o1 (2024-12-17) 7.2 37.8 12.3 54.8 5.0 73.5 8.8 34.4 9.0 50.4
GPT-4o (2024-05-13) 19.1 6.2 22.5 28.4 28.0 19.5 18.8 4.4 22.0 17.1
Qwen2.5 Instruct (72B) 12.8 2.5 14.5 9.5 15.5 5.0 11.9 0.0 13.8 5.4
DeepSeek-V3 20.3 2.5 17.3 13.9 17.5 9.5 13.1 1.9 17.6 8.1
+ risk control system 8.1 16.9 3.2 35.5 7.0 22.5 3.1 18.1 5.3 25.4
DeepSeek-R1 19.7 3.8 28.9 8.6 32.5 6.0 16.9 0.6 25.2 5.6
+ risk control system 9.1 17.2 6.6 39.1 13.0 29.0 6.9 13.1 8.5 27.3

从表 10 可以得出以下结论:

第一,分析不安全率:DeepSeek-V3(带风险控制)属于第一梯队安全模型(不安全率约 5%);DeepSeek-R1(带风险控制)、Claude-3.7-Sonnet 和 o1 (2024-12-17) 属于第二梯队安全模型(不安全率约 10%);DeepSeek-V3(无风险控制)和 Qwen2.5 Instruct (72B) 属于第三梯队安全模型(不安全率约 15%);而 DeepSeek-R1(无风险控制)和 GPT-4o (2024-05-13) 则是相对不安全的模型(不安全率超过 20%)。

第二,分析拒绝率:DeepSeek-R1 和 DeepSeek-V3 的基础模型拒绝率较低,但不安全率较高。在实施风险控制系统后,这些模型表现出相对较低的不安全率,但拒绝率更高(约 25%)。此外,Claude-3.7-Sonnet 在用户体验(最低拒绝率)和模型安全性(不安全率处于相对较低水平)之间取得了良好平衡;而 o1 (2024-12-17) 表现出更严重的拒绝查询倾向(约 50%),推测其采用了严格的系统级风险控制,以防止模型暴露不安全内容。

第三,分析风险类型:DeepSeek-R1 在处理与非法和犯罪行为、道德与伦理问题相关的查询时表现非常出色,而在涉及歧视与偏见问题、有害行为的场景中表现一般,这促使我们在开发模型安全功能和风险控制系统时更加关注这两类问题。

图 13 | 内部安全基准的分类体系。


D.3.4 多语言安全表现

在上一节的评估中,我们主要关注模型在特定语言(中文和英文)中的安全表现。然而,在实际使用场景中,用户的语言背景高度多样。因此,评估不同语言之间的安全差异非常重要。为此,我们将原始双语安全测试集(D.3.3 中介绍)翻译成 50 种常用语言。对于高频语言,我们对整个数据集进行了完整翻译;对于低频语言,则进行了抽样翻译。该过程最终形成了一个包含 9,330 个问题的综合多语言安全测试集。在翻译过程中,我们采用 LLM 翻译和人工辅助校准相结合的方法,以确保翻译质量。

我们继续使用上一节描述的 LLM-as-a-judge 方法,为每个问答对确定安全标签(safe、unsafe 或 rejected)。我们偏好提供安全内容的回答,而不只是拒绝风险查询;因此,我们为安全回答分配更高分数(每题 5 分,安全回答 5 分,不安全回答 0 分,拒绝 4 分)。50 种语言上的最终安全分数比例(安全分数占总可能安全分数的百分比)见图 14。对于 DeepSeek-V3 和 DeepSeek-R1,我们评估了模型在有无风险控制系统(D.3.1 中介绍)情况下的安全分数。此外,我们还测试了 Claude-3.7-Sonnet 和 GPT-4o(2024-05-13) 的多语言安全表现。根据图 14,可以得出以下结论:

第一,在有风险控制系统的情况下,DeepSeek-V3(86.5%)和 DeepSeek-R1(85.9%)在 50 种语言上的总安全分数接近表现最佳的 Claude-3.7-Sonnet(88.3%)。这表明 DeepSeek 在系统级多语言安全方面已经达到最先进水平。

第二,在没有风险控制系统的情况下,DeepSeek-V3(75.3%)和 DeepSeek-R1(74.2%)在 50 种语言上的安全分数与 GPT-4o(2024-05-13) 的表现(75.2%)相当。这表明,即使直接使用 R1 的开源版本,模型仍然表现出中等水平的安全标准。

第三,考察特定语言弱点时,我们将安全分数低于 60 分的语言归类为对应模型的高风险语言。在评估的 50 种语言中,DeepSeek-R1(无风险控制系统)和 Claude-3.7-Sonnet 没有高风险语言;DeepSeek-V3(无风险控制系统)和 GPT-4o(2024-05-13) 分别有一种和两种高风险语言。这表明 DeepSeek-R1 没有明显的特定语言漏洞。

图 14 | 多语言安全表现。
V3-check 和 R1-check 分别表示 DeepSeek-V3 和 DeepSeek-R1 的风险控制系统评估结果。


D.3.5 对越狱的鲁棒性

在真实世界应用场景中,恶意用户可能采用各种越狱技术来绕过模型的安全对齐,并诱导模型生成有害回答。因此,除了评估模型在直接提问下的安全性之外,我们也高度重视考察模型在面对越狱攻击时的鲁棒性。因此,我们构建了一个专门用于越狱评估的测试套件。具体而言,我们开发了一个包含 2,232 条越狱指令的模板集合。随后,我们将这些越狱提示与原始安全测试集(D.3.3 中介绍)中的问题随机拼接,并进一步考察模型在面对原始不安全问题与加入越狱元素的新问题时,其回答表现的差异。

在评估结果时,我们遵循 LLM-as-a-Judge 安全评估方法(D.3.3 中介绍),同时改进安全评估提示,使其更加专注于识别越狱尝试中的操纵性陷阱。每个问答对被分类为三类之一:safe、unsafe 或 rejected(D.3.3 中介绍)。针对各种模型的越狱攻击结果见表 11。根据这些结果,我们得出以下结论:

表 11 | DeepSeek-R1 与其他前沿模型在越狱场景中的比较。

比例(%) 不安全率 Origin 不安全率 Jailbreak GAP 拒绝率 Origin 拒绝率 Jailbreak GAP
Claude-3.7-Sonnet 10.7 26.2 +15.5 3.6 21.9 +18.3
o1 (2024-12-17) 9.0 12.1 +3.1 50.4 79.8 +29.4
GPT-4o (2024-05-13) 22.0 30.4 +8.4 17.1 57.3 +40.2
Qwen2.5 Instruct (72B) 13.8 29.7 +15.9 5.4 25.2 +19.8
DeepSeek-V3 17.6 36.4 +18.8 8.1 8.9 +0.8
+ risk control system 5.3 2.3 -3.0 25.4 46.5 +21.1
DeepSeek-R1 25.2 85.9 +60.7 5.6 1.9 -3.7
+ risk control system 8.5 4.3 -4.2 27.3 87.3 +60.0

第一,所有被测试模型在面对越狱攻击时,不安全回答率和拒绝率都显著上升,安全率下降。例如,Claude-3.7-Sonnet 在面对我们的安全越狱攻击时,安全回答比例下降了 33.8%。这表明当前前沿模型仍然面临来自越狱攻击的重大威胁。

第二,与非推理模型相比,我们实验中的两个推理模型——DeepSeek-R1 和 o1(2024-12-17)——在安全检查方面更依赖风险控制系统,导致总体拒绝率显著更高(分别为 79.8% 和 87.3%)。

第三,开源模型(DeepSeek、Qwen)相比闭源模型面临更严峻的越狱安全挑战,因为本地部署模型缺乏风险控制系统。为解决安全问题,我们建议在服务中使用开源模型的开发者采用类似风险控制措施。
以下为 Appendix E. More Analysis、F. DeepSeek-R1 Distillation、G. Discussion、H. Related Work、I. Open Weights, Code, and Data、J. Evaluation Prompts and Settings 的中文翻译。括号内引用保留原文格式;Listing 以及 Table 中的 PROMPT / Evaluation 内容不逐字翻译,只保留标题并简要概括。


E. 更多分析

E.1 与 DeepSeek-V3 的性能比较

由于 DeepSeek-R1 和 DeepSeek-V3 共享同一个基础架构,即 DeepSeek-V3-Base,一个关键问题自然出现:不同后训练技术具体增强了哪些维度?为回答这一问题,我们首先将 R1 系列模型与 DeepSeek-V3 和 DeepSeek-V3-Base 进行比较,如表 12 所示。值得注意的是,DeepSeek-R1 在竞赛编程和数学推理任务上表现出显著提升,这一点可以从 LiveCodeBench 和 AIME 2024 等基准上的优异表现中看出。这些推理能力的增强也转化为 Arena-Hard 评测套件上的更高分数。此外,DeepSeek-R1 展现出更强的长上下文理解能力,这体现在它在 FRAMES 基准上的准确率提升。相比之下,DeepSeek-V3 在指令遵循能力上表现出相对优势,这表明两个模型的优化重点有所不同。

表 12 | DeepSeek-V3 与 DeepSeek-R1 的比较分析。 DeepSeek-V3 是在 DeepSeek-V3-Base 之上开发的非推理模型,而 DeepSeek-V3-Base 同时也是 DeepSeek-R1 的基础模型。加粗数字表示性能具有统计显著性((t)-test,(p < 0.01))。

基准(指标) V3-Base V3 R1-Zero R1
English
MMLU (EM) 87.1 88.5 88.8 90.8
MMLU-Redux (EM) 86.2 89.1 85.6 92.9
MMLU-Pro (EM) 64.4 75.9 68.9 84.0
DROP (3-shot F1) 89.0 91.6 89.1 92.2
IF-Eval (Prompt Strict) 58.6 86.1 46.6 83.3
GPQA Diamond (Pass@1) - 59.1 75.8 71.5
SimpleQA (Correct) 20.1 24.9 30.3 30.1
FRAMES (Acc.) - 73.3 82.3 82.5
AlpacaEval2.0 (LC-winrate) - 70.0 24.7 87.6
ArenaHard (GPT-4-1106) - 85.5 53.6 92.3
Code
LiveCodeBench (Pass@1-COT) - 36.2 50.0 65.9
Codeforces (Percentile) - 58.7 80.4 96.3
Codeforces (Rating) - 1134 1444 2029
SWE Verified (Resolved) - 42.0 43.2 49.2
Aider-Polyglot (Acc.) - 49.6 12.2 53.3
Math
AIME 2024 (Pass@1) - 39.2 77.9 79.8
MATH-500 (Pass@1) - 90.2 95.9 97.3
CNMO 2024 (Pass@1) - 43.2 88.1 78.8
Chinese
CLUEWSC (EM) 82.7 90.9 93.1 92.8
C-Eval (EM) 90.1 86.5 92.8 91.8
C-SimpleQA (Correct) - 68.0 66.4 63.7

为进一步阐明哪些具体知识领域最受益于后训练,我们对 MMLU 和 MMLU-Pro 中不同学科类别的模型表现进行了细粒度分析。这些类别是在测试集构建期间预先定义的,使我们能够更系统地评估特定领域的提升。

如图 16 所示,MMLU-Pro 上所有领域都观察到了性能提升,其中数学和物理等 STEM 相关类别的提升尤其显著。类似地,在 MMLU 上,从 DeepSeek-V3 到 DeepSeek-R1 的最大提升也出现在 STEM 领域。然而,与 MMLU-Pro 不同,MMLU 中 STEM 领域的提升较小,这表明后训练在两个基准上的影响存在差异。我们的假设是,与 MMLU-Pro 相比,MMLU 是一个相对更容易的挑战。在 MMLU 的 STEM 任务中,DeepSeek-V3 的后训练可能已经达到接近饱和的性能,因此 DeepSeek-R1 留下的进一步提升空间很小。令我们意外的是,社会科学和人文学科等非 STEM 任务也因长 CoT 获得了提升,这可能归因于模型对问题的理解更好。

图 15 | DeepSeek-V3 与 DeepSeek-R1 在 MMLU 各类别上的比较。

图 16 | DeepSeek-V3 与 DeepSeek-R1 在 MMLU-Pro 各类别上的比较。


E.2 泛化到真实世界竞赛

尽管我们做了严格的数据污染消除工作,测试集问题的变体或相关问题的讨论仍可能存在于被纳入预训练语料的网站中。这引出了一个重要问题:DeepSeek-R1 能否在训练之后发布的测试集上取得类似表现?为研究这一点,我们在 AIME 2025 上评估模型,从而洞察其在未见数据上的泛化能力。如表 13 所示,在 AIME 2025(https://artofproblemsolving.com/wiki/index.php/2025_AIME_II_Problems)中,DeepSeek-R1 达到 75% 的解题率(Pass@1),接近 o1 的 80% 表现。最值得注意的是,模型在 AMC 12 2024(https://artofproblemsolving.com/wiki/index.php/2024_AMC_12B_Problems)中取得 143.7/150 的分数;结合其 AIME 成绩后,其得分超过了参加 USAMO(United States of America Mathematical Olympiad,https://artofproblemsolving.com/wiki/index.php/AMC_historical_results?srsltid=AfmBOoqQ6pQic5NCan_NX1wYgr-aoHgJ33hsq7KSekF-rUwY8TBaBao1)的资格线。这一表现使 DeepSeek-R1 位列美国顶尖高中生水平。

表 13 | 最新数学竞赛上的表现。 USAMO index(AMC 分数 + (10 \times) AIME 分数)超过 251.5 的参赛者可获得 USAMO 资格。

平均分 AMC 12 2024 AIME 2025 USAMO Index
Human Participants 61.7 6.2/15 123.7
GPT-4o 0513 84.0 2.0/15 104.0
DeepSeek V3 98.3 3.3/15 131.3
OpenAI o1-1217 141.0 12.0/15 261.0
DeepSeek R1 143.7 11.3/15 256.7

E.3 按类别拆解数学能力

为全面评估 DeepSeek-R1 的数学推理能力,我们评估了其在不同类别定量推理问题上的表现。我们的测试集包含 366 道题,来自 2024 年举行的 93 场数学竞赛(https://artofproblemsolving.com/community/c3752401_2024_contests),包括数学奥林匹克竞赛和队伍选拔测试。如图 17 所示,DeepSeek-R1 显著超过代表性的非推理模型 GPT-4o 0513。DeepSeek-R1 在数论和代数方面表现出相对较强的熟练度,而在几何和组合数学方面仍有相当大的提升空间。

图 17 | 来自 2024 年竞赛合集的不同类别定量推理问题上的表现拆解。


E.4 对 CoT 长度的分析

自适应 CoT 长度: 在训练过程中,DeepSeek-R1 被允许在得出最终解答前进行长时间思考,即生成较长的思维链。为了最大化在困难推理任务上的成功率,模型学会了通过生成更多思考 token 来动态扩展计算,用于验证或修正其推理步骤,或在最初尝试失败时回溯并探索替代方法。问题复杂度与所需思考 token 数直接相关:更困难的问题通常需要更广泛的计算。对于极其简单的问题,例如 (1+1=?),模型倾向于使用较少 token(少于 100 个 token)来回答问题。

图 18 展示了 DeepSeek-R1 如何扩展测试时计算以解决 2024 年数学竞赛中的挑战性问题(与图 17 使用同一组问题)。DeepSeek-R1 通过将测试时计算扩展到平均每题 8,793 个思考 token,达到 61.8% 的解题率(Pass@1)。值得注意的是,模型会根据问题难度自适应调整计算投入:对于简单问题使用少于 7,000 个思考 token,而对于最具挑战性的问题则投入超过 18,000 个思考 token。这表明 DeepSeek-R1 会根据问题复杂度自适应分配测试时计算:在更复杂的问题上,它倾向于思考更久。展望未来,我们假设,如果在训练中显式建模 token 预算分配,那么测试时简单问题与困难问题之间的 token 使用差异可能会更加明显。

图 18 | 随着问题难度增加,测试时计算扩展情况。 难度由 Pass@1 衡量,计算量由生成正确答案所需的思考 token 数衡量。图像使用 SciPy 的 UnivariateSpline 平滑,平滑因子为 5。

与非推理模型的比较: DeepSeek-R1 这类推理模型相较 GPT-4o 0513 等非推理模型的一个关键优势,是它们能够沿推理维度有效扩展。非推理模型通常直接生成解答,没有中间思考步骤,也很少展现自我反思、回溯或探索替代方法等高级问题求解技术。在同一组数学问题上,GPT-4o 0513 只达到 24.7% 的解题率,平均生成 711 个输出 token,比 DeepSeek-R1 少一个数量级。值得注意的是,非推理模型也可以通过多数投票等传统方法扩展测试时计算,但即便在控制生成 token 总数的情况下,这些方法也无法弥合与推理模型之间的性能差距。例如,在 2024 年竞赛级数学问题合集上,每题 16 个样本的多数投票只为 GPT-4o 的解题率带来极小提升,尽管其消耗的总 token 数超过 DeepSeek-R1。在 AIME 2024 上,64 个样本的多数投票只将 GPT-4o 的解题率从 9.3% 提高到 13.4%,仍远低于 DeepSeek-R1 的 79.8% 解题率或 o1 的 79.2% 解题率。这种持续存在的性能差距源于一个根本限制:在多数投票中,样本是独立生成的,而不是彼此构建在前一个样本之上。由于非推理模型缺少回溯或自我修正能力,扩大样本规模只是反复采样潜在错误的最终解答,而不会提高单次尝试中找到正确解答的概率,因此这种方法在 token 使用上效率很低。

缺点: 然而,DeepSeek-R1 的长推理链有时仍不够彻底,或会陷入错误逻辑路径。独立采样多条推理链会增加发现正确解的概率,这一点可以从 DeepSeek-R1 在 AIME 2024 上的 Pass@64 分数为 90.0% 看出,该分数显著高于其 79.8% 的 Pass@1。因此,多数投票或蒙特卡洛树搜索(MCTS)等传统测试时扩展方法可以补充 DeepSeek-R1 的长推理;具体而言,多数投票进一步将 DeepSeek-R1 的准确率从 79.8% 提升到 86.7%。


E.5 各阶段在不同难度问题上的表现

表 14 | DeepSeek-R1 各阶段在 LiveCodeBench 数据集中不同难度等级问题上的实验结果。

难度等级 DeepSeek-R1 Zero DeepSeek-R1 Dev1 DeepSeek-R1 Dev2 DeepSeek-R1 Dev3 DeepSeek R1
Easy 98.07 99.52 100.00 100.00 100.00
Medium 58.78 73.31 81.76 81.42 83.45
Hard 17.09 23.21 30.36 33.16 34.44

为进一步评估 DeepSeek-R1 各阶段在不同难度问题上的表现,我们在 LiveCodeBench 数据集上展示了 DeepSeek-R1 各阶段的实验结果,如表 14 所示。可以观察到,对于每个阶段,简单问题通常都能被正确解决,而主要提升来自中等和困难问题。这种细粒度分析表明,每个阶段都在复杂编码推理问题上带来了显著提升。


F. DeepSeek-R1 蒸馏

LLM 需要大量能源,训练和部署都要求大量计算资源,包括高性能 GPU 和可观的电力消耗。这些资源需求对普及 AI 技术构成了显著障碍,尤其是在资源不足或边缘化社区中。

为应对这一挑战,我们采用模型蒸馏方法,这是一种成熟的高效知识迁移技术,在先前工作中已展现出强实证表现 (Busbridge et al., 2025; Hinton et al., 2015)。具体而言,我们使用由 DeepSeek-R1 生成的、包含 800,000 个样本的精选数据集,对 Qwen (Qwen, 2024b) 和 LLaMA (AI@Meta, 2024; Touvron et al., 2023) 等开源基础模型进行微调。数据集构建细节见附录 B.3.3。我们发现,从高质量教师输出中蒸馏得到的模型,始终优于直接在人类生成数据上训练的模型,这印证了先前关于蒸馏有效性的发现 (Busbridge et al., 2025)。

对于蒸馏模型,我们只应用 SFT,不包含 RL 阶段,尽管加入 RL 可能会显著提升模型性能。这里的主要目标是展示蒸馏技术的有效性,将 RL 阶段的探索留给更广泛的研究社区。蒸馏训练细节见附录 B.4.3。

表 15 | DeepSeek-R1 蒸馏模型与其他可比模型在推理相关基准上的比较。 加粗数字表示性能具有统计显著性((t)-test,(p < 0.01))。

模型 AIME 2024 pass@1 AIME 2024 cons@64 MATH pass@1 GPQA Diamond pass@1 LiveCodeBench pass@1 CodeForces rating
GPT-4o-0513 9.3 13.4 74.6 49.9 32.9 759
Claude-3.5-Sonnet-1022 16.0 26.7 78.3 65.0 38.9 717
DeepSeek-R1-Distill-Qwen-1.5B 28.9 52.7 83.9 33.8 16.9 954
DeepSeek-R1-Distill-Qwen-7B 55.5 83.3 92.8 49.1 37.6 1189
DeepSeek-R1-Distill-Qwen-14B 69.7 80.0 93.9 59.1 53.1 1481
DeepSeek-R1-Distill-Qwen-32B 72.6 83.3 94.3 62.1 57.2 1691
DeepSeek-R1-Distill-Llama-8B 50.4 80.0 89.1 49.0 39.6 1205
DeepSeek-R1-Distill-Llama-70B 70.0 86.7 94.5 65.2 57.5 1633

我们在 AIME、GPQA、Codeforces,以及 MATH-500 (Lightman et al., 2024) 和 LiveCodeBench (Jain et al., 2024) 上评估蒸馏模型。作为比较,我们使用两个成熟 LLM 作为基线:GPT-4o 和 Claude-3.5-Sonnet。如表 15 所示,对 DeepSeek-R1 输出进行直接蒸馏,使蒸馏模型 DeepSeek-R1-Distill-Qwen-1.5B 在数学基准上超过非推理基线。尤其值得注意的是,一个仅有 15 亿参数的模型取得了优于最佳闭源模型的表现。此外,随着学生模型参数规模增大,模型性能也逐步提升。

我们的实验结果表明,较小模型可以通过蒸馏获得强大表现。此外,如附录 F 所示,当应用于较小模型架构时,蒸馏方法相比单独强化学习能产生更优表现。这一发现对于普及 AI 访问具有重要意义,因为降低计算需求能够带来更广泛的社会效益。


F.1 蒸馏 vs. 强化学习

表 16 | 蒸馏模型与 RL 模型在推理相关基准上的比较。

模型 AIME 2024 pass@1 AIME 2024 cons@64 MATH pass@1 GPQA Diamond pass@1 LiveCodeBench pass@1
QwQ-32B-Preview 50.0 60.0 90.6 54.5 41.9
Qwen2.5-32B-Zero 47.0 60.0 91.6 55.0 40.2
DeepSeek-R1-Distill-Qwen-32B 72.6 83.3 94.3 62.1 57.2

在第 F 节中,我们可以看到,通过蒸馏 DeepSeek-R1,小模型可以取得令人印象深刻的结果。然而,仍然有一个问题:在不使用蒸馏的情况下,模型能否通过本文讨论的大规模 RL 训练达到相当性能?

为回答这一问题,我们使用数学、代码和 STEM 数据,对 Qwen2.5-32B-Base 进行大规模 RL 训练,训练超过 10K 步,得到 Qwen2.5-32B-Zero,如 B.4.1 所述。表 16 所示的实验结果表明,经过大规模 RL 训练后,32B 基础模型取得了与 QwQ-32B-Preview 相当的表现。然而,从 DeepSeek-R1 蒸馏得到的 DeepSeek-R1-Distill-Qwen-32B 在所有基准上都显著优于 Qwen2.5-32B-Zero。

因此,我们可以得出两个结论:第一,将更强大的模型蒸馏到较小模型中会产生出色结果,而依赖本文所述大规模 RL 的小模型需要巨大的计算资源,并且甚至可能无法达到蒸馏的性能。第二,尽管蒸馏策略经济且有效,但若要突破人类智能边界,仍可能需要更强大的基础模型和更大规模的强化学习。

除了基于 Qwen-2.5-32B 的实验之外,我们还在首个推理模型 OpenAI-o1(2024 年 9 月)发布之前,对 Qwen2-Math-7B(2024 年 8 月发布)进行了实验,以确保基础模型没有接触过任何推理轨迹数据。我们用约 10,000 次策略梯度更新训练了 Qwen2-Math-7B-Zero。如表 17 所示,Qwen2-Math-7B-Zero 显著超过 Qwen2-Math-7B-Instruct 和 GPT-4o 等非推理模型。这些结果进一步表明,模型能够通过大规模强化学习自主发展高级推理策略。

表 17 | 不同模型在 AIME 2024 和 AIME 2025 上的表现。

平均分 AIME 2024 AIME 2025
GPT-4o-0513 9.3% -
Qwen2-Math-7B-Instruct 7.9% 4.6%
Qwen2-Math-7B-Zero 22.3% 18.1%

G. 讨论

G.1 关键发现

我们重点列出关键发现,这些发现可能帮助社区更好地复现我们的工作。

基础检查点的重要性: 在开发初始阶段,我们尝试使用较小规模模型,具体包括 7B 稠密模型和 16B 混合专家(MoE)模型,作为 RL 训练的基础架构。然而,在我们用作主要验证集的 AIME 基准上,这些配置始终未能带来有意义的提升。我们观察到,随着回答长度增加,这些较小模型表现出重复倾向,并且无法有效利用长思维链(CoT)来提高推理准确率。

为解决这些限制,我们转向更大规模模型,包括 32B 稠密模型 (Qwen, 2024b)、230B MoE 模型 (DeepSeek-AI, 2024a) 和 671B MoE 模型 (DeepSeek-AI, 2024b)。借助这些更有能力的架构,我们最终观察到了可归因于纯 RL 训练的显著性能提升。这些发现表明,从基础模型出发进行强化学习的有效性高度依赖底层模型容量。因此,我们建议未来该领域研究在验证从零开始 RL 的有效性时,优先使用足够大且表达能力足够强的模型。

验证器的重要性: DeepSeek-R1-Zero 的有效性高度依赖训练中所用奖励信号的可靠性和保真度。到目前为止,我们的研究表明,两种方法——基于规则的奖励模型(RM),以及使用 LLM 根据预定义真值评估答案正确性——是缓解奖励黑客问题的稳健机制。基于 LLM 的评估框架对答案定义明确且简洁的任务尤其有效,例如单句或短语级回答。然而,对于更复杂任务,包括开放式生成和长篇写作,这种方法的泛化性有限,因为正确性的概念本身更加主观且细微。

迭代式流程: 我们提出了一个包含 SFT 和 RL 阶段的多阶段训练流程。RL 组件使模型能够探索并发现最优推理轨迹,用于那些仅靠人工标注推理轨迹无法完全实现的任务能力。尤其是,如果没有 RL 阶段,复杂 CoT 提示中所需的长链推理模式将很大程度上保持未被探索。相反,SFT 阶段在难以定义或建模可靠奖励信号的任务中发挥关键作用,例如开放式问答和创意写作。因此,RL 和 SFT 都是我们训练流程中不可或缺的组成部分。单独依赖 RL 可能在定义不良的任务中导致奖励黑客和次优行为,而仅依赖 SFT 则可能阻止模型通过探索来优化其推理能力。


G.2 不成功的尝试

在开发 DeepSeek-R1 的早期阶段,我们也遇到了失败和挫折。我们在此分享失败经验以提供洞察,但这并不意味着这些方法无法发展出有效的推理模型。

过程奖励模型(PRM): PRM 是一种合理方法,可引导模型采用更好的方式来解决推理任务 (Lightman et al., 2024; Uesato et al., 2022; Wang et al., 2023a)。然而,在实践中,PRM 有三个主要限制,可能阻碍其最终成功。首先,在通用推理中明确定义细粒度步骤具有挑战性。其次,判断当前中间步骤是否正确也是一个具有挑战性的任务。使用模型进行自动标注可能无法得到令人满意的结果,而人工标注又不利于扩展。第三,一旦引入基于模型的 PRM,就不可避免地会导致奖励黑客 (Gao et al., 2022),并且重新训练奖励模型需要额外训练资源,还会使整个训练流程更加复杂。总之,尽管 PRM 在对模型生成的 top-N 回答重新排序或辅助引导搜索方面展现出良好能力 (Snell et al., 2024),但在我们的实验中,与其在大规模强化学习过程中引入的额外计算开销相比,它的优势有限。

蒙特卡洛树搜索(MCTS): 受 AlphaGo (Silver et al., 2017b) 和 AlphaZero (Silver et al., 2017a) 启发,我们探索了使用蒙特卡洛树搜索(MCTS)来增强测试时计算可扩展性。该方法将答案拆分为更小部分,使模型能够系统地探索解空间。为实现这一点,我们提示模型生成多个标签,对应搜索所需的特定推理步骤。在训练中,我们首先使用收集到的提示,通过由预训练价值模型引导的 MCTS 来寻找答案。随后,我们使用得到的问题—答案对训练 actor 模型和价值模型,并迭代优化这一过程。

然而,该方法在扩展训练时遇到了若干挑战。首先,与国际象棋中相对明确定义的搜索空间不同,token 生成具有指数级更大的搜索空间。为解决这一问题,我们为每个节点设置最大扩展限制,但这可能导致模型陷入局部最优。其次,价值模型直接影响生成质量,因为它引导搜索过程中的每一步。训练细粒度价值模型本身就很困难,这使模型难以迭代改进。虽然 AlphaGo 的核心成功依赖于训练价值模型以逐步提升性能,但由于 token 生成的复杂性,这一原则在我们的设置中难以复制。

总之,尽管 MCTS 在与预训练价值模型搭配时可以提升推理阶段表现,但通过自搜索迭代提升模型性能仍然是一项重大挑战。


H. 相关工作

H.1 思维链推理

思维链(CoT)推理 (Wei et al., 2022b) 通过提示 LLM 在生成最终答案前先生成中间推理步骤,革新了 LLM 处理复杂推理任务的方式。该方法显著提升了涉及算术、常识和符号推理的基准表现。后续工作探索了其适用范围:Suzgun et al. (2023) 表明 CoT 的有效性会随模型规模增长而增强,而 Kojima et al. (2022) 通过简单指示模型 “think step by step”,将其扩展到零样本设置。

在 CoT 框架基础上,大量 “提示工程” 技术被提出,用于提升模型性能。Wang et al. (2023b) 提出了自一致性方法,该方法聚合多个推理路径中的答案,以提高鲁棒性和准确率。Zhou et al. (2023a) 提出了 least-to-most prompting,将复杂问题分解为一系列子问题并逐步解决。Yao et al. (2023a) 提出了 tree-of-thoughts,使模型能够同时探索多个推理分支,并通过前瞻或回溯进行审慎决策。总体而言,这些方法利用人类先验知识和更结构化的推理框架,增强了 LLM 的推理能力。


H.2 扩展推理时计算

由于无监督预训练扩展可能受到可用人类数据数量的限制 (Kaplan et al., 2020; Muennighoff et al., 2023),在推理期间扩展计算变得更加关键 (Snell et al., 2025)。广义上,我们将通过增加推理计算来提升模型表现的方法定义为推理时计算扩展。

一种直接方法是用计算换性能,即生成多条多样化推理链,并选择最佳答案。最优答案可以通过单独的 reranker (Brown et al., 2024; Cobbe et al., 2021)、基于过程的奖励模型 (Lightman et al., 2024; Uesato et al., 2022),或简单选择最常见答案 (Wang et al., 2023b) 来识别。搜索方法,如蒙特卡洛树搜索和 Beam Search,也能更有效地引导对解空间的探索 (Feng et al., 2024; Hao et al., 2023; Trinh et al., 2024; Xin et al., 2024)。除并行生成之外,自我修正技术会提示或训练模型迭代批判并改进其输出 (Kumar et al., 2024; Madaan et al., 2023; Welleck et al., 2023),通常还结合外部反馈来提升可靠性 (Gou et al., 2024a; Yao et al., 2023b)。此外,一些方法通过在测试期间整合工具使用来提升表现,这对知识密集型任务 (Nakano et al., 2021) 和计算密集型任务 (Chen et al., 2025; Gou et al., 2024b; Schick et al., 2023) 尤其有效。测试时训练(TTT)会在推理过程中进一步更新模型,以提升性能 (Akyürek et al., 2024; Sun et al., 2020)。还有多种其他推理时扩展方法,它们或隐式 (Geiping et al., 2025) 或显式 (Zelikman et al., 2024) 地为每个 token 分配更多计算。

相比之下,我们的工作表明,LLM 可以通过额外 RL 计算和增加测试时计算(即更多 token)实现可扩展提升。我们将测试时扩展的收益整合进一个更广泛的框架中,该框架使用强化学习激励增强的上下文内搜索能力。


H.3 用于增强推理的强化学习

强化学习在使 LLM 与人类偏好对齐方面发挥关键作用 (Bai et al., 2022; Ouyang et al., 2022)。尽管强化学习很重要,但很少有研究专注于使用 RL 增强推理能力。传统 RL 流程从在高质量人类示范上进行 SFT 开始,这提供了强初始化并防止模式坍缩。随后,在人类偏好上训练奖励模型,然后使用 PPO (Schulman et al., 2017) 或 DPO (Rafailov et al., 2023) 等方法优化语言模型。虽然这种方法在对齐方面效果良好,但它可能将模型限制在模仿人类推理模式上,从而阻碍发现新型问题求解策略。

STaR 等方法通过在模型自生成且能导向正确最终答案的思维链上进行微调,迭代提升性能 (Singh et al., 2024; Yuan et al., 2023; Zelikman et al., 2022)。近期研究还探索了基于过程的奖励,它们同时强调最终答案正确性和推理过程合理性 (Lightman et al., 2024; Shao et al., 2024; Wang et al., 2023a)。与这些方法不同,我们的工作在没有初始 SFT 阶段的情况下,直接将基于结果的 RL 应用于基础语言模型。这一设计选择鼓励创新且不受约束的推理策略涌现,使模型能够发展出超越简单模仿人类示例的多样化解法。我们的方法也启发了后续研究中的进一步探索 (Face, 2025; Liu et al., 2025; Pan et al., 2025)。


I. 开放权重、代码和数据

为促进开源社区和产业生态的发展,我们已在 HuggingFace 上公开 DeepSeek-R1 和 DeepSeek-R1-Zero 的模型权重。此外,我们还发布了 DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-8B、DeepSeek-R1-Distill-Llama-70B。

此外,我们在 GitHub 上发布了基础模型推理代码(https://github.com/deepseek-ai/DeepSeek-V3),并提供了详细使用指南(https://github.com/deepseek-ai/DeepSeek-R1)。

代码示例说明:运行推理代码与 DeepSeek-R1 交互

原文给出了一段命令行示例,流程包括:从 Hugging Face 下载模型权重、克隆 DeepSeek-V3 仓库、安装依赖、转换权重格式,并用 torchrun 启动交互式生成。此处不逐行翻译命令。

我们还将 SFT 和 RL 数据公开发布于 xxx。在审稿过程中,我们将数据作为附件上传。


J. 评估提示与设置

以下各表主要展示不同基准的 PROMPTEvaluation 示例。根据你的要求,这里只翻译表格标题并简要概括提示与评估方式,不展示或逐字翻译原始 PROMPT / Evaluation 内容。


表 18 | MMLU

MMLU 用于评估模型在 57 个任务上的事实性和概念性理解,覆盖 STEM、人文、社会科学和专业领域(如法律、医学)。该表中的 PROMPT 示例是一个多项选择题,要求模型逐步思考,并在最后一行按指定格式输出选项。Evaluation 通过解析最后一行答案,判断选项是否等于真值。


表 19 | MMLU-Redux

MMLU-Redux 是对 MMLU 的改进版本,用于更可靠地评估模型在多领域知识任务上的表现。该表展示了一个选择题式提示,并通过解析模型最终选项来判断是否正确。


表 20 | MMLU-Pro

MMLU-Pro 是更稳健、更具挑战性的多任务语言理解基准。它通常包含更多选项、更复杂问题,要求模型进行更深入推理。该表展示了多项选择问题的提示格式,并通过最终答案选项与标准答案匹配来评估。


表 21 | DROP

DROP 用于评估模型在阅读理解任务中进行离散推理的能力,例如数字、日期和实体关系推理。该表中的 PROMPT 要求模型根据给定文章回答问题。Evaluation 通常基于 F1 或精确匹配指标,将模型答案与标准答案比较。


表 22 | HumanEval-Mul

HumanEval-Mul 是多语言代码生成评估集,覆盖 Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash 等语言。该表中的 PROMPT 要求模型根据函数说明生成代码。Evaluation 通过运行测试用例检查代码是否正确。


表 23 | IFEval

Instruction-Following Evaluation(IFEval)用于评估模型遵循提示中显式、可验证指令的能力。该表中的 PROMPT 要求模型将一段文本总结为 XML 格式,并满足句数限制。Evaluation 调用官方函数检查回答是否满足各项指令约束。


表 24 | FRAMES

FRAMES(Factuality, Retrieval, And reasoning MEasurement Set)用于评估 RAG 系统的核心能力。本文采用官方 “Oracle Prompt” 设置,即在提示中提供问题和所有真实 Wikipedia 文章,从而排除外部检索因素。该表中的 PROMPT 要求模型基于提供的文章回答复杂事实问题。Evaluation 使用判断提示检查模型回答中是否包含标准答案的关键信息,并输出 TRUE 或 FALSE。


表 25 | Arena-Hard

Arena-Hard 是开放式评估基准,用于衡量 LLM 在具有挑战性、新颖且多样化提示上的能力,特别关注编码和数学相关提示。该表中的 PROMPT 是一个 SQL 查询相关开放式问题。Evaluation 使用 LLM 作为裁判,比较两个助手回答的质量,并输出哪一个更好。


表 26 | AlpacaEval 2.0

AlpacaEval 2.0 是开放式评估数据集,性质类似 Arena-Hard,同样使用 LLM 来评估主观任务表现。相比 Arena-Hard,AlpacaEval 2.0 的提示通常更简单,只有少量需要强推理能力。该表中的 PROMPT 是一个关于 Broadway 演员的问题。Evaluation 使用评审模型在两个候选回答中选择更符合人类偏好的输出。


表 27 | CLUEWSC

CLUEWSC(Chinese Language Understanding Evaluation Benchmark - Winograd Schema Challenge)是 CLUE 基准中的专门任务,用于评估模型的中文常识推理和上下文理解能力。该表中的 PROMPT 给出若干中文指代消解示例,然后要求模型判断测试句中某个代词指代对象。Evaluation 解析模型最后一行回答,并判断是否等于标准答案。


表 28 | C-EVAL

C-EVAL 用于评估模型在 52 个中文学科中的知识广度和深度,覆盖人文、社会科学、STEM 和专业领域(如医学、法律)。该表中的 PROMPT 是中文逻辑学考试单项选择题。Evaluation 解析模型最后一行选择项,判断是否等于真值。


表 29 | GPQA

GPQA(Graduate-Level Google-Proof QA Benchmark)是一个严格评估框架,用于衡量 LLM 解决研究生级别 STEM 多项选择问题的能力,特别覆盖生物、物理和化学领域。该表中的 PROMPT 要求模型逐步思考,并在最后一行以指定格式输出选项。Evaluation 解析 “ANSWER:” 后的大写字母,并与真值比较。


表 30 | SimpleQA

SimpleQA 是事实性评估基准,用于衡量模型回答简短、寻求事实的问题时是否精确且可验证。该表中的 PROMPT 是一个简短事实问题。Evaluation 使用评分提示,将预测答案评为 CORRECT、INCORRECT 或 NOT_ATTEMPTED,并最终返回对应字母标签。


表 31 | C-SimpleQA

C-SimpleQA 是 SimpleQA 的中文版本,用于衡量模型回答中文简短事实问题时的精确性和可验证性。该表中的 PROMPT 是一个中文事实问题。Evaluation 使用中文评分提示,将预测答案评为【正确】、【错误】或【未尝试】,并返回对应字母。


表 32 | 数学评估示例

该数学评估示例适用于 AIME、MATH 和 CNMO,用于评估模型在数学任务上的表现。该表中的 PROMPT 要求模型逐步推理,并将最终答案放入 \boxed{} 中。Evaluation 解析 \boxed{} 中的最终答案,并使用基于规则的评分器判断是否等于真值;必要时会对数值进行四舍五入,并使用 SymPy 解析表达式。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐