零基础读懂AI大模型：训练它的三个步骤，竟和我们上学一模一样

LLand520

394人浏览 · 2026-04-09 21:50:02

LLand520 · 2026-04-09 21:50:02 发布

生活中 AI 用得已经越来越多，一直想要了解其大概原理，这样才能知道 AI 能做什么，不能做什么。恰逢最近看了OpenAI 联合创始人安德烈·卡帕西一个长达 3 小时的视频，用非常通俗易懂的方式讲解了像 chatGPT 这样的大语言模型，是怎么一步步训练出来的，像我这样一个基本没有技术背景的人，也能看懂，是非常优秀的科普视频。

大家可以前往 B 站搜索“安德烈·卡帕西：深入探索像ChatGPT这样的大语言模型”，即可观看，全文都有字幕，不用担心听不懂。

本文也从 3 小时的视频中提炼出最核心的内容，希望能帮助你“不求甚解”地大概了解AI 大语言模型的基本训练原理。

总览：对大语言模型的训练，跟我们人类学习知识的逻辑，是一脉相承的

视频中最让我印象深刻的一点，是安德烈·卡帕西把大语言模型的训练逻辑，类比成我们上学读书学习知识的过程，竟然是出奇的一致。

回想我们小时候的课本，每个知识点的章节讲解，都包含三个步骤：

第一步、学习知识点：单纯地通过阅读了解相关知识。完成这一步，我们只掌握了知识的表层，却不知道如何使用。

第二步、查看经典题目与解法：通过查看经典题目，了解知识点如何运用来解决实际问题。完成这一步，我们能模仿这些经典解法去解决类似的问题。

第三步、课后习题：这个环节里面，课本只会提供问题与答案，需要我们自己研究如何解题。每个人的脑回路都不一样，适合的解法也都不一样，我们需要自己摸索各种可能的解法，并找到最适合自己的解法。这个过程中，甚至会激发出比经典解法更高效的方法。完成这一步，我们就真正做到了对知识点的融会贯通。

大语言模型训练的三个步骤，也正正对应着这三步，即：

接下来逐一介绍每个步骤。

第一步、预训练

【核心流程】

1、学习信息搜集

要学习知识，自然要先获取信息，而最丰富而免费的信息，自然是来自互联网。因此，最初的模型训练内容，主要来自对互联网信息的爬取。

当然，这里要做的不是简单的爬取，而是包含了过滤劣质网站、文本提取、信息去重等一系列数据加工的过程。

2、信息的编码与压缩，生成“token”

爬取到的信息都是文字，人类能通过文字理解其所表达的内容，但计算机是不能的。

那计算机能理解什么呢？是数字与计算。因此，要让计算机能学习这些信息，首先要把文字转化为数字。这里也可以分为两小步：

第一步，对文字的基本单元做编码：例如英文而言，自然是每个字母对应一个数字 ID；中文则是每个汉字对应一个数字 ID

第二步，进一步压缩信息：把信息中高频出现的“单元序列组合”，编码出一个新的数字ID，这样，就可以用更短的 ID 序列更高效地表达一句话，计算机需要理解的成本就会更低。

例如，在下图这个案例中，既有“你”、“的”这样的独立汉字用一个数字ID来表示，也有“你好”、“今天”这样的日常短语用一个数字 ID 来表示。

而这里代表一个文字或短语的数字 ID，就是所谓的大语言模型的“token”，是计算机理解与输出信息的最小“信息单元”。

3、信息学习：神经网络“预测”模型的训练

完成前面两步后，我们已经有了用于学习的原材料数据，接下来便可用于模型学习。

那么什么是所谓的学习？

回到我们期望模型的效果，是可以像人类一样，根据上文内容输出适合的下文内容。也就是说，根据上文“预测”下文的内容。

因此，这一步，我们使用统计学中最前沿的“预测”模型：神经网络模型，再基于我们搜集到的原材料数据，训练出一个基于上文输出下文的预测模型。

浅显地介绍下这个神经网络模型的训练方法：

所谓的神经网络模型，其实就是一个巨大的包含大量参数计算的数学方程式，但其核心目标跟我们小学学的一元一次方程是类似的，也是根据输入的“x”（上文）跟模型的参数“w”（一系列计算），输出一个结果“y”（下文）。

但也有两个区别，一个是，我们之前定义的 token 并不是一个具有数值计算意义的数字，而只是一个代表对应文字的“标识符”（ID）；一个是这里输出的结果，代表的是，下文出现各个 token 的分别的概率值。

参数训练：一开始，参数都是随机的数据，输出的结果也是随机的。我们把从互联网上搜集到的学习材料，都喂给模型进行训练。模型以提升，学习材料中“正确”的下文 token 的概率，为计算目标，不断地调整参数。

【得到的成果】

当我们把全部互联网搜集到的知识，都喂给这个拥有数十亿级参数的超大模型，完成参数的训练后。我们就得到了一个可以根据“上文”预测下文的预测模型。

而在预测时：

1、每一次预测，都根据上文输入的全部内容，只输出一个下文“token”

2、根据上文输入的全部内容，本质输出的结果是，各个 token 出现的“概率”，然后基于这个概率进行一次抽样，输出一个下文“token”。
正因为存在这个抽样，而不是直接就只取概率最大的 token，因此，即使一样的上文，每一次得到的下文都是不完全一样的。

我们得到的，只是一个根据上文不断预测下文 token的预测器，且是随机的，每次的预测结果都不一样；还并不是一个能回答问题的助理（assistant）。

我们把这一步得到的模型叫做 base model。

案例：下图这个例子很有意思。模型之所以能回答这个问题，并不是因为它理解了这个问题以及会进行计算，而是大概率 2+2 这样的问题在喂给模型的训练数据中出现过，模型能够回忆出来。而如果放任模型不断地输出下文，它就开始走向了跟问题完全没关系的哲学领域的内容当中…此时的模型，还不知道应该如何正确地回答问题。

【这个预测模型的本质】

base model 的本质，是互联网内容的模拟器。相当于把整个互联网的内容，都压缩成一堆参数。而且这些内容是模糊的/有损的、概率性的/统计性的。

特性：

它是一个token级别的互联网内容模拟器
具有随机性/概率性——每次运行都会得到不同的结果
它能凭借记忆逐字复述一些训练文档：模型的参数有点像互联网的一个有损压缩文件，大量有用的世界知识存储在模型的参数中
通过巧妙设计提示词，你可以激活其记忆，输出与提示词相关的内容

但我们还能让模型变得更好，于是咱们来到了模型训练的第二步。

第二步、后训练之“监督微调”

【背景】

完成预训练后，我们已经得到了一个可以根据“上文”预测“下文”的预测模型了，唯一的问题是，它还不大会处理“问答”这种场景中的下文预测。

要解决这个问题，很容易想到，那就是增加“问答类内容”的样本量，再训练一下模型对这方面“上文”的处理能力。这就是”监督微调“的核心原理。

这个阶段的模型训练方法，与预训练阶段是相同的，唯一改变的是数据集的类型，变成了一系列“对话问答”类的内容。

【核心流程】

1、构建对话问答类 token 序列

这些特殊 token 就像对话的‘分隔符’，明确告诉模型‘<<|im_start|>user’后面是用户的问题，‘<<|im_start|>assistant’后面是正确回答，帮助模型学会‘问答对应’”。

2、构造海量的对话问答类内容用于模型训练

接下来，我们构建海量的，涉及各个领域的对话问答内容，供给模型进行训练。这一步，需要耗费非常非常大的人力投入。所谓没有“人工”，何来“智能”。

而随着现在大语言模型的不断进步，也会通过大语言模型来生成这些数据，用于新的模型训练。

【得到的成果】

完成训练后，我们就得到了一个能够回答问题的模型，我们称之为SFT（supervise fine tuning 监督微调） model。

这个模型的本质，是结合了预训练知识，以及从后训练数据集中习得的模仿人类回答问题方式，的一个预测模型。

听起来，是不是很像我们在学习完课本的经典题目的解法后，依样画葫芦地解决类似的问题？

案例：完成这一步，模型已经能很标准地回答一些常见问题了。

【关于幻觉产生的原因，以及其缓解方法】

幻觉产生的原因

如上文描述，模型的本质是一个概率预测模型，回答会基于统计学从概率中抽样给出一个答案，即使答案的概率本身在模型计算结果中非常低，也有出现的可能。

案例：下图这个例子中，后训练数据集曾经出现过”who is“这样的问题案例。在模型完成训练后回答类似问题时，即使向模型提问一个完全不存在的人orson kovacs，模型也会模仿后训练中这类问题的回答方式，基于预训练的知识模拟出一个答案，即使这个答案在模型计算结果中概率是非常低的，模型也会选择进行输出，因此就会出现胡编乱造的回答。

缓解方法

1、让模型学会说不知道：丰富后训练数据集，添加会回答”不知道“的案例

2、让模型学会借助工具：对于模型不懂的内容，让模型使用包括联网搜索、计算工具等能力，让搜索结果、计算结果成为模型的信息源，也就是成为输入进模型的“上文”的一部分，再输出答案

要缓解幻觉问题，可以引入以下几类训练数据：

第三步、后训练之“强化学习”

【背景】

在监督微调的过程中，后训练数据集的提供者，教会了模型按他们的方式去回答问题，模型是他们的模仿者。

但对于一个问题，是有多种解法的。而我们作为人类其实并不了解模型，我们并不知道哪个解法是更能帮助模型获得正确答案的。就像小时候做数学题，每道题都有几种解法，而我们每个人的脑回路是不一样的，并不是书本给的经典解法就最适合自己，最终需要我们自己摸索出最适合自己的，最舒适的解法，可以帮助我们自己获得最高的准确率，这个摸索过程中，甚至能迸发出比经典解法更优的全新解法。

而这就是我们这一步需要做的事情。我们只给到题目与答案，然后让模型自己摸索出最适合自己的解法。

【核心流程】

1、我们提供问题，然后让模型自己去生成一系列的解法

2、这些解法中，只有一部分是正确的

3、我们再从这些解法中找到最优秀的解法（既准确，又精简高效的）

4、把这个优秀解法作为训练数据集，去用于模型训练

5、如此往复，重复很多很多次…

【得到的成果】

通过强化学习，我们得到了两个喜人的效果：

1、模型产生了思维链（chains of thought）。
这就是我们使用 DeepSeek 等最前沿的大模型的时候，看到的思考过程。因此，我们把他们称之为推理模型（reasoning model）。

思维链的一个很重要的特点，在于让模型有了思考的过程，而不是一上来就回答问题。而这个思考的过程，都会成为“上文”的一部分，还记得大模型的预测原理，是基于全部的上文推测出下一个 token，因此上文的内容越长，越完整，预测出来的“下文”质量自然也会越高。

2、模型能产生超越人类已有知识的全新解法。

强化学习第一次出圈，就是击败人类最强围棋手的 alpha go。它正是通过强化学习，人类只告诉了它围棋的规则跟目标，然后它通过自己不断的训练，最终训练出了人类围棋历史上从来未有过的落子方法，最终超越了人类。如果它只是限制在模仿学习人类围棋手的历史案例，那它是不可能超越人类的。
当然，大语言模型的训练，要比 alpha go难得多。因为围棋只是一个闭合领域问题（规则有限），而大语言模型要面对的是一个开放领域问题（要解决各种各样的问题）。因此，需要找多足够多的练习题给到模型进行训练。