第 4 章：训练的真相——从文本堆到智能体

Creating · 2026-05-20 09:35:36 发布

📚 系列：[大模型入门：从原理到实践，技术人的认知升级指南]

设想这样一个孩子：从出生起，他每天读书，一刻不停。

他读完了图书馆里所有的小说、教材、新闻、论文、说明书、菜谱、代码注释。他读过几十种语言，读过每个时代的文字。他对语言的模式有着超乎寻常的直觉——哪些词经常搭配在一起，哪种句式用在什么语境，哪种表达让人觉得自然，哪种让人觉得别扭。

但有一个问题：他只是在读，从来没有人和他说过话，没有人问过他问题，也没有人告诉他什么是"好的回答"。

如果你现在问他"今天心情怎么样"，他可能给你一段关于心情的百科描述；你问他"帮我写封道歉信"，他可能给你一篇关于道歉信格式的学术文章。他"知道"所有关于语言的规律，但他不知道怎么和人对话。

这，就是大语言模型在第一阶段训练结束时的状态。

预训练是整个训练过程中规模最大、耗时最长、成本最高的阶段。

它做的事情，用一句话说：给模型喂海量文本，让它学会"下一个词是什么"。

具体来说，训练系统把大量文本切成 Token 序列，然后反复做一件事：遮住序列里的最后几个词，让模型猜，然后告诉模型猜对了没有，根据对错调整模型内部的参数。这个过程重复几千亿次，每次都在微调模型对"语言规律"的感知。

这个任务听起来简单得离谱——不就是猜词吗？但要猜准"下一个词"，模型必须真正理解上下文的意思。猜"今天天气___"的下一个词，只需要知道天气相关词汇。但猜"尽管外面下着大雨，她还是决定___"的下一个词，需要理解"尽管……还是……"的转折结构、理解场景、理解人类面对恶劣天气时可能的行为选择。

通过几千亿次"猜词"，模型被迫学会了理解语言。

图 4-1：预训练的核心循环。通过海量文本上的"猜词"任务，模型逐渐内化了人类语言的所有规律。这个阶段结束后，模型是一个知识极其丰富的"书呆子"——博学，但不擅长对话。

预训练的规模是惊人的：GPT-4 的训练数据估计超过一万亿个 Token，训练过程消耗的算力相当于数千块高端 GPU 运行数月。这也是为什么从头训练一个基础大模型的成本动辄数亿美元，是只有极少数机构才能做的事。

预训练结束后，模型是一个"补全机器"——你给它一段话的开头，它会继续写下去。但你让它"帮你总结这份报告"，它可能直接续写报告内容，而不是给你摘要。

这就需要第二阶段：指令微调（Instruction Fine-tuning）。

做法相对简单：收集大量人工撰写的"指令—回答"对，比如：

用这些数据继续训练已有的基础模型，让它学会把"指令"识别为"任务"，并生成符合预期的回答。

用回刚才的类比：这个阶段相当于让那个读遍图书馆的孩子去参加了一个语言培训班，有人教他"当别人问你问题，你应该正面回答，而不是背相关知识"。

图 4-2：指令微调前后，模型行为的对比。微调前，模型把一切输入都当作"要继续写下去"的文本；微调后，模型能识别指令意图，生成有针对性的回答。

经过指令微调，模型已经能"听话"了。但还有一个问题没解决：什么样的回答算"好"？

“帮我写一段让人上瘾的游戏描述”——模型该用什么标准来判断哪个版本更好？“解释量子纠缠”——对专家好的解释和对小学生好的解释完全不同，模型怎么知道哪个更符合期望？

更严重的问题是：如果只靠语言规律，模型会倾向于生成"看起来合理"的内容，而不是"真正有帮助且安全"的内容。它可能生成流畅但错误的信息，可能在被问到有害问题时给出危险答案。

这就是第三阶段的工作：RLHF（基于人类反馈的强化学习，Reinforcement Learning from Human Feedback）。

这个名字听起来很技术，背后的直觉其实很简单：让真人来评判哪个回答更好，然后用这些评判结果来进一步训练模型。

过程大致是这样的：

图 4-3：RLHF 的训练循环。人类标注员的偏好评分转化为"奖励模型"，奖励模型再指导语言模型向更符合人类期望的方向优化。这个循环反复进行，逐渐塑造出模型的"性格"。

RLHF 带来的变化是显著的：模型开始更倾向于给出准确、有帮助、安全的回答；它开始会拒绝有害请求；它的语气变得更像在和人对话，而不是在背书。

用类比来说：如果预训练是让孩子读遍了图书馆，指令微调是让他上了语言课，那 RLHF 就是让他在真实的社会环境里和很多人交流，从反馈中学会"什么样的交流方式让人满意"。

把三个阶段放在一起看，就能理解为什么今天的大模型既博学、又能对话、又相对安全：

图 4-4：三个训练阶段各自赋予模型不同层次的能力。预训练奠定知识和语言基础，指令微调打通人机交互接口，RLHF 塑造价值观和交互风格。三者缺一不可。

训练阶段	主要工作	赋予模型的能力	数据来源
预训练	海量文本上的"猜词"任务	语言理解、世界知识、推理能力	互联网爬取数据
指令微调	指令—回答对的监督训练	理解任务意图、按格式回答	人工撰写的问答对
RLHF	人类偏好反馈的强化训练	有帮助、诚实、无害的交互风格	人工评分的对比数据