第 4 章:训练的真相——从文本堆到智能体
📚 系列:[大模型入门:从原理到实践,技术人的认知升级指南]
一个读遍图书馆却不会说话的孩子
设想这样一个孩子:从出生起,他每天读书,一刻不停。
他读完了图书馆里所有的小说、教材、新闻、论文、说明书、菜谱、代码注释。他读过几十种语言,读过每个时代的文字。他对语言的模式有着超乎寻常的直觉——哪些词经常搭配在一起,哪种句式用在什么语境,哪种表达让人觉得自然,哪种让人觉得别扭。
但有一个问题:他只是在读,从来没有人和他说过话,没有人问过他问题,也没有人告诉他什么是"好的回答"。
如果你现在问他"今天心情怎么样",他可能给你一段关于心情的百科描述;你问他"帮我写封道歉信",他可能给你一篇关于道歉信格式的学术文章。他"知道"所有关于语言的规律,但他不知道怎么和人对话。
这,就是大语言模型在第一阶段训练结束时的状态。
第一阶段:预训练——读遍互联网
预训练是整个训练过程中规模最大、耗时最长、成本最高的阶段。
它做的事情,用一句话说:给模型喂海量文本,让它学会"下一个词是什么"。
具体来说,训练系统把大量文本切成 Token 序列,然后反复做一件事:遮住序列里的最后几个词,让模型猜,然后告诉模型猜对了没有,根据对错调整模型内部的参数。这个过程重复几千亿次,每次都在微调模型对"语言规律"的感知。
这个任务听起来简单得离谱——不就是猜词吗?但要猜准"下一个词",模型必须真正理解上下文的意思。猜"今天天气___"的下一个词,只需要知道天气相关词汇。但猜"尽管外面下着大雨,她还是决定___"的下一个词,需要理解"尽管……还是……"的转折结构、理解场景、理解人类面对恶劣天气时可能的行为选择。
通过几千亿次"猜词",模型被迫学会了理解语言。
图 4-1:预训练的核心循环。通过海量文本上的"猜词"任务,模型逐渐内化了人类语言的所有规律。这个阶段结束后,模型是一个知识极其丰富的"书呆子"——博学,但不擅长对话。
预训练的规模是惊人的:GPT-4 的训练数据估计超过一万亿个 Token,训练过程消耗的算力相当于数千块高端 GPU 运行数月。这也是为什么从头训练一个基础大模型的成本动辄数亿美元,是只有极少数机构才能做的事。
第二阶段:指令微调——学会听话
预训练结束后,模型是一个"补全机器"——你给它一段话的开头,它会继续写下去。但你让它"帮你总结这份报告",它可能直接续写报告内容,而不是给你摘要。
这就需要第二阶段:指令微调(Instruction Fine-tuning)。
做法相对简单:收集大量人工撰写的"指令—回答"对,比如:
- 指令:“用三句话总结以下文章……”,回答:一段精准的摘要
- 指令:“给我写一封请假邮件,原因是发烧”,回答:一封格式正确、语气合适的邮件
- 指令:“以下代码有什么问题?”,回答:准确的代码分析
用这些数据继续训练已有的基础模型,让它学会把"指令"识别为"任务",并生成符合预期的回答。
用回刚才的类比:这个阶段相当于让那个读遍图书馆的孩子去参加了一个语言培训班,有人教他"当别人问你问题,你应该正面回答,而不是背相关知识"。
图 4-2:指令微调前后,模型行为的对比。微调前,模型把一切输入都当作"要继续写下去"的文本;微调后,模型能识别指令意图,生成有针对性的回答。
第三阶段:RLHF——训练出好性格
经过指令微调,模型已经能"听话"了。但还有一个问题没解决:什么样的回答算"好"?
“帮我写一段让人上瘾的游戏描述”——模型该用什么标准来判断哪个版本更好?“解释量子纠缠”——对专家好的解释和对小学生好的解释完全不同,模型怎么知道哪个更符合期望?
更严重的问题是:如果只靠语言规律,模型会倾向于生成"看起来合理"的内容,而不是"真正有帮助且安全"的内容。它可能生成流畅但错误的信息,可能在被问到有害问题时给出危险答案。
这就是第三阶段的工作:RLHF(基于人类反馈的强化学习,Reinforcement Learning from Human Feedback)。
这个名字听起来很技术,背后的直觉其实很简单:让真人来评判哪个回答更好,然后用这些评判结果来进一步训练模型。
过程大致是这样的:
- 让模型对同一个问题生成多个不同的回答;
- 让标注员(真实的人)比较这些回答,选出哪个更好、更安全、更有帮助;
- 用这些比较结果训练一个"奖励模型"——它学会预测人类会更喜欢哪种回答;
- 再用奖励模型来指导原始模型,让它生成能获得更高"奖励分"的回答。
图 4-3:RLHF 的训练循环。人类标注员的偏好评分转化为"奖励模型",奖励模型再指导语言模型向更符合人类期望的方向优化。这个循环反复进行,逐渐塑造出模型的"性格"。
RLHF 带来的变化是显著的:模型开始更倾向于给出准确、有帮助、安全的回答;它开始会拒绝有害请求;它的语气变得更像在和人对话,而不是在背书。
用类比来说:如果预训练是让孩子读遍了图书馆,指令微调是让他上了语言课,那 RLHF 就是让他在真实的社会环境里和很多人交流,从反馈中学会"什么样的交流方式让人满意"。
三个阶段,三种能力
把三个阶段放在一起看,就能理解为什么今天的大模型既博学、又能对话、又相对安全:
图 4-4:三个训练阶段各自赋予模型不同层次的能力。预训练奠定知识和语言基础,指令微调打通人机交互接口,RLHF 塑造价值观和交互风格。三者缺一不可。
| 训练阶段 | 主要工作 | 赋予模型的能力 | 数据来源 |
|---|---|---|---|
| 预训练 | 海量文本上的"猜词"任务 | 语言理解、世界知识、推理能力 | 互联网爬取数据 |
| 指令微调 | 指令—回答对的监督训练 | 理解任务意图、按格式回答 | 人工撰写的问答对 |
| RLHF | 人类偏好反馈的强化训练 | 有帮助、诚实、无害的交互风格 | 人工评分的对比数据 |
训练结束之后
这里有一个容易产生误解的地方,需要单独说清楚:
训练结束后,模型的参数就固定了。
它不会在和你对话的过程中继续学习,不会把你告诉它的新信息"存进去"。每次对话,它都是带着训练结束时的那套参数在运行。你今天告诉它一件新鲜事,明天开一个新对话,它对这件事一无所知。
这是理解大模型行为的一个关键前提:它的"知识"在训练时就已经固化,对话本身不会更新它。这个固化的知识有一个截止日期——训练数据的收集截止日期——这就是为什么模型会对近期发生的事情一无所知(我们在第 5 章会详细讨论这个问题)。
了解了训练过程,你现在应该理解了一件事:大模型拥有的能力,既强大,又有着清晰的边界。
下一章,我们就来认真看看这些边界——它会在哪里失效,失效的原因是什么。
本章小结
- 预训练:在海量文本上做"猜下一个词"的任务,迫使模型内化语言规律和世界知识;结果是一个博学但不会对话的基础模型;
- 指令微调:用人工撰写的"指令—回答"数据继续训练,让模型学会把输入识别为任务并给出针对性回答;
- RLHF:引入人类评分反馈,训练奖励模型,再用奖励模型引导语言模型向更有帮助、更安全的方向优化;
- 三个阶段层层叠加,分别赋予模型语言能力、任务执行能力、价值对齐能力;
- 训练结束后参数固定:模型不会在对话中自我更新,知识有截止日期。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)