📚 系列:[大模型入门:从原理到实践,技术人的认知升级指南]

一个读遍图书馆却不会说话的孩子

设想这样一个孩子:从出生起,他每天读书,一刻不停。

他读完了图书馆里所有的小说、教材、新闻、论文、说明书、菜谱、代码注释。他读过几十种语言,读过每个时代的文字。他对语言的模式有着超乎寻常的直觉——哪些词经常搭配在一起,哪种句式用在什么语境,哪种表达让人觉得自然,哪种让人觉得别扭。

但有一个问题:他只是在读,从来没有人和他说过话,没有人问过他问题,也没有人告诉他什么是"好的回答"。

如果你现在问他"今天心情怎么样",他可能给你一段关于心情的百科描述;你问他"帮我写封道歉信",他可能给你一篇关于道歉信格式的学术文章。他"知道"所有关于语言的规律,但他不知道怎么和人对话

这,就是大语言模型在第一阶段训练结束时的状态。


第一阶段:预训练——读遍互联网

预训练是整个训练过程中规模最大、耗时最长、成本最高的阶段。

它做的事情,用一句话说:给模型喂海量文本,让它学会"下一个词是什么"

具体来说,训练系统把大量文本切成 Token 序列,然后反复做一件事:遮住序列里的最后几个词,让模型猜,然后告诉模型猜对了没有,根据对错调整模型内部的参数。这个过程重复几千亿次,每次都在微调模型对"语言规律"的感知。

这个任务听起来简单得离谱——不就是猜词吗?但要猜准"下一个词",模型必须真正理解上下文的意思。猜"今天天气___"的下一个词,只需要知道天气相关词汇。但猜"尽管外面下着大雨,她还是决定___"的下一个词,需要理解"尽管……还是……"的转折结构、理解场景、理解人类面对恶劣天气时可能的行为选择。

通过几千亿次"猜词",模型被迫学会了理解语言。

预训练过程(循环数千亿次)

调整参数

下一个样本

海量文本
(网页/书籍/代码/论文)

遮住最后几个词

模型猜下一个词

猜对了吗?

基础模型
(博览群书,但不会对话)

图 4-1:预训练的核心循环。通过海量文本上的"猜词"任务,模型逐渐内化了人类语言的所有规律。这个阶段结束后,模型是一个知识极其丰富的"书呆子"——博学,但不擅长对话。

预训练的规模是惊人的:GPT-4 的训练数据估计超过一万亿个 Token,训练过程消耗的算力相当于数千块高端 GPU 运行数月。这也是为什么从头训练一个基础大模型的成本动辄数亿美元,是只有极少数机构才能做的事。


第二阶段:指令微调——学会听话

预训练结束后,模型是一个"补全机器"——你给它一段话的开头,它会继续写下去。但你让它"帮你总结这份报告",它可能直接续写报告内容,而不是给你摘要。

这就需要第二阶段:指令微调(Instruction Fine-tuning)

做法相对简单:收集大量人工撰写的"指令—回答"对,比如:

  • 指令:“用三句话总结以下文章……”,回答:一段精准的摘要
  • 指令:“给我写一封请假邮件,原因是发烧”,回答:一封格式正确、语气合适的邮件
  • 指令:“以下代码有什么问题?”,回答:准确的代码分析

用这些数据继续训练已有的基础模型,让它学会把"指令"识别为"任务",并生成符合预期的回答

用回刚才的类比:这个阶段相当于让那个读遍图书馆的孩子去参加了一个语言培训班,有人教他"当别人问你问题,你应该正面回答,而不是背相关知识"。

微调后(对话模式)

输入:帮我总结这篇文章

指令微调后的模型

✅ 输出:本文主要讨论了……
核心观点是……(真正的摘要)

微调前(补全模式)

输入:帮我总结这篇文章

基础预训练模型

❌ 输出:原来,这篇文章
讲述了……(继续写文章)

图 4-2:指令微调前后,模型行为的对比。微调前,模型把一切输入都当作"要继续写下去"的文本;微调后,模型能识别指令意图,生成有针对性的回答。


第三阶段:RLHF——训练出好性格

经过指令微调,模型已经能"听话"了。但还有一个问题没解决:什么样的回答算"好"?

“帮我写一段让人上瘾的游戏描述”——模型该用什么标准来判断哪个版本更好?“解释量子纠缠”——对专家好的解释和对小学生好的解释完全不同,模型怎么知道哪个更符合期望?

更严重的问题是:如果只靠语言规律,模型会倾向于生成"看起来合理"的内容,而不是"真正有帮助且安全"的内容。它可能生成流畅但错误的信息,可能在被问到有害问题时给出危险答案。

这就是第三阶段的工作:RLHF(基于人类反馈的强化学习,Reinforcement Learning from Human Feedback)

这个名字听起来很技术,背后的直觉其实很简单:让真人来评判哪个回答更好,然后用这些评判结果来进一步训练模型

过程大致是这样的:

  1. 让模型对同一个问题生成多个不同的回答;
  2. 让标注员(真实的人)比较这些回答,选出哪个更好、更安全、更有帮助;
  3. 用这些比较结果训练一个"奖励模型"——它学会预测人类会更喜欢哪种回答;
  4. 再用奖励模型来指导原始模型,让它生成能获得更高"奖励分"的回答。

对同一问题
生成多个回答

人工标注员
排序评分

训练

指导优化

当前模型

回答A / 回答B / 回答C

人类偏好数据

奖励模型
(预测人类偏好)

图 4-3:RLHF 的训练循环。人类标注员的偏好评分转化为"奖励模型",奖励模型再指导语言模型向更符合人类期望的方向优化。这个循环反复进行,逐渐塑造出模型的"性格"。

RLHF 带来的变化是显著的:模型开始更倾向于给出准确、有帮助、安全的回答;它开始会拒绝有害请求;它的语气变得更像在和人对话,而不是在背书。

用类比来说:如果预训练是让孩子读遍了图书馆,指令微调是让他上了语言课,那 RLHF 就是让他在真实的社会环境里和很多人交流,从反馈中学会"什么样的交流方式让人满意"。


三个阶段,三种能力

把三个阶段放在一起看,就能理解为什么今天的大模型既博学、又能对话、又相对安全:

第一层:预训练
语言理解与知识
(数百亿 Token 文本)

第二层:指令微调
任务执行能力
(有监督微调 SFT)

第三层:RLHF
价值对齐与安全
(人类反馈强化学习)

✅ 可用的大模型产品
ChatGPT / Claude / 文心…

图 4-4:三个训练阶段各自赋予模型不同层次的能力。预训练奠定知识和语言基础,指令微调打通人机交互接口,RLHF 塑造价值观和交互风格。三者缺一不可。

训练阶段 主要工作 赋予模型的能力 数据来源
预训练 海量文本上的"猜词"任务 语言理解、世界知识、推理能力 互联网爬取数据
指令微调 指令—回答对的监督训练 理解任务意图、按格式回答 人工撰写的问答对
RLHF 人类偏好反馈的强化训练 有帮助、诚实、无害的交互风格 人工评分的对比数据

训练结束之后

这里有一个容易产生误解的地方,需要单独说清楚:

训练结束后,模型的参数就固定了。

它不会在和你对话的过程中继续学习,不会把你告诉它的新信息"存进去"。每次对话,它都是带着训练结束时的那套参数在运行。你今天告诉它一件新鲜事,明天开一个新对话,它对这件事一无所知。

这是理解大模型行为的一个关键前提:它的"知识"在训练时就已经固化,对话本身不会更新它。这个固化的知识有一个截止日期——训练数据的收集截止日期——这就是为什么模型会对近期发生的事情一无所知(我们在第 5 章会详细讨论这个问题)。

了解了训练过程,你现在应该理解了一件事:大模型拥有的能力,既强大,又有着清晰的边界。

下一章,我们就来认真看看这些边界——它会在哪里失效,失效的原因是什么。


本章小结

  • 预训练:在海量文本上做"猜下一个词"的任务,迫使模型内化语言规律和世界知识;结果是一个博学但不会对话的基础模型;
  • 指令微调:用人工撰写的"指令—回答"数据继续训练,让模型学会把输入识别为任务并给出针对性回答;
  • RLHF:引入人类评分反馈,训练奖励模型,再用奖励模型引导语言模型向更有帮助、更安全的方向优化;
  • 三个阶段层层叠加,分别赋予模型语言能力、任务执行能力、价值对齐能力;
  • 训练结束后参数固定:模型不会在对话中自我更新,知识有截止日期。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐