前沿模型系列(一)《大模型学习方法》
目录
1. 涌现智能(Emergent Intelligence)
本内容将系统梳理大模型训练的完整生命周期,深入解析预训练、监督微调(SFT)、强化学习(RLHF)三个核心阶段,并介绍如何通过 Scaling Law 等技术预测和优化模型性能。
AI发展的三个阶段
从 1956 年达特茅斯会议至今,人工智能经历了三个重要发展阶段:
1. 符号智能时代(1950s-1980s)
-
• 核心特征:专家手工构建规则库和知识库
-
• 典型应用:专家系统
-
• 主要局限:
-
• 规则难以穷尽枚举
-
• 人工构建成本极高
-
• 无法处理规则库未覆盖的任务
-
2. 专用智能时代(1990s-2010s)
-
• 核心特征:数据驱动的机器学习,针对特定任务训练专用模型
-
• 技术突破:多层神经网络、反向传播算法
-
• 主要局限:
-
• 每个任务需要独立标注数据集
-
• 标注成本高昂
-
• 模型泛化能力有限
-
3. 大模型时代(2018 年至今)
-
• 核心特征:统一模型解决多样化任务
-
• 技术标志:BERT、GPT 等预训练语言模型
-
• 关键优势:
-
• 利用海量无标注数据进行自监督学习
-
• 单一模型支持多任务
-
• 能力呈现涌现特性
-
大模型的核心特性:量变到质变的涌现
1. 涌现智能(Emergent Intelligence)
-
• 现象描述:小模型无法完成的任务,大模型突然能够完成
-
• 表现形式:在复杂任务上出现阶跃式性能提升
-
• 根本原因:参数规模、数据规模、计算量的指数级增长
2. Scaling Law:性能可预测性
OpenAI 提出的 Scaling Law 揭示了模型性能与资源投入的定量关系:
损失函数与参数量的关系:

核心发现:
-
• 损失函数与参数量、数据量均呈幂律关系
-
• 计算量 C ≈ 6 × 参数量 × 数据量
-
• 在相同计算预算下,存在最优的参数量与数据量配比
3. 实际应用价值
-
• 性能预测:用 1/1000-1/10000 的计算量预测大模型性能
-
• 资源配置:找到给定计算预算下的最优超参数配置
-
• 效率提升:DeepMind 的 Chinchilla 模型用 70B 参数超越 530B 参数的基线模型
预训练阶段:自监督学习的基础
1. 核心任务
-
• Next Token Prediction:根据前文预测下一个词
-
• Masked Language Modeling:预测被掩码的词语(如 BERT)
2. 关键优势
-
• 无需人工标注:只要有原始语料即可生成训练样本
-
• 数据近乎无限:可利用互联网上的所有文本数据
-
• 知识覆盖面广:学习到丰富的世界知识
3. 性能优化策略
-
• 高质量数据筛选:FiD 工作表明,1.3B 模型用 1% 的教科书质量数据即可在特定情况下超越 GPT-3.5
-
• 数据多样性:HuggingFace 研究显示,高质量数据可显著加快收敛速度
-
• MiniCPM实践:2B 模型仅用 Gemma 7B 1/6的 token 量,性能接近 Gemma 7B
监督微调(SFT):指令遵循能力的培养
1. 发展历程
-
• Instruction Tuning:Google 发现模型对指令具有泛化能力
-
• 对话形式微调:InstructGPT/ChatGPT 采用对话数据格式
-
• Self-Instruct:Alpaca 使用 ChatGPT 自动生成训练数据
2. 两种流派
数量派
-
• 自动生成百万级 SFT 数据
-
• 期望通过量变产生质变
-
• 代表:Alpaca
质量派
-
• 精心构造少量高质量数据
-
• 注重数据多样性和复杂性
-
• 代表:InstructGPT(仅 1 万条数据)、LIMA(仅 1000 条 prompt)
3. AutoChat:数量与质量的结合
AutoChat 通过三个维度构建高质量多样化数据:
-
• Questions about World
基于 Wikipedia 实体和多样化主题生成问题 -
• Creation and Writing
覆盖新闻、代码、论文、报告等多种材料类型 -
• Assistant Materials
从 C4 语料库提取片段,反向生成对应指令
效果验证:OASST-LM 成为社区首个在 Alpaca-Eval 达到 80 分的开源模型。
强化学习(RLHF):人类偏好的对齐
1. 为什么需要RLHF?
-
• SFT的局限:强制模型拟合单一"正确答案",但很多任务有多个合理答案
-
• 目标不一致:SFT 的优化目标与最终用户体验目标不符
-
• 反馈学习:更符合人类从反馈中学习的认知模式
2. RLHF三阶段流程
-
• 监督微调(SFT):收集演示数据,训练初始策略
-
• 奖励模型训练:收集对比数据,训练奖励模型
-
• 强化学习优化:基于奖励模型优化策略
3. OpenAI 的 RLHF 实践
-
• 数据规模:33,000 个 prompt,每条生成 4-9 个回复
-
• 奖励模型:使用 200K 对比数据训练
-
• 人工标注:详细标注文档,多维度评价生成质量
4. 开源社区的挑战与突破
主要困难:
-
• 偏好数据标注成本高
-
• 开源偏好数据集规模小、多样性差
-
• 奖励模型效果不显著
AutoFeedback解决方案:
-
• 数据规模:65K prompt,300K+ 偏好对
-
• 模型多样性:使用 GPT、LLaMA、MPT、Falcon 等多个模型生成答案
-
• 评价维度:GPT-4 从四个维度进行比较打分并给出解释
效果:AutoFeedback 训练的模型在 UP 和 EO 评测中达到 81.17 分,显著优于其他开源方案。
未来展望:从 0-60 分到 60-100 分
1. SFT 的双重目标
-
• 0-60 分:让模型输出形式符合用户偏好,激发预训练知识
-
• 60-100 分:提升推理、生成和知识运用能力,解决复杂任务
2. RLHF 的扩展应用
-
• 多智能体交互:接受多方反馈
-
• 工具使用:长距离、多步骤的反馈机制
-
• 具身智能:从环境交互中学习
3. 核心成功要素
-
• 数据多样性:覆盖各种任务类型和难度级别
-
• 可扩展性:能够持续扩展数据规模和质量
-
• 反馈机制:建立有效的偏好学习和对齐机制
总结
大模型训练是一个复杂的系统工程,涉及预训练、SFT、RLHF 等多个阶段。每个阶段都有其独特的挑战和优化策略:
-
• 预训练阶段:关注数据质量和 Scaling Law 指导下的资源配置
-
• SFT 阶段:平衡数据数量与质量,注重指令多样性
-
• RLHF 阶段:构建高质量偏好数据,训练有效的奖励模型
通过这篇文章,大家深入理解这些训练方法论,不仅有助于模型开发,更能为AI应用落地提供坚实的技术基础。后续课程将深入讲解大模型训练、推理与优化技术,包括模型微调、分布式训练、性能优化等高级主题。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐




所有评论(0)