全套大模型工程技术规范整理(汇总归档版)

在这里插入图片描述

一、数据清洗内部完整规则

1.基础长度过滤

  1. 文本字符<10或>20000:直接丢弃
  2. 文本相似度≥95%判定重复,MinHash签名碰撞≥3次直接删全文
  3. 连续匹配≥30字判定重复段落,删除重复片段

2.低质量&乱码过滤

  • 符号占比≥30%:过滤
  • 非UTF-8字符占比≥20%:剔除
  • 连续≥4位不可见字符/冷门生僻字:乱码过滤
  • 连续≥3个品牌词+联系方式:广告低质剔除
  • 非目标语种字符占比>20%:整段废弃

3.去重执行链路

MinHash粗筛 → SimHash精筛,两级串联去重

4.内容安全过滤

  • 色情/暴力/违规内容:PPL困惑度>120,流转人工复审
  • 隐私正则脱敏:手机号1[3-9]\d{9},身份证号按国标校验规则脱敏

5.数据源加权

  • 权威来源:样本权重×1.5
  • UGC低质内容:样本权重×0.5

二、通用训练基础超参

1.学习率与通用正则

模型规模 基准学习率 补充规则
10B 3e-5 参数每翻倍,学习率除以2\sqrt22
100B 1e-5 参数每翻倍,学习率除以2\sqrt22
统一固定超参:
权重衰减=1e-6、梯度裁剪阈值=1.0;预热步数:总步数1%~2%;
学习率衰减:Cosine余弦衰减(禁用线性);参数初始化标准差:0.02~0.05

2.Batch Size配置

  • 7B:256;70B:1024
  • 分布式横向扩容:每新增1张显卡,BS +=64

3.上下文窗口长度

7B=4k、13B=8k、70B=32k

4.网络层配置

  • Dropout:Attention=0.1,FFN=0.2
  • 精度:默认BF16混合精度,FP16兜底
  • 优化器:≥50B大模型强制Lion优化器

三、训练早停与时长优化

  1. 早停判定:连续3个epoch PPL下降≤0.1% → 终止训练
  2. 调度:Patience=5;每2周全局学习率×0.8
  3. 收益规律:10B训练4周效果+5%,8周仅+7%,边际收益递减

四、联邦学习整套参数

  1. 客户端准入:数据质量分≥0.8方可接入
  2. 聚合:FedAvg加权聚合,差分隐私噪声σ=0.1
  3. 梯度通信压缩:稀疏化系数0.05
  4. 分片策略:高性能客户端分片2,低性能分片1
  5. 恶意节点剔除:客户端模型向量余弦相似度≤0.7,拉黑剔除

五、RLHF对齐全参数

1.奖励模型RM

  • 隐层维度:1024
  • 多轮对话:仅末轮奖励100%加权
  • 温度:0.1~0.3
  • 多目标权重:有用0.4、无害0.4、诚实0.2

2.PPO训练超参

Clip=0.2、lr=1e-6、BS=128~256、Vloss系数=0.1、KL惩罚=0.05

3.对齐规则

标注优先级:有用>无害>逻辑;安全分类得分>0.85触发拒答;
对话轮次上限8~12轮强制截断;行为克隆离线权重0.3

六、MoE稀疏架构标准

  • 专家数:64/128,激活策略Top-2
  • 负载均衡损失:0.01~0.02
  • 单专家负载>70%触发限流
  • 路由温度τ=0.1、稀疏阈值θ=0.1、块稀疏粒度4×4

七、注意力机制超参

常规GQA/FlashAttn

  • GQA:8Q头共享2组KV头
  • FlashAttention:分块128,单块绑定4 CUDA线程

实验类注意力

线性注意力α=0.1;轴向注意力分块=16

八、自监督预训练

  • 对比学习:负样本=256,投影头=128维
  • Span掩码:平均跨度=3
  • MAE图像:Patch=16×16、掩码占比75%

九、模型编辑&动态路由

  • 知识修正:反向梯度定位神经元,L2正则=0.1
  • 动态权重=当前负载×0.6+历史准确率×0.4
  • 路由参数每小时全量更新一次

十、可解释性标准化

  • 注意力热力:红高蓝低色标
  • SHAP背景数据集=100;LIME扰动次数=500
  • PaLM3:特征归因覆盖≥90%网络层

十一、用户行为&流量风控

  • 反馈权重:点赞0.7、踩0.3
  • 同一用户1h内负面踩≥5次→无效样本
  • DDoS判定:QPS≥1000;异常Token串上限100

十二、主流模型专属参数

DeepSeek MODEL1

  1. 架构:MLA Token稀疏70%,保留8头,KV缓存优先级重排
  2. 推理:激活<0.1切换FP8,精度损失<5%,适配Blackwell;7B FP16功耗≤10W,单token时延≤50ms
  3. 运维:错误率>0.5%/时延超基线2倍触发回滚;联邦分片3片,单片≤100MB;移动端CPU利用率≥70%自动降频

GPT-5

  • 稀疏注意力:局部窗口512+4全局头;私有训练数据20%
  • 量化:INT4自研误差补偿;多模态先图后文,跨模态头16,出图1920×1080
  • 音视频:5语调+20方言,输入4K图/30min视频;RM每2周迭代、15min用户反馈闭环

PaLM3

跨模态Cross-Attn=12头;语料英文70%+中文15%;音频采样24k/48k;单视频上限10min;中译英<200ms;支持50种编程语言;联邦峰值10w客户端,兼容10家云API

MIT-NVIDIA TLT

每100Token迭代训练,参数共享30%;CPU利用率80%自适应解码;代码生成+210%、摘要+70%

上交-腾讯ReMiT

100k训练步介入微调;逻辑连接词权重0.8,信息熵≥2.0筛选核心文本

十三、工程落地未公开细则(量化/分布式/调度/安全)

1.量化与剪枝

  • AWQ/GPTQ:激活>0.5→INT8,其余INT4,权重16分组
  • FP8:每100Token误差修正;权重<0.05结构化剪枝;INT8校准集1000条,迭代10轮

2.分布式通信

NCCL AllReduce块256MB,梯度10步同步一次;RDMA单节点8队列,仅注册核心权重参数

3.缓存&负载

PagedAttn LRU缓存10min过期,预加载Top1000高频Token;
负载权重=剩余显存×0.6+空闲CPU×0.4;灰度放量日+5%流量

4.算力资源调度

GPU目标利用率≥85%,连续2h<30%闲置资源对外出租;
Checkpoint压缩率40%;空闲10min进入休眠,唤醒≤5s;
租户隔离:单租户显存≤30%、CPU≤50%,AES256密钥月轮换

5.监控告警

推理时延3σ异常判定;显存≥85%告警;错误日志存30d、访问日志Zstd压缩≥50%;
压测边界:支持10w字符文本、连续千级@符号极端用例

6.A/B测试&版本回滚

错误↑0.3%/时延↑50%触发回滚,回滚耗时<1min;灰度流量日+2%,留存权重0.5

7.安全与图谱

实体链接相似度≥0.9,图谱周更;敏感词库周度迭代、新词人工置信≥0.9入库;
PPL>100判定对抗样本;每100误判抽样5条人工复核

一、数据清洗内部完整规则

基础长度过滤

• 文本<10字 或 >20000字:直接剔除

• 重复内容判定:文本相似度≥95%视为重复;MinHash签名碰撞≥3次直接删除

• 重复段落判定:连续匹配≥30字判定重复段,整段删除

低质量&乱码过滤

• 符号堆砌占比≥30%:直接过滤

• 非UTF-8字符占比≥20%:直接剔除

• 乱码判定:连续4个及以上不可见字符/生僻冷文字,直接过滤

• 广告识别:连续出现3个及以上品牌词/联系方式,标记低质剔除

• 语种过滤:非目标语种占比>20%,整段丢弃

去重链路

先MinHash粗筛 → 再SimHash精筛,双重去重过滤

内容安全过滤

• 色情/暴力/敏感政治:困惑度>120,强制送入人工审核

• 隐私脱敏正则:手机号 1[3-9]\d{9};身份证号按官方校验码规则脱敏

来源权重赋值

• 高权威来源:1.5倍加权

• 低质UGC内容:0.5倍降权

二、通用训练基础参数

学习率&规模适配

• 10B模型:学习率 3e-5

• 100B模型:学习率 1e-5

• 模型参数翻倍:学习率自动降低 √2倍

• 权重衰减:全局固定 1e-6,全尺寸大模型通用

• 梯度裁剪阈值:固定 1.0,规避训练梯度爆炸

• 预热步数:总训练步数的 1%~2%

• 学习率衰减方式:固定 Cosine余弦衰减,弃用线性衰减

• 初始化标准差:0.02 ~ 0.05

Batch Size 配置

• 7B模型:256

• 70B模型:1024

• 分布式扩容:每新增1张算力卡,Batch Size 固定+64

上下文长度标配

• 7B → 4k

• 13B → 8k

• 70B → 32k

网络层超参

• Dropout率:注意力层0.1,FFN前馈层0.2

• 混合精度训练:主用BF16,FP16作为备用兜底

• 优化器规则:模型规模≥50B,强制使用Lion优化器

三、训练时长&早停优化策略

• 终止标准:连续3个epoch困惑度Perplexity下降≤0.1%,直接停止训练

• 模型收益平衡:10B模型训练4周效果提升5%,8周仅提升7%,边际收益递减

• 早停机制:Patience=5个epoch;每2周学习率衰减为原0.8倍

四、联邦学习全套参数

• 客户端准入:数据质量得分≥0.8才可接入

• 聚合算法:FedAvg加权平均;差分隐私噪声强度 σ=0.1

• 通信压缩:稀疏化比例固定0.05

• 异构客户端适配:高性能客户端分片2片,低性能客户端分片1片

• 恶意客户端检测:向量余弦相似度阈值≤0.7,标记恶意并剔除

五、RLHF 对齐核心细节

奖励模型

• 隐藏层维度:1024

• 多轮对话奖励:仅取最后一轮100%聚合权重

• 奖励模型温度系数:0.1 ~ 0.3

• 多目标奖励融合权重:有用性0.4、无害性0.4、诚实性0.2

PPO 超参

• Clip ratio=0.2

• 学习率固定1e-6

• PPO训练Batch:128~256

• 价值函数系数:0.1

• KL散度惩罚系数:0.05

对齐&交互规则

• 偏好标注优先级:有用性 > 无害性 > 逻辑性

• 拒绝回答阈值:安全分类器得分>0.85

• 多轮对话上限:8~12轮强制截断

• 离线RL行为克隆权重:0.3

六、MoE稀疏模型标准参数

• 常用专家数量:64 / 128

• 单轮激活策略:固定Top-2专家

• 负载均衡损失权重:0.01 ~ 0.02

• 专家容量限流:负载超70%直接限流

• 路由温度敏感度:τ=0.1

• 稀疏激活阈值θ=0.1;块稀疏分块大小4×4

七、各类注意力&新型实验参数

标准注意力优化

• Grouped Query Attention:8个查询头共享2个K/V头

• Flash Attention:分块128,每块绑定4个CUDA线程

新型注意力实验

• 线性注意力:斜率参数α=0.1

• 轴向注意力:轴划分块大小16

八、自监督学习优化

• 对比学习:负样本数量256;投影头维度128

• 掩码预测Span Masking:平均span长度3

• MAE掩码图像建模:掩码块16×16,掩码比例75%

九、模型编辑&强化学习新方法

• 知识更新:梯度反向查找定位相关神经元

• 副作用控制:L2正则化系数0.1

• 动态路由请求权重 = 当前负载×0.6 + 历史准确率×0.4

• 路由更新频率:每小时1次

十、可解释性标准化方法

• 注意力可视化:红高蓝低颜色编码

• 特征归因:SHAP背景数据集100;LIME局部扰动次数500

• PaLM3可解释性:特征归因覆盖90%模型层

十一、用户行为&流量规则

• 反馈加权:点赞0.7、踩0.3

• 无效负面过滤:同一用户1小时内踩≥5次,全部标记无效

• 异常流量识别:DDoS判定QPS≥1000;异常Token序列长度阈值100

十二、各主流模型专属技术参数

DeepSeek MODEL1

• 架构:Token级稀疏MLA,稀疏化70%、保留8头;KV缓存按Token优先级重构排序

• 性能:稀疏FP8解码,激活值<0.1启用FP8,精度损失<5%;适配Blackwell架构

• 算力能耗:7B模型FP16推理功耗≤10W

• 流式延迟:Token间返回延迟≤50ms

• 多语言:小语种按Unicode分词,语言切换延迟≤10ms

• 灰度回滚:错误率>0.5% 或 时延>2倍基线,立即回滚

• 联邦适配:参数分片3片,单分片≤100MB

• 边缘优化:手机端CPU利用率≥70%自动降频

OpenAI GPT-5

• 注意力:混合稀疏,局部窗口512、全局头4

• 私有训练数据占比:20%

• 量化:INT4误差补偿专属算法

• 多模态:先图后文输入顺序,跨模态注意力头16;最大输出图1920×1080

• 音视频:5种语调、20种方言;最大输入图4K、视频最长30分钟

• RLHF:奖励模型每2周迭代更新;固定1000名专业标注员

• 用户反馈Loop:实时周期15分钟

Google PaLM 3

• 多模态融合:Cross-Attention头12

• 训练语料分布:中文15%、英文70%

• 语音采样率:24kHz / 48kHz双档

• 视频理解:ResNet-50/ViT特征提取,单条视频限10分钟

• 翻译:中译英延迟≤200ms;内置100万专业术语库

• 代码生成:覆盖50种编程语言

• 联邦学习:支持客户端峰值10万

• 跨云兼容:适配10大云厂商API测试用例

MIT&英伟达TLT

• 自适应草稿训练器:每100Token训练1次;参数共享比例30%

• 推演引擎:CPU利用率达80%自动调整解码策略;代码生成效率+210%、摘要+70%

上交&腾讯优图ReMiT

• 训练介入节点:第100k步

• 关键信息权重:逻辑连接词0.8;信息熵≥2.0筛选核心内容

十三、工程落地未公开核心细节

量化&剪枝

• AWQ/GPTQ:激活值>0.5用INT8,其余INT4;权重每16个为一组分组

• FP8量化:每100Token做1次误差累加修正

• 结构化剪枝:权重绝对值<0.05直接剪枝

• INT8校准:数据集1000条,迭代10轮

分布式通信

• NCCL:All-Reduce块256MB;梯度每10步同步1次

• RDMA:单节点8个队列对,仅注册模型核心参数

缓存&负载均衡

• PagedAttention LRU缓存过期10分钟;预加载前1000个高频Token

• 负载权重:剩余显存×0.6 + 空闲CPU×0.4

• 灰度放量:流量分配每日步长+5%

资源&能耗管理

• 算力调度:GPU利用率目标≥85%;连续2小时利用率≤30%启动闲置出租

• 存储优化:模型检查点压缩率40%

• 多模型休眠:连续10分钟无请求进入idle休眠;唤醒延迟≤5秒

• 多租户隔离:单租户显存占用≤30%、CPU≤50%;AES-256密钥每月轮换

监控&日志

• 异常检测:推理时延采用3σ阈值判定

• 资源预警:GPU显存占用≥85%触发告警

• 日志策略:错误日志保留30天;访问日志Zstandard压缩率≥50%

• 超长用例边界:支持10万字符超长文本、1000个连续@极端符号测试

模型更新&A/B测试

• 回滚触发:错误率升0.3% 或 时延增50%;恢复耗时≤1分钟

• A/B测试:流量每日步长+2%;用户停留时间评估权重0.5

安全&知识图谱

• 知识图谱实体链接:相似度阈值≥0.9;每周固定更新

• 敏感词库:周度动态更新;新词人工审核置信度≥0.9

• 对抗样本检测:模型困惑度>100标记异常

• 误判复核:每100条误判抽样5条人工复核

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐