【字节跳动】# seed全套大模型工程技术规范整理(汇总归档版)
全套大模型工程技术规范整理(汇总归档版)

一、数据清洗内部完整规则
1.基础长度过滤
- 文本字符<10或>20000:直接丢弃
- 文本相似度≥95%判定重复,MinHash签名碰撞≥3次直接删全文
- 连续匹配≥30字判定重复段落,删除重复片段
2.低质量&乱码过滤
- 符号占比≥30%:过滤
- 非UTF-8字符占比≥20%:剔除
- 连续≥4位不可见字符/冷门生僻字:乱码过滤
- 连续≥3个品牌词+联系方式:广告低质剔除
- 非目标语种字符占比>20%:整段废弃
3.去重执行链路
MinHash粗筛 → SimHash精筛,两级串联去重
4.内容安全过滤
- 色情/暴力/违规内容:PPL困惑度>120,流转人工复审
- 隐私正则脱敏:手机号
1[3-9]\d{9},身份证号按国标校验规则脱敏
5.数据源加权
- 权威来源:样本权重×1.5
- UGC低质内容:样本权重×0.5
二、通用训练基础超参
1.学习率与通用正则
| 模型规模 | 基准学习率 | 补充规则 |
|---|---|---|
| 10B | 3e-5 | 参数每翻倍,学习率除以2\sqrt22 |
| 100B | 1e-5 | 参数每翻倍,学习率除以2\sqrt22 |
| 统一固定超参: | ||
| 权重衰减=1e-6、梯度裁剪阈值=1.0;预热步数:总步数1%~2%; | ||
| 学习率衰减:Cosine余弦衰减(禁用线性);参数初始化标准差:0.02~0.05 |
2.Batch Size配置
- 7B:256;70B:1024
- 分布式横向扩容:每新增1张显卡,BS +=64
3.上下文窗口长度
7B=4k、13B=8k、70B=32k
4.网络层配置
- Dropout:Attention=0.1,FFN=0.2
- 精度:默认BF16混合精度,FP16兜底
- 优化器:≥50B大模型强制Lion优化器
三、训练早停与时长优化
- 早停判定:连续3个epoch PPL下降≤0.1% → 终止训练
- 调度:Patience=5;每2周全局学习率×0.8
- 收益规律:10B训练4周效果+5%,8周仅+7%,边际收益递减
四、联邦学习整套参数
- 客户端准入:数据质量分≥0.8方可接入
- 聚合:FedAvg加权聚合,差分隐私噪声σ=0.1
- 梯度通信压缩:稀疏化系数0.05
- 分片策略:高性能客户端分片2,低性能分片1
- 恶意节点剔除:客户端模型向量余弦相似度≤0.7,拉黑剔除
五、RLHF对齐全参数
1.奖励模型RM
- 隐层维度:1024
- 多轮对话:仅末轮奖励100%加权
- 温度:0.1~0.3
- 多目标权重:有用0.4、无害0.4、诚实0.2
2.PPO训练超参
Clip=0.2、lr=1e-6、BS=128~256、Vloss系数=0.1、KL惩罚=0.05
3.对齐规则
标注优先级:有用>无害>逻辑;安全分类得分>0.85触发拒答;
对话轮次上限8~12轮强制截断;行为克隆离线权重0.3
六、MoE稀疏架构标准
- 专家数:64/128,激活策略Top-2
- 负载均衡损失:0.01~0.02
- 单专家负载>70%触发限流
- 路由温度τ=0.1、稀疏阈值θ=0.1、块稀疏粒度4×4
七、注意力机制超参
常规GQA/FlashAttn
- GQA:8Q头共享2组KV头
- FlashAttention:分块128,单块绑定4 CUDA线程
实验类注意力
线性注意力α=0.1;轴向注意力分块=16
八、自监督预训练
- 对比学习:负样本=256,投影头=128维
- Span掩码:平均跨度=3
- MAE图像:Patch=16×16、掩码占比75%
九、模型编辑&动态路由
- 知识修正:反向梯度定位神经元,L2正则=0.1
- 动态权重=当前负载×0.6+历史准确率×0.4
- 路由参数每小时全量更新一次
十、可解释性标准化
- 注意力热力:红高蓝低色标
- SHAP背景数据集=100;LIME扰动次数=500
- PaLM3:特征归因覆盖≥90%网络层
十一、用户行为&流量风控
- 反馈权重:点赞0.7、踩0.3
- 同一用户1h内负面踩≥5次→无效样本
- DDoS判定:QPS≥1000;异常Token串上限100
十二、主流模型专属参数
DeepSeek MODEL1
- 架构:MLA Token稀疏70%,保留8头,KV缓存优先级重排
- 推理:激活<0.1切换FP8,精度损失<5%,适配Blackwell;7B FP16功耗≤10W,单token时延≤50ms
- 运维:错误率>0.5%/时延超基线2倍触发回滚;联邦分片3片,单片≤100MB;移动端CPU利用率≥70%自动降频
GPT-5
- 稀疏注意力:局部窗口512+4全局头;私有训练数据20%
- 量化:INT4自研误差补偿;多模态先图后文,跨模态头16,出图1920×1080
- 音视频:5语调+20方言,输入4K图/30min视频;RM每2周迭代、15min用户反馈闭环
PaLM3
跨模态Cross-Attn=12头;语料英文70%+中文15%;音频采样24k/48k;单视频上限10min;中译英<200ms;支持50种编程语言;联邦峰值10w客户端,兼容10家云API
MIT-NVIDIA TLT
每100Token迭代训练,参数共享30%;CPU利用率80%自适应解码;代码生成+210%、摘要+70%
上交-腾讯ReMiT
100k训练步介入微调;逻辑连接词权重0.8,信息熵≥2.0筛选核心文本
十三、工程落地未公开细则(量化/分布式/调度/安全)
1.量化与剪枝
- AWQ/GPTQ:激活>0.5→INT8,其余INT4,权重16分组
- FP8:每100Token误差修正;权重<0.05结构化剪枝;INT8校准集1000条,迭代10轮
2.分布式通信
NCCL AllReduce块256MB,梯度10步同步一次;RDMA单节点8队列,仅注册核心权重参数
3.缓存&负载
PagedAttn LRU缓存10min过期,预加载Top1000高频Token;
负载权重=剩余显存×0.6+空闲CPU×0.4;灰度放量日+5%流量
4.算力资源调度
GPU目标利用率≥85%,连续2h<30%闲置资源对外出租;
Checkpoint压缩率40%;空闲10min进入休眠,唤醒≤5s;
租户隔离:单租户显存≤30%、CPU≤50%,AES256密钥月轮换
5.监控告警
推理时延3σ异常判定;显存≥85%告警;错误日志存30d、访问日志Zstd压缩≥50%;
压测边界:支持10w字符文本、连续千级@符号极端用例
6.A/B测试&版本回滚
错误↑0.3%/时延↑50%触发回滚,回滚耗时<1min;灰度流量日+2%,留存权重0.5
7.安全与图谱
实体链接相似度≥0.9,图谱周更;敏感词库周度迭代、新词人工置信≥0.9入库;
PPL>100判定对抗样本;每100误判抽样5条人工复核
一、数据清洗内部完整规则
基础长度过滤
• 文本<10字 或 >20000字:直接剔除
• 重复内容判定:文本相似度≥95%视为重复;MinHash签名碰撞≥3次直接删除
• 重复段落判定:连续匹配≥30字判定重复段,整段删除
低质量&乱码过滤
• 符号堆砌占比≥30%:直接过滤
• 非UTF-8字符占比≥20%:直接剔除
• 乱码判定:连续4个及以上不可见字符/生僻冷文字,直接过滤
• 广告识别:连续出现3个及以上品牌词/联系方式,标记低质剔除
• 语种过滤:非目标语种占比>20%,整段丢弃
去重链路
先MinHash粗筛 → 再SimHash精筛,双重去重过滤
内容安全过滤
• 色情/暴力/敏感政治:困惑度>120,强制送入人工审核
• 隐私脱敏正则:手机号 1[3-9]\d{9};身份证号按官方校验码规则脱敏
来源权重赋值
• 高权威来源:1.5倍加权
• 低质UGC内容:0.5倍降权
二、通用训练基础参数
学习率&规模适配
• 10B模型:学习率 3e-5
• 100B模型:学习率 1e-5
• 模型参数翻倍:学习率自动降低 √2倍
• 权重衰减:全局固定 1e-6,全尺寸大模型通用
• 梯度裁剪阈值:固定 1.0,规避训练梯度爆炸
• 预热步数:总训练步数的 1%~2%
• 学习率衰减方式:固定 Cosine余弦衰减,弃用线性衰减
• 初始化标准差:0.02 ~ 0.05
Batch Size 配置
• 7B模型:256
• 70B模型:1024
• 分布式扩容:每新增1张算力卡,Batch Size 固定+64
上下文长度标配
• 7B → 4k
• 13B → 8k
• 70B → 32k
网络层超参
• Dropout率:注意力层0.1,FFN前馈层0.2
• 混合精度训练:主用BF16,FP16作为备用兜底
• 优化器规则:模型规模≥50B,强制使用Lion优化器
三、训练时长&早停优化策略
• 终止标准:连续3个epoch困惑度Perplexity下降≤0.1%,直接停止训练
• 模型收益平衡:10B模型训练4周效果提升5%,8周仅提升7%,边际收益递减
• 早停机制:Patience=5个epoch;每2周学习率衰减为原0.8倍
四、联邦学习全套参数
• 客户端准入:数据质量得分≥0.8才可接入
• 聚合算法:FedAvg加权平均;差分隐私噪声强度 σ=0.1
• 通信压缩:稀疏化比例固定0.05
• 异构客户端适配:高性能客户端分片2片,低性能客户端分片1片
• 恶意客户端检测:向量余弦相似度阈值≤0.7,标记恶意并剔除
五、RLHF 对齐核心细节
奖励模型
• 隐藏层维度:1024
• 多轮对话奖励:仅取最后一轮100%聚合权重
• 奖励模型温度系数:0.1 ~ 0.3
• 多目标奖励融合权重:有用性0.4、无害性0.4、诚实性0.2
PPO 超参
• Clip ratio=0.2
• 学习率固定1e-6
• PPO训练Batch:128~256
• 价值函数系数:0.1
• KL散度惩罚系数:0.05
对齐&交互规则
• 偏好标注优先级:有用性 > 无害性 > 逻辑性
• 拒绝回答阈值:安全分类器得分>0.85
• 多轮对话上限:8~12轮强制截断
• 离线RL行为克隆权重:0.3
六、MoE稀疏模型标准参数
• 常用专家数量:64 / 128
• 单轮激活策略:固定Top-2专家
• 负载均衡损失权重:0.01 ~ 0.02
• 专家容量限流:负载超70%直接限流
• 路由温度敏感度:τ=0.1
• 稀疏激活阈值θ=0.1;块稀疏分块大小4×4
七、各类注意力&新型实验参数
标准注意力优化
• Grouped Query Attention:8个查询头共享2个K/V头
• Flash Attention:分块128,每块绑定4个CUDA线程
新型注意力实验
• 线性注意力:斜率参数α=0.1
• 轴向注意力:轴划分块大小16
八、自监督学习优化
• 对比学习:负样本数量256;投影头维度128
• 掩码预测Span Masking:平均span长度3
• MAE掩码图像建模:掩码块16×16,掩码比例75%
九、模型编辑&强化学习新方法
• 知识更新:梯度反向查找定位相关神经元
• 副作用控制:L2正则化系数0.1
• 动态路由请求权重 = 当前负载×0.6 + 历史准确率×0.4
• 路由更新频率:每小时1次
十、可解释性标准化方法
• 注意力可视化:红高蓝低颜色编码
• 特征归因:SHAP背景数据集100;LIME局部扰动次数500
• PaLM3可解释性:特征归因覆盖90%模型层
十一、用户行为&流量规则
• 反馈加权:点赞0.7、踩0.3
• 无效负面过滤:同一用户1小时内踩≥5次,全部标记无效
• 异常流量识别:DDoS判定QPS≥1000;异常Token序列长度阈值100
十二、各主流模型专属技术参数
DeepSeek MODEL1
• 架构:Token级稀疏MLA,稀疏化70%、保留8头;KV缓存按Token优先级重构排序
• 性能:稀疏FP8解码,激活值<0.1启用FP8,精度损失<5%;适配Blackwell架构
• 算力能耗:7B模型FP16推理功耗≤10W
• 流式延迟:Token间返回延迟≤50ms
• 多语言:小语种按Unicode分词,语言切换延迟≤10ms
• 灰度回滚:错误率>0.5% 或 时延>2倍基线,立即回滚
• 联邦适配:参数分片3片,单分片≤100MB
• 边缘优化:手机端CPU利用率≥70%自动降频
OpenAI GPT-5
• 注意力:混合稀疏,局部窗口512、全局头4
• 私有训练数据占比:20%
• 量化:INT4误差补偿专属算法
• 多模态:先图后文输入顺序,跨模态注意力头16;最大输出图1920×1080
• 音视频:5种语调、20种方言;最大输入图4K、视频最长30分钟
• RLHF:奖励模型每2周迭代更新;固定1000名专业标注员
• 用户反馈Loop:实时周期15分钟
Google PaLM 3
• 多模态融合:Cross-Attention头12
• 训练语料分布:中文15%、英文70%
• 语音采样率:24kHz / 48kHz双档
• 视频理解:ResNet-50/ViT特征提取,单条视频限10分钟
• 翻译:中译英延迟≤200ms;内置100万专业术语库
• 代码生成:覆盖50种编程语言
• 联邦学习:支持客户端峰值10万
• 跨云兼容:适配10大云厂商API测试用例
MIT&英伟达TLT
• 自适应草稿训练器:每100Token训练1次;参数共享比例30%
• 推演引擎:CPU利用率达80%自动调整解码策略;代码生成效率+210%、摘要+70%
上交&腾讯优图ReMiT
• 训练介入节点:第100k步
• 关键信息权重:逻辑连接词0.8;信息熵≥2.0筛选核心内容
十三、工程落地未公开核心细节
量化&剪枝
• AWQ/GPTQ:激活值>0.5用INT8,其余INT4;权重每16个为一组分组
• FP8量化:每100Token做1次误差累加修正
• 结构化剪枝:权重绝对值<0.05直接剪枝
• INT8校准:数据集1000条,迭代10轮
分布式通信
• NCCL:All-Reduce块256MB;梯度每10步同步1次
• RDMA:单节点8个队列对,仅注册模型核心参数
缓存&负载均衡
• PagedAttention LRU缓存过期10分钟;预加载前1000个高频Token
• 负载权重:剩余显存×0.6 + 空闲CPU×0.4
• 灰度放量:流量分配每日步长+5%
资源&能耗管理
• 算力调度:GPU利用率目标≥85%;连续2小时利用率≤30%启动闲置出租
• 存储优化:模型检查点压缩率40%
• 多模型休眠:连续10分钟无请求进入idle休眠;唤醒延迟≤5秒
• 多租户隔离:单租户显存占用≤30%、CPU≤50%;AES-256密钥每月轮换
监控&日志
• 异常检测:推理时延采用3σ阈值判定
• 资源预警:GPU显存占用≥85%触发告警
• 日志策略:错误日志保留30天;访问日志Zstandard压缩率≥50%
• 超长用例边界:支持10万字符超长文本、1000个连续@极端符号测试
模型更新&A/B测试
• 回滚触发:错误率升0.3% 或 时延增50%;恢复耗时≤1分钟
• A/B测试:流量每日步长+2%;用户停留时间评估权重0.5
安全&知识图谱
• 知识图谱实体链接:相似度阈值≥0.9;每周固定更新
• 敏感词库:周度动态更新;新词人工审核置信度≥0.9
• 对抗样本检测:模型困惑度>100标记异常
• 误判复核:每100条误判抽样5条人工复核
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)