【字节跳动】# seed全套大模型工程技术规范整理（汇总归档版）

季念&季凡

36人浏览 · 2026-06-05 22:37:07

季念&季凡 · 2026-06-05 22:37:07 发布

全套大模型工程技术规范整理（汇总归档版）

在这里插入图片描述

一、数据清洗内部完整规则

1.基础长度过滤

文本字符＜10或＞20000：直接丢弃
文本相似度≥95%判定重复，MinHash签名碰撞≥3次直接删全文
连续匹配≥30字判定重复段落，删除重复片段

2.低质量&乱码过滤

符号占比≥30%：过滤
非UTF-8字符占比≥20%：剔除
连续≥4位不可见字符/冷门生僻字：乱码过滤
连续≥3个品牌词+联系方式：广告低质剔除
非目标语种字符占比＞20%：整段废弃

3.去重执行链路

MinHash粗筛 → SimHash精筛，两级串联去重

4.内容安全过滤

色情/暴力/违规内容：PPL困惑度＞120，流转人工复审
隐私正则脱敏：手机号1[3-9]\d{9}，身份证号按国标校验规则脱敏

5.数据源加权

权威来源：样本权重×1.5
UGC低质内容：样本权重×0.5

二、通用训练基础超参

1.学习率与通用正则

模型规模	基准学习率	补充规则
10B	3e-5	参数每翻倍，学习率除以 $2\sqrt2$
100B	1e-5	参数每翻倍，学习率除以 $2\sqrt2$
统一固定超参：
权重衰减=1e-6、梯度裁剪阈值=1.0；预热步数：总步数1%~2%；
学习率衰减：Cosine余弦衰减（禁用线性）；参数初始化标准差：0.02~0.05

2.Batch Size配置

7B：256；70B：1024
分布式横向扩容：每新增1张显卡，BS +=64

3.上下文窗口长度

7B=4k、13B=8k、70B=32k

4.网络层配置

Dropout：Attention=0.1，FFN=0.2
精度：默认BF16混合精度，FP16兜底
优化器：≥50B大模型强制Lion优化器

三、训练早停与时长优化

早停判定：连续3个epoch PPL下降≤0.1% → 终止训练
调度：Patience=5；每2周全局学习率×0.8
收益规律：10B训练4周效果+5%，8周仅+7%，边际收益递减

四、联邦学习整套参数

客户端准入：数据质量分≥0.8方可接入
聚合：FedAvg加权聚合，差分隐私噪声σ=0.1
梯度通信压缩：稀疏化系数0.05
分片策略：高性能客户端分片2，低性能分片1
恶意节点剔除：客户端模型向量余弦相似度≤0.7，拉黑剔除

五、RLHF对齐全参数

1.奖励模型RM

隐层维度：1024
多轮对话：仅末轮奖励100%加权
温度：0.1~0.3
多目标权重：有用0.4、无害0.4、诚实0.2

2.PPO训练超参

Clip=0.2、lr=1e-6、BS=128~256、Vloss系数=0.1、KL惩罚=0.05

3.对齐规则

标注优先级：有用＞无害＞逻辑；安全分类得分＞0.85触发拒答；
对话轮次上限8~12轮强制截断；行为克隆离线权重0.3

六、MoE稀疏架构标准

专家数：64/128，激活策略Top-2
负载均衡损失：0.01~0.02
单专家负载＞70%触发限流
路由温度τ=0.1、稀疏阈值θ=0.1、块稀疏粒度4×4

七、注意力机制超参

常规GQA/FlashAttn

GQA：8Q头共享2组KV头
FlashAttention：分块128，单块绑定4 CUDA线程

实验类注意力

线性注意力α=0.1；轴向注意力分块=16

八、自监督预训练

对比学习：负样本=256，投影头=128维
Span掩码：平均跨度=3
MAE图像：Patch=16×16、掩码占比75%

九、模型编辑&动态路由

知识修正：反向梯度定位神经元，L2正则=0.1
动态权重=当前负载×0.6+历史准确率×0.4
路由参数每小时全量更新一次

十、可解释性标准化

注意力热力：红高蓝低色标
SHAP背景数据集=100；LIME扰动次数=500
PaLM3：特征归因覆盖≥90%网络层

十一、用户行为&流量风控

反馈权重：点赞0.7、踩0.3
同一用户1h内负面踩≥5次→无效样本
DDoS判定：QPS≥1000；异常Token串上限100

十二、主流模型专属参数

DeepSeek MODEL1

架构：MLA Token稀疏70%，保留8头，KV缓存优先级重排
推理：激活＜0.1切换FP8，精度损失＜5%，适配Blackwell；7B FP16功耗≤10W，单token时延≤50ms
运维：错误率＞0.5%/时延超基线2倍触发回滚；联邦分片3片，单片≤100MB；移动端CPU利用率≥70%自动降频

GPT-5

稀疏注意力：局部窗口512+4全局头；私有训练数据20%
量化：INT4自研误差补偿；多模态先图后文，跨模态头16，出图1920×1080
音视频：5语调+20方言，输入4K图/30min视频；RM每2周迭代、15min用户反馈闭环

PaLM3

跨模态Cross-Attn=12头；语料英文70%+中文15%；音频采样24k/48k；单视频上限10min；中译英＜200ms；支持50种编程语言；联邦峰值10w客户端，兼容10家云API

MIT-NVIDIA TLT

每100Token迭代训练，参数共享30%；CPU利用率80%自适应解码；代码生成+210%、摘要+70%

上交-腾讯ReMiT

100k训练步介入微调；逻辑连接词权重0.8，信息熵≥2.0筛选核心文本

十三、工程落地未公开细则（量化/分布式/调度/安全）

1.量化与剪枝

AWQ/GPTQ：激活＞0.5→INT8，其余INT4，权重16分组
FP8：每100Token误差修正；权重＜0.05结构化剪枝；INT8校准集1000条，迭代10轮

2.分布式通信

NCCL AllReduce块256MB，梯度10步同步一次；RDMA单节点8队列，仅注册核心权重参数

3.缓存&负载

PagedAttn LRU缓存10min过期，预加载Top1000高频Token；
负载权重=剩余显存×0.6+空闲CPU×0.4；灰度放量日+5%流量

4.算力资源调度

GPU目标利用率≥85%，连续2h＜30%闲置资源对外出租；
Checkpoint压缩率40%；空闲10min进入休眠，唤醒≤5s；
租户隔离：单租户显存≤30%、CPU≤50%，AES256密钥月轮换

5.监控告警

推理时延3σ异常判定；显存≥85%告警；错误日志存30d、访问日志Zstd压缩≥50%；
压测边界：支持10w字符文本、连续千级@符号极端用例

6.A/B测试&版本回滚

错误↑0.3%/时延↑50%触发回滚，回滚耗时＜1min；灰度流量日+2%，留存权重0.5

7.安全与图谱

实体链接相似度≥0.9，图谱周更；敏感词库周度迭代、新词人工置信≥0.9入库；
PPL＞100判定对抗样本；每100误判抽样5条人工复核

一、数据清洗内部完整规则

基础长度过滤

• 文本＜10字或＞20000字：直接剔除

• 重复内容判定：文本相似度≥95%视为重复；MinHash签名碰撞≥3次直接删除

• 重复段落判定：连续匹配≥30字判定重复段，整段删除

低质量&乱码过滤

• 符号堆砌占比≥30%：直接过滤

• 非UTF-8字符占比≥20%：直接剔除

• 乱码判定：连续4个及以上不可见字符/生僻冷文字，直接过滤

• 广告识别：连续出现3个及以上品牌词/联系方式，标记低质剔除

• 语种过滤：非目标语种占比＞20%，整段丢弃

去重链路

先MinHash粗筛 → 再SimHash精筛，双重去重过滤

内容安全过滤

• 色情/暴力/敏感政治：困惑度＞120，强制送入人工审核

• 隐私脱敏正则：手机号 1[3-9]\d{9}；身份证号按官方校验码规则脱敏

来源权重赋值

• 高权威来源：1.5倍加权

• 低质UGC内容：0.5倍降权

二、通用训练基础参数

学习率&规模适配

• 10B模型：学习率 3e-5

• 100B模型：学习率 1e-5

• 模型参数翻倍：学习率自动降低 √2倍

• 权重衰减：全局固定 1e-6，全尺寸大模型通用

• 梯度裁剪阈值：固定 1.0，规避训练梯度爆炸

• 预热步数：总训练步数的 1%~2%

• 学习率衰减方式：固定 Cosine余弦衰减，弃用线性衰减

• 初始化标准差：0.02 ~ 0.05

Batch Size 配置

• 7B模型：256

• 70B模型：1024

• 分布式扩容：每新增1张算力卡，Batch Size 固定+64

上下文长度标配

• 7B → 4k

• 13B → 8k

• 70B → 32k

网络层超参

• Dropout率：注意力层0.1，FFN前馈层0.2

• 混合精度训练：主用BF16，FP16作为备用兜底

• 优化器规则：模型规模≥50B，强制使用Lion优化器

三、训练时长&早停优化策略

• 终止标准：连续3个epoch困惑度Perplexity下降≤0.1%，直接停止训练

• 模型收益平衡：10B模型训练4周效果提升5%，8周仅提升7%，边际收益递减

• 早停机制：Patience=5个epoch；每2周学习率衰减为原0.8倍

四、联邦学习全套参数

• 客户端准入：数据质量得分≥0.8才可接入

• 聚合算法：FedAvg加权平均；差分隐私噪声强度 σ=0.1

• 通信压缩：稀疏化比例固定0.05

• 异构客户端适配：高性能客户端分片2片，低性能客户端分片1片

• 恶意客户端检测：向量余弦相似度阈值≤0.7，标记恶意并剔除

五、RLHF 对齐核心细节

奖励模型

• 隐藏层维度：1024

• 多轮对话奖励：仅取最后一轮100%聚合权重

• 奖励模型温度系数：0.1 ~ 0.3

• 多目标奖励融合权重：有用性0.4、无害性0.4、诚实性0.2

PPO 超参

• Clip ratio=0.2

• 学习率固定1e-6

• PPO训练Batch：128~256

• 价值函数系数：0.1

• KL散度惩罚系数：0.05

对齐&交互规则

• 偏好标注优先级：有用性＞无害性＞逻辑性

• 拒绝回答阈值：安全分类器得分＞0.85

• 多轮对话上限：8~12轮强制截断

• 离线RL行为克隆权重：0.3

六、MoE稀疏模型标准参数

• 常用专家数量：64 / 128

• 单轮激活策略：固定Top-2专家

• 负载均衡损失权重：0.01 ~ 0.02

• 专家容量限流：负载超70%直接限流

• 路由温度敏感度：τ=0.1

• 稀疏激活阈值θ=0.1；块稀疏分块大小4×4

七、各类注意力&新型实验参数

标准注意力优化

• Grouped Query Attention：8个查询头共享2个K/V头

• Flash Attention：分块128，每块绑定4个CUDA线程

新型注意力实验

• 线性注意力：斜率参数α=0.1

• 轴向注意力：轴划分块大小16

八、自监督学习优化

• 对比学习：负样本数量256；投影头维度128

• 掩码预测Span Masking：平均span长度3

• MAE掩码图像建模：掩码块16×16，掩码比例75%

九、模型编辑&强化学习新方法

• 知识更新：梯度反向查找定位相关神经元

• 副作用控制：L2正则化系数0.1

• 动态路由请求权重 = 当前负载×0.6 + 历史准确率×0.4

• 路由更新频率：每小时1次

十、可解释性标准化方法

• 注意力可视化：红高蓝低颜色编码

• 特征归因：SHAP背景数据集100；LIME局部扰动次数500

• PaLM3可解释性：特征归因覆盖90%模型层

十一、用户行为&流量规则

• 反馈加权：点赞0.7、踩0.3

• 无效负面过滤：同一用户1小时内踩≥5次，全部标记无效

• 异常流量识别：DDoS判定QPS≥1000；异常Token序列长度阈值100

十二、各主流模型专属技术参数

DeepSeek MODEL1

• 架构：Token级稀疏MLA，稀疏化70%、保留8头；KV缓存按Token优先级重构排序

• 性能：稀疏FP8解码，激活值＜0.1启用FP8，精度损失＜5%；适配Blackwell架构

• 算力能耗：7B模型FP16推理功耗≤10W

• 流式延迟：Token间返回延迟≤50ms

• 多语言：小语种按Unicode分词，语言切换延迟≤10ms

• 灰度回滚：错误率＞0.5% 或时延＞2倍基线，立即回滚

• 联邦适配：参数分片3片，单分片≤100MB

• 边缘优化：手机端CPU利用率≥70%自动降频

OpenAI GPT-5

• 注意力：混合稀疏，局部窗口512、全局头4

• 私有训练数据占比：20%

• 量化：INT4误差补偿专属算法

• 多模态：先图后文输入顺序，跨模态注意力头16；最大输出图1920×1080

• 音视频：5种语调、20种方言；最大输入图4K、视频最长30分钟

• RLHF：奖励模型每2周迭代更新；固定1000名专业标注员

• 用户反馈Loop：实时周期15分钟

Google PaLM 3

• 多模态融合：Cross-Attention头12

• 训练语料分布：中文15%、英文70%

• 语音采样率：24kHz / 48kHz双档

• 视频理解：ResNet-50/ViT特征提取，单条视频限10分钟

• 翻译：中译英延迟≤200ms；内置100万专业术语库

• 代码生成：覆盖50种编程语言

• 联邦学习：支持客户端峰值10万

• 跨云兼容：适配10大云厂商API测试用例

MIT&英伟达TLT

• 自适应草稿训练器：每100Token训练1次；参数共享比例30%

• 推演引擎：CPU利用率达80%自动调整解码策略；代码生成效率+210%、摘要+70%

上交&腾讯优图ReMiT

• 训练介入节点：第100k步

• 关键信息权重：逻辑连接词0.8；信息熵≥2.0筛选核心内容

十三、工程落地未公开核心细节

量化&剪枝

• AWQ/GPTQ：激活值＞0.5用INT8，其余INT4；权重每16个为一组分组

• FP8量化：每100Token做1次误差累加修正

• 结构化剪枝：权重绝对值＜0.05直接剪枝

• INT8校准：数据集1000条，迭代10轮

分布式通信

• NCCL：All-Reduce块256MB；梯度每10步同步1次

• RDMA：单节点8个队列对，仅注册模型核心参数

缓存&负载均衡

• PagedAttention LRU缓存过期10分钟；预加载前1000个高频Token

• 负载权重：剩余显存×0.6 + 空闲CPU×0.4

• 灰度放量：流量分配每日步长+5%

资源&能耗管理

• 算力调度：GPU利用率目标≥85%；连续2小时利用率≤30%启动闲置出租

• 存储优化：模型检查点压缩率40%

• 多模型休眠：连续10分钟无请求进入idle休眠；唤醒延迟≤5秒

• 多租户隔离：单租户显存占用≤30%、CPU≤50%；AES-256密钥每月轮换

监控&日志

• 异常检测：推理时延采用3σ阈值判定

• 资源预警：GPU显存占用≥85%触发告警

• 日志策略：错误日志保留30天；访问日志Zstandard压缩率≥50%

• 超长用例边界：支持10万字符超长文本、1000个连续@极端符号测试

模型更新&A/B测试

• 回滚触发：错误率升0.3% 或时延增50%；恢复耗时≤1分钟

• A/B测试：流量每日步长+2%；用户停留时间评估权重0.5

安全&知识图谱

• 知识图谱实体链接：相似度阈值≥0.9；每周固定更新

• 敏感词库：周度动态更新；新词人工审核置信度≥0.9

• 对抗样本检测：模型困惑度＞100标记异常

• 误判复核：每100条误判抽样5条人工复核

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

WalkingLab 组织入驻 AtomGit，释放高校智能体开源科研成果

AtomGit开源社区

海外动态代理行业彻底换代，AI 数据时代新标准已到来

AtomGit开源社区

全球首个！京东全栈开源JoyAI-VL-Interaction，让大模型从“一问一答”走向“边看边说”

AtomGit开源社区

所有评论(0)

查看更多评论

季念&季凡

@2602_96088873

已为社区贡献58条内容

【字节跳动】# seed全套大模型工程技术规范整理（汇总归档版）

季念&季凡

全套大模型工程技术规范整理（汇总归档版）

一、数据清洗内部完整规则

1.基础长度过滤

2.低质量&乱码过滤

3.去重执行链路

4.内容安全过滤

5.数据源加权

二、通用训练基础超参

1.学习率与通用正则

2.Batch Size配置

3.上下文窗口长度

4.网络层配置

三、训练早停与时长优化

四、联邦学习整套参数

五、RLHF对齐全参数

1.奖励模型RM

2.PPO训练超参

3.对齐规则

六、MoE稀疏架构标准

七、注意力机制超参

常规GQA/FlashAttn

实验类注意力

八、自监督预训练

九、模型编辑&动态路由

十、可解释性标准化

十一、用户行为&流量风控

十二、主流模型专属参数

DeepSeek MODEL1

GPT-5

PaLM3

MIT-NVIDIA TLT

上交-腾讯ReMiT

十三、工程落地未公开细则（量化/分布式/调度/安全）

1.量化与剪枝

2.分布式通信

3.缓存&负载

4.算力资源调度

5.监控告警

6.A/B测试&版本回滚

7.安全与图谱

所有评论(0)

温馨提示：您尚未绑定手机号

季念&季凡