互联网社交平台审计分析领域算法及模型表

互联网社交平台审计分析领域算法及模型表(E-L1-0001~0006,含10亿级并发架构)

编号

类别

模型配方

算法/模型/方法名称

算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化

精度/密度/误差/强度

底层规律/理论定理

典型应用场景【10个场景】和各类特征

变量/常量/参数列表及说明

数学特征

语言特征

时序和交互流程的所有细节/分步骤时序情况及数学方程式

10亿级并发下的服务器性能与规模需求

配套优化算法列表

E-L1-0001

图神经网络

基于谱图理论的卷积操作扩展

图卷积网络 (GCN)

步骤1:图拉普拉斯矩阵构建
L = Iₙ - D^{-1/2}AD^{-1/2}
步骤2:谱图卷积定义
gθ∗x = Ugθ(Λ)Uᵀx
步骤3:切比雪夫多项式近似
gθ(Λ) ≈ ∑_{k=0}^{K}θₖTₖ(Λ̃)
步骤4:一阶近似简化
gθ∗x ≈ θ(Iₙ + D^{-1/2}AD^{-1/2})x
步骤5:重归一化技巧
使用D̃^{-1/2}ÃD̃^{-1/2},其中Ã = A + Iₙ
步骤6:多层GCN前向传播
H⁽ˡ⁺¹⁾ = σ(D̃^{-1/2}ÃD̃^{-1/2}H⁽ˡ⁾W⁽ˡ⁾)
参数选择:层数L=2-3,隐藏层维度64-512,学习率0.001-0.01,Dropout率0.5-0.8

精度:Cora数据集节点分类81.5%
误差:交叉熵损失
强度:捕获K跳邻居结构信息

谱图理论、卷积定理、消息传递机制

1. 社交网络节点分类
2. 虚假账号检测
3. 社区发现
4. 影响力预测
5. 信息传播预测
6. 用户推荐
7. 情感传播分析
8. 事件检测
9. 跨平台用户对齐
10. 群体行为分析

变量:X∈ℝ^{n×d},A∈{0,1}^{n×n},H⁽ˡ⁾∈ℝ^{n×hₗ}
常量:n节点数,L层数
参数:θ卷积核参数,η学习率,p Dropout率

集合、逻辑、概率统计、随机性、连续性、微分、积分、级数、收敛性、测度、离散、排序、组合、构造、优化、计算、稳定性、对称性、代数、拓扑、几何、群、组合数学

自然语言处理特征、多语言支持、语义特征

时序流程
1. 数据准备:构建图G=(V,E),提取特征X
2. 前向传播:H⁽ˡ⁺¹⁾=σ(L̃H⁽ˡ⁾W⁽ˡ⁾)
3. 损失计算:ℒ=-∑∑YᵢⱼlnŶᵢⱼ
4. 反向传播:更新W⁽ˡ⁾
5. 迭代优化至收敛

服务器配置
单服务器方案:Legion系统可在单台多GPU服务器上处理十亿级顶点图,需配置8-16张NVIDIA A100/H100 GPU,每卡80GB显存,CPU内存3-6TB,NVLink高速互联
分布式集群方案:DistDGLv2架构,需100-500节点集群,每个节点配置2-4张GPU,总GPU数量200-2000张,通过InfiniBand/RoCE网络互联,存储采用分布式文件系统(如HDFS)容量50-200PB
计算规模:每秒处理10亿边更新,需峰值算力50-200 PFLOPS,内存带宽200-800 TB/s
存储需求:百亿节点千亿边图需存储10-50TB(含特征),特征缓存需200-500TB GPU显存池

1. Legion系统:多GPU极限优化,单服务器支持十亿顶点
2. DistDGLv2:CPU-GPU混合分布式训练,优化小批量流水线
3. SuperGCN:CPU超算框架,混合预聚合-后聚合方法
4. xGCN:将节点嵌入视为静态特征,减少参数数量
5. 图并行化方法:将输入图分布在多个GPU上,支持数十亿参数
6. GraphSAGE:邻居采样减少计算复杂度
7. Cluster-GCN:基于图聚类的小批量训练
8. GraphSAINT:基于子图采样的训练方法
9. Pytorch Geometric:优化稀疏矩阵运算
10. DGL:分布式图神经网络框架

E-L1-0002

图神经网络

注意力机制在图结构上的扩展

图注意力网络 (GAT)

步骤1:注意力系数计算
eᵢⱼ = a(W hᵢ, W hⱼ)
步骤2:注意力系数归一化
αᵢⱼ = exp(LeakyReLU(eᵢⱼ))/∑{k∈N(i)}exp(LeakyReLU(eᵢₖ))
步骤3:多头注意力聚合
hᵢ' = ‖
{k=1}^{K}σ(∑{j∈N(i)}αᵢⱼ⁽ᵏ⁾W⁽ᵏ⁾hⱼ)
步骤4:输出层聚合
hᵢ' = σ((1/K)∑
{k=1}^{K}∑_{j∈N(i)}αᵢⱼ⁽ᵏ⁾W⁽ᵏ⁾hⱼ)
参数选择:注意力头数K=4-8,LeakyReLU负斜率0.2,Dropout率0.6,学习率0.005

精度:Citeseer数据集72.5%
误差:分类交叉熵损失
强度:为不同邻居分配不同重要性权重

注意力机制、图神经网络、消息传递

1. 异质社交网络分析
2. 影响力节点识别
3. 虚假信息传播分析
4. 跨社区信息流分析
5. 用户兴趣建模
6. 社交机器人检测
7. 情感传染分析
8. 事件关联分析
9. 多模态社交分析
10. 动态社交网络分析

变量:hᵢ∈ℝ^{d},W∈ℝ^{d'×d},a∈ℝ^{2d'},αᵢⱼ∈[0,1]
常量:K注意力头数
参数:LeakyReLU负斜率α,Dropout率p

集合、逻辑、概率统计、随机性、连续性、微分、积分、级数、收敛性、测度、离散、排序、组合、构造、优化、计算、稳定性、非对称性、代数、拓扑、几何、群、组合数学

自然语言注意力机制、语义注意力权重、跨语言注意力对齐

时序流程
1. 特征变换:zᵢ=Whᵢ
2. 注意力计算:eᵢⱼ=LeakyReLU(aᵀ[zᵢ‖zⱼ])
3. 归一化:αᵢⱼ=exp(eᵢⱼ)/∑exp(eᵢₖ)
4. 信息聚合:hᵢ'=σ(∑αᵢⱼzⱼ)
5. 多头聚合:hᵢ'=‖_{k=1}^{K}σ(∑αᵢⱼ⁽ᵏ⁾W⁽ᵏ⁾hⱼ)

服务器配置
单服务器方案:需4-8张NVIDIA A100 GPU(每卡80GB),CPU内存1-2TB,支持同时处理千万级节点注意力计算
分布式方案:采用模型并行+数据并行,50-200节点集群,每节点2-4张GPU,总GPU数100-800张,通过高速RDMA网络互联
内存需求:百亿边图注意力权重矩阵需存储400-800TB(稀疏存储可压缩至20-50TB)
计算需求:每秒处理10亿节点注意力计算需200-500 PFLOPS算力,内存带宽300-600 TB/s
通信优化:需梯度压缩、异步训练、流水线并行技术

1. 高效注意力计算:稀疏注意力、线性注意力、低秩注意力近似
2. 分布式GAT:模型并行划分注意力头,数据并行划分图分区
3. 混合精度训练:FP16/FP32混合精度减少内存和计算开销
4. 梯度累积:小批量梯度累积处理超大图
5. 缓存优化:邻居特征缓存减少重复计算
6. 动态图注意力:增量更新注意力权重,避免全图重计算
7. 异构图注意力:支持多种节点和边类型的注意力机制
8. 时空注意力:结合时间序列的注意力机制
9. 硬件感知优化:针对GPU架构优化的注意力核函数
10. 流式处理:在线更新注意力网络

E-L1-0003

图算法

基于随机游走的网页排名算法

PageRank算法

步骤1:构建转移概率矩阵
Mᵢⱼ = 1/out_degree(j) 如果存在边j→i
步骤2:处理悬挂节点
Mᵢⱼ = 1/n 对所有i(当出度=0)
步骤3:引入阻尼因子
P = (1-d)/n·1₁ₙ₁ₙᵀ + d·M,d=0.85
步骤4:幂迭代法求解
r⁽ᵏ⁺¹⁾ = Pᵀr⁽ᵏ⁾
步骤5:收敛性保证
迭代直到‖r⁽ᵏ⁺¹⁾-r⁽ᵏ⁾‖₁<ε
参数选择:阻尼因子d=0.85,收敛阈值ε=10⁻⁶,最大迭代次数100

精度:收敛精度ε
误差:迭代误差‖r⁽ᵏ⁺¹⁾-r⁽ᵏ⁾‖₁
强度:衡量节点全局重要性

马尔可夫链、随机游走、平稳分布、Perron-Frobenius定理

1. 影响力排名
2. 关键节点识别
3. 推荐系统
4. 社区发现预处理
5. 虚假账号检测
6. 网络结构分析
7. 跨平台影响力分析
8. 时序影响力演化
9. 话题传播分析
10. 危机预警

变量:r∈ℝⁿ PageRank向量,M∈ℝ^{n×n}转移矩阵,P∈ℝ^{n×n}阻尼矩阵
常量:n节点数,d阻尼因子0.85
参数:收敛阈值ε,最大迭代次数T_max

集合、逻辑、概率统计、随机性、极限、连续性、级数、收敛性、测度、离散、排序、组合、代数、拓扑、几何、群、组合数学

文本链接分析、语义关联分析

时序流程
1. 图构建:计算节点出度dᵢ⁺
2. 转移矩阵构造:Mⱼᵢ=1/dᵢ⁺
3. 阻尼矩阵构造:Pᵢⱼ=(1-d)/n+d·Mᵢⱼ
4. 迭代求解:r⁽ᵏ⁺¹⁾=Pᵀr⁽ᵏ⁾
5. 结果输出:排序PageRank向量

服务器配置
Angel框架方案:腾讯Angel支持十亿级顶点、千亿级边PageRank计算,需50-200节点Spark+Angel PS集群,每个节点配置256GB-1TB内存,总内存10-50TB,存储采用HDFS容量100-500PB
Spark方案:Spark on Angel实现,psPartitionNum设置500以上,dataPartitionNum为executor数×core数×3-4倍,100亿边需160GB存储,建议配置20个executor×20GB内存
计算规模:10亿节点PageRank迭代计算需每轮处理千亿级边,集群算力需求20-50 TFLOPS,网络带宽40-100 Gbps
内存估算:模型大小=节点数×3×4 Byte,10亿节点需12GB内存,考虑副本和中间数据需50-100GB/节点

1. Angel图算法框架:腾讯开源,基于参数服务器架构,专为超大规模图设计
2. Spark On Angel实现:PS维护节点信息,Spark executor计算
3. VS-NRM优化:顶点排序重映射,提高访存局部性,性能提升20%以上
4. GCPR方法:基于图划分和数据两层压缩的MapReduce加速
5. 矩阵分块算法:Hadoop-MapReduce下矩阵分块并行计算
6. 增量PageRank:只更新受影响节点的PageRank值
7. 分布式幂迭代:块同步并行(BSP)模型实现
8. 个性化PageRank:针对特定节点的快速近似算法
9. Top-k PageRank:只计算排名前k的节点,减少计算量
10. 流式PageRank:支持动态图更新的增量算法

E-L1-0004

社区检测

模块度最大化启发式算法

Louvain社区检测算法

步骤1:模块度定义
Q=(1/2m)∑ᵢⱼ[Aᵢⱼ-(kᵢkⱼ/2m)]δ(cᵢ,cⱼ)
步骤2:初始化
每个节点单独作为一个社区
步骤3:局部优化阶段
计算模块度增益ΔQ,选择使ΔQ最大的移动
ΔQ=[(∑ᵢₙ+2kᵢ,ᵢₙ)/2m-(∑ₜₒₜ+kᵢ)²/(2m)²]-[∑ᵢₙ/2m-(∑ₜₒₜ)²/(2m)²-(kᵢ/2m)²]
步骤4:社区聚合阶段
将同一社区节点聚合为超节点,构建新图
步骤5:迭代
重复步骤3-4直到模块度不再增加
参数选择:分辨率参数γ=1.0,随机种子影响结果,迭代次数10-20

精度:模块度Q值0.3-0.7
密度:社区内部连接密度
误差:模块度增益ΔQ计算误差

模块度最大化、启发式优化、多级聚类

1. 社交圈子发现
2. 兴趣社区挖掘
3. 虚假网络检测
4. 信息茧房分析
5. 跨平台社区对齐
6. 社区演化分析
7. 影响力社区识别
8. 营销目标群体划分
9. 危机传播社区分析
10. 多尺度社区分析

变量:A邻接矩阵,c社区分配向量,Q模块度值
常量:m总边数,γ分辨率参数
参数:随机种子s,最大迭代次数T_max

集合、逻辑、概率统计、随机性、连续性、微分、积分、级数、收敛性、测度、离散、排序、组合、构造、优化、计算、稳定性、对称性、代数、拓扑、几何、群、组合数学

社区语言特征分析、社区内语言一致性

时序流程
1. 初始化:每个节点单独社区
2. 局部优化:遍历节点,计算ΔQ,移动节点
3. 社区聚合:构建新图G'=(V',E')
4. 迭代:在G'上重复优化和聚合
5. 结果重构:映射回原图节点

服务器配置
大规模并行方案:基于孤立集分区的并行Louvain算法,可并行计算和更新顶点信息,无同步延迟,需512-2048节点HPC集群,每个节点配置64-128核心CPU,256GB-1TB内存,总内存100-500TB
SparkGraphX方案:适用于十亿级点和边的图,需200-500节点Spark集群,每个节点配置32-64核心,128-256GB内存,总内存25-100TB,存储采用HDFS容量200-800PB
计算需求:10亿节点社区检测需处理万亿级边计算,每轮迭代计算复杂度O(m),需集群算力50-200 TFLOPS
通信优化:需最小化社区标签交换,采用哈希表改进融合算法减少长尾效应

1. 基于孤立集的并行Louvain:国防科技大学提出,消除同步延迟和社区标签交换问题
2. 分布式Louvain算法:支持1380亿边在8192个Blue Gene/Q节点上运行
3. SparkGraphX实现:基于Spark的大数据实现
4. Leiden算法:保证社区连通性,运行速度更快
5. 多分辨率Louvain:调整resolution参数控制社区大小
6. 增量Louvain:支持动态图更新的社区检测
7. GPU加速Louvain:利用GPU并行计算模块度增益
8. 分层Louvain:多级社区发现,支持不同粒度
9. 异步并行Louvain:减少同步开销,提高并行效率
10. 近似Louvain:采样方法加速大规模图计算

E-L1-0005

聚类算法

基于距离的划分聚类

K-means聚类算法

步骤1:初始化中心点
随机选择k个初始聚类中心μ₁,...,μₖ
步骤2:分配阶段
cᵢ = argminⱼ‖xᵢ-μⱼ‖²
步骤3:更新阶段
μⱼ = (1/

Cⱼ

)∑{i∈Cⱼ}xᵢ
步骤4:迭代
重复步骤2-3直到中心点不再变化
步骤5:肘部法则确定k
SSE(k)=∑
{j=1}^{k}∑_{x∈Cⱼ}‖x-μⱼ‖²
参数选择:k值选择(肘部法则、轮廓系数),初始化方法(K-means++),距离度量(欧氏距离),最大迭代次数300,收敛容差10⁻⁴

误差:SSE误差平方和
密度:簇内密度
强度:簇间分离度

向量量化、Lloyd算法、期望最大化(EM)算法的特例

1. 用户分群
2. 内容分类
3. 异常检测
4. 兴趣挖掘
5. 地理位置聚类
6. 时间模式聚类
7. 多维度用户画像
8. 社交圈子识别
9. 话题聚类
10. 情感群体划分

变量:X∈ℝ^{n×d}数据点,μⱼ∈ℝ^{d}聚类中心,cᵢ∈{1,...,k}簇标签
常量:n样本数,d特征维度,k簇数
参数:最大迭代次数max_iter,收敛容差tol,初始化方法init

集合、逻辑、概率统计、随机性、连续性、微分、积分、收敛性、测度、离散、排序、组合、构造、优化、计算、稳定性、对称性、代数、几何、群

可处理文本统计特征(如TF-IDF)

时序流程
1. 初始化:随机选择k个中心
2. 分配:cᵢ=argminⱼ‖xᵢ-μⱼ‖²
3. 更新:μⱼ=(1/

E-L1-0006

降维算法

线性投影最大化方差

主成分分析 (PCA)

步骤1:数据中心化
X̃ = X - 1μᵀ,其中μ=(1/n)∑ᵢxᵢ
步骤2:计算协方差矩阵
C = (1/(n-1))X̃ᵀX̃ ∈ ℝ^{d×d}
步骤3:特征值分解
C = VΛVᵀ,其中Λ=diag(λ₁,...,λ_d),λ₁≥...≥λ_d≥0
步骤4:选择主成分
选择前k个特征向量V_k=[v₁,...,v_k]
步骤5:数据投影
Z = X̃V_k ∈ ℝ^{n×k}
步骤6:方差解释率
累计解释方差 = ∑{i=1}^{k}λ_i/∑{i=1}^{d}λ_i
参数选择:主成分数k(累计方差>85%或肘部法则),是否标准化(特征尺度差异大时需标准化)

精度:重建误差‖X-X̃V_kV_kᵀ‖_F²
密度:主成分的方差密度
误差:重建误差

谱定理、瑞利商、方差最大化、正交变换

1. 用户特征降维
2. 社交网络可视化
3. 噪声过滤
4. 多重共线性消除
5. 异常检测预处理
6. 数据压缩存储
7. 特征选择辅助
8. 多模态数据融合
9. 时序模式提取
10. 跨平台特征对齐

变量:X∈ℝ^{n×d}原始数据,X̃∈ℝ^{n×d}中心化数据,C∈ℝ^{d×d}协方差矩阵,V∈ℝ^{d×d}特征向量矩阵,Z∈ℝ^{n×k}降维数据
常量:n样本数,d原始维度,k目标维度
参数:主成分数k,是否标准化standardize

集合、逻辑、概率统计、随机性、连续性、微分、积分、级数、收敛性、测度、离散、排序、组合、构造、优化、计算、稳定性、对称性、代数、几何

文本特征降维(如TF-IDF矩阵)

时序流程
1. 数据预处理:中心化X̃=X-1μᵀ
2. 协方差计算:C=(1/(n-1))X̃ᵀX̃
3. 特征分解:C=VΛVᵀ
4. 主成分选择:按λ_i排序,选择前k个v_i
5. 投影变换:Z=X̃V_k
6. 结果评估:计算方差解释率

服务器配置
分布式PCA方案:10亿样本×1000维数据协方差矩阵计算需1000×1000矩阵分解,采用Spark MLlib分布式PCA,需100-200节点集群,每个节点32核心、256GB内存,总内存25-50TB
GPU加速方案:使用cuML或RAPIDS PCA,需8-16张NVIDIA A100 GPU,利用GPU并行计算协方差矩阵和SVD,处理10亿×1000数据需显存800GB-1.6TB(FP16)
增量PCA方案:在线学习场景,采用增量SVD算法,单服务器配置512GB-1TB内存,多核CPU(64-128核心)
计算需求:协方差计算复杂度O(nd²),10亿×1000数据需10¹⁵次运算,需集群算力50-100 TFLOPS,通信开销大需优化数据分布

1. 随机PCA:使用随机算法近似计算前k个特征向量,复杂度O(ndk)
2. 增量PCA:支持在线学习,逐步更新主成分
3. 核PCA:非线性扩展,通过核技巧处理非线性数据
4. 稀疏PCA:产生稀疏载荷矩阵,提高可解释性
5. 鲁棒PCA:对异常值不敏感,分解为低秩+稀疏
6. 分布式PCA:Spark MLlib、Mahout实现
7. GPU加速PCA:cuML、RAPIDS库提供GPU加速
8. 流式PCA:适用于数据流场景
9. 分层PCA:多级降维,减少计算复杂度
10. 张量PCA:处理高阶张量数据

表格说明

  1. 10亿级并发下的服务器性能与规模需求字段基于最新研究成果和工业实践,提供了处理百亿级别用户交互信息时所需的硬件配置、集群规模和性能指标。

  2. 配套优化算法列表字段列出了针对每个基础算法的优化版本、分布式实现和加速技术,这些算法能够显著提升大规模社交平台监控分析的效率和可扩展性。

  3. 所有信息均基于可查证的公开资料和技术文献,确保技术细节的准确性和实用性。

互联网社交平台审计分析领域算法及模型表(E-L1-0007~0022,含10亿级并发架构)

编号

类别

模型配方

算法/模型/方法名称

算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化

精度/密度/误差/强度

底层规律/理论定理

典型应用场景【10个场景】和各类特征

变量/常量/参数列表及说明

数学特征

语言特征

时序和交互流程的所有细节/分步骤时序情况及数学方程式

10亿级并发下的服务器性能与规模需求

配套优化算法列表

E-L1-0007

集成学习

决策树集成方法

随机森林 (Random Forest)

步骤1:自助采样
从训练集D中随机有放回抽取n个样本,生成B个自助样本集D₁, D₂, ..., D_B
步骤2:特征随机选择
对于每棵决策树的每个节点分裂,从全部d个特征中随机选择m个特征(通常m=√d)作为候选
步骤3:决策树生长
对每个自助样本集D_b,使用CART算法生长一棵未剪枝的决策树T_b
节点分裂准则(基尼指数):Gini(D)=1-∑_{k=1}^{K}p_k²,其中p_k为第k类样本的比例
特征j在点s处分裂的基尼指数减少:ΔGini(j,s)=Gini(D)-

D_L

/

D

·Gini(D_L)-

D_R

/

D

·Gini(D_R)
选择使ΔGini最大的特征j和分割点s
步骤4:集成预测
分类任务:ŷ=argmax{k} (1/B)∑{b=1}^{B}I(T_b(x)=k)
回归任务:ŷ=(1/B)∑_{b=1}^{B}T_b(x)
步骤5:袋外误差估计
对于每个样本(xᵢ,yᵢ),用所有未包含该样本的树进行预测,计算袋外误差
参数选择/优化
1. 树的数量B:通常100-500,通过袋外误差稳定点确定
2. 特征数m:分类常用√d,回归常用d/3
3. 树的最大深度:不限制或设置较大值
4. 节点最小样本数:通常1-5
5. 特征选择准则:基尼指数或信息增益

精度:在多个UCI数据集上平均准确率优于单棵决策树5-15%
误差:袋外误差估计泛化误差
强度:降低方差,提高泛化能力

E-L1-0008

深度学习

循环神经网络变体

长短期记忆网络 (LSTM)

步骤1:遗忘门
f_t = σ(W_f·[h{t-1}, x_t] + b_f)
决定从细胞状态C
{t-1}中丢弃哪些信息
步骤2:输入门
i_t = σ(W_i·[h{t-1}, x_t] + b_i)
Ĉ
t = tanh(W_C·[h{t-1}, x_t] + b_C)
决定将哪些新信息存储到细胞状态
步骤3:细胞状态更新
C_t = f_t ⊙ C
{t-1} + i_t ⊙ Ĉt
更新旧的细胞状态到新的细胞状态
步骤4:输出门
o_t = σ(W_o·[h
{t-1}, x_t] + b_o)
h_t = o_t ⊙ tanh(C_t)
基于细胞状态决定输出什么
步骤5:序列处理
对输入序列(x_1, x_2, ..., x_T)按时间步迭代上述过程
参数选择/优化
1. 隐藏层维度:通常128-512
2. 层数:通常1-3层
3. dropout率:0.2-0.5防止过拟合
4. 优化器:Adam,学习率0.001-0.01
5. 梯度裁剪:防止梯度爆炸,阈值通常5.0

精度:在文本分类、序列标注等任务上达到SOTA(例如,在IMDB情感分析上准确率>88%)
误差:交叉熵损失,通过BPTT算法优化
强度:能捕捉长期依赖关系,缓解梯度消失/爆炸

门控机制、梯度流控制、序列建模、通过细胞状态实现长期记忆

1. 用户行为序列预测:预测用户下一步操作(点击、发布)
2. 情感分析:分析用户评论随时间的情感变化
3. 文本生成:生成帖子、评论或对话回复
4. 会话建模:建模多轮对话的上下文
5. 时序异常检测:检测用户行为的异常序列(如突然大量发帖)
6. 话题演化追踪:分析话题热度随时间的变化趋势
7. 用户生命周期价值预测:基于用户历史行为预测其长期价值
8. 实时推荐:根据用户当前会话序列进行实时推荐
9. 事件检测:从文本流中检测突发事件
10. 多模态序列分析:处理图文、视频的时序信息
特征
- 时序特征:用户行为的时间戳序列
- 文本序列特征:词向量序列
- 会话特征:对话轮次、间隔时间
- 事件特征:事件发生的时间点序列

变量
x_t:t时刻的输入向量
h_t:t时刻的隐藏状态
C_t:t时刻的细胞状态
f_t, i_t, o_t:t时刻的门控向量
常量
T:序列长度
d_h:隐藏层维度
参数
权重矩阵W_f, W_i, W_C, W_o
偏置向量b_f, b_i, b_C, b_o
dropout率p

集合特征:时间步集合{t}
逻辑特征:门控信号的逻辑控制
概率与统计特征:输出概率分布
随机性:dropout、权重初始化
不确定性:序列预测的不确定性
数据规律和推断:序列的长期依赖规律
极限:当序列长度T→∞时的记忆能力
连续性:状态和输出的连续性
微分:通过时间反向传播(BPTT)
积分:细胞状态的信息累积(近似积分)
级数:时间步的迭代计算构成级数
收敛性:训练损失的收敛性
测度:信息保留程度的测度(遗忘门)
离散:时间步的离散性
排序:序列的时间顺序
组合:门控信号的组合
构造:细胞状态的递归构造
优化:梯度下降优化
计算与算法特征:时间复杂度O(T·d_h²)
稳定性:门控机制缓解梯度问题,提升稳定性
对称性/非对称性:时间方向的不对称性(因果性)
代数:矩阵乘法、逐元素运算
拓扑:序列的拓扑结构
几何:隐藏状态空间的几何
:时间平移的不变性(对平稳序列)
组合数学特征:序列的排列

自然语言序列建模
词向量序列输入
语义信息的长期记忆

时序流程
1. 初始化:t₀
h_0 = 零向量,C_0 = 零向量

2. 前向传播:t₁ 到 t_T
for t=1 to T:
a. 计算遗忘门:f_t = σ(W_f·[h{t-1}, x_t] + b_f)
b. 计算输入门和新候选值:
i_t = σ(W_i·[h
{t-1}, x_t] + b_i)
Ĉt = tanh(W_C·[h{t-1}, x_t] + b_C)
c. 更新细胞状态:C_t = f_t ⊙ C{t-1} + i_t ⊙ Ĉt
d. 计算输出门和隐藏状态:
o_t = σ(W_o·[h{t-1}, x_t] + b_o)
h_t = o_t ⊙ tanh(C_t)

3. 输出计算:t_T+
- 对于分类任务:ŷ = softmax(W_y·h_T + b_y)
- 对于序列标注:每个时间步输出ŷ
t = softmax(W_y·h_t + b_y)

4. 损失计算与反向传播
- 计算损失:ℒ = CrossEntropy(y, ŷ)
- 通过BPTT计算梯度:∂ℒ/∂W_f, ∂ℒ/∂W_i, ...
- 更新参数:W ← W - η·∂ℒ/∂W

交互流程
- 时间步间的信息传递通过h_t和C_t实现
- 门控机制控制信息的流动(遗忘、输入、输出)

服务器配置
大规模GPU集群方案:训练10亿序列的LSTM需200-500张NVIDIA A100/H100 GPU,每卡80GB显存,总显存16-40TB,通过InfiniBand/RoCE高速互联,CPU内存总需求50-100TB
分布式训练框架:使用Horovod、PyTorch DDP或TensorFlow MirroredStrategy,需50-100节点,每个节点4-8张GPU
推理优化方案:使用TensorRT或ONNX Runtime优化推理,单服务器可部署多GPU实现每秒百万级序列处理
计算需求:10亿序列×平均长度50×隐藏层512维,前向传播需25.6×10¹²次运算,训练需算力500-1000 PFLOPS
内存优化:需梯度检查点、激活值重计算技术减少显存占用

1. GRU (Gated Recurrent Unit):简化门控结构,减少参数
2. Bidirectional LSTM:双向处理序列,捕获前后文信息
3. Attention-enhanced LSTM:结合注意力机制,聚焦关键时间步
4. Depthwise Separable LSTM:深度可分离卷积减少计算量
5. LSTM with Projection:投影层减少隐藏状态维度
6. Quantized LSTM:量化权重和激活,减少存储和计算
7. Pruned LSTM:剪枝不重要连接,加速推理
8. Distilled LSTM:知识蒸馏到更小模型
9. Sparse LSTM:稀疏连接和激活,提高效率
10. Streaming LSTM:流式处理,低延迟推理

E-L1-0009

预训练语言模型

Transformer编码器堆叠

BERT (Bidirectional Encoder Representations from Transformers)

步骤1:输入表示
输入 = [CLS] + 句子A + [SEP] + 句子B + [SEP]
Token嵌入 + 段嵌入 + 位置嵌入
步骤2:多头自注意力
Attention(Q,K,V)=softmax(QKᵀ/√d_k)V
其中Q=XW_Q, K=XW_K, V=XW_V
多头:MultiHead=Concat(head₁,...,head_h)W_O,head_i=Attention(XW_Qⁱ, XW_Kⁱ, XW_Vⁱ)
步骤3:前馈网络
FFN(x)=max(0, xW₁+b₁)W₂+b₂
步骤4:残差连接与层归一化
LayerNorm(x+Sublayer(x))
步骤5:预训练任务
a. 掩码语言模型:随机掩码15%的token,预测原token
b. 下一句预测:判断句子B是否为句子A的下一句
步骤6:微调
在特定任务数据上更新所有权重
参数选择/优化
1. 模型尺寸:BERT-base (L=12, H=768, A=12), BERT-large (L=24, H=1024, A=16)
2. 注意力头数A:通常12或16
3. 隐藏层维度H:768或1024
4. 层数L:12或24
5. 学习率:预训练时1e-4,微调时2e-5到5e-5
6. 最大序列长度:通常512

精度:在GLUE基准测试中平均得分80.5+(BERT-large),在多项NLP任务上达到SOTA
误差:交叉熵损失(MLM和NSP)
强度:强大的上下文语义表征能力,支持多种下游任务

自注意力机制、深度双向语言模型、Transformer架构、迁移学习

1. 文本分类:帖子/评论的情感、主题、意图分类
2. 命名实体识别:从文本中提取人名、地名、组织名等
3. 情感分析:细粒度情感分析(如正面、负面、中性)
4. 问答系统:基于社交平台内容的自动问答
5. 语义相似度计算:判断两段用户文本的语义相似性
6. 虚假信息识别:基于语义理解识别虚假新闻或谣言
7. 仇恨言论检测:识别文本中的仇恨、歧视性内容
8. 意图识别:识别用户查询或发言背后的意图
9. 内容摘要:自动生成帖子或长评论的摘要
10. 跨语言理解:多语言BERT处理多语言社交内容
特征
- 语义特征:上下文相关的词/句向量
- 语法特征:通过注意力权重隐式学习
- 篇章特征:处理长文本的篇章结构
- 多语言特征:跨语言共享的语义空间

变量
X∈ℝ^{n×d_model}:输入序列的嵌入表示
Q,K,V∈ℝ^{n×d_k}:查询、键、值矩阵
H∈ℝ^{n×d_model}:隐藏层表示
常量
L:Transformer层数
H:隐藏层维度
A:注意力头数
参数
词嵌入矩阵W_embedding
注意力权重W_Q, W_K, W_V, W_O
前馈网络权重W₁, W₂
层归一化参数γ, β

集合特征:词元集合、注意力头集合
逻辑特征:注意力权重的逻辑分布
概率与统计特征:softmax输出的概率分布
随机性:MLM的随机掩码、dropout
不确定性:预测token的概率分布
数据规律和推断:语言的统计规律、上下文共现
极限:当层数L→∞时的表征能力极限
连续性:嵌入空间的连续性
微分:通过反向传播计算梯度
积分:注意力权重的加权求和(离散积分)
级数:多层Transformer的堆叠
收敛性:预训练和微调的损失收敛
测度:注意力权重作为重要性测度
离散:输入token的离散性
排序:通过[CLS]输出进行排序任务
组合:多头注意力的组合
构造:深度网络的层级构造
优化:AdamW优化器
计算与算法特征:时间复杂度O(n²·d_model)(自注意力)
稳定性:层归一化和残差连接提升训练稳定性
对称性/非对称性:自注意力的非对称性(Q≠K)
代数:矩阵乘法、softmax运算
拓扑:序列的拓扑、注意力图
几何:高维语义空间的几何
:位置编码的平移敏感性
组合数学特征:token序列的排列

核心为自然语言处理
双向上下文语义理解
子词(WordPiece)分词
支持多语言

时序流程(前向传播)
1. 输入编码阶段:t₀
E = TokenEmbedding(Tokens) + SegmentEmbedding(SegmentIds) + PositionEmbedding(PositionIds)

2. Transformer层堆叠:t₁ 到 t_L (L层)
for l=1 to L:
a. 多头自注意力
Q, K, V = Linear_l(E), 拆分为A个头
head_i = softmax(Q_i K_iᵀ/√d_k) V_i
MultiHead = Concat(head_1,...,head_A) W_O
E = LayerNorm(E + MultiHead)
b. 前馈网络
FFN = max(0, E W₁ + b₁) W₂ + b₂
E = LayerNorm(E + FFN)

3. 输出阶段:t_L+
- [CLS]位置的最终隐藏状态H[CLS]用于句子级任务
- 所有位置的最终隐藏状态{H_i}用于词元级任务

预训练流程
- MLM任务:对随机15%的token,80%替换为[MASK],10%随机替换,10%保持不变,预测原token。
损失:ℒ
MLM = -∑_{i∈masked} log P(x_i

x{masked})
- NSP任务:输入句子A和B,预测B是否为A的下一句。
损失:ℒ
NSP = -[y log(ŷ) + (1-y) log(1-ŷ)]
- 总损失:ℒ = ℒMLM + ℒNSP

服务器配置
超大规模GPU集群:训练BERT-large需256-512张NVIDIA A100/H100 GPU(每卡80GB),总显存20-40TB,通过NVLink和InfiniBand互联,CPU内存总需求100-200TB
混合并行策略:数据并行+模型并行+流水线并行,使用DeepSpeed、Megatron-LM等框架,需100-200节点集群
推理服务集群:使用TensorRT、FasterTransformer优化,单GPU可处理每秒数千请求,10亿级并发需数千张GPU组成推理集群
计算需求:预训练BERT-large on 3.3B词需约10¹⁹次运算,需算力1-2 EFLOPS·天
存储需求:训练数据通常数百TB到PB级,模型检查点每个约1-3GB

E-L1-0010

集成学习/梯度提升

加法模型与决策树集成

XGBoost (eXtreme Gradient Boosting)

步骤1:模型定义
加法模型:ŷi = ∑{k=1}^{K} f_k(x_i), f_k∈ℱ,其中ℱ为决策树空间
步骤2:目标函数
Obj(θ) = ∑{i=1}^{n} l(y_i, ŷi) + ∑{k=1}^{K} Ω(f_k)
其中l为损失函数(如平方损失、logistic损失),Ω(f)=γT + (1/2)λ‖w‖²为正则项,T为叶子节点数,w为叶子权重
步骤3:泰勒展开近似
在第t轮迭代,目标函数近似为:
Obj⁽ᵗ⁾ ≈ ∑
{i=1}^{n} [l(y_i, ŷi⁽ᵗ⁻¹⁾) + g_i f_t(x_i) + (1/2)h_i f_t²(x_i)] + Ω(f_t) + constant
其中g_i=∂
{ŷ⁽ᵗ⁻¹⁾} l(y_i, ŷi⁽ᵗ⁻¹⁾),h_i=∂²{ŷ⁽ᵗ⁻¹⁾} l(y_i, ŷ_i⁽ᵗ⁻¹⁾)
步骤4:定义树结构
将样本映射到叶子节点:I_j={i

q(x_i)=j},q为树结构
定义每个叶子节点j的权重为w_j
则目标函数重写为:
Obj⁽ᵗ⁾ = ∑{j=1}^{T} [ (∑{i∈I_j} g_i) w_j + (1/2)(∑{i∈I_j} h_i + λ) w_j² ] + γT
步骤5:求解最优权重与结构得分
对于固定树结构q,最优叶子权重:w_j* = -G_j/(H_j+λ),其中G_j=∑
{i∈I_j} g_i, H_j=∑{i∈I_j} h_i
代入得最优结构得分:Obj* = -(1/2)∑
{j=1}^{T} G_j²/(H_j+λ) + γT
步骤6:贪婪算法寻找分裂点
对于每个节点,尝试所有可能的分裂特征和分裂点,选择使增益最大的分裂:
Gain = (1/2)[G_L²/(H_L+λ) + G_R²/(H_R+λ) - (G_L+G_R)²/(H_L+H_R+λ)] - γ
步骤7:剪枝与迭代
如果Gain<0则停止分裂(后剪枝)。迭代添加新树,更新预测:ŷi⁽ᵗ⁾ = ŷi⁽ᵗ⁻¹⁾ + η f_t(x_i),η为学习率
参数选择/优化
1. 树的数量(n_estimators):通常100-1000,通过早停确定
2. 学习率(eta):通常0.01-0.3
3. 树的最大深度(max_depth):通常3-10
4. 正则化参数:γ(min_split_loss)通常0,λ(reg_lambda)通常1
5. 子采样比例(subsample):0.5-1.0
6. 列采样比例(colsample_bytree):0.5-1.0

精度:在众多表格数据竞赛(如Kaggle)中表现卓越,常获冠军
误差:损失函数值(如LogLoss,RMSE)
强度:高精度、可解释性较好、能处理缺失值、抗过拟合能力强

梯度提升框架、函数空间优化、加法模型、泰勒展开近似、决策树集成、正则化

1. 用户流失预测:预测用户是否将流失
2. 点击率预估:精准预估广告或内容的点击率
3. 用户价值预测:回归问题,预测用户的长期价值(LTV)
4. 异常交易检测:识别刷单、欺诈等异常行为
5. 内容流行度预测:预测帖子、视频的点赞、转发数
6. 风险评分:对用户或交易进行风险评分
7. 推荐系统排序:作为排序模型对推荐候选集进行精排
8. 多分类任务:如将用户兴趣划分为多个类别
9. 特征重要性分析:分析哪些特征对预测最关键
10. 趋势预测:预测各类指标(如日活)的未来趋势
特征
- 数值特征:直接输入
- 类别特征:需编码(如目标编码)
- 统计特征:历史行为的统计量(均值、方差)
- 交叉特征:特征间的组合

变量
ŷ_i:第i个样本的预测值
f_k:第k棵决策树(函数)
g_i, h_i:损失函数的一阶和二阶梯度
w_j:第j个叶子节点的权重
常量
K:树的总数
n:样本数
参数
学习率η
正则化系数γ, λ
树的最大深度max_depth
子采样比例subsample

集合特征:样本子集(子采样)、特征子集(列采样)
逻辑特征:决策树的分裂逻辑
概率与统计特征:预测值的概率分布(如逻辑回归输出)
随机性:子采样、列采样的随机性
不确定性:预测概率的不确定性
数据规律和推断:通过梯度提升拟合残差
极限:当树的数量K→∞且学习率η→0时的极限模型
连续性:预测值为连续值(回归)或概率(分类)
微分:损失函数的一阶、二阶梯度(g_i, h_i)
积分:目标函数作为损失和正则项的积分和
级数:加法模型为函数级数
收敛性:梯度提升的收敛性
测度:增益(Gain)作为分裂质量的测度
离散:决策树结构的离散性
排序:特征重要性排序、预测值排序
组合:多棵树的组合预测
构造:决策树的贪婪构造
优化:在函数空间进行梯度下降优化
计算与算法特征:时间复杂度O(K·n·d·log n)
稳定性:正则化和子采样提升稳定性
对称性/非对称性:决策树分裂的非对称性
代数:梯度计算、权重求解
拓扑:特征空间的划分拓扑
几何:在函数空间的几何
:对样本顺序的排列不变性
组合数学特征:特征分裂点的选择组合

可处理文本的统计特征(如TF-IDF)
通常不直接处理原始文本序列

时序流程(训练)
1. 初始化:t₀
ŷi⁽⁰⁾ = argmin_θ ∑{i=1}^{n} l(y_i, θ) (如均值或log(odds))

2. 迭代提升:t₁ 到 t_K (K轮)
for k=1 to K:
a. 计算梯度
g_i = ∂{ŷ⁽ᵏ⁻¹⁾} l(y_i, ŷi⁽ᵏ⁻¹⁾)
h_i = ∂²{ŷ⁽ᵏ⁻¹⁾} l(y_i, ŷi⁽ᵏ⁻¹⁾)
b. 拟合新树:使用数据集{(x_i, -g_i/h_i)}拟合一棵回归树f_k,以h_i作为样本权重,目标是最小化Obj中的结构得分。
- 从根节点开始,对每个节点:
遍历所有特征和分裂点,计算分裂增益Gain。
选择Gain最大的分裂方案,如果Gain>0且未达到最大深度,则分裂。
- 生成叶子节点j,其最优权重为 w_j
= -G_j/(H_j+λ)。
c. 更新模型
ŷi⁽ᵏ⁾ = ŷi⁽ᵏ⁻¹⁾ + η · f_k(x_i)

3. 输出最终模型:t_K+
ŷi = ŷi⁽ᴷ⁾

预测流程
ŷi = ∑{k=1}^{K} η · f_k(x_i)

服务器配置
分布式XGBoost方案:使用Dask、Spark或XGBoost原生分布式,需100-300节点集群,每个节点32-64核心、128-256GB内存,总内存12-75TB
GPU加速方案:XGBoost with GPU support,需8-32张NVIDIA A100/H100 GPU,每卡80GB显存,总显存640GB-2.5TB,比CPU快10-50倍
内存优化方案:使用外部内存(external memory)模式处理超出内存的数据,配合SSD存储
计算需求:10亿样本×1000特征训练1000棵树,需计算万亿级分裂点,集群算力需求50-200 TFLOPS
通信优化:需减少AllReduce通信开销,采用梯度压缩和异步通信

E-L1-0011

词嵌入

浅层神经网络语言模型

Word2Vec (Skip-gram with Negative Sampling, SGNS)

步骤1:目标函数
最大化给定中心词w_c条件下上下文词w_o出现的概率:
max ∏_{(w_c,w_o)∈D} P(w_o

w_c)
其中D为语料中所有中心词-上下文词对
步骤2:条件概率定义
使用softmax:P(w_o

w_c)=exp(v{w_o}·v{w_c})/∑{w∈V}exp(v_w·v{w_c})
其中v_w和v'w分别为词w的输入和输出向量表示,V为词汇表
步骤3:负采样近似
为降低计算复杂度,使用负采样目标:
log σ(v'
{w_o}·v{w_c}) + ∑{i=1}^{k} 𝔼{w_i∼P_n(w)}[log σ(-v'{w_i}·v{w_c})]
其中σ为sigmoid函数,k为负样本数,P_n(w)为噪声分布(如Unigram分布的3/4次方)
步骤4:梯度更新
对于正样本对(w_c, w_o):
∂J/∂v'
{w_o} = [σ(v'{w_o}·v{w_c})-1]·v{w_c}
∂J/∂v
{w_c} = [σ(v'{w_o}·v{w_c})-1]·v'{w_o}
对于每个负样本w_i:
∂J/∂v'
{w_i} = [σ(v'{w_i}·v{w_c})-0]·v{w_c}
∂J/∂v
{w_c} += [σ(v'{w_i}·v{w_c})-0]·v'_{w_i}
步骤5:迭代训练
遍历语料库中的每个中心词及其上下文窗口,使用随机梯度下降更新词向量
参数选择/优化
1. 向量维度:通常100-300维
2. 上下文窗口大小:通常5-10
3. 负样本数k:通常5-20
4. 采样阈值:对高频词进行下采样,如t=10⁻⁵
5. 初始学习率:通常0.025,随训练递减

精度:在词语类比(如“国王-男人+女人≈女王”)任务上准确率高
密度:词向量在高维空间的分布密度
强度:能捕捉语义和语法规律,计算高效

分布假说、神经网络语言模型、负采样技术、词汇的分布式表示

1. 文本向量化:将用户帖子、评论转化为数值向量
2. 语义相似度计算:计算词语或短文本之间的语义距离
3. 用户兴趣挖掘:通过用户发布内容的词向量聚类发现兴趣点
4. 内容推荐:基于内容语义相似度的推荐
5. 情感词典扩展:通过词向量近义词扩展情感词典
6. 话题建模辅助:作为LDA等主题模型的输入特征
7. 查询扩展:在搜索中,用相似词扩展用户查询
8. 命名实体消歧:根据上下文词向量区分实体含义
9. 垃圾文本过滤:基于词向量识别广告或垃圾文本
10. 跨语言词对齐:在多语言语料上训练,实现词对齐
特征
- 语义特征:词向量的方向表示语义
- 语法特征:词向量的偏移表示语法关系(如复数、时态)
- 上下文特征:通过窗口大小控制上下文范围

变量
v_w∈ℝ^d:词w的输入向量
v'_w∈ℝ^d:词w的输出向量
D:正样本对集合
常量
d:词向量维度
V:词汇表大小
参数
上下文窗口大小C
负样本数k
下采样阈值t
初始学习率α

集合特征:词汇表集合V、上下文窗口内的词集合
逻辑特征:正负样本的逻辑区分
概率与统计特征:词共现概率、负采样的噪声分布
随机性:负采样随机性、训练样本顺序随机性
不确定性:词向量的训练不确定性
数据规律和推断:分布假说(相似上下文→相似语义)
极限:当语料库规模→∞时的向量极限
连续性:词向量空间的连续性
微分:目标函数对词向量的梯度
积分:softmax分母的求和(近似为负采样)
级数:目标函数中负样本的求和
收敛性:随机梯度下降的收敛性
测度:向量点积作为相似性测度
离散:词汇的离散性
排序:基于相似度的词排序
组合:词向量的线性组合(如类比任务)
构造:通过上下文预测任务构造向量
优化:随机梯度下降优化
计算与算法特征:时间复杂度O(C·d·(1+k)) per center word
稳定性:下采样和负采样提升训练稳定性
对称性/非对称性:Skip-gram模型本身不对称(中心词预测上下文),但词向量空间对称
代数:向量点积、梯度更新
拓扑:词向量空间的拓扑结构
几何:词向量在高维空间的几何关系(如平行四边形法则)
:词汇的置换群(对词序不敏感)
组合数学特征:上下文窗口内词的组合

核心为词汇的分布式表示
捕捉语义和语法规律

编号

类别

模型配方

算法/模型/方法名称

算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化

精度/密度/误差/强度

底层规律/理论定理

典型应用场景【10个场景】和各类特征

变量/常量/参数列表及说明

数学特征

语言特征

时序和交互流程的所有细节/分步骤时序情况及数学方程式

10亿级并发下的服务器性能与规模需求

配套优化算法列表

E-L1-0011

词嵌入

浅层神经网络语言模型

Word2Vec (Skip-gram with Negative Sampling, SGNS)

步骤1:目标函数
最大化给定中心词w_c条件下上下文词w_o出现的概率:
max ∏{(w_c,w_o)∈D} P(w_o|w_c)
其中D为语料中所有中心词-上下文词对
步骤2:条件概率定义
使用softmax:P(w_o|w_c)=exp(v
{w_o}·v{w_c})/∑{w∈V}exp(v_w·v{w_c})
其中v_w和v'
w分别为词w的输入和输出向量表示,V为词汇表
步骤3:负采样近似
为降低计算复杂度,使用负采样目标:
log σ(v'{w_o}·v{w_c}) + ∑{i=1}^{k} 𝔼{w_i∼P_n(w)}[log σ(-v'{w_i}·v{w_c})]
其中σ为sigmoid函数,k为负样本数,P_n(w)为噪声分布(如Unigram分布的3/4次方)
步骤4:梯度更新
对于正样本对(w_c, w_o):
∂J/∂v'{w_o} = [σ(v'{w_o}·v{w_c})-1]·v{w_c}
∂J/∂v{w_c} = [σ(v'{w_o}·v{w_c})-1]·v'{w_o}
对于每个负样本w_i:
∂J/∂v'{w_i} = [σ(v'{w_i}·v{w_c})-0]·v{w_c}
∂J/∂v{w_c} += [σ(v'{w_i}·v{w_c})-0]·v'{w_i}
步骤5:迭代训练
遍历语料库中的每个中心词及其上下文窗口,使用随机梯度下降更新词向量
参数选择/优化
1. 向量维度:通常100-300维
2. 上下文窗口大小:通常5-10
3. 负样本数k:通常5-20
4. 采样阈值:对高频词进行下采样,如t=10⁻⁵
5. 初始学习率:通常0.025,随训练递减

精度:在词语类比(如“国王-男人+女人≈女王”)任务上准确率高
密度:词向量在高维空间的分布密度
强度:能捕捉语义和语法规律,计算高效

分布假说、神经网络语言模型、负采样技术、词汇的分布式表示

1. 文本向量化:将用户帖子、评论转化为数值向量
2. 语义相似度计算:计算词语或短文本之间的语义距离
3. 用户兴趣挖掘:通过用户发布内容的词向量聚类发现兴趣点
4. 内容推荐:基于内容语义相似度的推荐
5. 情感词典扩展:通过词向量近义词扩展情感词典
6. 话题建模辅助:作为LDA等主题模型的输入特征
7. 查询扩展:在搜索中,用相似词扩展用户查询
8. 命名实体消歧:根据上下文词向量区分实体含义
9. 垃圾文本过滤:基于词向量识别广告或垃圾文本
10. 跨语言词对齐:在多语言语料上训练,实现词对齐
特征
- 语义特征:词向量的方向表示语义
- 语法特征:词向量的偏移表示语法关系(如复数、时态)
- 上下文特征:通过窗口大小控制上下文范围

变量
v_w∈ℝ^d:词w的输入向量
v'_w∈ℝ^d:词w的输出向量
D:正样本对集合
常量
d:词向量维度
V:词汇表大小
参数
上下文窗口大小C
负样本数k
下采样阈值t
初始学习率α

集合特征:词汇表集合V、上下文窗口内的词集合
逻辑特征:正负样本的逻辑区分
概率与统计特征:词共现概率、负采样的噪声分布
随机性:负采样随机性、训练样本顺序随机性
不确定性:词向量的训练不确定性
数据规律和推断:分布假说(相似上下文→相似语义)
极限:当语料库规模→∞时的向量极限
连续性:词向量空间的连续性
微分:目标函数对词向量的梯度
积分:softmax分母的求和(近似为负采样)
级数:目标函数中负样本的求和
收敛性:随机梯度下降的收敛性
测度:向量点积作为相似性测度
离散:词汇的离散性
排序:基于相似度的词排序
组合:词向量的线性组合(如类比任务)
构造:通过上下文预测任务构造向量
优化:随机梯度下降优化
计算与算法特征:时间复杂度O(C·d·(1+k)) per center word
稳定性:下采样和负采样提升训练稳定性
对称性/非对称性:Skip-gram模型本身不对称(中心词预测上下文),但词向量空间对称
代数:向量点积、梯度更新
拓扑:词向量空间的拓扑结构
几何:词向量在高维空间的几何关系(如平行四边形法则)
:词汇的置换群(对词序不敏感)
组合数学特征:上下文窗口内词的组合

核心为词汇的分布式表示
捕捉语义和语法规律
词向量可用于下游NLP任务

时序流程(训练)
1. 数据准备:t₀
- 语料库分词,构建词汇表V,计算每个词的频率。
- 初始化所有词w的输入向量v_w和输出向量v'w(随机或预训练)。

2. 遍历语料:t₁ 到 t_epochs
for each epoch:
for each sentence in corpus:
for each center word position t in sentence:
a. 确定上下文
上下文窗口为[t-C, t+C](排除t),得到正样本对(w_t, w
{t+j}),其中-C≤j≤C, j≠0。
b. 负采样
对每个正样本对,采样k个负样本词w_i,其采样概率P_n(w) ∝ freq(w)^{3/4}。
c. 梯度计算与更新
对正样本对(w_t, w{t+j}):
e = σ(v'
{w{t+j}}·v{w_t}) - 1
v{w_t} += α * e * v'{w{t+j}}
v'
{w{t+j}} += α * e * v{w_t}
对每个负样本w_i:
e = σ(v'{w_i}·v{w_t}) - 0
v{w_t} += α * e * v'{w_i}
v'{w_i} += α * e * v{w_t}
d. 学习率衰减:α = initial_α * (1 - processed_words / total_words)

3. 输出:t_end
- 通常使用输入向量v_w作为最终的词向量。

应用流程(获取词向量)
- 给定词w,直接查找其训练好的向量v_w。

服务器配置
大规模CPU集群方案:训练万亿token语料库,需200-500节点CPU集群,每个节点配置64-128核心、256GB-1TB内存,总内存50-500TB,存储采用HDFS容量1-5PB
GPU加速方案:cuWord2Vec等实现,需16-64张NVIDIA A100 GPU,利用GPU并行处理大规模语料,比CPU快10-50倍
流式处理方案:在线学习词向量,单节点配置大内存(512GB-2TB)和多核CPU,实时更新词向量
计算需求:处理万亿级token语料,训练300维词向量,需计算量约10¹⁶次运算,集群算力需求100-500 TFLOPS
内存优化:需高效哈希表存储词向量,使用量化技术减少内存占用

1. GloVe:基于全局词共现矩阵的分解方法
2. FastText:考虑子词信息,能处理未登录词
3. Character-based Word2Vec:基于字符的嵌入,更好处理拼写错误和新词
4. Meta-Embeddings:融合多种预训练词向量
5. Dynamic Word Embeddings:词向量随时间演化
6. Sense Embeddings:一词多义嵌入
7. Graph-based Word Embeddings:结合知识图谱信息
8. Multimodal Word Embeddings:结合视觉信息
9. Contextualized Word Embeddings (ELMo):上下文相关的词向量
10. Quantized Word2Vec:量化压缩,减少存储和加速推理

E-L1-0012

监督学习

最大间隔分类器

支持向量机 (SVM)

步骤1:线性可分情况下的硬间隔SVM
优化问题:min{w,b} (1/2)‖w‖², s.t. y_i(w·x_i+b)≥1, ∀i
步骤2:引入拉格朗日乘子
L(w,b,α)=(1/2)‖w‖² - ∑
{i=1}^{n} α_i[y_i(w·x_i+b)-1], α_i≥0
步骤3:转化为对偶问题
对w,b求偏导并置零:∂L/∂w=0 → w=∑{i=1}^{n} α_i y_i x_i;∂L/∂b=0 → ∑{i=1}^{n} α_i y_i=0
代入得对偶问题:max_α ∑{i=1}^{n} α_i - (1/2)∑{i=1}^{n}∑{j=1}^{n} α_i α_j y_i y_j x_i·x_j, s.t. α_i≥0, ∑{i=1}^{n} α_i y_i=0
步骤4:非线性情况与核技巧
引入映射φ将数据映射到高维特征空间,用核函数K(x_i,x_j)=φ(x_i)·φ(x_j)代替点积
对偶问题变为:max_α ∑{i=1}^{n} α_i - (1/2)∑{i=1}^{n}∑{j=1}^{n} α_i α_j y_i y_j K(x_i,x_j)
步骤5:软间隔与松弛变量
对于线性不可分,引入松弛变量ξ_i:min
{w,b,ξ} (1/2)‖w‖² + C∑{i=1}^{n} ξ_i, s.t. y_i(w·x_i+b)≥1-ξ_i, ξ_i≥0
其对偶问题仅增加约束α_i≤C
步骤6:求解与决策函数
使用SMO等算法求解α,得到支持向量(α_i>0的样本)
决策函数:f(x)=sign(∑
{i∈SV} α_i y_i K(x_i,x) + b)
参数选择/优化
1. 核函数选择:线性核、多项式核、RBF核(K(x,z)=exp(-γ‖x-z‖²))
2. 正则化参数C:控制间隔大小与分类错误的权衡,通常通过网格搜索确定
3. 核参数:如RBF核的γ,多项式核的阶数d
4. 分类阈值:可通过调整决策阈值来平衡精确率与召回率

精度:在中小规模高维数据(如文本分类)上表现优异
误差:铰链损失(Hinge Loss)
强度:泛化能力强,尤其适合高维稀疏数据

统计学习理论、结构风险最小化、VC维理论、核方法、凸优化

1. 文本分类:新闻分类、垃圾邮件识别、情感分类
2. 用户画像分类:基于用户特征进行分群
3. 异常检测:识别与正常模式差异大的样本
4. 图像识别:手写数字识别、人脸检测
5. 生物信息学:基因表达数据分类
6. 时间序列预测:股票价格趋势预测
7. 推荐系统:基于内容的推荐
8. 医学诊断:疾病预测与分类
9. 网络安全:入侵检测系统
10. 质量控制:工业产品缺陷检测

变量
w∈ℝ^d:权重向量
b∈ℝ:偏置项
α_i∈ℝ:拉格朗日乘子
ξ_i∈ℝ:松弛变量
常量
n:样本数量
C:正则化参数
参数
核函数类型kernel
核参数(如γ)
正则化参数C

集合特征:支持向量集合
逻辑特征:决策边界的逻辑划分
概率与统计特征:可输出概率估计(Platt缩放)
随机性:SMO算法选择工作集的随机性
不确定性:软间隔引入的不确定性
数据规律和推断:最大间隔原理,结构风险最小化
极限:当C→∞时退化为硬间隔SVM
连续性:决策函数的连续性(取决于核)
微分:拉格朗日函数的偏导,优化中的梯度
积分:核函数隐含的特征空间内积
级数:对偶问题中的双重求和
收敛性:SMO等优化算法的收敛性
测度:间隔距离作为分类置信度的测度
离散:支持向量的离散集合
排序:按α_i值对支持向量排序
组合:支持向量的线性组合构成决策面
构造:通过求解凸优化问题构造模型
优化:求解二次规划问题
计算与算法特征:训练O(n³),推理O(支持向量数)
稳定性:仅由支持向量决定,对噪声相对稳健
对称性/非对称性:决策函数可能不对称
代数:向量内积、二次规划
拓扑:特征空间与核诱导的拓扑
几何:最大间隔超平面的几何
:对数据点的置换不变性
组合数学特征:支持向量的选择组合

广泛应用于文本分类(高维稀疏特征)
可通过核函数处理序列等结构化数据

时序流程
1. 预处理阶段:t₀
- 特征标准化/归一化
- 选择核函数并计算核矩阵K(可选)

2. 训练阶段:t₁-t₂
- 求解对偶优化问题(如使用SMO算法):
a. 初始化α=0
b. 选择违反KKT条件最严重的两个变量α_i, α_j
c. 固定其他变量,优化子问题更新α_i, α_j
d. 更新阈值b
e. 重复直到满足收敛条件
- 识别支持向量:{i |α_i > 0}

3. 决策阶段:t₃
- 对新样本x,计算:f(x) = sign(∑_{i∈SV} α_i y_i K(x_i, x) + b)

交互流程
- 支持向量与决策面的交互:决定了超平面的位置和方向
- 核函数隐式定义了样本在高维空间的相似性交互

服务器配置
分布式SVM方案:使用LIBSVM的分布式版本或Spark MLlib,需50-200节点集群,每个节点32-64核心、128-256GB内存,处理10亿样本需总内存20-50TB
GPU加速方案:ThunderSVM等实现,需8-32张NVIDIA A100 GPU,利用GPU并行计算核矩阵和优化,适合大规模核方法
在线学习方案:Pegasos等在线SVM算法,单节点配置大内存(512GB-2TB)处理流式数据
计算需求:10亿样本训练非线性SVM,核矩阵计算需10¹⁸次运算,存储需EB级,需采用近似方法或线性核
内存优化:需核缓存、样本缩略、在线学习等技术处理超大规模数据

1. Linear SVM (LIBLINEAR):专为大规模线性SVM设计,高效处理高维数据
2. Sequential Minimal Optimization (SMO):高效求解SVM对偶问题
3. Least Squares SVM (LS-SVM):将不等式约束改为等式,求解线性系统
4. ν-SVM:用参数ν控制支持向量比例和错误率
5. One-class SVM:用于异常检测和无监督学习
6. Multi-class SVM:一对多、一对一等扩展
7. Transductive SVM:利用未标注数据
8. Structured SVM:处理结构化输出
9. Laplacian SVM:半监督学习,利用流形假设
10. Budgeted SVM:限制支持向量数量,适用于资源受限场景

E-L1-0013

主题模型

概率生成模型

隐狄利克雷分布 (LDA)

步骤1:生成过程
1. 对每个主题k∈{1,...,K},从Dirichlet(η)生成词分布β_k
2. 对每个文档d∈{1,...,D}:
a. 从Dirichlet(α)生成主题分布θ_d
b. 对文档中每个词位置n∈{1,...,N_d}:
i. 从Multinomial(θ_d)生成主题z{d,n}
ii. 从Multinomial(β
{z{d,n}})生成词w{d,n}
步骤2:联合分布
p(β,θ,z,w|α,η) = ∏{k=1}^{K} p(β_k|η) ∏{d=1}^{D} [p(θ_d|α) ∏{n=1}^{N_d} p(z{d,n}|θ_d) p(w{d,n}|β, z{d,n})]
步骤3:变分推断(VB)
引入变分分布q(β,θ,z|λ,γ,φ)近似后验,通过最大化证据下界(ELBO)优化变分参数:
ELBO = 𝔼q[log p(β,θ,z,w)] - 𝔼q[log q(β,θ,z)]
步骤4:吉布斯采样(Collapsed Gibbs Sampling)
对每个词的主题分配进行采样:
p(z_i=k|z{-i},w) ∝ (n{d,k}^{-i}+α) * (n{k,w_i}^{-i}+η) / (n_k^{-i}+Vη)
其中n
{d,k}^{-i}是文档d中分配给主题k的词数(排除当前词),n{k,w_i}^{-i}是词w_i分配给主题k的次数(排除当前词),n_k^{-i}是分配给主题k的总词数(排除当前词)
步骤5:参数估计
主题-词分布:β
{k,v} = (n{k,v}+η) / (n_k+Vη)
文档-主题分布:θ
{d,k} = (n_{d,k}+α) / (N_d+Kα)
参数选择/优化
1. 主题数K:通过困惑度、主题一致性等指标选择
2. 超参数α,η:通常设为对称先验,如α=50/K, η=0.01
3. 迭代次数:通常1000-5000次吉布斯采样迭代
4. 随机种子:影响结果可重复性

精度:困惑度(Perplexity)衡量模型对新文档的预测能力
密度:主题在文档和词上的分布密度
强度:主题的区分度和可解释性

贝叶斯推断、狄利克雷-多项式共轭、混合模型、概率图模型

1. 文档主题挖掘:从海量帖子/新闻中自动发现隐含主题
2. 用户兴趣建模:通过用户历史内容推断其兴趣主题分布
3. 内容推荐:基于主题相似性进行内容推荐
4. 话题演化追踪:分析特定主题随时间的变化趋势
5. 跨语言主题对齐:在不同语言语料中发现对应主题
6. 文本摘要:提取文档的主题词生成摘要
7. 情感主题分析:结合情感分析的主题模型
8. 虚假信息主题分析:识别虚假信息常见的主题模式
9. 社区发现:基于主题相似性发现用户社区
10. 广告定向:根据用户主题兴趣进行精准广告投放
特征
- 主题特征:主题分布θ_d,主题-词分布β_k
- 文档特征:文档长度、主题多样性
- 词特征:词频、主题特异性

变量
β_k∈Simplex^V:主题k的词分布
θ_d∈Simplex^K:文档d的主题分布
z{d,n}∈{1,...,K}:词的主题分配
w
{d,n}∈{1,...,V}:观测到的词
常量
K:主题数量
V:词汇表大小
D:文档数量
参数
文档-主题先验α
主题-词先验η

集合特征:文档集、词表、主题集
逻辑特征:词到主题的分配关系
概率与统计特征:多项分布、狄利克雷分布、后验估计
随机性:吉布斯采样的随机性、先验的随机性
不确定性:主题分布和词分布的后验不确定性
数据规律和推断:文档-词共现的潜在主题结构
极限:当K→V时的极限行为(每个词一个主题)
连续性:狄利克雷分布的连续性
微分:变分推断中的梯度计算
积分:边缘化隐变量(Collapsed Gibbs)
级数:ELBO的期望计算
收敛性:吉布斯链的收敛性、变分推断的收敛性
测度:主题分布的测度(Simplex)
离散:词、主题分配的离散性
排序:按主题概率排序词、文档
组合:文档中主题的混合组合
构造:通过生成过程构造模型
优化:最大化ELBO或后验概率
计算与算法特征:时间复杂度O(K×文档总词数×迭代次数)
稳定性:结果对初始化和超参数敏感
对称性/非对称性:主题标签的对称性(需处理)
代数:计数统计、归一化
拓扑:主题Simplex的拓扑
几何:主题空间(Simplex)的几何
:主题标签的置换群
组合数学特征:词分配到主题的组合

核心为文本主题建模
处理词袋表示,忽略语序
主题词列表具有语义可解释性

时序流程(Collapsed Gibbs Sampling)
1. 初始化:t₀
- 随机或基于频率为每个词分配一个主题z{d,n}
- 初始化计数矩阵n
{d,k}, n{k,v}, n_k

2. 迭代采样:t₁ 到 t
{max_iter}
for iter=1 to max_iter:
for each document d:
for each word position n in d:
a. 减计数:当前词w{d,n}的主题z_old = z{d,n}
n{d,z_old}--, n{z_old, w}--, n{z_old}--
b. 计算采样分布:对每个主题k=1..K,计算
p(z=k) ∝ (n
{d,k}+α) * (n{k,w}+η) / (n_k+Vη)
c. 采样新主题:z_new ∼ Multinomial(p(z))
d. 加计数:z
{d,n}=z_new, n{d,z_new}++, n{z_new,w}++, n{z_new}++

3. 参数估计:t
{max_iter}+
- 主题-词分布:β{k,v} = (n{k,v}+η) / (n_k+Vη)
- 文档-主题分布:θ{d,k} = (n{d,k}+α) / (N_d+Kα)

推理流程(新文档)
- 固定β,用吉布斯采样或变分推断估计新文档的θ和z。

服务器配置
Spark MLlib LDA:分布式LDA实现,需100-300节点Spark集群,每个节点32-64核心、128-256GB内存,总内存12-75TB,处理10亿文档需存储50-200TB
GPU加速方案:cuLDA等实现,利用GPU加速吉布斯采样,需16-64张NVIDIA A100 GPU,适合中等规模语料
在线LDA方案:处理流式文档,单节点或小集群配置,内存需求与主题数K和词表大小V相关
计算需求:10亿文档、平均长度100词、K=100主题,单次吉布斯迭代需处理千亿次计数更新,算力需求50-200 TFLOPS
通信优化:分布式LDA需在节点间同步全局主题-词计数,通信开销大,需优化同步策略

1. Online LDA:在线变分贝叶斯,支持流式数据
2. Spark LDA:基于EM或在线变分推断的分布式实现
3. LightLDA:微软开发,极大规模LDA,基于Metropolis-Hastings Walker算法
4. GPU-LDA:利用GPU并行加速吉布斯采样
5. Dynamic Topic Models:主题随时间演化
6. Correlated Topic Model (CTM):考虑主题间的相关性
7. Supervised LDA (sLDA):结合文档标签/响应变量
8. Relational Topic Model (RTM):建模文档间链接关系
9. Pachinko Allocation Model (PAM):层次主题模型
10. Neural Topic Models (NTM):结合神经网络的变体

E-L1-0014

时间序列预测

可加性模型与分解

Prophet (Facebook Prophet)

步骤1:模型分解
y(t) = g(t) + s(t) + h(t) + ε_t
其中:
- g(t):趋势项,使用逻辑增长或分段线性趋势
- s(t):季节项,使用傅里叶级数建模
- h(t):节假日效应,使用指示变量和参数
- ε_t:误差项,假设服从正态分布
步骤2:趋势项建模
a. 逻辑增长趋势:g(t) = C / (1 + exp(-k(t - m)))
其中C为承载容量,k为增长率,m为偏移参数
b. 分段逻辑增长:允许增长率k和偏移m在变化点处变化
c. 线性趋势:g(t) = (k + a(t)ᵀδ) t + (m + a(t)ᵀγ)
其中a(t)为指示向量,δ为增长率变化量,γ为偏移调整量
步骤3:季节项建模
使用傅里叶级数:s(t) = ∑{n=1}^{N} [a_n cos(2πnt/P) + b_n sin(2πnt/P)]
其中P为周期(如年周期P=365.25),N为傅里叶级数阶数,控制平滑度
步骤4:节假日效应
h(t) = ∑
{i} κ_i · 1_{t∈D_i}
其中D_i为节假日i的日期集合,κ_i为对应效应大小
步骤5:贝叶斯推断
使用Stan进行哈密顿蒙特卡洛采样或最大后验估计,得到参数后验分布,进而得到预测区间
参数选择/优化
1. 趋势类型:growth='linear''logistic'
2. 季节项周期和阶数:年季节yearly_seasonality,周季节weekly_seasonality,日季节daily_seasonality
3. 变化点:changepoints指定或自动检测
4. 节假日:holidays参数指定节假日数据框
5. 置信区间:interval_width控制预测区间宽度

精度:在多种时间序列预测竞赛中表现稳健,尤其适合具有强季节性的商业数据
误差:平均绝对误差(MAE)、均方根误差(RMSE)
强度:可解释性强,自动处理缺失值、异常点,支持不确定性估计

可加性时间序列模型、结构时间序列、傅里叶级数、贝叶斯统计

1. DAU/MAU预测:预测每日/每月活跃用户数趋势
2. 流量预测:预测网站/APP访问量、带宽需求
3. 内容互动预测:预测帖子点赞、评论、分享量的未来趋势
4. 广告收入预测:预测平台广告收入的时间序列
5. 服务器负载预测:预测CPU、内存、网络使用率,用于弹性伸缩
6. 用户增长预测:预测新增用户数,指导拉新策略
7. 话题热度预测:预测特定话题未来的热度走势
8. 异常检测:对比预测值与实际值,检测异常波动
9. 资源规划:基于预测结果进行人力资源和服务器资源规划
10. 财务预测:预测营收、成本等财务指标
特征
- 趋势特征:长期增长/下降模式
- 季节特征:年、周、日级别的周期性
- 事件特征:节假日、促销活动等外部事件影响
- 回归特征:可选的外部回归变量

变量
y_t:t时刻的观测值
g(t):趋势项函数
s(t):季节项函数
h(t):节假日项函数
常量
P:季节周期(如365.25, 7)
N:傅里叶级数阶数
参数
增长率k,承载容量C,偏移m
傅里叶系数a_n, b_n
节假日效应κ_i
变化点位置、变化量δ, γ

集合特征:时间点集合、变化点集合、节假日集合
逻辑特征:节假日指示变量
概率与统计特征:参数后验分布、预测区间
随机性:贝叶斯推断中的采样随机性
不确定性:预测区间量化不确定性
数据规律和推断:时间序列的可加性分解规律
极限:当N→∞时傅里叶级数可逼近任意周期函数
连续性:趋势和季节项是连续函数(分段连续)
微分:逻辑增长函数的导数表示增长率
积分:季节项的傅里叶级数表示
级数:傅里叶级数展开
收敛性:优化算法和MCMC采样的收敛性
测度:时间作为连续测度
离散:观测时间点的离散性
排序:时间点的自然排序
组合:趋势、季节、节假日项的可加组合
构造:通过模型公式构造预测
优化:最大后验估计或MCMC采样
计算与算法特征:时间复杂度O(T log T),T为历史数据点
稳定性:对缺失值和异常点稳健
对称性/非对称性:时间方向的不对称性(预测未来)
代数:傅里叶级数计算、矩阵运算
拓扑:时间序列的拓扑(顺序)
几何:时间序列在向量空间的几何
:时间平移的不变性(对平稳序列)
组合数学特征:变化点、节假日的排列组合

主要用于数值时间序列预测
可结合文本特征作为外部回归项(需另处理)

时序流程
1. 数据准备阶段:t₀
- 准备时间序列数据框,包含两列:ds (日期戳) 和 y (观测值)
- 可选:指定节假日数据框

2. 模型拟合阶段:t₁
- 构建设计矩阵:包括趋势基函数、傅里叶基函数、节假日指示变量
- 通过最大后验估计或MCMC采样求解模型参数:
argmax_{θ} p(θ|y) ∝ p(y|θ)p(θ)
- 得到参数的后验分布(或点估计)

3. 预测阶段:t₂
- 对未来时间点构建相同的设计矩阵
- 计算预测值:ŷ(t) = g(t;θ) + s(t;θ) + h(t;θ)
- 计算预测区间:从参数后验分布采样,生成多条预测路径,取分位数

4. 结果分析阶段:t₃
- 可视化趋势、季节性和节假日分量
- 分析预测区间和不确定性来源

服务器配置
单机/容器化方案:Prophet计算轻量,单节点即可预测大量序列。建议配置:16-32核心CPU、64-128GB内存、1TB SSD。可容器化部署,按需水平伸缩实例数量。
分布式批处理方案:使用PySpark或Dask并行预测千万级时间序列(如每个用户/商品的DAU)。需50-100节点集群,每个节点8-16核心、32-64GB内存。
计算需求:单条序列预测计算开销小,10亿条序列的批处理预测需算力约10-50 TFLOPS,主要瓶颈在I/O和任务调度。
内存需求:主要存储历史序列和模型参数,10亿条序列(每条长度1000)约需4TB内存(float32)。
在线推理:支持低延迟在线预测,可部署为微服务。

1. NeuralProphet:结合神经网络,可建模更复杂的非线性关系
2. Prophet with External Regressors:支持加入外部回归变量
3. Multi-series Prophet:对相关序列进行联合建模
4. Prophet for Anomaly Detection:基于预测区间进行异常检测
5. Bayesian Structural Time Series (BSTS):更灵活的贝叶斯结构时间序列模型
6. ARIMA/SARIMA:经典统计时间序列模型
7. Exponential Smoothing (ETS):另一种经典可加性模型
8. DeepAR (GluonTS):基于自回归RNN的概率预测模型
9. Temporal Fusion Transformer (TFT):基于Transformer的时序预测
10. N-BEATS:纯深度学习架构,适用于大规模序列预测

E-L1-0015

异常检测

基于隔离的集成方法

孤立森林 (Isolation Forest)

步骤1:隔离概念
异常点是“稀少且不同”的,因此容易被随机划分隔离。
步骤2:构建孤立树(iTree)
递归随机分割数据:
1. 随机选择一个特征q
2. 随机选择该特征的一个分割值p,介于当前节点数据中该特征的最小值和最大值之间
3. 将数据划分为两部分:左子节点(q < p)和右子节点(q ≥ p)
4. 递归分割,直到满足停止条件:树达到高度限制l,或节点只包含一个样本/所有样本相同
步骤3:异常评分
样本x的路径长度h(x):从iTree的根节点到叶子节点经过的边数。
平均路径长度c(n):给定样本数n的iTree中路径长度的平均值,用于归一化:c(n)=2H(n-1)-2(n-1)/n,其中H(i)为调和数。
样本x的异常分数:s(x,n)=2^{-E(h(x))/c(n)}
其中E(h(x))是样本x在多棵iTree中的平均路径长度。
s(x,n)越接近1,越可能是异常;越接近0,越可能是正常样本;≈0.5时无显著异常。
步骤4:集成
构建t棵iTree形成孤立森林,每棵树使用子采样样本ψ训练。
参数选择/优化
1. 树的数量t:通常100-200
2. 子采样大小ψ:通常256,增大ψ适用于更多、更微弱的异常
3. 树的高度限制l:通常设为⌈log₂(ψ)⌉,与ψ相关
4. 异常分数阈值:通常设定为>0.5或>0.6

精度:在多个异常检测基准数据集上表现优异,尤其在高维数据上
密度:不直接建模密度,但异常点对应低密度区域
强度:计算高效,线性时间复杂度,适合大规模数据

异常点的“易隔离性”、随机划分、集成学习、平均路径长度作为异常度量

1. 金融欺诈检测:识别信用卡盗刷、洗钱交易
2. 网络入侵检测:识别异常网络流量、攻击行为
3. 工业缺陷检测:识别制造过程中的异常产品
4. 医疗异常诊断:识别异常病历、医疗影像
5. 社交媒体异常用户:识别机器人账号、水军、异常活跃用户
6. 传感器异常:识别IoT传感器中的故障或异常读数
7. 系统监控:识别服务器性能指标(CPU、内存)的异常
8. 日志异常检测:从系统/应用日志中发现异常模式
9. 生物信息学:识别基因表达数据中的异常样本
10. 时间序列异常点检测:结合滑动窗口用于时间序列
特征
- 数值特征:直接输入,对量纲相对不敏感
- 类别特征:需编码,或使用扩展算法(如SCiForest)
- 特征组合:随机选择特征,自动隐式考虑特征间关系

变量
X∈ℝ^{n×d}:输入数据集
h(x):样本x在单棵iTree中的路径长度
E(h(x)):平均路径长度
s(x):异常分数
常量
t:iTree的数量
ψ:子采样大小
l:树的最大高度(与ψ相关)
参数
树的数量n_estimators
子采样大小max_samples
随机种子random_state

集合特征:子采样集、特征子集
逻辑特征:二叉划分的决策逻辑
概率与统计特征:路径长度的分布、异常分数的概率解释
随机性:特征和分割点的随机选择
不确定性:异常分数的阈值选择带来不确定性
数据规律和推断:异常点路径短
极限:当ψ→n,t→∞时,异常分数收敛
连续性:路径长度和异常分数的连续性
微分:不直接涉及
积分:平均路径长度的期望计算
级数:调和数c(n)的计算
收敛性:集成平均的收敛性
测度:路径长度作为“隔离难度”的测度
离散:决策树结构的离散性
排序:按异常分数排序样本
组合:多棵iTree的集成
构造:随机二叉树的递归构造
优化:无显式优化,纯构建过程
计算与算法特征:时间复杂度O(t·ψ·log ψ),接近线性
稳定性:对随机种子敏感,集成提高稳定性
对称性/非对称性:划分的随机对称性
代数:对数、指数运算
拓扑:特征空间的随机划分拓扑
几何:通过超矩形划分空间,异常点落在小体积单元中
:对样本顺序的置换不变性
组合数学特征:特征和分割点的随机组合

主要用于数值特征
文本特征需转化为数值(如TF-IDF)后使用

时序流程
1. 训练阶段:t₀-t₁
for i=1 to t:
a. 从X中随机子采样ψ个样本得到X_sub
b. 递归构建iTree:
function iTree(X_sub, e, l):
if e≥l or |X_sub|≤1:
return 外部节点{size: |X_sub|}
else:
随机选择特征q和分割值p
X_left = {x∈X_sub |x_q < p}
X_right = {x∈X_sub |x_q ≥ p}
return 内部节点{left: iTree(X_left, e+1, l), right: iTree(X_right, e+1, l), split_att: q, split_value: p}
l通常设为⌈log₂(ψ)⌉

2. 评分阶段:t₂-t₃
for each sample x in X:
for each iTree in forest:
计算路径长度h_i(x)
E(h(x)) = average(h_i(x))
s(x) = 2^{-E(h(x))/c(ψ)}

3. 决策阶段:t₄
- 根据阈值(如0.6)或排序top-k判断异常

服务器配置
单机方案:Scikit-learn实现,处理10亿样本需单节点大内存(1-2TB)和高性能CPU(32-64核心)。利用多线程并行构建树木。
分布式方案:Spark MLlib Isolation Forest,需50-150节点Spark集群,每个节点16-32核心、64-128GB内存,总内存3-20TB。数据并行构建森林,合并结果。
GPU加速方案:cuML Isolation Forest,需4-16张NVIDIA A100 GPU,利用GPU并行构建和评分,比CPU快5-20倍。
计算需求:10亿样本,ψ=256,t=100,计算量约2.5×10¹¹次比较,算力需求10-50 TFLOPS。
内存/存储:训练过程只需子采样数据,内存需求低。但全量数据评分需存储或流式读取。

1. Extended Isolation Forest:解决原算法对轴平行的偏见,产生任意方向的划分
2. SCiForest (Isolation Forest with Split-selection Criterion):改进分割点选择,提高对局部异常和分类数据的检测能力
3. Massive Online Analysis (MOA) iForest:流式数据版本
4. Isolation Forest with Penalization:对高维数据中不相关特征进行惩罚
5. DIF (Density-based Isolation Forest):结合密度估计
6. LODA (Lightweight Online Detector of Anomalies):多个随机一维直方图的集成,更高效
7. RRCF (Robust Random Cut Forest):处理流式数据,可动态更新
8. Feature Bagging for Anomaly Detection:集成多种基检测器
9. Isolation Forest for Time Series:结合滑动窗口或序列特征
10. Deep Isolation Forest:用神经网络学习数据的划分

E-L1-0016

推荐系统

深度因子分解机

DeepFM

步骤1:模型架构
ŷ = sigmoid(y{FM} + y{DNN})
其中y{FM}为因子分解机部分,捕获低阶特征交互;y{DNN}为深度神经网络部分,捕获高阶特征交互。
步骤2:因子分解机(FM)部分
y{FM} = w₀ + ∑{i=1}^{n} w_i x_i + ∑{i=1}^{n}∑{j=i+1}^{n} ⟨v_i, v_j⟩ x_i x_j
其中w₀为全局偏置,w_i为一阶权重,v_i∈ℝ^k为特征i的隐向量,⟨·,·⟩为点积。
通过数学优化,计算复杂度可降至线性:∑∑⟨v_i,v_j⟩x_ix_j = (1/2)∑{f=1}^{k}[(∑{i=1}^{n} v{i,f}x_i)² - ∑{i=1}^{n} v{i,f}² x_i²]
步骤3:深度神经网络(DNN)部分
输入为所有特征的嵌入向量的拼接:a⁽⁰⁾ = [e₁, e₂, ..., e_n],其中e_i = V
{i}·x_i(若x_i为field i的one-hot向量,则e_i即为该field对应的特征嵌入)。
然后通过多层全连接网络:a⁽ˡ⁺¹⁾ = σ(W⁽ˡ⁾a⁽ˡ⁾ + b⁽ˡ⁾)
最终:y{DNN} = w{dnn}·a⁽ᴸ⁾ + b_{dnn}
步骤4:共享特征嵌入
FM中的隐向量v_i与DNN输入层的嵌入向量e_i共享。这使模型能同时从原始特征中学习低阶和高阶交互,且减少参数量。
步骤5:模型训练
使用二元交叉熵损失:ℒ = - (1/N) ∑ [y log ŷ + (1-y) log(1-ŷ)]
参数选择/优化
1. 嵌入维度k:通常10-100
2. DNN隐藏层结构:层数2-4,每层神经元数200-1000
3. 激活函数:ReLU, tanh等
4. Dropout率:0.5-0.8防止过拟合
5. 优化器:Adam, 学习率0.001-0.01

精度:在Criteo、Avazu等广告点击率预测数据集上优于FM、Wide&Deep等模型
误差:LogLoss (二元交叉熵),AUC也常用
强度:兼具记忆(低阶交互)和泛化(高阶交互)能力,端到端训练

因子分解机、深度神经网络、特征交互、共享表示学习、记忆与泛化结合

1. 广告点击率预估:精准预估用户点击广告的概率
2. 内容推荐:推荐新闻、视频、商品等
3. 应用商店推荐:推荐用户可能下载的APP
4. 好友推荐:推荐潜在的好友或关注对象
5. 搜索排序:基于用户查询和上下文对搜索结果排序
6. 个性化推送:决定向用户推送什么内容
7. 交叉销售:电商中推荐关联商品
8. 用户流失预警:预测用户流失概率,作为特征之一
9. 冷启动推荐:对新用户/物品进行初步推荐
10. 榜单个性化:生成个性化的热门榜单
特征
- 用户特征:人口属性、历史行为
- 物品特征:类别、标签、流行度
- 上下文特征:时间、地点、设备
- 交叉特征:用户-物品组合特征

变量
x∈ℝ^n:输入特征向量(通常为multi-field one-hot)
v_i∈ℝ^k:特征i的隐向量(嵌入)
a⁽ˡ⁾:DNN第l层的激活值
ŷ∈(0,1):预测概率
常量
n:特征数量(one-hot后维度极大)
k:嵌入维度
L:DNN层数
参数
权重w₀, w_i, W⁽ˡ⁾
偏置b⁽ˡ⁾
嵌入矩阵V∈ℝ^{n×k}

集合特征:特征域集合、隐因子集合
逻辑特征:FM部分建模特征对交互
概率与统计特征:输出点击概率
随机性:权重初始化、Dropout
不确定性:预测概率的不确定性
数据规律和推断:特征交互的复杂模式
极限:当DNN层宽→∞时的表示能力
连续性:输出概率的连续性
微分:通过反向传播计算梯度
积分:FM部分的优化计算形式类似积分
级数:DNN的多层变换
收敛性:训练损失收敛性
测度:点积作为特征相似性测度
离散:输入特征的离散性(ID类)
排序:按预测概率排序物品
组合:低阶和高阶特征交互的组合
构造:FM和DNN的并行构造
优化:最小化交叉熵损失
计算与算法特征:时间复杂度O(nk + DNN参数量)
稳定性:共享嵌入使训练更稳定
对称性/非对称性:FM部分交互是对称的
代数:向量点积、矩阵乘法
拓扑:特征嵌入空间的拓扑
几何:隐向量在空间中的几何关系
:特征排列的不变性(需处理)
组合数学特征:特征交互的组合枚举

处理大量的类别型ID特征
文本特征可通过嵌入接入

时序流程
1. 输入编码:t₀
- 输入为multi-field特征,每个field是one-hot或multi-hot。
- 对每个field,通过嵌入层查找:e_i = V{field_i}·x{field_i}
- 得到嵌入向量列表[e₁, e₂, ..., e_m] (m为field数)

2. FM部分前向:t₁
- 一阶部分:∑ w_i x_i (实际中x_i常为1,w_i为对应特征的权重)
- 二阶部分:利用优化公式计算 ∑∑⟨v_i,v_j⟩x_i x_j
- 输出:y{FM} = w₀ + 一阶和 + 二阶和

3. DNN部分前向:t₂
- 拼接嵌入向量:a⁽⁰⁾ = concat(e₁, e₂, ..., e_m)
- 前向传播:a⁽ˡ⁺¹⁾ = ReLU(W⁽ˡ⁾a⁽ˡ⁾ + b⁽ˡ⁾),可能加入Dropout
- 最终层:y
{DNN} = sigmoid/linear(W⁽ᴸ⁾a⁽ᴸ⁾ + b⁽ᴸ⁾)

4. 输出与损失:t₃
- ŷ = sigmoid(y{FM} + y{DNN})
- ℒ = -[y log ŷ + (1-y) log(1-ŷ)]

5. 反向传播与更新:t₄
- 计算梯度,更新所有参数(包括共享嵌入矩阵V)

服务器配置
大规模GPU训练集群:训练需处理十亿级样本、百万级特征,需50-200张NVIDIA A100/H100 GPU,通过参数服务器或AllReduce同步嵌入矩阵。CPU内存需500GB-2TB存储特征映射和优化器状态。
分布式推荐系统框架:集成于字节跳动ByteAir、阿里推荐等平台。采用CPU-GPU异构集群,CPU处理特征工程和样本拼接,GPU进行模型计算。
在线推理服务:使用TensorRT优化,单GPU可支持每秒数万次预测。10亿级并发需数千个推理实例,通过负载均衡和服务发现组成集群。
计算需求:训练复杂度高,需算力100-500 PFLOPS。
存储需求:嵌入矩阵可能达百GB到TB级,需高速参数存储。

1. xDeepFM:引入压缩交互网络(CIN),显式地学习有界阶特征交互
2. NFM (Neural Factorization Machines):在FM的二阶交互池化后加DNN
3. AFM (Attentional Factorization Machines):在FM中加入注意力机制权衡特征交互的重要性
4. Deep & Cross Network (DCN):用交叉网络显式学习高阶特征交互
5. AutoInt:使用自注意力机制学习特征交互
6. FiBiNET:结合Squeeze-Excitation网络动态学习特征重要性
7. FLEN:Field-wise Bi-Interaction,降低FM部分复杂度
8. DeepFM with Multi-task Learning:共享底层,同时优化CTR、CVR等多个目标
9. DeepFM for Sequential Recommendation:结合用户行为序列
10. TinyDeepFM:模型压缩版本,用于移动端部署

E-L1-0017

多模态学习

对比语言-图像预训练

CLIP (Contrastive Language-Image Pretraining)

步骤1:双编码器架构
图像编码器(如ViT、ResNet)和文本编码器(如Transformer),分别将图像和文本映射到共享的d维向量空间。
步骤2:对比预训练目标
给定一个批次N个(图像,文本)对,计算相似度矩阵S∈ℝ^{N×N},其中S{i,j} = 图像i·文本j / τ,τ为可学习的温度参数。
目标函数为对称的交叉熵损失:
i = -log[exp(S{i,i}/τ) / ∑{j=1}^{N} exp(S{i,j}/τ)]
t = -log[exp(S{i,i}/τ) / ∑{j=1}^{N} exp(S{j,i}/τ)]
总损失:ℒ = (1/2)(ℒ
i + ℒ_t)
步骤3:从自然语言监督中学习
使用网络上收集的海量(图像,描述文本)对进行训练,使模型学习到丰富的视觉概念和语义。
步骤4:零样本预测
对于分类任务,将类别名称构造成描述文本(如“一张{类别}的照片”),计算图像特征与所有类别文本特征的相似度,取最高者作为预测类别。
参数选择/优化
1. 图像编码器:ViT-B/32, ViT-B/16, ViT-L/14等
2. 文本编码器:Transformer,宽度与图像编码器匹配
3. 温度参数τ:可学习或固定
4. 批次大小N:非常大,如32768,以利用大量负样本
5. 优化器:AdamW,余弦学习率衰减

精度:在多个图像分类、检索数据集上实现强大的零样本性能,无需下游数据训练
误差:对比损失(InfoNCE loss)
强度:打破传统分类范式,实现开放世界的视觉概念理解和零样本迁移

对比学习、多模态表示学习、自监督学习、双编码器架构、从自然语言监督中学习

1. 零样本图像分类:无需训练,直接对新类别图像分类
2. 图像-文本检索:用文本搜索图像,或用图像搜索文本
3. 内容安全过滤:识别违规、敏感图文内容
4. 自动标注:为图像生成描述性标签或标题
5. 视觉问答:结合VQA模型,回答关于图像的问题
6. 多模态推荐:结合用户图文历史进行推荐
7. 虚假信息检测:检测图文不一致的虚假内容
8. 创意内容生成:引导文生图模型(如DALL-E)
9. 无障碍技术:为视障用户描述图像内容
10. 电商搜索:用自然语言搜索商品图片
特征
- 视觉特征:图像编码器提取的全局/局部特征
- 文本特征:文本编码器提取的语义特征
- 多模态对齐特征:图文在共享空间的对应关系

变量
I_i:第i张图像
T_i:第i段文本
f_I(I_i)∈ℝ^d:图像编码向量
f_T(T_i)∈ℝ^d:文本编码向量
S:相似度矩阵
常量
N:批次大小
d:共享嵌入空间的维度
参数
图像编码器参数θ_I
文本编码器参数θ_T
温度参数τ

集合特征:图像集、文本集、(图像,文本)对集合
逻辑特征:正负样本对的逻辑关系
概率与统计特征:softmax计算的条件概率
随机性:数据增强、Dropout、批次采样
不确定性:零样本预测的置信度
数据规律和推断:图文对齐的统计规律
极限:当数据量→∞时的表示能力极限
连续性:编码空间的连续性
微分:对比损失的梯度计算
积分:softmax分母的求和(离散积分)
级数:损失函数中的求和
收敛性:预训练损失收敛性
测度:余弦相似度作为跨模态相似性测度
离散:批次的离散性
排序:按相似度排序图像或文本
组合:多模态信息的组合对齐
构造:通过对比学习构造对齐空间
优化:最小化对比损失
计算与算法特征:时间复杂度O(N²·d),N很大
稳定性:大批次和温度参数对训练稳定性关键
对称性/非对称性:损失函数对称
代数:矩阵乘法、softmax运算
拓扑:共享嵌入空间的拓扑
几何:图像和文本特征在球面上的几何(归一化后)
:对批次内样本的置换不变性
组合数学特征:批次内正负样本的组合

核心是多模态(视觉+语言)理解
文本编码器处理自然语言描述
强大的零样本语义泛化能力

时序流程(预训练)
1. 数据加载:t₀
- 加载一个批次的N个(图像I_i,文本T_i)对。

2. 编码:t₁
- 图像编码:v_i = normalize(f_I(I_i))
- 文本编码:t_i = normalize(f_T(T_i))

3. 计算相似度矩阵:t₂
- S = [s{ij}],其中s{ij} = v_i·t_j / τ

4. 计算对比损失:t₃
- 图像到文本损失:ℒi2t(i) = -log[exp(s{ii}) / ∑j exp(s{ij})]
- 文本到图像损失:ℒt2i(i) = -log[exp(s{ii}) / ∑j exp(s{ji})]
- 批次平均:ℒ = (1/(2N)) ∑{i=1}^{N} [ℒi2t(i) + ℒ_t2i(i)]

5. 反向传播与更新:t₄
- 计算梯度,更新θ_I, θ_T, τ。

零样本推理流程
1. 准备类别文本提示,如{“一张狗的照片”, “一张猫的照片”, ...},得到文本特征集T。
2. 编码待分类图像,得到图像特征v。
3. 计算v与T中每个文本特征的相似度。
4. 预测类别为相似度最高的文本提示对应的类别。

服务器配置
超大规模多GPU/TPU集群:预训练需在数亿图文对上训练大型ViT/ResNet和Transformer,需256-1024张NVIDIA A100/H100或TPU v3/v4,通过高速互联。内存需存储数十亿参数和超大批次。
分布式训练框架:使用DeepSpeed、FairScale等,结合数据并行、模型并行(将编码器分层)和梯度累积。
推理服务集群:图像和文本编码可分离部署。单张A100 GPU编码一张图像约需10-50ms。10亿级图文检索/过滤需求,需数百至上千张GPU组成编码和检索集群,配合向量数据库(如Milvus)。
计算需求:预训练计算量巨大,需算力1-10 EFLOPS·天。
存储需求:训练数据(图文对)达数十TB级别。

1. ALIGN:使用更大量的噪声网络数据训练
2. LiT:锁定图像塔,仅微调文本塔,实现零样本迁移
3. BLIP/BLIP-2:统一的视觉-语言理解和生成模型
4. FLAVA:统一的多模态预训练模型,处理单模、多模任务
5. CoCa:对比学习与生成目标结合
6. DeCLIP:通过自蒸馏、跨模态蒸馏等提高数据效率
7. SLIP:结合CLIP和视觉自监督学习(SimCLR)
8. CyCLIP:通过循环一致性改进对齐
9. RegionCLIP:学习图像区域与文本短语的对齐
10. Chinese CLIP:针对中文优化的CLIP模型

E-L1-0018

相似性搜索

近似最近邻搜索

可导航小世界图 (HNSW)

步骤1:层次化小世界图构造
从顶层(第L层)开始,逐层向下构建,每层都是一个近似德劳内图(Navigable Small World graph)。
插入新元素时,从顶层开始,贪婪搜索找到最近邻,然后进入下一层,直到最底层(第0层)。
步骤2:层分配
新元素被分配到层l = ⌊-ln(uniform(0,1)) * mL⌋,其中mL是层与层之间距离的归一化因子。这产生指数衰减的概率分布,高层元素少,底层元素多。
步骤3:搜索(贪婪+启发式)
从高层(元素少,长连接多)的入口点开始,贪婪地向查询点的最近邻移动,直到局部最优。然后进入下一层,以上一层的局部最优作为入口点,重复过程,直到最底层,得到精确的最近邻。
步骤4:插入
在每一层l,找到该层的M个最近邻(通过搜索),将新元素与这些邻居连接,并可能修剪邻居间的连接以保持图的性质(如最大出度)。
步骤5:图的性质
通过控制参数(如efConstruction, M)使图具有小世界性质:平均路径长度短,聚类系数高。
参数选择/优化
1. M:每个节点在构建时的最大连接数(出度),影响图密度和搜索精度/速度。通常16-64。
2. efConstruction:构建时动态候选列表大小,影响构建质量和速度。通常100-400。
3. efSearch:搜索时动态候选列表大小,影响搜索精度和速度。通常50-400。
4. mL:层间距离归一化因子,影响层次结构。通常1/ln(M)。

精度:召回率(Recall@k),在高维数据上可达到>0.9的召回率,远超朴素方法
误差:与真实最近邻的距离误差
强度:查询速度快,尤其适合高维大数据集,支持增量插入

小世界网络理论、近似最近邻搜索、图遍历、多层图结构、启发式搜索

1. **向量数据库检索

编号

类别

模型配方

算法/模型/方法名称

算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化

精度/密度/误差/强度

底层规律/理论定理

典型应用场景【10个场景】和各类特征

变量/常量/参数列表及说明

数学特征

语言特征

时序和交互流程的所有细节/分步骤时序情况及数学方程式

10亿级并发下的服务器性能与规模需求

配套优化算法列表

E-L1-0018

相似性搜索

近似最近邻搜索

可导航小世界图 (HNSW)

步骤1:层次化小世界图构造
从顶层(第L层)开始,逐层向下构建,每层都是一个近似德劳内图(Navigable Small World graph)。
插入新元素时,从顶层开始,贪婪搜索找到最近邻,然后进入下一层,直到最底层(第0层)。
步骤2:层分配
新元素被分配到层l = ⌊-ln(uniform(0,1)) * mL⌋,其中mL是层与层之间距离的归一化因子。这产生指数衰减的概率分布,高层元素少,底层元素多。
步骤3:搜索(贪婪+启发式)
从高层(元素少,长连接多)的入口点开始,贪婪地向查询点的最近邻移动,直到局部最优。然后进入下一层,以上一层的局部最优作为入口点,重复过程,直到最底层,得到精确的最近邻。
步骤4:插入
在每一层l,找到该层的M个最近邻(通过搜索),将新元素与这些邻居连接,并可能修剪邻居间的连接以保持图的性质(如最大出度)。
步骤5:图的性质
通过控制参数(如efConstruction, M)使图具有小世界性质:平均路径长度短,聚类系数高。
参数选择/优化
1. M:每个节点在构建时的最大连接数(出度),影响图密度和搜索精度/速度。通常16-64。
2. efConstruction:构建时动态候选列表大小,影响构建质量和速度。通常100-400。
3. efSearch:搜索时动态候选列表大小,影响搜索精度和速度。通常50-400。
4. mL:层间距离归一化因子,影响层次结构。通常1/ln(M)。

精度:召回率(Recall@k),在高维数据上可达到>0.9的召回率,远超朴素方法
误差:与真实最近邻的距离误差
强度:查询速度快,尤其适合高维大数据集,支持增量插入

小世界网络理论、近似最近邻搜索、图遍历、多层图结构、启发式搜索

1. 向量数据库检索:快速检索用户、内容、商品等的嵌入向量
2. 内容去重:快速查找相似图片、视频、文本
3. 推荐系统召回:从亿级物品库中快速召回候选集
4. 人脸识别:快速比对海量人脸特征
5. 语义搜索:基于文本/图像嵌入的语义相似性搜索
6. 异常检测:查找与正常模式差异大的样本(近邻远)
7. 聚类加速:为聚类算法(如K-means)快速找近邻
8. 图神经网络采样:为大规模图节点采样邻居
9. 多模态检索:跨模态(如图文)向量检索
10. 流式数据检索:支持数据实时插入和检索
特征
- 向量特征:高维稠密向量
- 图结构特征:节点的邻居连接关系
- 层次特征:不同粒度下的近邻关系

变量
G=(V,E):层次化小世界图,V是节点(向量)集合,E是边集合
q:查询向量
enterPoint:各层的入口点
常量
L:最大层数
M:每层最大连接数
参数
efConstruction
efSearch
mL (level multiplier)

集合特征:节点集V,边集E,层次{l}
逻辑特征:近邻关系的逻辑连接
概率与统计特征:层数的指数分布,搜索路径长度分布
随机性:层分配的随机性,构建时邻居选择的随机性
不确定性:近似搜索带来的结果不确定性
数据规律和推断:小世界网络的六度分隔规律
极限:当M→∞, L→∞时的极限行为
连续性:向量空间的连续性
微分:不直接涉及
积分:不直接涉及
级数:层次搜索构成级数过程
收敛性:贪婪搜索的局部收敛性
测度:向量距离作为测度
离散:图结构的离散性,节点的离散性
排序:按距离排序候选节点
组合:邻居连接的选择组合
构造:图的层次化构造过程
优化:参数优化以平衡精度和速度
计算与算法特征:构建复杂度O(n log n),搜索复杂度O(log n)
稳定性:对数据分布和参数相对稳健
对称性/非对称性:距离度量的对称性,图边可能无向
代数:向量距离计算(如内积、L2)
拓扑:小世界图的拓扑结构
几何:向量空间的几何,图嵌入空间的几何
:对节点索引的置换不变性
组合数学特征:图路径的枚举

主要用于数值向量检索
文本/图像需先转化为向量

时序流程(构建)
1. 初始化:t₀
- 设置参数M, efConstruction, mL。
- 创建空图,设定最大层L。
- 初始化顶层入口点。

2. 插入元素:t₁ 对每个新元素vec
a. 分配层l = ⌊-ln(random(0,1)) * mL⌋
b. 从顶层入口点开始,currLayer = L
c. while currLayer > l:
在currLayer层搜索vec的最近邻(贪婪),更新入口点为该层找到的最近邻。
currLayer--
d. for layer = min(l, currLayer) down to 0:
在当前层搜索vec的efConstruction个近邻,得到候选集W。
从W中选择至多M个距离最近的节点作为邻居,连接vec与这些邻居。
对每个新邻居e,可能需修剪其原有连接,使其出度不超过M。

时序流程(搜索)
1. 设定efSearch参数。
2. currEntryPoint = 顶层入口点,currLayer = L。
3. while currLayer >= 0:
在当前层,从currEntryPoint开始,贪婪搜索找到距离q最近的节点,作为该层的局部结果。
currEntryPoint = 该层结果节点。
currLayer--。
4. 在最底层(0层),以currEntryPoint为起点,执行更精细的搜索(使用efSearch控制候选队列大小),返回队列中距离最近的k个节点。

服务器配置
单机大内存方案:FAISS-HNSW实现,处理10亿向量(128维)需约500GB内存。建议单节点配置2-4TB内存,64核心CPU,利用多线程并行搜索。可部署多副本应对高并发查询。
分布式向量数据库:Milvus, Weaviate等,将索引分片存储在多个节点。10亿向量需50-100节点集群,每个节点128-256GB内存,总内存6-25TB。通过负载均衡将查询路由到不同分片,合并结果。
GPU加速方案:使用GPU实现近似距离计算,加速搜索。需8-32张NVIDIA A100 GPU,利用高带宽显存和并行计算能力。
计算需求:单次搜索复杂度O(log n),10亿向量下约需数十次距离计算,QPS可达数千至数万(取决于efSearch)。10亿级并发需数千个搜索节点集群。
内存/存储:向量数据常驻内存,索引结构额外开销约是向量的1.5-2倍。

1. FAISS HNSW:Meta开源,CPU/GPU优化实现
2. hnswlib:轻量级C++库,单机高性能
3. NGT (Neighborhood Graph and Tree):结合树和图,支持批量构建和搜索
4. NSG (Navigating Spreading-out Graph):保证连通性,减少搜索路径长度
5. SSG (Satellite System Graphs):针对超高维数据优化
6. HCNNG (Hierarchical Clustering Navigable Graph):结合聚类层次
7. Vamana (DiskANN):针对磁盘优化的图索引,减少内存占用
8. SPTAG (Space Partition Tree And Graph):微软开源,结合树和图
9. Scalable HNSW:分布式HNSW实现
10. HNSW with Product Quantization (PQ):量化压缩向量,减少内存和距离计算成本

E-L1-0019

强化学习

基于策略梯度的演员-评论家算法

近端策略优化 (PPO)

步骤1:优势函数估计
使用广义优势估计(GAE):
δ_t = r_t + γV(s{t+1}) - V(s_t)
Â
t^{GAE(γ,λ)} = ∑{l=0}^{∞} (γλ)^l δ{t+l}
其中γ是折扣因子,λ∈[0,1]控制偏差-方差权衡。
步骤2:目标函数
原始策略梯度目标:L^{PG}(θ) = 𝔼t[log π_θ(a_t|s_t) Ât]
PPO提出 clipped surrogate objective:
L^{CLIP}(θ) = 𝔼t [min(r_t(θ)Ât, clip(r_t(θ), 1-ε, 1+ε)Ât)]
其中r_t(θ)=π_θ(a_t|s_t)/π
{θ_old}(a_t|s_t)是新旧策略的概率比,ε是超参数(如0.2)。
步骤3:价值函数优化
同时优化价值函数V_φ(s),最小化均方误差:
L^{VF}(φ) = 𝔼t[(V_φ(s_t) - V_t^{targ})²]
其中V_t^{targ}是回报的目标值。
步骤4:总损失与熵奖励
总损失结合策略、价值和熵奖励(鼓励探索):
L_t^{total}(θ, φ) = 𝔼
t[L_t^{CLIP}(θ) - c_1 L_t^{VF}(φ) + c_2 Sπ_θ]
其中c_1, c_2是系数,S是策略的熵。
步骤5:多步优化
使用旧策略π_{θ_old}收集一批经验,然后用小批量随机梯度下降对L^{total}优化多个epoch(如K=3~10),更新θ和φ。
参数选择/优化
1. 折扣因子γ:通常0.99
2. GAE参数λ:通常0.95
3. clip参数ε:通常0.1~0.3
4. 学习率:策略网络和价值网络可不同,如3e-4
5. 优化epoch数K:通常3-10
6. 熵系数c_2:可随时间衰减

精度:在多种连续控制任务(如MuJoCo)和游戏(如Dota2, OpenAI Five)中达到SOTA或先进水平
误差:策略梯度的方差,价值函数的拟合误差
强度:训练稳定,样本效率相对较高,易于调参

策略梯度定理、演员-评论家架构、信任区域优化、重要性采样、优势函数

1. 游戏AI:训练智能体玩视频游戏、棋牌
2. 机器人控制:连续控制机器人运动、抓取
3. 自动驾驶:决策规划,在模拟环境中学习驾驶策略
4. 资源管理:动态分配计算、网络、电力资源
5. 推荐系统:将推荐序列化为MDP,学习长期用户engagement
6. 对话系统:学习多轮对话策略,优化对话目标
7. 金融交易:学习股票、加密货币的交易策略
8. 网络配置:优化网络路由、拥塞控制参数
9. 广告竞价:实时调整广告出价策略
10. 实验设计:自适应地选择实验方案
特征
- 状态特征:环境观测的表示
- 动作特征:离散或连续动作空间
- 奖励特征:稀疏/稠密,短期/长期奖励设计

变量
s_t:t时刻状态
a_t:t时刻动作
r_t:立即奖励
π_θ(a|s):参数化策略
V_φ(s):价值函数
Â_t:优势函数估计
常量
γ:折扣因子
λ:GAE参数
参数
策略网络参数θ
价值网络参数φ
clip参数ε
熵系数c_2

集合特征:状态空间S,动作空间A
逻辑特征:策略的条件概率分布
概率与统计特征:策略分布、回报的期望、方差
随机性:策略的随机性、环境随机性
不确定性:长期回报的不确定性、策略更新的不确定性
数据规律和推断:马尔可夫决策过程、贝尔曼方程
极限:当ε→0时PPO接近TRPO的近似
连续性:状态、动作、价值函数的连续性(通常)
微分:策略梯度,价值函数梯度
积分:期望回报的积分形式,GAE的无限求和
级数:GAE是δ_t的几何级数
收敛性:策略迭代的收敛性,优化过程的收敛性
测度:状态访问分布,策略差异的测度
离散:离散时间步,离散动作空间(可处理)
排序:按优势值排序动作
组合:策略和价值函数的组合优化
构造:通过交互数据构造目标函数
优化:带约束(clip)的随机梯度优化
计算与算法特征:时间复杂度取决于环境和网络大小,需大量交互样本
稳定性:clip机制显著提高训练稳定性
对称性/非对称性:时间方向的不对称性
代数:概率比、期望计算
拓扑:状态-动作空间的拓扑
几何:策略空间(概率单纯形)的几何
:状态/动作的对称性(若存在)
组合数学特征:动作序列的组合

可处理文本状态(需编码)和离散文本动作(如对话生成)
奖励函数设计是关键

时序流程
1. 初始化:t₀
- 初始化策略网络π_θ和价值网络V_φ。

2. 迭代训练:for iteration=1,2,...
a. 数据收集阶段:t₁
- 使用当前策略π_θ与环境交互,收集T个时间步的轨迹数据{(s_t, a_t, r_t, s{t+1})}。
- 用当前V_φ计算每个状态的价值估计。
b. 优势计算阶段:t₂
- 对每个时间步t,用GAE(γ,λ)公式计算优势估计Â
t。
- 计算回报目标V_t^{targ} = Ât + V_φ(s_t)。
c. 优化阶段:t₃
- 将收集的数据视为一个数据集,旧策略固定为π
{θ_old}。
- for epoch=1 to K:
从数据集中随机采样小批量。
对每个样本,计算概率比 r_t(θ) = π_θ(a_t|s_t) / π_{θ_old}(a_t|s_t)。
计算 clipped surrogate objective L_t^{CLIP}(θ)。
计算价值函数损失 L_t^{VF}(φ) = (V_φ(s_t) - V_t^{targ})²。
计算策略熵 Sπ_θ
计算总损失 L_t^{total},反向传播更新θ和φ。

3. 策略部署:t₄
- 使用训练好的策略π_θ与环境交互或提供服务。

服务器配置
大规模分布式仿真集群:PPO需要大量环境交互。如OpenAI Five使用128,000个CPU核心和256个P100 GPU进行分布式采样和训练。10亿级状态-动作对采样需数万CPU核心的仿真集群。
GPU训练集群:策略和价值网络训练需GPU加速。需16-64张NVIDIA A100/H100 GPU,采用同步或异步分布式PPO(如SEED RL, RLlib)。
参数服务器架构:中心化存储策略参数,众多采样器(actors)并行与环境交互,收集经验后推送至学习者(learner)更新。
计算需求:仿真步进计算密集,神经网络前向/反向传播需算力。总体算力需求在PFLOPS量级。
存储/通信:需存储大量经验样本,采样器与学习者间需高速通信同步参数和经验。

1. TRPO (Trust Region Policy Optimization):PPO的前身,通过约束KL散度确保稳定性
2. ACKTR:使用Kronecker-factored近似曲率优化PPO
3. DPPO (Distributed PPO):分布式版本,提高采样效率
4. PPO with LSTM:处理部分可观测MDP,引入循环网络
5. PPO with Exploration:结合内在好奇心、随机网络蒸馏等探索策略
6. Multi-agent PPO (MAPPO):多智能体版本
7. Off-policy PPO:结合重要性采样,复用历史数据
8. PPO with Parameter Noise:参数空间噪声,增强探索
9. PPO for Discrete Actions:针对离散动作空间的变体
10. Phasic Policy Gradient:分离策略和价值训练阶段,提高稳定性

E-L1-0020

自监督学习

对比学习,视觉表示

SimCLR (A Simple Framework for Contrastive Learning of Visual Representations)

步骤1:数据增强
对每个样本x,应用随机增强两次,得到两个相关视图x_i和x_j。增强组合包括:随机裁剪、颜色抖动、高斯模糊等。
步骤2:编码器
使用基础编码器f(·)(如ResNet)提取表示向量:h_i = f(x_i), h_j = f(x_j)。
步骤3:投影头
通过一个小型MLP投影头g(·)将表示映射到对比损失空间:z_i = g(h_i), z_j = g(h_j)。训练后,丢弃g,使用h进行下游任务。
步骤4:对比损失 (NT-Xent)
对于一个批次的N个样本,通过增强产生2N个视图。对于正样本对(i, j),损失函数为:
{i,j} = -log[exp(sim(z_i, z_j)/τ) / (∑{k=1}^{2N} 𝟙{[k≠i]} exp(sim(z_i, z_k)/τ))]
其中sim(u,v)=uᵀv/|u||v|是余弦相似度,τ是温度参数。最终损失是所有正对的平均:ℒ = (1/2N)∑
{k=1}^{N}[ℓ{2k-1,2k} + ℓ{2k,2k-1}]。
步骤5:训练
通过最小化对比损失,使同一样本的不同增强视图的表示相近,不同样本的表示相远。
参数选择/优化
1. 批次大小N:越大越好,通常512~4096,利用大批次提供更多负样本
2. 温度τ:调节softmax的尖锐程度,通常0.1~0.5,需调参
3. 编码器f:ResNet-50常用
4. 投影头g:MLP,通常一层或两层,输出维度128~512
5. 优化器:LARS或AdamW,大学习率,余弦衰减

精度:在ImageNet线性评估(冻结特征训练线性分类器)上,SimCLR v2 (ResNet-152) 达到79.8% top-1,接近有监督
误差:对比损失(InfoNCE)
强度:学习到可转移的视觉表示,无需人工标注

对比学习、不变性原理、InfoNCE损失、数据增强不变性、表示学习

1. 图像分类:预训练编码器,用于下游图像分类任务
2. 目标检测:预训练骨干网络,提升检测性能
3. 图像分割:预训练编码器,用于语义/实例分割
4. 图像检索:学习图像的紧凑表示,用于相似性搜索
5. 异常检测:正常样本表示紧凑,异常样本表示远离
6. 多模态学习:可与文本结合进行跨模态对比学习
7. 医学影像分析:解决医疗数据标注稀缺问题
8. 视频理解:扩展到时序,学习视频片段表示
9. 自监督语音:应用于音频波形或谱图
10. 图表示学习:类比应用于图数据
特征
- 视觉特征:颜色、纹理、形状等
- 不变性特征:对预设增强变换的不变性
- 区分性特征:不同样本间的可区分性

变量
x:原始图像样本
i, x̃j:增强后的视图
h:编码器输出表示
z:投影头输出表示
常量
N:批次大小(原始样本数)
d:投影表示的维度
参数
编码器参数θ_f
投影头参数θ_g
温度τ

集合特征:批次样本集,正负样本对集合
逻辑特征:正负样本对的逻辑区分
概率与统计特征:softmax计算的条件概率,InfoNCE与互信息下界的关系
随机性:数据增强的随机性,批次采样随机性
不确定性:表示学习的不确定性
数据规律和推断:通过数据增强定义不变性,学习不变表示
极限:当N→∞,τ→0时的极限行为
连续性:编码函数和相似度函数的连续性
微分:对比损失的梯度计算
积分:softmax分母的求和(离散积分)
级数:损失函数中对批次的求和
收敛性:训练损失收敛性
测度:余弦相似度作为表示相似性测度
离散:批次的离散性
排序:按相似度排序样本
组合:数据增强的组合,正负样本的组合
构造:通过对比学习构造表示空间
优化:最小化InfoNCE损失
计算与算法特征:时间复杂度O(N²·d),N大时计算开销大
稳定性:大批次和温度参数对稳定性重要
对称性/非对称性:损失函数对称,增强可能不对称
代数:矩阵乘法、softmax运算、归一化
拓扑:表示空间的拓扑
几何:表示在超球面上的几何(L2归一化后)
:对样本和增强的变换群(数据增强定义)
组合数学特征:批次内正负样本对的组合

核心是视觉表示学习
文本可类比应用于NLP(如SimCSE)

时序流程
1. 数据加载与增强:t₀
- 加载一个批次N个原始图像{x_1,...,x_N}。
- 对每个x_k,应用两次独立的随机增强t∼T, t'∼T,得到x̃{2k-1}=t(x_k), x̃{2k}=t'(x_k)。形成2N个增强视图。

2. 编码与投影:t₁
- 用编码器f_θ计算表示:h_i = f_θ(x̃i)。
- 用投影头g_φ计算对比表示:z_i = g_φ(h_i)。
- 对z_i进行L2归一化。

3. 计算相似度矩阵:t₂
- 计算所有归一化z_i之间的余弦相似度矩阵S∈ℝ^{2N×2N},其中s
{ij}=z_iᵀz_j。

4. 计算对比损失:t₃
- 对每个正样本对(i, j)(即来自同一原始样本的两个视图),计算损失:
{i,j} = -log[ exp(s{ij}/τ) / (∑{k=1}^{2N} 𝟙{[k≠i]} exp(s{ik}/τ)) ]
- 总损失:ℒ = (1/(2N)) ∑
{k=1}^{N} (ℓ{2k-1,2k} + ℓ{2k,2k-1})

5. 反向传播与更新:t₄
- 计算梯度∇θℒ, ∇φℒ,更新参数θ, φ。

服务器配置
大规模TPU/GPU集群:SimCLR原文在TPU v3上训练,使用4096的批次大小。同等规模需128-512个TPU核心或128-256张NVIDIA A100 GPU,通过AllReduce同步梯度。内存需存储超大批次数据和模型。
分布式训练框架:使用PyTorch DDP、Horovod或JAX/Flax。需注意大批次下的梯度同步和数值稳定性。
计算需求:对比损失计算O(N²)是瓶颈。10亿图像预训练ResNet-50需算力约1-10 PFLOPS·天。
存储需求:ImageNet级别数据集约100GB。更大数据集需TB级存储。
优化:需梯度累积、混合精度训练、LARS优化器处理大批次。

1. MoCo (Momentum Contrast):引入动量编码器和队列,解耦批次大小与负样本数量
2. BYOL (Bootstrap Your Own Latent):无需负样本,通过预测目标网络进行学习
3. SwAV (Swapping Assignments between Views):在线聚类,交换预测码
4. Barlow Twins:减少跨增强视图表示的相关性,无需负样本
5. DINO:自蒸馏,学生网络匹配教师网络的输出分布
6. VICReg (Variance-Invariance-Covariance Regularization):对表示施加方差、协方差和不变性约束
7. SimSiam:简单的孪生网络,无需负样本、动量编码器、大批次
8. NNCLR:使用近邻作为正样本
9. ReSSL:重加权自监督对比学习
10. Masked Autoencoders (MAE):掩码自编码,另一类自监督方法

E-L1-0021

图表示学习

归纳式表示学习

GraphSAGE (SAmple and aggreGatE)

步骤1:邻居采样
对每个中心节点u,为每一层l采样固定大小的邻居集合N_l(u)。例如,对K层模型,每层采样S_k个邻居,则节点u的感受野为K跳内采样到的所有节点。
步骤2:信息聚合
从第K层(最外层)向第0层(中心节点)迭代聚合。对每个节点v,聚合其采样邻居的信息:
h{N(v)}^k = AGGREGATE_k({h_u^{k-1}, ∀u∈N(v)})
其中AGGREGATE可以是:均值、池化(如最大池化)、LSTM等。
步骤3:节点表示更新
将节点自身上一层的表示与聚合的邻居表示结合,并通过非线性变换:
h_v^k = σ(W^k · CONCAT(h_v^{k-1}, h
{N(v)}^k))
其中h_v^0 = x_v(节点输入特征)。
步骤4:输出表示
经过K层后,得到每个节点的最终表示z_v = h_v^K。
步骤5:无监督损失
基于图的邻近性,使相邻节点表示相似:
ℒ(z_u) = -log(σ(z_uᵀz_v)) - Q·𝔼{v_n∼P_n(v)} log(σ(-z_uᵀz{v_n}))
其中v是u的随机游走邻居,v_n是负采样节点,P_n是负采样分布,Q是负样本数。
参数选择/优化
1. 层数K:通常2~3
2. 每层采样数S_k:通常10~25
3. 聚合器类型:均值、GCN、池化、LSTM
4. 隐藏层维度:通常128~512
5. 负样本数Q:通常5~20

精度:在多个引文网络和Reddit帖子上,归纳式节点分类F1分数优于直推式方法和其他归纳式baseline
误差:无监督损失(类似负采样)或有监督交叉熵损失
强度:支持归纳学习,可泛化到未见节点,适合动态图和大规模图

消息传递神经网络、邻居采样、归纳学习、表示学习、随机游走

1. 新用户/内容表征:为新加入的用户或内容生成嵌入,无需重训全图
2. 动态社交网络:处理用户关系动态变化的图
3. 推荐系统:基于用户-物品二部图生成用户和物品嵌入
4. 社区检测:基于节点嵌入进行聚类
5. 网络攻击检测:为网络流量图中的新IP生成表示,检测异常
6. 知识图谱补全:为实体生成嵌入,预测新关系
7. 分子性质预测:为原子生成表示,预测分子性质
8. 地理空间分析:基于位置关系的图生成位置嵌入
9. 欺诈检测:在交易网络中为新交易生成表示
10. 蛋白质相互作用:预测蛋白质功能
特征
- 结构特征:通过采样邻居捕获的局部拓扑
- 属性特征:节点自身特征
- 多跳特征:K层聚合捕获K跳邻域信息

变量
h_v^k:节点v在第k层的隐藏状态
N(v):节点v的邻居集合(采样后)
z_v:节点v的最终表示
常量
K:聚合层数
S_k:第k层的采样邻居数
参数
权重矩阵W^k
聚合函数参数(若可学,如LSTM)

集合特征:邻居集合N(v),采样节点集
逻辑特征:邻居聚合的逻辑关系
概率与统计特征:随机游走共现概率,负采样分布
随机性:邻居采样随机性,随机游走随机性,负采样随机性
不确定性:采样带来的表示不确定性
数据规律和推断:网络同质性(相邻节点相似)
极限:当采样数S_k→∞时,收敛于全邻域聚合
连续性:节点表示的连续性
微分:通过反向传播计算梯度
积分:邻居信息的聚合(离散积分)
级数:K层迭代构成级数
收敛性:训练损失收敛性
测度:节点相似性测度(点积)
离散:图结构的离散性,采样的离散性
排序:按嵌入相似度排序节点
组合:邻居信息的组合(通过聚合器)
构造:通过多层聚合构造节点表示
优化:最小化对比损失或监督损失
计算与算法特征:时间复杂度O(∏_{i=1}^{K} S_i),与图大小无关,适合大规模图
稳定性:采样引入方差,但训练后稳定
对称性/非对称性:聚合函数通常对称(除LSTM)
代数:向量拼接、矩阵乘法
拓扑:局部图拓扑
几何:节点在嵌入空间的几何关系
:对邻居顺序的排列不变性(取决于聚合器)
组合数学特征:邻居采样的组合

可结合节点文本特征作为输入
学习到的嵌入可用于下游NLP任务

时序流程(小批量训练)
1. 小批量生成:t₀
- 采样一批目标节点B。
- 对每个目标节点u∈B,通过邻居采样得到K层计算所需的子图。采样是从u向外逐层进行。

2. 前向传播(由外向内):t₁
- 从第K层(最外层节点)开始,这些节点的表示为它们的输入特征h_v^0 = x_v。
- for k = K down to 1:
for each node v in the k-th layer:
a. 聚合其采样邻居(来自k-1层)的表示:h{N(v)}^k = AGGREGATE_k({h_u^{k-1}, u∈N(v)})
b. 将自身表示与聚合邻居表示结合并变换:h_v^k = σ(W^k·CONCAT(h_v^{k-1}, h
{N(v)}^k))
- 得到目标节点u的最终表示z_u = h_u^K。

3. 损失计算与反向传播:t₂
- 计算损失(如无监督损失),反向传播更新所有参数W^k和聚合器参数。注意梯度只回传到采样到的节点和边。

推理流程(新节点)
- 给定新节点及其特征和邻居,运行相同的前向传播过程(无需采样,使用实际邻居),即可得到其嵌入。

服务器配置
分布式CPU/GPU集群:GraphSAGE适合分布式训练。可部署在Spark GraphFrames或DGL分布式框架上。需50-200节点,每个节点32-64核心、128-256GB内存,用于存储子图和进行计算。
GPU加速方案:DGL或PyG支持GraphSAGE的GPU训练。对于十亿级节点图,需采用分区策略,将图分布到多GPU显存,采样和聚合在GPU并行。需16-64张NVIDIA A100 GPU。
在线推理服务:为新节点生成嵌入的计算量小,可部署在CPU服务器上,每秒可处理数千节点。10亿级新节点处理需数千CPU核心,批量处理。
计算需求:训练复杂度与总采样节点数成正比,可扩展性强。算力需求10-50 TFLOPS。
存储需求:存储图结构和节点特征,十亿节点千亿边需TB级存储。

1. FastGCN:通过重要性采样层采样,而非节点采样
2. Cluster-GCN:基于图聚类划分,在小批量内使用全邻居聚合
3. GraphSAINT:基于子图采样,在小批量内构建子图进行训练
4. PinSage:应用于Pinterest的工业级GraphSAGE,结合随机游走重要性采样
5. Heterogeneous GraphSAGE:处理异质图的变体
6. Inductive Representation Learning on Large Graphs (GraphSAGE原文)
7. SIGN (Scalable Inception Graph Networks):简化多跳传播,无需采样
8. GraphSAGE with Attention:在聚合时引入注意力机制
9. Adaptive Sampling GNN:自适应决定采样邻居数量
10. GraphSAGE for Temporal Graphs:结合时间信息的扩展

E-L1-0022

时间序列预测

自回归深度学习模型

DeepAR (Probabilistic Forecasting with Autoregressive Recurrent Networks)

步骤1:模型定义
DeepAR对每个时间序列建模为一个自回归模型,其中条件分布基于循环神经网络(如LSTM)的输出:
z{i,t} ~ p(· |θ(h{i,t}))
其中h{i,t}是RNN在t时刻的隐藏状态,θ是将h映射到分布参数的函数(如对于实数,p可以是负二项分布,θ输出均值和形状参数)。
步骤2:自回归输入
RNN在t时刻的输入包括:
1. 前一个时间步的目标值z
{i,t-1}(训练时用真实值,预测时用采样值)
2. 已知协变量x{i,t}(如日期特征、促销标志)
3. 序列i的特征v_i(如产品类别、门店ID)
输入向量为:u
{i,t} = [z{i,t-1}, x{i,t}, v_i]
步骤3:RNN状态更新
h{i,t} = RNN(h{i,t-1}, u{i,t})
步骤4:概率分布参数化
对于实值序列,常用Student's t分布或负二项分布(计数数据)。例如,对负二项分布:
μ
{i,t} = softplus(w_μᵀh{i,t} + b_μ)
α
{i,t} = softplus(w_αᵀh{i,t} + b_α) # 逆离散参数
则分布参数为均值μ,方差μ+μ²/α。
步骤5:训练与预测
训练时最大化对数似然:∑
i ∑t log p(z{i,t} |θ(h_{i,t}))
预测时,从预测分布中采样多条路径,得到分位数预测和预测区间。
参数选择/优化
1. RNN类型:LSTM或GRU
2. RNN层数和隐藏单元数:通常2-3层,40-100隐藏单元
3. 似然分布选择:高斯(实值)、负二项(计数)、学生t(抗异常)
4. 上下文长度:训练时用于条件化的历史长度,通常>=季节周期
5. 预测长度:预测未来时间步数
6. 学习率:通常0.001,Adam优化器

精度:在多个电商、能源、交通数据集上,在CRPS等概率评估指标上优于传统统计方法(如ETS)和点预测深度学习模型
误差:负对数似然(NLL),连续分级概率评分(CRPS)
强度:生成概率预测,量化不确定性,可处理大量相关时间序列

自回归模型、状态空间模型、深度循环神经网络、概率预测、条件分布建模

1. 需求预测:零售商品销量、电商订单量预测
2. 能源负荷预测:电力、天然气负荷的概率预测
3. 流量预测:网站流量、网络流量预测
4. 财务预测:股票波动率、交易量预测
5. 库存管理:基于概率预测优化安全库存
6. 异常检测:低似然概率的观测值可能为异常
7. 资源规划:基于预测分布规划服务器、人力
8. 动态定价:预测需求弹性,优化价格
9. 传感器数据预测:预测IoT传感器读数
10. 流行病预测:预测病例数,提供不确定性区间
特征
- 时序特征:自相关性、趋势、季节性
- 协变量特征:日历特征、促销、天气
- 序列特征:序列ID的元信息
- 概率特征:预测分布的形状

变量
z{i,t}:序列i在t时刻的目标值
h
{i,t}:RNN隐藏状态
u{i,t}:RNN输入向量
θ
{i,t}:分布参数(如μ, σ)
常量
T:上下文长度(历史窗口)
τ:预测长度
参数
RNN参数(权重、偏置)
似然函数参数映射权重w_μ, w_α等

集合特征:时间序列集合{i},时间点集合{t}
逻辑特征:自回归的条件依赖关系
概率与统计特征:条件概率分布,对数似然,采样
随机性:分布的随机性,预测时的采样随机性
不确定性:预测分布量化不确定性
数据规律和推断:时间序列的自回归规律,多个序列间的共享模式(通过全局模型)
极限:当τ→∞时预测分布的极限(通常发散)
连续性:目标值和分布的连续性(对实值)
微分:通过BPTT计算梯度
积分:对数似然的求和,CRPS的计算涉及积分
级数:自回归的展开是级数形式
收敛性:训练损失收敛性
测度:概率分布测度,CRPS是一种概率测度
离散:时间点的离散性,计数数据的离散性
排序:按预测分位数排序可能值
组合:多个序列通过全局模型组合学习
构造:通过自回归RNN构造条件分布
优化:最大化对数似然
计算与算法特征:训练复杂度O(总序列数×总时间步×RNN复杂度)
稳定性:概率框架能处理噪声和异常
对称性/非对称性:时间方向的不对称性(因果)
代数:RNN计算,softplus变换
拓扑:时间序列的拓扑
几何:隐藏状态空间的几何
:时间平移的不变性(对平稳部分)
组合数学特征:序列和时间的组合

主要用于数值序列预测
类别协变量需编码
序列ID可作为嵌入输入

时序流程(训练)
1. 数据准备:t₀
- 准备多个时间序列数据集,每个序列i有历史值z{i,1:T_i}和协变量x{i,1:T_i+τ},以及静态特征v_i。

2. 滑动窗口采样:t₁
- 对每个序列,在时间轴上创建训练样本。每个样本包括:
* 上下文窗口:长度为T的历史时刻[t-T, t-1]
* 目标窗口:长度为τ的未来时刻[t, t+τ-1]
- 样本的输入是上下文窗口内的目标值和协变量,以及静态特征;目标是目标窗口内的值。

3. 前向传播:t₂
- 初始化RNN状态(如零状态)。
- for t' in [t-T, t-1] (上下文):
输入u{i,t'} = [z{i,t'-1}, x{i,t'}, v_i],更新RNN状态h{i,t'}。 (训练时z用真实值)
- for t' in [t, t+τ-1] (预测窗口):
输入u{i,t'} = [z{i,t'-1}, x{i,t'}, v_i],更新RNN得到h{i,t'},计算分布参数θ{i,t'},评估目标值z{i,t'}在该分布下的对数似然。 (训练时z用真实值)

4. 损失计算与更新:t₃
- 损失 = -∑{t'=t}^{t+τ-1} log p(z{i,t'} |θ{i,t'})
- 反向传播,更新参数。

预测(采样)流程
- 类似前向传播,但在预测窗口[t, t+τ-1]中,z
{i,t'-1}使用从之前时间步预测分布中采样的值,从而递归生成多条样本路径。

服务器配置
GPU集群训练:DeepAR训练可批处理多个序列。对于百万级序列(如SKU-门店组合),需16-64张NVIDIA A100 GPU,利用数据并行。RNN计算受限于序列长度和隐藏层大小。
分布式框架:集成于GluonTS、PyTorch TS等库。可使用Ray等进行超参数调优。
在线推理服务:单次预测需运行RNN自回归生成τ步,计算量小。可部署在CPU服务器或轻型GPU上。10亿级序列的批量预测(如每日运行)需数百CPU核心并行处理。
计算需求:训练复杂度高,但可并行度高。算力需求10-100 TFLOPS。
存储需求:历史序列数据和模型参数存储。百万序列×长历史需TB级存储。

1. DeepVAR:多元时间序列的向量自回归深度模型
2. Deep Factors:结合全局因子和序列特定参数
3. WaveNet:使用扩张因果卷积的自回归模型
4. Transformer-based Autoregressive Models(如Temporal Fusion Transformer)
5. CNN-QR:分位数回归卷积网络,输出分位数
6. MQ-RNN:多分位数循环神经网络
7. Deep State Space Models:结合结构化状态空间模型和深度学习
8. Normalizing Flows for Time Series:用标准化流建模复杂条件分布
9. Causal DeepAR:结合因果推断,处理干预效应预测
10. Hierarchical DeepAR:处理具有层次结构的时间序列(如国家-地区-门店)

说明:这些模型覆盖了主题模型(LDA)、时间序列预测(Prophet, DeepAR)、异常检测(Isolation Forest)、推荐系统(DeepFM)、多模态学习(CLIP)、相似性搜索(HNSW)、强化学习(PPO)、自监督学习(SimCLR)和图表示学习(GraphSAGE)​ 等关键类别,均是互联网社交平台分析领域的核心算法。

互联网社交平台内容分析E-L1-0023~90

编号

类别

模型配方

算法/模型/方法名称

算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化

精度/密度/误差/强度

底层规律/理论定理

典型应用场景【10个场景】和各类特征

变量/常量/参数列表及说明

数学特征

语言特征

时序和交互流程的所有细节/分步骤时序情况及数学方程式

10亿级并发下的服务器性能与规模需求

配套优化算法列表

E-L1-0023

自然语言处理

基于Transformer的双向编码器表示

BERT (Bidirectional Encoder Representations from Transformers)

步骤1:输入表示
输入序列的每个token由三部分嵌入求和:Token Embedding + Segment Embedding + Position Embedding。特殊token:[CLS]用于分类,[SEP]分隔句子。
步骤2:Transformer编码器
由L个相同的层堆叠,每层包含:
1. 多头自注意力:Attention(Q,K,V)=softmax(QKᵀ/√d_k)V,其中Q,K,V由输入线性投影得到,h个头并行计算后拼接并线性投影。
2. 前馈网络:FFN(x)=max(0, xW₁+b₁)W₂+b₂,通常中间维度扩大4倍。
3. 残差连接和层归一化:LayerNorm(x+Sublayer(x))。
步骤3:预训练任务
1. 掩码语言模型(MLM):随机掩盖15%的token,其中80%替换为[MASK],10%随机替换,10%不变。目标预测被掩盖的原始token,使用交叉熵损失。
2. 下一句预测(NSP):二分类任务,判断句子B是否是句子A的下一句。
步骤4:微调
在特定任务数据上,用任务相关输出层替换预训练输出层,微调所有参数。
参数选择/优化
1. 模型尺寸:Base (L=12, H=768, A=12, 参数110M), Large (L=24, H=1024, A=16, 参数340M)
2. 学习率:预训练通常1e-4,微调2e-5到5e-5
3. 批次大小:通常256或512序列
4. 掩盖比例:15%
5. 优化器:AdamW,线性学习率预热和衰减

精度:在GLUE基准上达到SOTA(当时),多项NLP任务上显著提升
误差:交叉熵损失(MLM和NSP)
强度:强大的上下文表示能力,支持多种下游任务

Transformer架构、自注意力机制、双向上下文建模、迁移学习、掩码语言模型

1. 文本分类:情感分析、新闻分类、意图识别
2. 命名实体识别:从文本中提取人名、地名、组织名等实体
3. 问答系统:从给定文本中抽取答案(如SQuAD)
4. 文本相似度:计算句子对语义相似度
5. 文本摘要:抽取式或生成式摘要
6. 机器翻译:作为编码器或初始化模型
7. 情感分析:分析用户评论、社交媒体情感倾向
8. 内容审核:识别违规、仇恨、垃圾文本
9. 信息检索:查询和文档的重排序
10. 对话系统:作为理解模块编码用户输入
特征
- 上下文特征:每个token的表示融合了左右上下文
- 层次特征:不同层捕获不同粒度信息(底层语法,高层语义)
- 任务通用特征:通过微调适配各种任务

变量
X:输入token序列
E:token嵌入矩阵
P:位置嵌入矩阵
H^l:第l层隐藏状态
常量
L:Transformer层数
H:隐藏层维度
A:注意力头数
参数
所有线性投影权重、前馈网络权重、层归一化参数

集合特征:词汇表集合,注意力头集合
逻辑特征:自注意力的权重分布逻辑
概率与统计特征:softmax输出概率分布,MLM的预测概率
随机性:MLM掩盖的随机性,Dropout随机性
不确定性:模型预测的不确定性
数据规律和推断:语言建模,双向上下文依赖
极限:当L→∞时的极限行为,注意力权重的极限
连续性:嵌入空间的连续性,注意力权重的连续性
微分:通过反向传播计算梯度
积分:注意力得分的加权和(离散积分)
级数:多层堆叠构成级数
收敛性:预训练和微调的损失收敛性
测度:注意力权重作为token重要性的测度
离散:token的离散性,词汇表的离散性
排序:按注意力得分排序上下文token
组合:多头注意力的组合,层堆叠的组合
构造:通过自注意力机制构造上下文表示
优化:最小化MLM和NSP损失
计算与算法特征:时间复杂度O(n²·d),n为序列长度,d为隐藏维度
稳定性:层归一化和残差连接确保训练稳定
对称性/非对称性:自注意力本身对称,但位置嵌入引入顺序
代数:矩阵乘法,softmax,线性变换
拓扑:隐藏状态空间的拓扑
几何:嵌入空间的几何,注意力权重的几何解释
:对token位置的置换群(被位置嵌入打破)
组合数学特征:token序列的组合,注意力头的组合

核心是自然语言理解
通过微调适配各种NLP任务
支持多语言版本

时序流程(预训练)
1. 输入编码:t₀
- 给定一对句子A和B,添加[CLS]和[SEP] token,得到序列X。
- 查找Token Embedding E(X),加上Segment Embedding和Position Embedding,得到输入嵌入E。

2. Transformer编码:t₁ 对每一层l=1 to L
a. 多头自注意力
将输入H^{l-1}线性投影为Q,K,V(每个头)。
计算注意力得分:Attention(Q,K,V)=softmax(QKᵀ/√d_k)V。
拼接所有头的输出,线性投影得到多头注意力输出MHA。
b. 残差连接与层归一化:H^{l'} = LayerNorm(H^{l-1} + MHA)。
c. 前馈网络:FFN(H^{l'}) = max(0, H^{l'}W₁+b₁)W₂+b₂。
d. 残差连接与层归一化:H^l = LayerNorm(H^{l'} + FFN(H^{l'}))。

3. 输出与损失计算:t₂
- 取[CLS]位置的最终隐藏状态H^L_{[CLS]}用于NSP分类。
- 取被掩盖token位置的最终隐藏状态用于MLM预测。
- 计算MLM损失(交叉熵)和NSP损失(交叉熵),加权求和为总损失。

4. 反向传播与更新:t₃
- 反向传播,使用AdamW优化器更新参数。

微调流程:类似,但输出层替换为任务特定层(如分类层),损失为任务损失。

服务器配置
大规模TPU/GPU集群预训练:BERT Large预训练需16-64个TPU v3或32-128个NVIDIA A100 GPU,训练数天到数周。数据并行、模型并行结合。
分布式微调:下游任务微调可在单机多卡或小型集群完成,需4-16个GPU。
在线推理服务:BERT Base单次推理延迟约10-50ms(CPU)或1-10ms(GPU)。10亿级日查询(QPS约12万)需数百个GPU实例(如NVIDIA T4)集群,配合模型压缩(如量化、蒸馏)和动态批处理。
计算需求:预训练算力约10²³ FLOPS。推理算力取决于序列长度和模型大小。
内存需求:BERT Large约1.2GB(FP32),量化后可大幅减少。

1. RoBERTa:移除NSP,动态掩码,更大批次,更长序列
2. ALBERT:参数共享,嵌入分解,减少参数
3. DistilBERT:知识蒸馏,模型压缩,加速推理
4. SpanBERT:掩盖连续片段,更好表示片段
5. ELECTRA:用替换token检测任务替代MLM,更高效
6. DeBERTa:解耦注意力,增强位置信息
7. BERT with Whole Word Masking:掩盖整个词而非子词
8. Multi-lingual BERT:多语言预训练
9. VideoBERT:扩展到多模态(视频)
10. BERT for Specific Domains:领域自适应预训练(如BioBERT, SciBERT)

E-L1-0024

序列建模

基于自注意力的编码器-解码器架构

Transformer

步骤1:编码器
由N个相同层堆叠,每层包含:
1. 多头自注意力:MultiHead(Q,K,V)=Concat(head₁,...,head_h)W^O,其中head_i=Attention(QW_i^Q, KW_i^K, VW_i^V)。
2. 前馈网络:FFN(x)=max(0, xW₁+b₁)W₂+b₂。
3. 残差连接和层归一化:LayerNorm(x+Sublayer(x))。
步骤2:解码器
由N个相同层堆叠,每层包含:
1. 掩码多头自注意力:防止当前位置关注未来位置,通过掩码实现。
2. 编码器-解码器注意力:以解码器上一层的输出为Q,编码器输出为K,V。
3. 前馈网络和残差连接、层归一化。
步骤3:位置编码
使用正弦余弦函数:PE(pos,2i)=sin(pos/10000^{2i/d_model}), PE(pos,2i+1)=cos(pos/10000^{2i/d_model}),或可学习的位置嵌入。
步骤4:输出层
线性层+softmax,预测下一个token的概率分布。
步骤5:训练
使用教师强制,最小化交叉熵损失。
参数选择/优化
1. 模型尺寸:d_model通常512或1024,d_ff通常2048或4096,h通常8或16,N通常6
2. 注意力缩放因子:1/√d_k
3. 优化器:Adam,β₁=0.9, β₂=0.98, ε=10⁻⁹,学习率随步数变化:lrate = d_model^{-0.5} · min(step_num^{-0.5}, step_num · warmup_steps^{-1.5})
4. 标签平滑:通常0.1
5. Dropout:通常0.1

精度:在机器翻译等序列到序列任务上达到SOTA,训练速度显著快于RNN
误差:交叉熵损失(带标签平滑)
强度:并行计算能力强,长距离依赖建模能力强

自注意力机制、编码器-解码器架构、位置编码、残差网络、层归一化

1. 机器翻译:序列到序列翻译
2. 文本摘要:生成式摘要
3. 语音识别:音频序列转文本
4. 代码生成:根据描述生成代码
5. 图像描述生成:编码图像,解码文本描述
6. 文本生成:对话生成、故事生成
7. 序列标注:如命名实体识别(仅用编码器)
8. 蛋白质结构预测:序列到结构
9. 时间序列预测:作为序列模型
10. 多模态任务:结合视觉和语言
特征
- 全局依赖特征:自注意力捕获任意位置间依赖
- 层次特征:多层堆叠捕获不同抽象层次
- 并行特征:自注意力可并行计算,训练快

变量
X:输入序列
Y:目标序列
PE:位置编码
常量
N:编码器/解码器层数
d_model:模型维度
h:注意力头数
参数
所有线性投影权重、前馈网络权重、层归一化参数、位置嵌入(若可学习)

集合特征:位置集合,注意力头集合
逻辑特征:注意力权重的逻辑关联
概率与统计特征:输出softmax概率分布
随机性:Dropout,训练时教师强制的随机性(若用采样)
不确定性:生成的不确定性
数据规律和推断:序列的联合概率建模,自回归生成
极限:当N→∞,d_model→∞时的极限行为
连续性:位置编码的连续性,注意力权重的连续性
微分:通过反向传播计算梯度
积分:注意力得分的加权和(离散积分)
级数:多层堆叠构成级数
收敛性:训练损失收敛性
测度:注意力权重作为位置重要性的测度
离散:token的离散性
排序:按注意力得分排序输入位置
组合:多头注意力的组合,层堆叠的组合
构造:通过自注意力构造序列表示
优化:最小化交叉熵损失
计算与算法特征:编码器复杂度O(n²·d),解码器复杂度O(m²·d + m·n·d),n,m为输入输出长度
稳定性:残差和层归一化确保训练稳定
对称性/非对称性:自注意力对称,但掩码和位置编码引入顺序
代数:矩阵乘法,softmax,线性变换
拓扑:序列空间的拓扑
几何:注意力权重的几何解释
:对位置的置换群(被位置编码打破)
组合数学特征:序列的组合,注意力头的组合

核心是序列到序列建模
通过自注意力捕获长距离依赖
支持多种模态的序列数据

时序流程(训练)
1. 输入编码:t₀
- 输入序列X经过嵌入层得到词嵌入,加上位置编码,得到编码器输入。

2. 编码器前向:t₁ 对每一层l=1 to N
a. 多头自注意力:计算自注意力,残差连接,层归一化。
b. 前馈网络:FFN,残差连接,层归一化。
得到编码器输出E。

3. 解码器前向(自回归):t₂
- 目标序列Y(右移)经过嵌入和位置编码,输入解码器。
- 对每一层l=1 to N:
i. 掩码多头自注意力:对解码器输入做自注意力,使用上三角掩码防止信息泄露。
ii. 编码器-解码器注意力:以i的输出为Q,编码器输出E为K,V,计算注意力。
iii. 前馈网络:FFN,残差连接,层归一化。
得到解码器输出D。

4. 输出层:t₃
- 线性层将D投影到词汇表大小,softmax得到每个位置的下一个token概率分布。

5. 损失计算:t₄
- 计算预测分布与真实标签的交叉熵损失(带标签平滑)。

6. 反向传播与更新:t₅
- 反向传播,使用Adam优化器更新参数。

推理流程:自回归生成,每一步用当前已生成序列通过解码器预测下一个token,直到生成结束符。

服务器配置
大规模TPU/GPU集群训练:原始Transformer训练需8个P100 GPU约12天。现代大型模型(如T5)需数百个TPU/GPU。需采用模型并行(层间并行、注意力头并行)和数据并行。
分布式训练框架:使用Mesh TensorFlow、DeepSpeed、Megatron-LM等。
在线推理服务:Transformer解码自回归,延迟随输出长度线性增长。10亿级日查询需数千个GPU实例,采用动态批处理、缓存(如KV缓存)、量化(如INT8)、蒸馏小模型。
计算需求:训练算力巨大,推理算力取决于模型大小和序列长度。
内存需求:大型模型参数达数百GB,需模型分片和优化内存管理。

1. Transformer-XL:引入循环机制,处理更长序列
2. Reformer:使用局部敏感哈希注意力,降低复杂度
3. Longformer:稀疏注意力,处理长文档
4. Performer:使用线性注意力,降低复杂度到O(n)
5. Linformer:低秩投影,降低注意力复杂度
6. Sparse Transformer:稀疏注意力模式
7. Adaptive Attention Span:自适应注意力范围
8. Universal Transformer:在深度上循环,权重共享
9. Transformer with Relative Position Encoding:相对位置编码
10. Efficient Transformers:各种效率优化变体

E-L1-0025

计算机视觉

深度残差网络

ResNet (Residual Network)

步骤1:残差块
基本残差块:y = F(x, {W_i}) + x,其中F是残差函数(如两个3×3卷积),x是恒等映射(shortcut connection)。若输入输出维度不同,则使用投影shortcut:y = F(x, {W_i}) + W_s x。
步骤2:网络架构
堆叠多个残差块,分为多个阶段(stage),每个阶段的第一块可能进行下采样(步长2),同时增加通道数。常用ResNet-50(50层)结构:
1. 初始卷积层:7×7卷积,步长2,后接最大池化。
2. 阶段1:3个残差块,每个块3层,输出256维。
3. 阶段2:4个残差块,每个块3层,输出512维。
4. 阶段3:6个残差块,每个块3层,输出1024维。
5. 阶段4:3个残差块,每个块3层,输出2048维。
6. 全局平均池化,全连接分类层。
步骤3:批量归一化
每个卷积后接批量归一化(BN)和ReLU激活,即Conv→BN→ReLU顺序。
步骤4:训练
使用交叉熵损失,SGD with momentum,学习率衰减,权重衰减。
参数选择/优化
1. 网络深度:18, 34, 50, 101, 152层等
2. 残差块设计:basic block(两个3×3卷积)或bottleneck block(1×1降维,3×3卷积,1×1升维)
3. 初始化:He初始化
4. 优化器:SGD with momentum=0.9,权重衰减=0.0001
5. 学习率:初始0.1,每30个epoch除以10
6. 数据增强:随机裁剪、水平翻转、颜色抖动

精度:在ImageNet分类任务上,ResNet-152达到3.57% top-5错误率,首次超越人类水平(5.1%)
误差:交叉熵损失
强度:解决了深度网络梯度消失/爆炸问题,可训练极深网络(1000+层)

残差学习、梯度反向传播、深度网络优化、恒等映射、批量归一化

1. 图像分类:物体识别、场景分类
2. 目标检测:作为骨干网络提取特征(如Faster R-CNN)
3. 图像分割:语义分割、实例分割(如Mask R-CNN)
4. 人脸识别:提取人脸特征
5. 图像生成:作为生成对抗网络的判别器或编码器
6. 视频分析:视频分类、动作识别(3D ResNet)
7. 医学影像分析:病灶检测、分类
8. 自动驾驶:道路、车辆、行人检测
9. 图像超分辨率:作为重建网络
10. 风格迁移:作为特征提取器
特征
- 层次特征:浅层边缘纹理,中层部件,高层语义
- 残差特征:学习输入与输出的残差
- 多尺度特征:通过下采样获得不同尺度特征图

变量
x:输入特征图
F(x):残差函数
y:输出特征图
常量
L:网络总层数
C:阶段数
参数
卷积核权重、批量归一化参数、全连接层权重

集合特征:网络层集合,特征图通道集合
逻辑特征:残差连接的信息流动逻辑
概率与统计特征:批量归一化的统计量(均值、方差)
随机性:数据增强随机性,Dropout(若使用)
不确定性:模型预测的不确定性
数据规律和推断:通过多层非线性变换学习层次特征
极限:当深度→∞时的极限行为(理论上可训练)
连续性:特征图的连续性,激活函数的连续性
微分:通过反向传播计算梯度,残差连接缓解梯度消失
积分:网络可视为微分方程的离散化(ResNet与ODE联系)
级数:多个残差块堆叠构成级数
收敛性:训练损失收敛性,深度网络可收敛
测度:特征图的范数作为信息量的测度
离散:像素的离散性,网络层的离散性
排序:按特征响应排序区域
组合:残差块的组合,多尺度特征的组合
构造:通过残差学习构造深度特征表示
优化:最小化交叉熵损失,SGD with momentum
计算与算法特征:前向复杂度O(∑ l_i·c_i·k_i²·h_i·w_i),l_i为层数,c_i为通道数,k_i为核大小,h_i,w_i为特征图大小
稳定性:残差连接和批量归一化确保训练稳定
对称性/非对称性:卷积的平移等变性,网络结构对称(残差块重复)
代数:卷积运算,矩阵乘法(全连接),加法(残差)
拓扑:特征图空间的拓扑
几何:特征空间的几何,流形学习视角
:卷积的平移群等变性
组合数学特征:网络路径的组合(ResNet可视为路径集合)

主要用于视觉特征提取
文本需先转化为图像形式(如字符图像)
但通常不直接处理文本

时序流程(训练)
1. 数据加载与增强:t₀
- 加载图像批次,应用随机裁剪、水平翻转等增强。

2. 前向传播:t₁
a. 初始层:7×7卷积,BN,ReLU,最大池化。
b. 阶段1-4:每个阶段包含多个残差块。
对于每个残差块:
输入x。
路径1(残差函数F):卷积层序列(如Conv→BN→ReLU→Conv→BN),输出F(x)。
路径2(shortcut):若维度匹配,直接使用x;否则使用1×1卷积投影,得到W_s x。
输出y = ReLU(F(x) + shortcut(x))。
c. 全局平均池化:对最终特征图每个通道取平均。
d. 全连接层:将池化后的向量投影到类别数,得到logits。
e. Softmax:计算类别概率分布。

3. 损失计算:t₂
- 计算预测分布与真实标签的交叉熵损失。

4. 反向传播:t₃
- 计算梯度,通过残差连接梯度可直通底层,缓解消失。

5. 参数更新:t₄
- 使用SGD with momentum更新所有权重和BN参数。

推理流程:类似前向,去掉数据增强和Dropout(若使用),取softmax前logits或后概率。

服务器配置
GPU集群训练:ImageNet训练ResNet-50需8个V100 GPU约1天。更大规模数据集和更深网络需更多GPU和更长时间。可采用数据并行(同步BN)和混合精度训练加速。
分布式训练框架:使用PyTorch DDP、Horovod等。
在线推理服务:ResNet-50单张图像推理时间约5-10ms(GPU)。10亿级日请求(QPS约12万)需数百个GPU实例(如T4),配合模型压缩(如TensorRT优化、INT8量化)、批处理、异步处理。
计算需求:训练算力约10¹⁸ FLOPS。推理算力取决于图像分辨率和批次大小。
内存需求:模型参数约100MB(ResNet-50),特征图内存占用较大,需优化。

1. ResNet Variants:ResNeXt(分组卷积)、ResNet-D(改进下采样)、ResNet with SE blocks(注意力)
2. Pre-activation ResNet:BN和ReLU放在卷积前,性能更优
3. Wide ResNet:增加宽度而非深度
4. Stochastic Depth ResNet:训练时随机丢弃一些层,正则化
5. ResNet with Attention:集成注意力机制(如CBAM)
6. ResNet for Detection:FPN(特征金字塔网络)结合ResNet
7. ResNet for Segmentation:DeepLab系列(空洞卷积)
8. 3D ResNet:视频处理的3D卷积版本
9. ResNet with Adversarial Training:提升鲁棒性
10. EfficientNet:复合缩放深度、宽度、分辨率,基于ResNet思想

E-L1-0026

集成学习

梯度提升决策树

XGBoost (eXtreme Gradient Boosting)

步骤1:模型定义
集成K棵树:ŷi = ∑{k=1}^{K} f_k(x_i), f_k∈ℱ,其中ℱ是CART树空间。
步骤2:目标函数
Obj(θ) = ∑{i=1}^{n} L(y_i, ŷi) + ∑{k=1}^{K} Ω(f_k),其中Ω(f)=γT + (1/2)λ‖w‖²,T是叶子节点数,w是叶子权重。
步骤3:加法训练
第t轮迭代,添加一棵树f_t来最小化:Obj^{(t)} = ∑
{i=1}^{n} L(y_i, ŷi^{(t-1)} + f_t(x_i)) + Ω(f_t)。
步骤4:二阶泰勒展开
对损失函数进行二阶近似:Obj^{(t)} ≈ ∑
{i=1}^{n} [g_i f_t(x_i) + (1/2)h_i f_t²(x_i)] + Ω(f_t),其中g_i=∂{ŷ^{(t-1)}} L(y_i, ŷ^{(t-1)}), h_i=∂²{ŷ^{(t-1)}} L(y_i, ŷ^{(t-1)})。
步骤5:定义树结构
将样本按叶子节点分组,令I_j={i |q(x_i)=j}为属于叶子j的样本索引集。则目标函数改写为:Obj^{(t)} = ∑{j=1}^{T} [G_j w_j + (1/2)(H_j+λ)w_j²] + γT,其中G_j=∑{i∈I_j} g_i, H_j=∑{i∈I_j} h_i。
步骤6:最优叶子权重和结构得分
对于固定树结构q,最优叶子权重w_j* = -G_j/(H_j+λ),代入得结构得分:Obj* = -(1/2)∑
{j=1}^{T} G_j²/(H_j+λ) + γT。
步骤7:寻找最佳分裂
贪心算法:对每个特征,按特征值排序,遍历可能的分裂点,计算分裂后的增益:Gain = (1/2)[G_L²/(H_L+λ) + G_R²/(H_R+λ) - (G_L+G_R)²/(H_L+H_R+λ)] - γ,选择增益最大的分裂。
步骤8:剪枝
当增益小于阈值(如负值)或达到最大深度时停止分裂。
参数选择/优化
1. 树的数量(n_estimators):通常100-1000
2. 学习率(eta):通常0.01-0.3
3. 树的最大深度(max_depth):通常3-10
4. 正则化参数:γ(min_split_loss)通常0,λ(reg_lambda)通常1
5. 子采样比例(subsample):通常0.5-1
6. 列采样比例(colsample_bytree):通常0.5-1

精度:在众多表格数据竞赛(如Kaggle)中表现优异,常作为首选模型之一
误差:取决于损失函数(如回归用平方误差,分类用对数损失)
强度:处理异构特征、缺失值,可解释性较好,不易过拟合(带正则)

梯度提升、决策树、加法模型、泰勒展开、正则化

1. 点击率预测:广告点击、商品点击预测
2. 推荐系统:排序模型,预测用户对物品的偏好
3. 风控模型:信用评分、欺诈检测
4. 用户流失预测:预测用户流失概率
5. 销售预测:零售销量预测
6. 异常检测:识别异常交易或行为
7. 特征选择:通过特征重要性评估特征
8. 多分类问题:手写数字识别、图像分类(与CNN结合)
9. 时间序列预测:作为回归模型预测未来值
10. 医学诊断:疾病风险预测
特征
- 非线性特征:树模型捕获非线性交互
- 特征重要性:基于增益或覆盖度评估特征重要性
- 鲁棒性:对异常值和缺失值不敏感

变量
ŷ_i:样本i的预测值
f_k:第k棵树
g_i, h_i:损失函数的一阶和二阶梯度
w_j:叶子j的权重
常量
n:样本数
K:树的数量
参数
学习率η
最大深度max_depth
正则化参数γ, λ
子采样比例subsample

集合特征:树集合,叶子节点集合,样本索引集I_j
逻辑特征:决策树的逻辑分裂规则
概率与统计特征:预测值的概率解释(如逻辑回归输出概率)
随机性:子采样、列采样的随机性
不确定性:预测的不确定性(可通过类似MCMC dropout近似)
数据规律和推断:通过梯度提升逐步拟合残差
极限:当K→∞,η→0时的极限行为(与梯度流相关)
连续性:预测函数的分段连续性(树模型)
微分:损失函数的一阶和二阶梯度
积分:目标函数对样本的求和(离散积分)
级数:加法模型的级数展开
收敛性:梯度提升的收敛性
测度:特征重要性作为特征贡献的测度
离散:决策树的分裂点是离散的
排序:按特征值排序以寻找最佳分裂
组合:多棵树的组合预测
构造:通过贪心分裂构造树
优化:最小化带正则的目标函数
计算与算法特征:时间复杂度O(K·d·n log n),d为特征数,n为样本数
稳定性:正则化和子采样提升稳定性,减少过拟合
对称性/非对称性:树模型不对称,对特征缩放不变
代数:梯度计算,权重更新
拓扑:特征空间的划分拓扑
几何:特征空间被划分为超矩形
:对样本索引的置换不变性
组合数学特征:特征分裂点的组合,树结构的组合

可处理数值和类别特征(需编码)
文本特征需转化为数值(如TF-IDF)
模型本身不直接处理原始文本

时序流程(训练)
1. 初始化:t₀
- 初始化预测值(如对于平方损失,初始化为均值)。

2. 迭代训练:for t=1 to K
a. 计算梯度:t₁
- 计算每个样本的一阶梯度g_i和二阶梯度h_i。
b. 构建一棵树:t₂
- 根据当前样本权重(或子采样)选择样本子集。
- 根据列采样选择特征子集。
- 从根节点开始,递归寻找最佳分裂:
for each feature in 特征子集:
将样本按该特征值排序。
遍历可能的分裂点,计算分裂后的增益Gain。
选择增益最大的(特征,分裂点)。
如果最大增益>γ,则分裂,否则成为叶子节点。
递归直到达到最大深度或无法分裂。
- 确定叶子节点权重:w_j* = -G_j/(H_j+λ)。
c. 更新模型:t₃
- 更新预测:ŷi = ŷi + η·f_t(x_i)。

3. 输出模型:t₄
- 得到K棵树的集合。

预测流程
- 对于新样本x,遍历每棵树,根据分裂规则落到叶子节点,得到该树的输出w,将所有树的输出加权求和(乘以学习率η)得到最终预测。

服务器配置
分布式CPU集群:XGBoost原生支持分布式训练(如Spark、Dask)。处理10亿样本、数百特征,需数百个CPU节点,每个节点32-64核心、128-256GB内存。通过数据分片和特征并行加速。
GPU加速:XGBoost支持GPU训练,利用GPU并行计算梯度和寻找分裂点。需16-64张NVIDIA A100 GPU,内存需容纳数据和模型。
在线推理服务:树模型推理极快(微秒级)。10亿级QPS需数千个CPU实例,但可通过模型压缩(如剪枝)和缓存优化。通常部署在CPU服务器上,每个实例可处理数万QPS。
计算需求:训练复杂度与样本数、特征数、树深度和树数量成正比。大规模数据需TB级内存和数百TFLOPS算力。
内存需求:需存储样本数据和中间梯度。10亿样本100特征8字节 ≈ 800GB,加上索引和开销,需数TB内存。

1. LightGBM:基于直方图的算法,支持类别特征,更快更低内存
2. CatBoost:自动处理类别特征,减少过拟合
3. HistGradientBoosting (sklearn):直方图梯度提升
4. XGBoost with Dart:引入Dropout,减少过拟合
5. XGBoost with Linear Booster:线性模型作为基学习器
6. XGBoost for Ranking:支持LambdaMART排序损失
7. XGBoost with GPU:GPU加速实现
8. XGBoost with Quantization:量化压缩模型
9. XGBoost with Monotonic Constraints:加入单调性约束
10. XGBoost for Time Series:结合时间特征和滞后变量

E-L1-0027

集成学习

基于直方图的梯度提升框架

LightGBM (Light Gradient Boosting Machine)

步骤1:直方图算法
将连续特征离散化为k个桶(如255),构建直方图。在寻找分裂点时,遍历直方图桶而非原始数据,计算桶内梯度和(G, H)以评估分裂增益。
步骤2:梯度单边采样(GOSS)
在计算梯度时,保留梯度绝对值大的样本(top a%),随机采样梯度小的样本(b%),并对小梯度样本的梯度乘以常数(1-a)/b以补偿。
步骤3:互斥特征捆绑(EFB)
将互斥的特征(很少同时非零)捆绑为一个特征,减少特征维度。通过图着色算法寻找最小捆绑数。
**步骤4:树生长策略 - 叶子生长(

编号

类别

模型配方

算法/模型/方法名称

算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化

精度/密度/误差/强度

底层规律/理论定理

典型应用场景【10个场景】和各类特征

变量/常量/参数列表及说明

数学特征

语言特征

时序和交互流程的所有细节/分步骤时序情况及数学方程式

10亿级并发下的服务器性能与规模需求

配套优化算法列表

E-L1-0028

深度异常检测

深度单类分类

Deep SVDD (Deep Support Vector Data Description)

步骤1:目标函数
最小化超球体积,将正常数据映射到球心c附近:
min{𝒲} (1/n)∑{i=1}^{n} ‖ϕ(x_i;𝒲)-c‖² + (λ/2)∑{l=1}^{L} ‖W^l‖
其中ϕ(·;𝒲)是神经网络映射,c是球心(可固定或学习),λ是权重衰减参数。
步骤2:网络架构
使用深度神经网络(如多层全连接或卷积网络)作为映射函数ϕ。
步骤3:球心初始化
通常c初始化为网络在初始批次数据上输出的均值,或在训练中保持固定。
步骤4:异常评分
样本x的异常分数为距球心的距离:s(x)=‖ϕ(x;𝒲)-c‖²,越大越异常。
步骤5:训练
使用正常数据训练,通过反向传播最小化目标函数。
参数选择/优化
1. 网络结构:层数、隐藏单元数,根据数据复杂度选择
2. 球心c:固定为初始均值或作为可学习参数
3. 权重衰减λ:控制模型复杂度,防止过拟合
4. 优化器:Adam,学习率通常1e-3~1e-4
5. 批次大小:通常64~256

精度:在多个异常检测基准数据集上优于传统单类分类方法(如OC-SVM)
误差:重构误差或距离误差
强度:能够学习正常数据的复杂分布边界

单类分类、支持向量数据描述、深度表示学习、最小体积超球

1. 欺诈检测:识别异常金融交易
2. 网络入侵检测:发现异常网络流量
3. 工业异常检测:识别产品缺陷或机器故障
4. 医疗异常:检测罕见疾病或异常影像
5. 视频监控异常:发现异常行为事件
6. 社交机器人检测:识别异常用户行为模式
7. 虚假新闻检测:识别与正常新闻模式不符的内容
8. 系统日志异常:从日志中发现系统故障
9. 传感器异常:检测IoT传感器异常读数
10. 生物特征防伪:检测伪造指纹、人脸等
特征
- 深度特征:通过网络学习的高层抽象特征
- 距离特征:样本到正常模式中心的距离
- 分布特征:正常数据的紧凑分布表示

变量
x_i:输入样本
ϕ(x_i;𝒲):网络映射输出
c:超球球心
s(x):异常分数
常量
n:训练样本数
L:网络层数
参数
网络权重𝒲={W^l}
球心c(若可学)
权重衰减系数λ

集合特征:正常样本集,超球空间
逻辑特征:异常判定的逻辑(距离阈值)
概率与统计特征:距离的分布,可视为一种密度估计
随机性:权重初始化,批次采样
不确定性:异常阈值选择的不确定性
数据规律和推断:正常数据在表示空间中的聚类性
极限:当网络宽度→∞时的表示能力极限
连续性:网络映射的连续性,距离函数的连续性
微分:通过反向传播计算梯度
积分:目标函数对样本的求和(离散积分)
级数:网络的多层变换构成级数
收敛性:训练损失收敛性
测度:欧氏距离作为异常测度
离散:样本的离散性
排序:按异常分数排序样本
组合:网络各层的组合表示
构造:通过最小化体积构造正常区域
优化:最小化平均距离和权重衰减
计算与算法特征:时间复杂度O(n·网络前向计算成本)
稳定性:对正常数据分布敏感,需足够代表性数据
对称性/非对称性:距离度量的对称性
代数:向量范数,矩阵Frobenius范数
拓扑:表示空间的拓扑,超球的拓扑
几何:超球几何,样本在表示空间的几何分布
:对样本顺序的置换不变性
组合数学特征:网络路径的组合

可处理文本、图像、序列等多种模态数据,需先转化为向量
异常检测任务本身不直接处理语言,但可应用于文本异常

时序流程
1. 初始化:t₀
- 初始化网络权重𝒲(如Xavier初始化)。
- 用初始批次数据前向传播,计算输出均值,初始化为球心c。

2. 训练循环:for epoch=1 to max_epochs
a. 数据加载:t₁
- 加载一个批次的正常数据{x_i}。
b. 前向传播:t₂
- 计算网络映射:z_i = ϕ(x_i;𝒲)。
- 计算距离:d_i = ‖z_i - c‖²。
- 计算目标函数:L = (1/m)∑i d_i + (λ/2)∑l ‖W^l‖_F²。
c. 反向传播与更新:t₃
- 计算梯度∂L/∂𝒲,更新网络权重𝒲(若c可学,也更新c)。

3. 异常评分:t₄
- 对新样本x,计算s(x)=‖ϕ(x;𝒲)-c‖²。

交互流程
- 网络将样本映射到表示空间,目标是使所有正常样本靠近球心c。

服务器配置
GPU训练集群:Deep SVDD训练需处理大量正常样本。对于十亿级样本,需16-64张NVIDIA A100 GPU,利用数据并行。网络通常不深,计算开销主要在前向传播和距离计算。
在线推理服务:单次推理包括一次网络前向和一次距离计算,延迟低(ms级)。10亿级日检测量(QPS约12万)需数百个GPU/CPU实例。模型较小,可轻松部署在边缘设备。
计算需求:训练复杂度取决于样本数和网络大小。十亿样本训练需算力约10-100 PFLOPS·天。
内存需求:需存储正常样本用于训练,以及模型参数。模型参数通常MB级别。

1. Deep One-Class Classification:结合自编码器重构误差和SVDD距离的变体
2. Anomaly Detection with Generative Adversarial Networks (GAN):使用GAN的鉴别器分数或重构误差作为异常分数
3. Efficient Deep Anomaly Detection (EfficientAD):结合教师-学生网络和自集成,提升效率
4. Self-Supervised Deep One-Class Classification:利用自监督任务学习更佳表示
5. Deep SVDD with Negative Samples:在有少量异常样本时使用
6. Robust Deep SVDD:对污染数据(含异常)的鲁棒版本
7. Deep SVDD for Time Series:结合循环或时间卷积网络
8. Multi-modal Deep SVDD:处理多模态数据(如图文)
9. Online Deep SVDD:支持流式数据,增量更新球心c和网络
10. Deep SVDD with Attention:引入注意力机制,聚焦关键特征

E-L1-0029

自监督学习

视觉对比学习框架

SimCLR (A Simple Framework for Contrastive Learning)

步骤1:数据增强
对每个样本x,随机应用两次独立增强t~T, t'~T,得到两个相关视图x̃i, x̃j。增强包括:随机裁剪、颜色失真、高斯模糊等。
步骤2:编码器
使用基础编码器f(·)(如ResNet)提取表示向量:h_i = f(x̃i), h_j = f(x̃j)。
步骤3:投影头
通过小型MLP投影头g(·)映射到对比损失空间:z_i = g(h_i), z_j = g(h_j),并对z进行L2归一化。
步骤4:对比损失(NT-Xent)
对于批次中N个样本产生的2N个增强视图,定义正样本对为来自同一原始样本的两个视图,负样本对为来自不同样本的视图。对于正样本对(i,j),损失为:
{i,j} = -log[exp(sim(z_i, z_j)/τ) / ∑{k=1}^{2N} 𝟙{[k≠i]} exp(sim(z_i, z_k)/τ)]
其中sim(u,v)=uᵀv是余弦相似度,τ是温度参数。最终损失是所有正对的平均:ℒ = (1/2N)∑
{k=1}^{N}[ℓ{2k-1,2k} + ℓ{2k,2k-1}]。
步骤5:下游任务
预训练后,丢弃投影头g,使用编码器f提取的特征进行线性评估或微调。
参数选择/优化
1. 批次大小N:越大越好,通常512~4096,提供更多负样本
2. 温度τ:调节softmax的尖锐程度,通常0.1~0.5,需调参
3. 编码器f:常用ResNet-50
4. 投影头g:MLP,通常一层或两层,输出维度128~512
5. 优化器:LARS或AdamW,大学习率,余弦衰减
6. 增强组合:随机裁剪+颜色抖动+高斯模糊是关键

精度:在ImageNet线性评估上,SimCLR v2 (ResNet-152) 达到79.8% top-1,接近有监督监督学习性能
误差:对比损失(InfoNCE loss)
强度:学习到可转移的视觉表示,无需人工标注,对增强组合敏感

对比学习、不变性原理、InfoNCE损失、数据增强不变性、表示学习

1. 图像分类:预训练编码器,用于下游图像分类任务
2. 目标检测:预训练骨干网络,提升检测性能
3. 图像分割:预训练编码器,用于语义/实例分割
4. 图像检索:学习图像的紧凑表示,用于相似性搜索
5. 异常检测:正常样本表示紧凑,异常样本表示远离
6. 多模态学习:可与文本结合进行跨模态对比学习
7. 医学影像分析:解决医疗数据标注稀缺问题
8. 视频理解:扩展到时序,学习视频片段表示
9. 自监督语音:应用于音频波形或谱图
10. 图表示学习:类比应用于图数据
特征
- 视觉特征:颜色、纹理、形状等
- 不变性特征:对预设增强变换的不变性
- 区分性特征:不同样本间的可区分性

变量
x:原始图像样本
i, x̃j:增强后的视图
h:编码器输出表示
z:投影头输出表示(归一化后)
常量
N:批次大小(原始样本数)
d:投影表示的维度
参数
编码器参数θ_f
投影头参数θ_g
温度参数τ

集合特征:批次样本集,正负样本对集合
逻辑特征:正负样本对的逻辑区分
概率与统计特征:softmax计算的条件概率,InfoNCE与互信息下界的关系
随机性:数据增强的随机性,批次采样随机性
不确定性:表示学习的不确定性
数据规律和推断:通过数据增强定义不变性,学习不变表示
极限:当N→∞,τ→0时的极限行为
连续性:编码函数和相似度函数的连续性
微分:对比损失的梯度计算
积分:softmax分母的求和(离散积分)
级数:损失函数中对批次的求和
收敛性:训练损失收敛性
测度:余弦相似度作为表示相似性测度
离散:批次的离散性
排序:按相似度排序样本
组合:数据增强的组合,正负样本的组合
构造:通过对比学习构造表示空间
优化:最小化InfoNCE损失
计算与算法特征:时间复杂度O(N²·d),N大时计算开销大
稳定性:大批次和温度参数对稳定性重要
对称性/非对称性:损失函数对称,增强可能不对称
代数:矩阵乘法、softmax运算、归一化
拓扑:表示空间的拓扑
几何:表示在超球面上的几何(L2归一化后)
:对样本和增强的变换群(数据增强定义)
组合数学特征:批次内正负样本对的组合

核心是视觉表示学习
文本可类比应用于NLP(如SimCSE)
不直接处理语言,但学习的表示可用于多模态任务

时序流程
1. 数据加载与增强:t₀
- 加载一个批次N个原始图像{x_1,...,x_N}。
- 对每个x_k,应用两次独立的随机增强t∼T, t'∼T,得到x̃{2k-1}=t(x_k), x̃{2k}=t'(x_k)。形成2N个增强视图。

2. 编码与投影:t₁
- 用编码器f_θ计算表示:h_i = f_θ(x̃i)。
- 用投影头g_φ计算对比表示:z_i = g_φ(h_i)。
- 对z_i进行L2归一化。

3. 计算相似度矩阵:t₂
- 计算所有归一化z_i之间的余弦相似度矩阵S∈ℝ^{2N×2N},其中s
{ij}=z_iᵀz_j。

4. 计算对比损失:t₃
- 对每个正样本对(i, j)(即来自同一原始样本的两个视图),计算损失:
{i,j} = -log[ exp(s{ij}/τ) / (∑{k=1}^{2N} 𝟙{[k≠i]} exp(s{ik}/τ)) ]
- 总损失:ℒ = (1/(2N)) ∑
{k=1}^{N} (ℓ{2k-1,2k} + ℓ{2k,2k-1})

5. 反向传播与更新:t₄
- 计算梯度∇θℒ, ∇φℒ,更新参数θ, φ。

下游任务使用
- 丢弃投影头g,用编码器f提取特征,接一个线性分类器(线性评估)或微调整个网络。

服务器配置
大规模TPU/GPU集群:SimCLR原文在TPU v3上训练,使用4096的批次大小。同等规模需128-512个TPU核心或128-256张NVIDIA A100 GPU,通过AllReduce同步梯度。内存需存储超大批次数据和模型。
分布式训练框架:使用PyTorch DDP、Horovod或JAX/Flax。需注意大批次下的梯度同步和数值稳定性。
在线推理服务:编码器推理与标准ResNet相同,单张图像约5-10ms(GPU)。下游任务部署时,10亿级日请求需数百个GPU实例。
计算需求:对比损失计算O(N²)是瓶颈。预训练ImageNet需算力约1-10 PFLOPS·天。
存储需求:ImageNet级别数据集约100GB。更大数据集需TB级存储。
优化:需梯度累积、混合精度训练、LARS优化器处理大批次。

1. MoCo (Momentum Contrast):引入动量编码器和队列,解耦批次大小与负样本数量
2. BYOL (Bootstrap Your Own Latent):无需负样本,通过预测目标网络进行学习
3. SwAV (Swapping Assignments between Views):在线聚类,交换预测码
4. Barlow Twins:减少跨增强视图表示的相关性,无需负样本
5. DINO:自蒸馏,学生网络匹配教师网络的输出分布
6. VICReg (Variance-Invariance-Covariance Regularization):对表示施加方差、协方差和不变性约束
7. SimSiam:简单的孪生网络,无需负样本、动量编码器、大批次
8. NNCLR:使用近邻作为正样本
9. ReSSL:重加权自监督对比学习
10. Masked Autoencoders (MAE):掩码自编码,另一类自监督方法

E-L1-0030

多模态学习

对比语言-图像预训练

CLIP (Contrastive Language-Image Pre-training)

步骤1:双编码器架构
图像编码器(如ViT、ResNet)和文本编码器(如Transformer),分别将图像I和文本T映射到共享的d维向量空间:v_I = f_I(I), v_T = f_T(T)。对特征进行L2归一化。
步骤2:对比预训练目标
给定一个批次N个(图像,文本)对,计算相似度矩阵S∈ℝ^{N×N},其中S{i,j} = v_I_i · v_T_j / τ,τ为可学习的温度参数。
目标函数为对称的交叉熵损失:
I = (1/N)∑{i=1}^{N} -log[exp(S{i,i}/τ) / ∑{j=1}^{N} exp(S{i,j}/τ)]
T = (1/N)∑{j=1}^{N} -log[exp(S{j,j}/τ) / ∑{i=1}^{N} exp(S{i,j}/τ)]
总损失:ℒ = (ℒ
I + ℒ_T)/2
步骤3:从自然语言监督中学习
使用网络上收集的海量(图像,描述文本)对进行训练,使模型学习到丰富的视觉概念和语义。
步骤4:零样本预测
对于分类任务,将类别名称构造成描述文本(如“一张{类别}的照片”),计算图像特征与所有类别文本特征的相似度,取最高者作为预测类别。
参数选择/优化
1. 图像编码器:ViT-B/32, ViT-B/16, ViT-L/14等
2. 文本编码器:Transformer,宽度与图像编码器匹配
3. 温度参数τ:可学习或固定
4. 批次大小N:非常大,如32768,以利用大量负样本
5. 优化器:AdamW,余弦学习率衰减

精度:在多个图像分类、检索数据集上实现强大的零样本性能,无需下游数据训练
误差:对比损失(InfoNCE loss)
强度:打破传统分类范式,实现开放世界的视觉概念理解和零样本迁移

对比学习、多模态表示学习、自监督学习、双编码器架构、从自然语言监督中学习

1. 零样本图像分类:无需训练,直接对新类别图像分类
2. 图像-文本检索:用文本搜索图像,或用图像搜索文本
3. 内容安全过滤:识别违规、敏感图文内容
4. 自动标注:为图像生成描述性标签或标题
5. 视觉问答:结合VQA模型,回答关于图像的问题
6. 多模态推荐:结合用户图文历史进行推荐
7. 虚假信息检测:检测图文不一致的虚假内容
8. 创意内容生成:引导文生图模型(如DALL-E)
9. 无障碍技术:为视障用户描述图像内容
10. 电商搜索:用自然语言搜索商品图片
特征
- 视觉特征:图像编码器提取的全局/局部特征
- 文本特征:文本编码器提取的语义特征
- 多模态对齐特征:图文在共享空间的对应关系

变量
I_i:第i张图像
T_i:第i段文本
v_I_i:图像特征向量(归一化)
v_T_i:文本特征向量(归一化)
S:相似度矩阵
常量
N:批次大小
d:共享嵌入空间的维度
参数
图像编码器参数θ_I
文本编码器参数θ_T
温度参数τ

集合特征:图像集、文本集、(图像,文本)对集合
逻辑特征:正负样本对的逻辑关系
概率与统计特征:softmax计算的条件概率
随机性:数据采样随机性,Dropout
不确定性:零样本预测的置信度
数据规律和推断:图文对齐的统计规律
极限:当数据量→∞时的表示能力极限
连续性:编码空间的连续性
微分:对比损失的梯度计算
积分:softmax分母的求和(离散积分)
级数:损失函数中的求和
收敛性:预训练损失收敛性
测度:余弦相似度作为跨模态相似性测度
离散:批次的离散性
排序:按相似度排序图像或文本
组合:多模态信息的组合对齐
构造:通过对比学习构造对齐空间
优化:最小化对比损失
计算与算法特征:时间复杂度O(N²·d),N很大
稳定性:大批次和温度参数对训练稳定性关键
对称性/非对称性:损失函数对称
代数:矩阵乘法、softmax运算
拓扑:共享嵌入空间的拓扑
几何:图像和文本特征在球面上的几何(归一化后)
:对批次内样本的置换不变性
组合数学特征:批次内正负样本的组合

核心是多模态(视觉+语言)理解
文本编码器处理自然语言描述
强大的零样本语义泛化能力

时序流程(预训练)
1. 数据加载:t₀
- 加载一个批次的N个(图像I_i,文本T_i)对。

2. 编码:t₁
- 图像编码:v_I_i = normalize(f_I(I_i))
- 文本编码:v_T_i = normalize(f_T(T_i))

3. 计算相似度矩阵:t₂
- S = [s{ij}],其中s{ij} = v_I_i · v_T_j / τ

4. 计算对比损失:t₃
- 图像到文本损失:ℒi2t(i) = -log[exp(s{ii}) / ∑j exp(s{ij})]
- 文本到图像损失:ℒt2i(i) = -log[exp(s{ii}) / ∑j exp(s{ji})]
- 批次平均:ℒ = (1/(2N)) ∑{i=1}^{N} [ℒi2t(i) + ℒ_t2i(i)]

5. 反向传播与更新:t₄
- 计算梯度,更新θ_I, θ_T, τ。

零样本推理流程
1. 准备类别文本提示,如{“一张狗的照片”, “一张猫的照片”, ...},得到文本特征集T。
2. 编码待分类图像,得到图像特征v_I。
3. 计算v_I与T中每个文本特征的相似度。
4. 预测类别为相似度最高的文本提示对应的类别。

服务器配置
超大规模多GPU/TPU集群:预训练需在数亿图文对上训练大型ViT/ResNet和Transformer,需256-1024张NVIDIA A100/H100或TPU v3/v4,通过高速互联。内存需存储数十亿参数和超大批次。
分布式训练框架:使用DeepSpeed、FairScale等,结合数据并行、模型并行(将编码器分层)和梯度累积。
推理服务集群:图像和文本编码可分离部署。单张A100 GPU编码一张图像约需10-50ms。10亿级图文检索/过滤需求,需数百至上千张GPU组成编码和检索集群,配合向量数据库(如Milvus)。
计算需求:预训练计算量巨大,需算力1-10 EFLOPS·天。
存储需求:训练数据(图文对)达数十TB级别。

1. ALIGN:使用更大量的噪声网络数据训练
2. LiT:锁定图像塔,仅微调文本塔,实现零样本迁移
3. BLIP/BLIP-2:统一的视觉-语言理解和生成模型
4. FLAVA:统一的多模态预训练模型,处理单模、多模任务
5. CoCa:对比学习与生成目标结合
6. DeCLIP:通过自蒸馏、跨模态蒸馏等提高数据效率
7. SLIP:结合CLIP和视觉自监督学习(SimCLR)
8. CyCLIP:通过循环一致性改进对齐
9. RegionCLIP:学习图像区域与文本短语的对齐
10. Chinese CLIP:针对中文优化的CLIP模型

E-L1-0031

可解释性AI

局部可解释模型-无关解释

LIME (Local Interpretable Model-agnostic Explanations)

步骤1:样本扰动
对于要解释的样本x(如一个文本或图像),在其周围生成一组扰动样本{z_1, z_2, ..., z_m}。对于文本,可通过随机移除单词;对于图像,通过随机屏蔽超像素。
步骤2:预测
使用待解释的复杂模型f(黑盒)对这些扰动样本进行预测,得到预测值f(z_i)。
步骤3:样本加权
根据扰动样本z_i与原始样本x的相似度计算权重π_x(z_i),通常使用指数核:π_x(z) = exp(-D(x,z)²/σ²),其中D是距离度量(如L2距离或文本的余弦距离),σ是宽度参数。
步骤4:拟合可解释模型
在扰动样本集上,拟合一个简单的可解释模型g(如线性回归、决策树),目标是最小化加权损失:
argmin{g∈G} ∑{i=1}^{m} π_x(z_i) (f(z_i) - g(z_i))² + Ω(g)
其中Ω(g)是模型复杂度正则项(如线性模型的L2正则,决策树的深度限制),G是可解释模型族。
步骤5:解释
通过可解释模型g的系数或规则来解释原始样本x的预测。对于线性模型,特征系数大小和符号表示特征对预测的贡献方向和强度。
参数选择/优化
1. 扰动数量m:通常1000~10000,越多解释越稳定
2. 相似度核宽度σ:控制局部性,需调参
3. 距离度量D:根据数据类型选择(L2、余弦等)
4. 可解释模型g:常用线性回归或决策树,需简单
5. 正则化强度:控制可解释模型的复杂度

精度:通过局部拟合的忠实度(fidelity)衡量,即g在局部近似f的好坏
误差:加权均方误差
强度:模型无关,适用于任何黑盒模型,提供局部可解释性

局部近似、可解释性、扰动分析、加权限回归、模型诊断

1. 信用评分解释:解释为何拒绝某人的贷款申请
2. 医疗诊断解释:解释模型为何预测某患者有疾病
3. 推荐系统解释:解释为何推荐某个商品给用户
4. 自动驾驶决策解释:解释为何车辆做出特定决策
5. 内容审核解释:解释为何将某帖子标记为违规
6. 欺诈检测解释:解释为何将某交易标记为欺诈
7. 图像分类解释:突出对分类重要的图像区域
8. 文本分类解释:突出对分类重要的词汇
9. 模型调试:识别模型依赖的虚假特征
10. 合规与审计:满足监管对AI决策解释的要求
特征
- 局部特征:关注单个预测周围的局部区域
- 特征重要性:通过可解释模型的系数量化特征贡献
- 模型无关性:不依赖于黑盒模型内部结构

变量
x:待解释的样本
z_i:扰动样本
f(z_i):黑盒模型对z_i的预测
g:可解释模型
π_x(z_i):样本权重
常量
m:扰动样本数
σ:核宽度
参数
可解释模型g的参数(如线性系数)
正则化参数

集合特征:扰动样本集,特征集
逻辑特征:可解释模型(如决策树)的逻辑规则
概率与统计特征:加权回归,系数估计的统计显著性
随机性:扰动生成的随机性
不确定性:解释的稳定性(不同扰动集可能导致不同解释)
数据规律和推断:黑盒模型在局部可能近似线性
极限:当m→∞,σ→0时,g在x处收敛于f的局部线性近似
连续性:预测函数f的连续性(假设)
微分:可视为对f的数值微分近似
积分:加权损失的求和(离散积分)
级数:扰动样本的求和
收敛性:加权回归的收敛性
测度:相似度权重作为局部性的测度
离散:扰动样本的离散性,特征的离散性
排序:按特征重要性(系数绝对值)排序特征
组合:多个扰动样本的组合信息
构造:通过加权回归构造局部近似
优化:最小化加权损失加正则化
计算与算法特征:时间复杂度O(m·(黑盒预测成本 + 拟合g的成本))
稳定性:解释可能对扰动敏感,需多次运行取平均
对称性/非对称性:依赖于距离度量D的对称性
代数:加权最小二乘求解,距离计算
拓扑:样本空间的局部拓扑
几何:在黑盒函数f的图像上的局部切平面近似
:对特征顺序的置换(若使用袋模型)
组合数学特征:特征子集的组合(对于稀疏线性模型)

可直接处理文本,通过扰动词袋表示
为文本分类提供词汇级解释
支持多语言文本

时序流程
1. 输入:t₀
- 待解释样本x,黑盒模型f。

2. 生成扰动样本:t₁
- 在x周围生成m个扰动样本{z_i}。对于文本,通过随机将某些词置为零(删除);对于图像,通过随机将某些超像素置为平均色。

3. 获取黑盒预测:t₂
- 对每个z_i,计算f(z_i)。(可能需要调用黑盒API)

4. 计算相似度权重:t₃
- 对每个z_i,计算与x的距离D(x, z_i),进而计算权重π_x(z_i)=exp(-D²/σ²)。

5. 拟合可解释模型:t₄
- 将扰动样本表示转换为可解释特征(如文本的词袋,图像的超像素存在指示向量)。
- 在数据集{(可解释特征(z_i), f(z_i))}上,以π_x(z_i)为权重,拟合可解释模型g(如线性回归)。
- 求解:β* = argmin_β ∑_i π_x(z_i) (f(z_i) - β·z_i')² + λ‖β‖²,其中z_i'是可解释特征。

6. 解释:t₅
- 对于线性模型,特征j的系数β_j表示该特征对预测f(x)的贡献。可视化前k个最重要特征。

交互流程
- 用户提供样本x,LIME通过扰动和拟合,返回一个局部近似模型g及其系数作为解释。

服务器配置
分布式计算集群:LIME需要生成大量扰动样本并调用黑盒模型预测,计算密集。对于10亿级用户请求解释,需采用分布式任务队列(如Celery+Redis)和数百个CPU/GPU工作节点。每个解释请求独立,可水平扩展。
黑盒模型服务化:黑盒模型f需部署为高性能推理服务(如TensorFlow Serving)。LIME工作节点通过RPC调用获取f(z_i)。需确保低延迟和高吞吐。
缓存优化:相似的解释请求可缓存结果。扰动样本生成可预计算或复用。
计算需求:单个解释需m次黑盒预测和一次加权回归拟合。m通常1000-10000。10亿QPS不可能,但实际解释需求远低于预测需求。假设每日1000万次解释请求,需约1000个CPU节点并行处理。
内存需求:需存储扰动样本和中间预测值,内存需求适中。

1. SHAP (SHapley Additive exPlanations):基于博弈论Shapley值,提供一致的特征归因
2. Anchors:生成if-then规则解释,保证高精度
3. LIME for Time Series:针对时间序列数据的变体
4. Bayesian LIME:提供解释的不确定性估计
5. LIME with Submodular Pick:选取一组有代表性的解释
6. LIME for Graph Data:解释图神经网络的预测
7. LIME with Counterfactuals:生成反事实解释
8. LIME with Stability Selection:提高解释的稳定性
9. LIME for Reinforcement Learning:解释RL策略
10. Integrated Gradients:另一种基于梯度的特征归因方法,适用于深度学习

E-L1-0032

强化学习

异步优势演员-评论家

A3C (Asynchronous Advantage Actor-Critic)

步骤1:网络架构
共享的神经网络,输出两个头:
1. 策略头π(a|s;θ):输出动作概率分布(离散)或参数(连续)。
2. 价值头V(s;θ):输出状态价值估计。
步骤2:异步并行
多个actor-learner线程并行运行,每个线程有自己的环境副本和网络参数副本。线程间异步更新全局共享的网络参数。
步骤3:前进步骤
每个线程运行策略π,在环境中执行最多t_max步,收集经验轨迹(s_t, a_t, r_t, s{t+1})。
步骤4:计算优势
对于轨迹中每个状态s_t,计算n步回报:R_t = ∑
{k=0}^{n-1} γ^k r{t+k} + γ^n V(s{t+n};θ),其中n≤t_max,若s{t+n}是终止状态,则最后一项为0。
优势估计:A(s_t, a_t) = R_t - V(s_t;θ)。
步骤5:损失函数
1. 策略损失(带熵正则):ℒ
π = -∑t log π(a_t|s_t;θ) A(s_t, a_t) - β∑t H(π(·|s_t;θ)),其中H是熵,β是熵系数。
2. 价值损失:ℒV = ∑t (R_t - V(s_t;θ))²。
总损失:ℒ = ℒπ + αℒV,α是价值损失系数。
步骤6:异步更新
每个线程计算损失梯度,异步更新全局共享参数θ(无锁)。然后线程用新全局参数更新自己的本地参数,继续收集经验。
参数选择/优化
1. 线程数:通常16~32
2. t_max(前进步数):通常5~20
3. 折扣因子γ:通常0.99
4. 熵系数β:鼓励探索,可随时间衰减
5. 价值损失系数α:通常0.5~1
6. 优化器:共享的RMSProp或Adam,学习率通常1e-4~7e-4

精度:在多种Atari游戏和连续控制任务上达到或超越DQN、A2C等算法,样本效率高
误差:策略梯度的方差,价值函数的时序差分误差
强度:无需经验回放,支持在线学习,可并行加速

策略梯度定理、优势函数、演员-评论家架构、异步并行优化、n步回报

1. 游戏AI:训练智能体玩Atari游戏、棋牌游戏
2. 机器人控制:连续控制机器人运动、操作
3. 自动驾驶:在模拟环境中学习驾驶策略
4. 资源管理:动态分配计算、网络资源
5. 推荐系统:学习长期用户参与度的推荐策略
6. 对话系统:学习多轮对话策略
7. 金融交易:学习股票、加密货币交易策略
8. 网络配置:优化网络路由、拥塞控制
9. 广告竞价:实时调整广告出价策略
10. 实验设计:自适应选择实验方案
特征
- 状态特征:环境观测的表示(图像、向量)
- 动作特征:离散或连续动作空间
- 时序特征:n步回报捕获多步奖励

变量
s_t:状态
a_t:动作
r_t:奖励
π(a|s;θ):参数化策略
V(s;θ):价值函数
A(s,a):优势函数
常量
γ:折扣因子
t_max:前进步数
参数
全局共享网络参数θ
熵系数β
价值损失系数α

集合特征:状态空间,动作空间,线程集合
逻辑特征:策略的条件概率分布
概率与统计特征:策略分布,回报的期望,优势的估计
随机性:策略的随机性,环境随机性,线程异步的随机性
不确定性:长期回报的不确定性
数据规律和推断:马尔可夫决策过程,策略梯度,价值函数贝尔曼方程
极限:当线程数→∞时的收敛行为
连续性:状态、动作、价值的连续性(通常)
微分:策略梯度,价值函数梯度
积分:期望回报的积分形式,n步回报的求和
级数:n步回报是奖励的级数
收敛性:异步随机梯度下降的收敛性
测度:状态访问分布,策略差异的测度
离散:离散时间步,离散动作空间(可处理)
排序:按优势值排序动作
组合:策略和价值函数的组合优化
构造:通过多线程交互构造经验并更新
优化:异步随机梯度下降
计算与算法特征:时间复杂度取决于环境和网络,可线性加速(线程数)
稳定性:异步更新可能带来稳定性问题,但实践中表现良好
对称性/非对称性:时间方向的不对称性
代数:期望计算,梯度计算
拓扑:状态-动作空间的拓扑
几何:策略空间(概率单纯形)的几何
:状态/动作的对称性(若存在)
组合数学特征:动作序列的组合

可处理文本状态(需编码)和离散文本动作(如对话生成)
奖励函数设计是关键

时序流程(单个线程)
1. 初始化:t₀
- 线程本地网络参数θ' ← 全局共享参数θ。
- 重置环境,得到初始状态s_0。
- t=0。

2. 前进阶段:while t < t_max and not terminal
a. 根据策略π(a|s_t;θ')选择动作a_t。
b. 执行a_t,收到奖励r_t,新状态s{t+1}。
c. t = t+1。
得到轨迹:s_0, a_0, r_0, s_1, a_1, r_1, ..., s_t。

3. 计算回报与优势
- 如果s_t是终止状态,则R
{t-1} = r{t-1},否则R{t-1} = r{t-1} + γV(s_t;θ')。
- 对于i = t-2 down to 0: R_i = r_i + γR
{i+1}。
- 对于i = 0 to t-1: A_i = R_i - V(s_i;θ')。

4. 计算损失梯度
- 策略损失梯度:∇θ' ℒπ = -∑i ∇θ' log π(a_i|s_i;θ') A_i - β∑i ∇θ' H(π(·|s_i;θ'))
- 价值损失梯度:∇θ' ℒV = ∑i 2(V(s_i;θ') - R_i) ∇θ' V(s_i;θ')
- 总梯度:∇θ' ℒ = ∇θ' ℒπ + α∇θ' ℒV

5. 异步更新全局参数
- 将∇
θ' ℒ加到全局共享参数θ的梯度累积器中(无锁)。
- 使用共享的RMSProp/Adam更新θ(由某个线程触发)。
- 线程本地参数θ'更新为新的θ。

6. 重复步骤2-5。

服务器配置
多CPU核心集群:A3C设计用于多核CPU。每个actor-learner线程运行在一个CPU核心上,配有独立的环境实例。对于大规模训练,需数百至数千个CPU核心。每个核心搭配一个轻量级GPU用于网络前向/反向(可选)。
参数服务器:全局共享网络参数可存储在参数服务器(PS)或通过AllReduce同步。PS架构适合大量actors。
在线推理服务:训练好的策略网络部署为服务,单次推理延迟低。10亿级决策请求(如实时竞价)需数千个CPU/GPU实例。
计算需求:训练时仿真环境步进是主要开销。算力需求与环境和线程数成正比。大规模训练需TFLOPS级算力。
内存需求:每个线程需存储本地网络参数和经验轨迹,内存需求适中。全局模型参数存储较小。

1. A2C (Synchronous Advantage Actor-Critic):同步版本,等待所有workers完成后再更新,更稳定
2. GA3C (GPU-A3C):利用GPU加速神经网络计算
3. IMPALA:更高效的分布式架构,使用V-trace离策略校正
4. APE-X:分布式深度Q网络,结合优先经验回放
5. SEED RL:高度可扩展的架构,将推理与训练分离
6. R2D2:循环分布式重放记忆体
7. Reactors:样本高效的actor-critic架构
8. A3C with LSTM:处理部分可观测MDP
9. A3C for Continuous Action Spaces:输出动作分布参数(如高斯均值方差)
10. A3C with Parameter Noise:参数空间噪声探索

E-L1-0033

图神经网络

基于注意力机制的图神经网络

图注意力网络 (GAT)

步骤1:注意力系数计算
对于节点i及其邻居j∈N(i),计算注意力系数:e{ij} = a(W h_i, W h_j),其中W∈ℝ^{d'×d}是共享的线性变换权重矩阵,a: ℝ^{d'}×ℝ^{d'}→ℝ是注意力机制,通常实现为单层前馈神经网络:a(Wh_i, Wh_j)=LeakyReLU(a^T [Wh_i ‖ Wh_j]),a∈ℝ^{2d'}是权重向量。
步骤2:归一化注意力系数
使用softmax对邻居的注意力系数进行归一化:α
{ij} = softmax_j(e{ij}) = exp(LeakyReLU(e{ij})) / ∑{k∈N(i)} exp(LeakyReLU(e{ik}))。
步骤3:节点特征聚合
对节点i,其新的特征表示是邻居特征的加权和,再经过非线性激活:h_i' = σ(∑{j∈N(i)} α{ij} W h_j)。
步骤4:多头注意力
使用K个独立的注意力头,将它们的输出拼接(中间层)或平均(最后一层):
h_i' = ‖{k=1}^{K} σ(∑{j∈N(i)} α{ij}^k W^k h_j) (拼接)
或 h_i' = σ( (1/K) ∑
{k=1}^{K} ∑{j∈N(i)} α{ij}^k W^k h_j ) (平均)
步骤5:图注意力层堆叠
堆叠多个图注意力层,以捕获高阶邻域信息。
参数选择/优化
1. 注意力头数K:通常4~8
2. 输出维度d':通常8~64 per head
3. 激活函数σ:ELU或ReLU
4. 负斜率(LeakyReLU):通常0.2
5. Dropout:应用于注意力系数和特征,如0.6
6. 优化器:Adam,学习率通常0.005

精度:在Cora、Citeseer、Pubmed等引文网络节点分类任务上达到SOTA(当时)
误差:交叉熵损失
强度:为不同邻居分配不同重要性,适用于同质和异质图

注意力机制、图神经网络、消息传递、邻居聚合、多头注意力

1. 社交网络节点分类:用户兴趣、社区分类
2. 推荐系统:用户-物品二部图上的协同过滤
3. 知识图谱补全:实体和关系预测
4. 分子性质预测:原子和键的图表示
5. 交通预测:路网节点(传感器)流量预测
6. 虚假账号检测:基于社交关系的注意力模式识别异常
7. 文本分类:将文档视为词图,应用GAT
8. 视觉问答:将图像场景表示为图,应用GAT
9. 蛋白质相互作用预测:蛋白质结构图
10. 影响力最大化:识别社交网络中有影响力的节点
特征
- 结构特征:图的拓扑结构
- 节点特征:节点自身的属性
- 注意力特征:节点对之间动态计算的重要性权重

变量
h_i∈ℝ^d:节点i的特征向量
W∈ℝ^{d'×d}:线性变换权重矩阵
e{ij}:原始注意力系数
α
{ij}∈[0,1]:归一化注意力系数
常量
K:注意力头数
d':每个头的输出维度
参数
注意力机制权重向量a
线性变换权重W^k (k=1..K)
LeakyReLU负斜率
Dropout率

集合特征:节点集合V,邻居集合N(i),注意力头集合
逻辑特征:注意力权重的逻辑分布
概率与统计特征:softmax输出的概率分布
随机性:Dropout随机性,权重初始化
不确定性:注意力权重的不确定性(可扩展为贝叶斯GAT)
数据规律和推断:图中节点间的影响力差异
极限:当注意力头数K→∞时的极限行为
连续性:注意力函数和特征变换的连续性
微分:通过反向传播计算梯度
积分:邻居特征的加权和(离散积分)
级数:多头注意力的拼接或平均
收敛性:训练损失收敛性
测度:注意力权重作为邻居重要性的测度
离散:图结构的离散性
排序:按注意力权重排序邻居
组合:多头注意力的组合,邻居特征的组合
构造:通过注意力机制构造节点表示
优化:最小化节点分类交叉熵损失
计算与算法特征:时间复杂度O(|V|dd' + |E|d'),与GCN相当
稳定性:对特征缩放不敏感,训练稳定
对称性/非对称性:注意力系数通常不对称(α{ij}≠α{ji})
代数:矩阵乘法,softmax,拼接,平均
拓扑:图拓扑,注意力图(有权)
几何:节点在特征空间的几何,注意力权重的几何解释
:对邻居顺序的置换不变性(注意力机制满足)
组合数学特征:邻居节点的组合,注意力头的组合

可处理带有文本特征的节点(如词嵌入)
注意力权重可解释为节点间语义关联强度

时序流程(单层,多头拼接)
1. 线性变换:t₀
- 对每个节点i,计算Wh_i(每个注意力头有独立的W^k)。

2. 计算注意力系数:t₁
- 对每条边(i,j),计算e{ij}^k = LeakyReLU(a^k^T [W^k h_i ‖ W^k h_j])。
- 对每个节点i,对其邻居j∈N(i),计算归一化注意力系数:α
{ij}^k = softmax_j(e{ij}^k) = exp(e{ij}^k) / ∑{l∈N(i)} exp(e{il}^k)。
- (可选)对α{ij}^k应用Dropout。

3. 特征聚合:t₂
- 对每个节点i,计算每个头的输出:h_i'^k = σ(∑
{j∈N(i)} α{ij}^k W^k h_j)。
- (可选)对h_i'^k应用Dropout。

4. 多头聚合:t₃
- 拼接所有头的输出:h_i' = ‖
{k=1}^{K} h_i'^k。

5. 输出:t₄
- 得到本层所有节点的输出特征{h_i'}。

多层GAT:将上一层的输出h_i'作为下一层的输入,重复上述过程。

训练流程:在最后一层后接分类层,计算交叉熵损失,反向传播更新所有参数(W^k, a^k等)。

服务器配置
GPU集群训练:GAT训练需要计算所有边的注意力系数,内存复杂度O(|E|)。对于十亿级边的图,需采用多GPU分布式训练,如图分区和模型并行。需16-64张NVIDIA A100 GPU,每卡80GB显存。
分布式图学习框架:使用DGL或PyG的分布式版本,将图分区存储在不同GPU/节点,通过消息传递计算注意力。需注意跨分区的边通信开销。
在线推理服务:GAT推理同样需要聚合邻居信息。对于新节点,需实时获取其邻居特征。可部署在GPU服务器上,配合图数据库(如Neo4j)存储图和特征。10亿级节点推理(如用户嵌入更新)可批量进行。
计算需求:训练复杂度与边数成正比。十亿边图训练需算力10-100 PFLOPS。
内存需求:需存储图结构、节点特征、注意力权重和梯度。十亿节点百维特征需数百GB,十亿边需数GB(稀疏格式),但注意力计算中间变量内存消耗大。

1. GATv2:修正注意力计算顺序,使其更具表达力
2. Hard Attention:稀疏化注意力权重,减少计算
3. Hierarchical Attention:层次化注意力,用于图分类等任务
4. Directional Attention:考虑边的方向性
5. Temporal GAT:结合时间信息的图注意力
6. Heterogeneous GAT (HAN):处理异质图的注意力网络
7. Graph Attention with Reinforcement Learning:用RL学习注意力结构
8. Bayesian GAT:提供不确定性估计
9. GAT with Edge Features:在注意力计算中结合边特征
10. Simplified GAT:简化计算,提高效率

E-L1-0034

时间序列预测

基于Transformer的长序列预测模型

Informer

步骤1:ProbSparse自注意力
改进传统自注意力,降低复杂度。定义查询稀疏性度量:M(q_i, K) = ln∑{j=1}^{L_K} e^{q_i k_j^T/√d} - (1/L_K)∑{j=1}^{L_K} (q_i k_j^T/√d)。只选取稀疏性度量最大的u个查询(u = c·ln L_Q)进行注意力计算,复杂度从O(L²)降至O(L ln L)。
步骤2:自注意力蒸馏
在编码器层间进行下采样,使用卷积和最大池化压缩序列长度,突出重要信息,减少内存使用和网络深度。第j层输入为X^j,输出为X^{j+1} = MaxPool(ELU(Conv1d([X^j]{AB}))),其中[·]{AB}表示注意力块输出。
步骤3:生成式解码器
使用标准解码器结构,但采用生成式推理。输入为:1) 起始token:来自编码器输出的后部片段;2) 占位token(0填充)。通过一次前向传播直接预测整个输出序列,而非自回归一步生成,大大加快长序列预测速度。
步骤4:损失函数
使用MSE损失,预测序列与真实序列的均方误差。
步骤5:模型架构
编码器:堆叠多个注意力蒸馏层,每层包含ProbSparse自注意力和卷积前馈网络。解码器:堆叠两个多头自注意力层(掩码自注意力+编码器-解码器注意力)和卷积前馈网络。
参数选择/优化
1. 序列长度:输入序列长度L_seq,输出序列长度L_pred(可长达720)
2. 采样因子c:控制ProbSparse注意力中选取的查询数,通常5
3. 编码器层数:通常2~3层
4. 解码器层数:通常1层
5. 注意力头数:通常8
6. 模型维度d_model:通常512
7. 优化器:Adam,学习率1e-4,余弦衰减

精度:在多个长序列时间序列预测基准(如ETT、Electricity)上,在准确性和效率上优于传统Transformer、LSTM等模型
误差:均方误差(MSE)、平均绝对误差(MAE)
强度:可高效处理极长序列预测(输出长度720+),推理速度快

Transformer架构、ProbSparse注意力、自注意力蒸馏、生成式解码、长序列依赖建模

1. 电力负荷预测:长期电力消耗预测
2. 交通流量预测:长期道路流量预测
3. 气象预测:温度、湿度等气象指标预测
4. 股票价格预测:多步股价预测
5. 经济指标预测:GDP、通货膨胀率等预测
6. 服务器负载预测:长期CPU、内存使用率预测
7. 销售额预测:长期商品销量预测
8. 能源产量预测:太阳能、风能发电量预测
9. 网络流量预测:长期网络带宽需求预测
10. 流行病预测:病例数长期趋势预测
特征
- 长期依赖特征:捕获序列中的长期模式
- 多尺度特征:通过蒸馏捕获不同时间尺度的信息
- 稀疏特征:注意力集中在关键时间点

变量
X:输入序列矩阵 (L_seq × d_model)
Q, K, V:查询、键、值矩阵
Y:输出序列矩阵 (L_pred × d_out)
常量
L_seq:输入序列长度
L_pred:预测序列长度
d_model:模型维度
参数
所有线性投影权重、卷积核权重、位置编码

集合特征:时间点集合,注意力头集合,编码器层集合
逻辑特征:稀疏注意力选择的逻辑
概率与统计特征:注意力权重分布
随机性:Dropout,权重初始化
不确定性:预测的不确定性(模型本身不直接提供)
数据规律和推断:时间序列的自相关性和季节性
极限:当序列长度L→∞时的计算复杂度极限
连续性:时间序列的连续性(假设)
微分:通过反向传播计算梯度
积分:注意力得分的加权和(离散积分)
级数:编码器层的堆叠构成级数
收敛性:训练损失收敛性
测度:稀疏性度量M(q_i,K)作为查询重要性的测度
离散:时间点的离散性
排序:按稀疏性度量排序查询
组合:多注意力头的组合,编码器-解码器的组合
构造:通过ProbSparse注意力和蒸馏构造序列表示
优化:最小化MSE损失
计算与算法特征:编码器复杂度O(L ln L),解码器复杂度O(L_pred (L_seq + L_pred))
稳定性:蒸馏操作有助于稳定训练
对称性/非对称性:时间方向的不对称性(因果)
代数:矩阵乘法,softmax,卷积,池化
拓扑:时间序列的拓扑
几何:序列在隐空间的几何表示
:时间平移的不变性(对平稳序列)
组合数学特征:时间点组合的注意力模式

主要用于数值时间序列预测
可结合文本特征作为外部协变量(需编码)
不直接处理文本序列

时序流程(训练)
1. 输入编码:t₀
- 输入序列X(历史值)和协变量(如时间戳),经过嵌入层和位置编码,得到编码器输入X_enc。

2. 编码器前向:t₁
- 对每一编码器层:
a. ProbSparse自注意力:计算Q,K,V,计算每个查询q_i的稀疏性度量M(q_i,K),选取top-u个查询,只计算这些查询的注意力输出。
b. 卷积前馈网络:1D卷积+激活。
c. 注意力蒸馏(除最后一层):对注意力输出进行卷积和最大池化,压缩序列长度。
得到编码器输出记忆向量M。

3. 解码器前向:t₂
- 解码器输入构造:起始部分取自编码器输入的后部(提供上下文),后续部分用0填充,长度L_pred。
- 对解码器层:
a. 掩码自注意力:防止信息泄露。
b. 编码器-解码器注意力:以解码器输出为Q,编码器记忆M为K,V。
c. 卷积前馈网络
得到解码器输出。

4. 输出层:t₃
- 线性层将解码器输出投影到预测维度(通常单变量)。

5. 损失计算:t₄
- 计算预测序列与真实未来序列的MSE损失。

推理流程:类似,一次前向得到整个预测序列。

服务器配置
GPU训练集群:Informer处理长序列,需要大显存。对于大规模多变量时间序列(如数万个序列),需采用数据并行,在多个GPU上训练。需8-32张NVIDIA A100 GPU(每卡80GB)。
分布式训练框架:使用PyTorch DDP。注意序列长度导致的内存消耗,可能需梯度累积。
在线推理服务:生成式解码一次前向产出整个预测序列,延迟可控。单次预测约10-100ms(GPU)。10亿级序列的批量预测(如每日电力负荷预测)需数百个CPU/GPU核心并行处理。
计算需求:ProbSparse注意力降低计算量,但整体仍较高。训练复杂度与序列长度和序列数量成正比。大规模训练需10-100 PFLOPS·天。
内存需求:需存储长序列数据和模型参数。模型参数量中等,但中间激活值内存消耗大,尤其是注意力矩阵。

1. Autoformer:引入自相关机制,更好地捕捉季节性
2. FEDformer:使用傅里叶或小波变换增强注意力,提升效率和效果
3. Pyraformer:金字塔式注意力,多尺度建模
4. LogTrans:使用LogSparse注意力,另一种稀疏模式
5. Reformer:使用局部敏感哈希注意力,降低复杂度
6. Longformer:稀疏注意力,处理长文档,可借鉴
7. Temporal Fusion Transformer (TFT):结合时间特征和静态特征,输出分位数预测
8. N-BEATS:纯前馈网络,适用于长序列预测
9. DeepAR:概率自回归模型,可处理大量序列
10. Informer for Multivariate Time Series:多变量扩展

E-L1-0035

深度聚类

深度嵌入聚类

DEC (Deep Embedded Clustering)

步骤1:自动编码器预训练
使用去噪自动编码器(DAE)预训练一个深度神经网络,学习数据初始表示。目标是最小化重构损失:ℒ{rec} = |x - \hat{x}|²。
步骤2:嵌入空间初始化
移除解码器,使用编码器f_θ将数据映射到嵌入空间z_i = f_θ(x_i)。在嵌入空间上运行k-means聚类,得到初始簇中心{μ_j}
{j=1}^{K}。
步骤3:计算软分配分布
使用学生t分布作为核来衡量嵌入点z_i与簇中心μ_j的相似度:
q{ij} = (1 + |z_i - μ_j|²/α)^{-(α+1)/2} / ∑{j'} (1 + |z_i - μ{j'}|²/α)^{-(α+1)/2}
其中α是自由度,通常设为1。q
{ij}可解释为将样本i分配给簇j的概率。
步骤4:目标分布计算
通过提高预测置信度来锐化软分配,得到目标分布p:
p{ij} = q{ij}² / ∑{i'} q{i'j} / ∑{j'} (q{ij'}² / ∑{i'} q{i'j'})
目标分布p使分配更“坚定”,即更接近one-hot形式。
步骤5:优化KL散度
通过最小化软分配

编号

类别

模型配方

算法/模型/方法名称

算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化

精度/密度/误差/强度

底层规律/理论定理

典型应用场景【10个场景】和各类特征

变量/常量/参数列表及说明

数学特征

语言特征

时序和交互流程的所有细节/分步骤时序情况及数学方程式

10亿级并发下的服务器性能与规模需求

配套优化算法列表

E-L1-0036

自监督学习

掩码自编码器

MAE (Masked Autoencoder)

步骤1:随机掩码
对输入图像块序列,以高比例(如75%)随机掩码,仅保留少量可见块。
步骤2:编码器
仅对可见块进行编码,使用标准ViT编码器。由于掩码率高,编码器仅处理少量块,计算量大幅减少。
步骤3:解码器
将编码后的可见块特征与掩码token(可学习的共享向量)拼接,送入轻量级Transformer解码器。解码器为每个位置(包括掩码位置)输出特征。
步骤4:重建目标
解码器输出后接线性投影,预测每个掩码块的像素值(归一化后)。损失函数为掩码块上的均方误差(MSE):ℒ = (1/

M

)∑_{i∈M} ‖p_i - t_i‖²,其中M是掩码块集合,p_i是预测像素向量,t_i是真实像素向量。
步骤5:非对称设计
编码器仅处理可见块,解码器处理全部块但较浅,实现高效预训练。
参数选择/优化
1. 掩码比例:通常75%,是关键超参数
2. 编码器:ViT-Base/Large/Huge
3. 解码器:通常更窄更浅,如层数8,维度512
4. 块大小:通常16×16像素
5. 优化器:AdamW,学习率1.5e-4,余弦衰减
6. 批次大小:4096(需大量GPU)

精度:在ImageNet-1K上,ViT-Huge微调达到87.8% top-1,优于有监督预训练
误差:掩码块上的MSE重建误差
强度:高效(仅编码可见块),可扩展至极大模型,学习高质量视觉表示

自编码器、掩码语言模型思想、ViT架构、非对称编码-解码、重建任务

1. 图像分类:预训练编码器用于下游分类
2. 目标检测:预训练骨干网络用于检测器(如Mask R-CNN)
3. 语义分割:预训练编码器用于分割模型
4. 图像生成:可作为生成模型的基础
5. 图像补全:直接应用进行图像修复
6. 视频理解:扩展为视频MAE,预训练视频模型
7. 多模态学习:与文本结合进行跨模态预训练
8. 医学影像分析:处理标注稀缺的医疗图像
9. 自监督表征学习:学习可迁移的通用视觉特征
10. 数据增强:生成掩码样本用于增强
特征
- 局部特征:模型必须理解局部patch以重建
- 全局上下文特征:需要整合可见patch信息以推断掩码部分
- 鲁棒特征:对遮挡和缺失不敏感

变量
x:输入图像(划分成patch序列)
m:掩码指示向量(0/1)
z_v:可见patch的编码特征
z_m:掩码token(可学习)
ŷ:重建图像patch
常量
r:掩码比例(如0.75)
N:总patch数
参数
编码器参数θ_e
解码器参数θ_d
掩码token e_[M]

集合特征:可见patch集合,掩码patch集合
逻辑特征:掩码位置的逻辑指示
概率与统计特征:重建误差的分布
随机性:掩码模式的随机性
不确定性:重建的不确定性
数据规律和推断:图像patch间的空间和语义相关性
极限:当掩码比例→1时的极限行为
连续性:像素值的连续性,编码的连续性
微分:通过反向传播计算梯度
积分:MSE损失对掩码patch的求和(离散积分)
级数:Transformer层的堆叠
收敛性:训练损失收敛性
测度:重建误差作为patch可预测性的测度
离散:patch的离散性,掩码的离散性
排序:按重建误差排序patch(难度)
组合:可见与掩码信息的组合推断
构造:通过掩码重建任务构造表示
优化:最小化MSE损失
计算与算法特征:编码器复杂度O((1-r)N·d²),解码器O(N·d'²),d'<d,整体高效
稳定性:高掩码比例起到强正则化,训练稳定
对称性/非对称性:非对称编码-解码,掩码过程对称(随机)
代数:矩阵乘法,MSE计算
拓扑:图像patch空间的拓扑
几何:patch在隐空间的几何关系
:对patch位置的置换不变性(被位置编码打破)
组合数学特征:掩码模式组合

核心是视觉表示学习
不直接处理语言,但可扩展为多模态(如M3AE)
重建目标基于像素

时序流程
1. 图像分块与掩码:t₀
- 输入图像分割为N个patch。
- 随机采样比例为r的patch进行掩码(替换为共享的掩码token [M]),其余保留。

2. 编码:t₁
- 仅将可见patch(及位置编码)输入编码器(ViT),得到可见patch的特征表示{z_v}。

3. 解码:t₂
- 将全部N个位置的特征准备:可见位置用编码特征z_v,掩码位置用可学习的掩码token e_[M]。加上位置编码。
- 输入解码器(轻量Transformer),得到每个位置(包括掩码位置)的输出特征。

4. 重建:t₃
- 对每个掩码位置,用线性层将解码器输出特征投影为patch的像素向量预测。
- 计算预测像素与原始像素的MSE损失(仅对掩码位置)。

5. 反向传播:t₄
- 反向传播更新编码器、解码器及掩码token参数。

下游使用:丢弃解码器,用编码器提取特征,用于各种任务。

E-L1-0037

目标检测

基于Transformer的端到端检测

DETR (DEtection TRansformer)

步骤1:图像特征提取
使用CNN骨干网络(如ResNet)提取2D特征图,然后用1×1卷积降低通道数,得到特征图f∈ℝ^{H×W×d}。
步骤2:位置编码
将2D位置编码(正弦)加到特征图上,然后展平为序列f'∈ℝ^{HW×d}。
步骤3:Transformer编码器-解码器
编码器:对特征序列f'进行自注意力,增强上下文信息。
解码器:输入N个可学习的对象查询(object queries),通过多头自注意力和编码器-解码器注意力,输出N个嵌入向量。每个查询对应一个潜在的物体预测。
步骤4:预测前馈网络
每个解码器输出嵌入通过共享的FFN预测:1) 边界框坐标(中心x,y,宽,高),2) 类别标签(包括“无对象”类)。FFN通常为3层感知机,ReLU激活。
步骤5:二分图匹配损失
使用匈牙利算法在N个预测和真实目标间进行一对一匹配,寻找最小代价匹配:
σ̂ = argmin_σ ∑{i=1}^{N} ℒmatch(y_i, ŷ{σ(i)})
其中ℒ
match = -𝟙{c_i≠∅} p{σ(i)}(c_i) + 𝟙{c_i≠∅} ℒbox(b_i, b̂{σ(i)}),p是类别概率,ℒbox是L1损失和GIoU损失的加权和。
匹配后计算匈牙利损失:ℒHungarian = ∑{i=1}^{N} [-log p{σ̂(i)}(c_i) + 𝟙{c_i≠∅} ℒbox(b_i, b̂{σ̂(i)})]。
参数选择/优化
1. 对象查询数N:通常100,大于图中典型物体数
2. 骨干网络:ResNet-50/101
3. Transformer层数:编码器6,解码器6
4. 隐藏维度d:通常256
5. 损失权重:边界框损失权重5,GIoU权重2,类别权重1
6. 优化器:AdamW,学习率1e-4,骨干网络学习率1e-5

精度:在COCO数据集上,DETR与Faster R-CNN基准相当,但在大物体检测上更优。训练时间较长。
误差:匈牙利损失(分类交叉熵+框回归L1+GIoU)
强度:端到端,无需NMS等后处理,设计简洁

Transformer架构、二分图匹配、集合预测、端到端学习、注意力机制

1. 通用目标检测:图像中物体的定位与分类
2. 实例分割:扩展为Mask DETR,预测物体掩码
3. 全景分割:统一语义和实例分割
4. 人脸检测:检测图像中的人脸
5. 文本检测:检测图像中的文字区域
6. 视频目标检测:扩展到时序检测
7. 自动驾驶感知:车辆、行人、交通标志检测
8. 工业缺陷检测:定位产品缺陷
9. 医学图像分析:检测病灶、器官
10. 遥感图像解译:检测建筑物、车辆等
特征
- 全局上下文特征:自注意力捕获图像全局关系
- 集合预测特征:直接预测物体集合,无需锚框
- 位置特征:显式的位置编码

变量
I:输入图像
f:骨干网络特征图
q:可学习对象查询(N个)
ŷ_i:第i个预测(类别概率,边界框)
y_i:真实目标(类别,边界框)
常量
N:预测数量(查询数)
d:隐藏维度
参数
骨干网络参数θ_b
Transformer参数θ_t
预测FFN参数θ_f

集合特征:真实目标集合,预测集合,查询集合
逻辑特征:二分图匹配的一一对应逻辑
概率与统计特征:类别概率分布,匈牙利匹配的概率解释
随机性:权重初始化,数据增强
不确定性:预测的不确定性(可扩展)
数据规律和推断:图像中物体的空间分布和类别共现
极限:当N→∞时的行为,Transformer深度→∞的极限
连续性:边界框坐标的连续性
微分:通过反向传播计算梯度,包括匈牙利匹配(可微)
积分:损失函数对预测的求和(离散积分)
级数:Transformer层的堆叠
收敛性:训练损失收敛慢,需长训练
测度:GIoU作为框重叠的测度
离散:物体类别的离散性,查询索引的离散性
排序:匈牙利算法中的排序(代价最小)
组合:对象查询的组合学习
构造:通过Transformer和集合预测构造检测结果
优化:最小化匈牙利损失
计算与算法特征:时间复杂度O(HW d + N d²),其中自注意力O((HW)² d)是瓶颈
稳定性:训练需要小心调参,收敛慢
对称性/非对称性:对象查询顺序不影响结果(置换不变)
代数:矩阵乘法,softmax,匈牙利算法(组合优化)
拓扑:图像空间和边界框空间的拓扑
几何:边界框的几何关系(IoU)
:对预测顺序的置换不变性(匈牙利损失保证)
组合数学特征:二分图匹配的组合

不直接处理文本,但可扩展用于图像描述(检测+描述)
类别标签是文本,但模型内部处理为ID

时序流程
1. 特征提取:t₀
- 图像I通过CNN骨干网络,得到特征图f。
- 1×1卷积降维,加2D位置编码,展平为序列f' (HW×d)。

2. 编码器:t₁
- f'输入Transformer编码器(多层),每层包含自注意力和FFN,得到编码特征e。

3. 解码器:t₂
- 初始化N个可学习对象查询q∈ℝ^{N×d}。
- 解码器逐层处理:自注意力(查询间),编码器-解码器注意力(查询与e),FFN。
- 输出解码特征d∈ℝ^{N×d}。

4. 预测:t₃
- 每个解码特征d_i通过FFN预测:类别概率分布p_i(softmax)和边界框坐标b_i(sigmoid缩放)。

5. 损失计算:t₄
- 使用匈牙利算法在预测集{ŷ_i}和真实集{y_i}(填充“无对象”至N)间进行最优一对一匹配。
- 计算匹配后的分类损失(交叉熵)和框回归损失(L1+GIoU)。

6. 反向传播:t₅
- 反向传播更新所有参数。

推理流程:前向得到N个预测,过滤掉“无对象”类,得分阈值过滤,无需NMS。

服务器配置
多GPU训练集群:DETR训练计算密集,尤其编码器自注意力O((HW)²)。需8-32张NVIDIA A100 GPU,采用数据并行和混合精度。使用更大骨干网络(如ResNet-101)和更多层数需更多显存。
分布式训练框架:PyTorch DDP。可考虑使用Deformable DETR等改进版本降低计算复杂度。
在线推理服务:DETR推理是单次前向,但Transformer计算开销大。单张图像推理时间约50-100ms(GPU)。实时检测场景(如视频流)需高性能GPU(如A100)。10亿级日检测请求(如内容审核)需数千个GPU实例,但通常检测是批量处理。
计算需求:训练COCO数据集需算力约100-200 GPU·天。更大数据集需按比例增加。
内存需求:模型参数约40M(不含骨干),但注意力矩阵内存消耗大。

1. Deformable DETR:引入可变形注意力,降低计算复杂度,加速收敛
2. Conditional DETR:改进解码器交叉注意力,加速训练
3. DAB-DETR:将查询显式表示为动态锚框,提升性能
4. DN-DETR:引入去噪训练,解决二分图匹配不稳定性,加速收敛
5. DINO:基于DAB-DETR和DN-DETR,加入对比去噪,达到SOTA
6. Mask DETR:扩展为实例分割
7. UP-DETR:用于自监督预训练
8. SMCA DETR:空间调制协同注意力,加速收敛
9. Anchor DETR:引入锚点框到查询
10. Efficient DETR:各种效率优化变体

E-L1-0038

文本生成

自回归语言模型

GPT-2 (Generative Pre-trained Transformer 2)

步骤1:模型架构
使用Transformer解码器堆叠,每个层包含:
1. 掩码多头自注意力:防止当前位置关注未来位置,通过上三角掩码矩阵实现。
2. 前馈网络:FFN(x)=max(0, xW₁+b₁)W₂+b₂。
3. 层归一化和残差连接。
步骤2:位置编码
使用可学习的位置嵌入,与词嵌入相加。
步骤3:训练目标
标准语言建模目标,最大化序列的似然:L = ∑_i log P(x_i

x_{<i}; θ),使用交叉熵损失。
步骤4:自回归生成
给定上下文,迭代地预测下一个token:从模型输出的概率分布中采样(或贪婪取argmax),将生成的token追加到上下文,重复直到生成结束符或达到长度限制。
步骤5:模型规模
GPT-2有多个尺寸:117M, 345M, 762M, 1.5B参数。更大的模型展示了更强的零样本学习能力。
参数选择/优化
1. 模型尺寸:层数、隐藏维度、注意力头数随版本增加
2. 词汇表大小:50257个BPE子词
3. 上下文长度:1024个token
4. 优化器:Adam,学习率根据 warmup 和 decay 调整
5. 训练数据:WebText,800万网页,40GB文本

精度:在多种语言建模和生成任务上表现优异,展示了强大的零样本学习能力
误差:交叉熵损失(困惑度)
强度:强大的生成能力,可完成多种任务而无需微调(零样本)

Transformer解码器、自回归语言模型、下一个词预测、大规模预训练、零样本学习

1. 文本生成:故事、新闻、诗歌创作
2. 对话系统:生成对话回复
3. 文本摘要:生成文章摘要
4. 机器翻译:零样本翻译
5. 问答:根据上下文生成答案
6. 代码生成:生成代码片段
7. 内容创作辅助:协助写作、头脑风暴
8. 文本填充:给定开头,续写文本
9. 语义搜索:生成查询的扩展或重写
10. 语言理解:作为特征提取器用于分类等任务(需微调)
特征
- 上下文特征:捕获左侧所有上文信息
- 生成特征:可生成连贯、多样的文本
- 零样本特征:通过任务描述提示执行任务

变量
x_{1:T}:输入token序列
E:词嵌入矩阵
P:位置嵌入矩阵
H^l:第l层隐藏状态
常量
n_layer:层数(如GPT-2 1.5B有48层)
n_embd:隐藏维度(如1600)
n_head:注意力头数(如25)
参数
所有线性投影权重、前馈网络权重、层归一化参数、位置嵌入

集合特征:词汇表集合,位置集合,注意力头集合
逻辑特征:自回归的因果逻辑
概率与统计特征:下一个词的条件概率分布
随机性:采样生成的随机性,Dropout
不确定性:生成的不确定性(采样温度控制)
数据规律和推断:语言的统计规律,自回归建模
极限:当模型尺寸→∞时的语言建模能力极限(Scaling Laws)
连续性:嵌入空间的连续性,注意力权重的连续性
微分:通过反向传播计算梯度
积分:序列似然是条件概率的乘积(对数求和)
级数:多层Transformer堆叠
收敛性:预训练损失收敛性
测度:困惑度作为语言建模质量的测度
离散:token的离散性
排序:按生成概率排序候选词
组合:多层表示的组合,自注意力头的组合
构造:通过自回归Transformer构造序列概率
优化:最小化交叉熵损失(最大化似然)
计算与算法特征:训练复杂度O(T·d²),生成复杂度O(T²·d)(自回归)
稳定性:训练稳定,但需小心初始化
对称性/非对称性:时间因果性,非对称(仅左侧上下文)
代数:矩阵乘法,softmax,线性变换
拓扑:序列空间的拓扑
几何:词嵌入空间的几何,注意力头空间的几何
:对左侧上下文的置换不变性?不,顺序重要(位置编码)
组合数学特征:词序列的组合,注意力模式组合

核心是自然语言生成
通过提示(prompt)进行零样本学习
强大的上下文学习能力

时序流程(训练)
1. 输入表示:t₀
- 给定文本序列x{1:T},查找词嵌入,加上位置嵌入,得到输入嵌入E。

2. Transformer解码器前向:t₁ 对每一层l=1 to L
a. 掩码多头自注意力
计算Q,K,V,应用上三角掩码(使得位置i只能看到≤i的位置),计算注意力输出。
残差连接,层归一化。
b. 前馈网络:FFN,残差连接,层归一化。
得到最后一层隐藏状态H^L。

3. 输出层:t₂
- 线性层将H^L投影到词汇表大小V,得到logits。
- 对每个位置t,计算条件概率分布:P(x
{t+1}

x{≤t}) = softmax(logits_t)。

4. 损失计算:t₃
- 计算交叉熵损失:L = -∑
{t=1}^{T-1} log P(x_{t+1}

E-L1-0039

图像分割

全卷积网络

FCN (Fully Convolutional Network)

步骤1:全卷积化
将传统CNN(如VGG、ResNet)中的全连接层转换为卷积层。例如,将4096维全连接层转换为1×1卷积,输出通道4096。这使得网络可接受任意尺寸输入,输出热图(heatmap)。
步骤2:上采样
通过转置卷积(反卷积)对低分辨率特征图进行上采样,恢复到输入图像尺寸。可逐级上采样,或结合跳跃连接(skip connection)融合浅层细节信息。
步骤3:跳跃连接融合
将深层、低分辨率、语义强的特征与浅层、高分辨率、细节丰富的特征融合。例如,将pool5层的预测上采样2倍,与pool4层的特征相加,再上采样2倍,与pool3特征相加,以此类推。最终输出与输入尺寸相同的密集预测。
步骤4:逐像素预测
对每个空间位置,通过1×1卷积将通道数映射为类别数K,然后应用softmax得到每个像素的类别概率分布。
步骤5:损失函数
逐像素交叉熵损失:ℒ = -∑{i=1}^{W}∑{j=1}^{H} ∑{k=1}^{K} y{ijk} log ŷ_{ijk},其中y是one-hot真实标签,ŷ是预测概率。
参数选择/优化
1. 骨干网络:VGG-16, ResNet-101等
2. 上采样方法:双线性插值初始化转置卷积
3. 跳跃连接策略:FCN-32s(无跳跃),FCN-16s(融合pool5和pool4),FCN-8s(再融合pool3)
4. 优化器:SGD with momentum,学习率衰减
5. 数据增强:随机缩放、翻转、裁剪

精度:在PASCAL VOC语义分割数据集上,FCN-8s达到62.2% mean IoU(当时SOTA)
误差:逐像素交叉熵损失
强度:可处理任意尺寸输入,输出密集预测,效率高

全卷积网络、上采样、跳跃连接、编码器-解码器结构、语义分割

1. 语义分割:为图像每个像素分配语义类别
2. 实例分割:作为基础网络,结合其他方法区分实例
3. 医学图像分割:分割器官、肿瘤等
4. 自动驾驶场景解析:分割道路、车辆、行人等
5. 遥感图像分割:土地覆盖分类
6. 视频分割:逐帧分割
7. 图像编辑:基于分割的编辑、背景替换
8. 增强现实:现实场景理解与叠加
9. 服装解析:分割服装部件
10. 工业检测:分割缺陷区域
特征
- 多尺度特征:通过跳跃连接融合不同层特征
- 位置特征:保留空间位置信息(与全连接不同)
- 语义特征:深层特征提供高级语义

变量
I:输入图像(H×W×3)
F_l:第l层特征图
Ŷ:输出概率图(H×W×K)
常量
K:类别数
L:网络层数
参数
卷积核权重、偏置,转置卷积核权重

集合特征:像素位置集合,类别集合,特征图层集合
逻辑特征:逐像素分类的逻辑
概率与统计特征:每个像素的类别概率分布
随机性:数据增强随机性,Dropout(若使用)
不确定性:像素分类的不确定性
数据规律和推断:图像局部相似性,上下文信息
极限:当网络深度→∞时的分割精度极限
连续性:特征图的连续性,像素预测的连续性(空间)
微分:通过反向传播计算梯度,转置卷积也有梯度
积分:损失函数对像素的求和(离散积分)
级数:网络层的堆叠构成级数
收敛性:训练损失收敛性
测度:IoU作为分割质量的测度
离散:像素位置的离散性,类别的离散性
排序:按像素分类置信度排序
组合:多层特征的组合(跳跃连接)
构造:通过全卷积和上采样构造密集输出
优化:最小化逐像素交叉熵损失
计算与算法特征:前向复杂度O(∑ l_i·c_i·k_i²·h_i·w_i),与输入尺寸相关,但全卷积高效
稳定性:训练稳定,跳跃连接帮助梯度流动
对称性/非对称性:卷积的平移等变性
代数:卷积运算,转置卷积,逐元素加法
拓扑:图像空间的拓扑,特征图空间的拓扑
几何:特征图和分割图的几何结构
:卷积的平移群等变性
组合数学特征:网络路径的组合

不直接处理文本,但分割结果可用于图像描述(区域特征)
类别标签是文本

时序流程(FCN-8s为例)
1. 前向传播(编码):t₀
- 输入图像经过VGG-16的卷积和池化层,得到不同尺度的特征图:conv1_2, conv2_2, conv3_3, conv4_3, conv5_3(及pool5)。

2. 1×1卷积降维:t₁
- 对pool5、conv4_3、conv3_3分别应用1×1卷积,将通道数减少为类别数K,得到score maps。

3. 上采样与融合(解码):t₂
a. 对pool5的score map进行2倍上采样(转置卷积),得到与conv4_3尺寸相同的map。
b. 将上采样结果与conv4_3的score map逐元素相加。
c. 对融合后的map进行2倍上采样,得到与conv3_3尺寸相同的map。
d. 与conv3_3的score map逐元素相加。
e. 对最终融合map进行8倍上采样,恢复到输入图像尺寸,得到最终score map(H×W×K)。

4. Softmax与损失:t₃
- 对每个空间位置应用softmax,得到类别概率图Ŷ。
- 计算逐像素交叉熵损失。

5. 反向传播:t₄
- 更新所有参数(包括转置卷积核)。

推理流程:输入图像,前向得到概率图,每个像素取argmax得到分割图。

服务器配置
GPU训练集群:FCN训练在单个GPU上可行(如P100/V100)。对于大规模数据集(如Cityscapes),可采用数据并行在多GPU上加速。需4-8张GPU。
在线推理服务:FCN推理是单次前向,效率高。输入尺寸影响计算量。对于实时视频分割(30fps),需高性能GPU(如T4, A100)。10亿级日分割请求(如云相册自动标记)可批量处理,需数百个GPU实例。
计算需求:训练复杂度取决于骨干网络和图像尺寸。ResNet-101为骨干训练Cityscapes需数十GPU·小时。
内存需求:需存储特征图用于跳跃连接,内存消耗与图像尺寸和网络深度成正比。大图像(如4K)需大显存或切片处理。

1. U-Net:对称编码器-解码器,跳跃连接更密集,用于医学图像
2. SegNet:记录池化索引用于上采样,减少参数
3. DeepLab系列(v1, v2, v3, v3+):引入空洞卷积、ASPP、编码器-解码器
4. PSPNet:金字塔场景解析网络,多尺度池化
5. RefineNet:多路径精炼网络,用于实时分割
6. ICNet:图像级联网络,实时语义分割
7. BiSeNet:双边分割网络,平衡速度与精度
8. Fast-SCNN:轻量级实时分割
9. Mask R-CNN:实例分割,基于Faster R-CNN和FCN
10. HRNet:高分辨率网络,保持高分辨率特征

E-L1-0040

深度聚类

深度嵌入聚类

DEC (Deep Embedded Clustering)

步骤1:自动编码器预训练
使用去噪自动编码器(DAE)预训练一个深度神经网络,学习数据初始表示。目标是最小化重构损失:ℒ{rec} = |x - \hat{x}|²。
步骤2:嵌入空间初始化
移除解码器,使用编码器f_θ将数据映射到嵌入空间z_i = f_θ(x_i)。在嵌入空间上运行k-means聚类,得到初始簇中心{μ_j}
{j=1}^{K}。
步骤3:计算软分配分布
使用学生t分布作为核来衡量嵌入点z_i与簇中心μ_j的相似度:
q{ij} = (1 + |z_i - μ_j|²/α)^{-(α+1)/2} / ∑{j'} (1 + |z_i - μ{j'}|²/α)^{-(α+1)/2}
其中α是自由度,通常设为1。q
{ij}可解释为将样本i分配给簇j的概率。
步骤4:目标分布计算
通过提高预测置信度来锐化软分配,得到目标分布p:
p{ij} = q{ij}² / ∑{i'} q{i'j} / ∑{j'} (q{ij'}² / ∑{i'} q{i'j'})
目标分布p使分配更“坚定”,即更接近one-hot形式。
步骤5:优化KL散度
通过最小化软分配分布q与目标分布p之间的KL散度,同时优化聚类中心μ_j和编码器参数θ:
ℒ = KL(P |Q) = ∑i ∑j p{ij} log(p{ij} / q_{ij})
步骤6:迭代优化
重复步骤3-5,每轮迭代后根据当前嵌入重新计算目标分布p,直到收敛。
参数选择/优化
1. 聚类数K:预先指定,或通过其他方法估计
2. 自由度α:通常1
3. 编码器结构:多层感知机,根据数据维度设计
4. 预训练epochs:足够使自动编码器学到有用特征
5. 聚类优化epochs:通常较多,直至分配稳定
6. 优化器:Adam,学习率通常1e-3

精度:在多个图像和文本数据集上,聚类精度(如ACC,NMI)优于k-means和传统谱聚类
误差:KL散度损失
强度:将表示学习和聚类统一,学习适合聚类的嵌入

深度表示学习、软分配、学生t分布、目标分布锐化、KL散度最小化

1. 图像聚类:无监督图像分类、图像检索
2. 文档聚类:新闻、论文主题发现
3. 用户分群:基于行为数据的用户细分
4. 社交网络社区发现:基于节点嵌入的图聚类
5. 异常检测:将小簇或低概率样本视为异常
6. 数据可视化:通过嵌入降维可视化聚类结构
7. 特征学习:作为自监督任务预训练特征提取器
8. 推荐系统:聚类用户或物品,用于协同过滤
9. 基因表达分析:聚类基因或样本
10. 市场细分:客户聚类分析
特征
- 深度特征:通过神经网络学习的高层语义特征
- 软分配特征:样本属于各簇的概率分布
- 聚类友好特征:嵌入空间被优化为易于聚类

变量
x_i:输入样本
z_i:嵌入向量
μ_j:簇中心向量
q{ij}:软分配概率
p
{ij}:目标分布概率
常量
K:簇数量
α:t分布自由度(通常1)
参数
编码器参数θ
簇中心{μ_j}(可视为参数)

集合特征:样本集,簇中心集合
逻辑特征:软分配的概率逻辑
概率与统计特征:学生t分布,KL散度,目标分布计算涉及二次归一化
随机性:初始化随机性,预训练随机性
不确定性:软分配提供簇成员的不确定性
数据规律和推断:假设数据在嵌入空间中围绕几个原型分布
极限:当α→∞时,t分布趋近高斯;当α→0时?
连续性:嵌入空间的连续性,分配函数的连续性
微分:通过反向传播计算梯度(包括对μ_j和θ)
积分:KL散度的求和(离散积分)
级数:神经网络的多层变换
收敛性:迭代优化通常收敛,但可能陷入局部最优
测度:KL散度作为分布差异的测度
离散:簇标签的离散性(但软分配连续)
排序:按软分配概率排序样本对簇的归属
组合:样本与簇中心的组合关系
构造:通过最小化KL散度构造聚类友好的嵌入空间
优化:最小化KL散度ℒ
计算与算法特征:时间复杂度O(nKd) per iteration,n样本数,d嵌入维度
稳定性:对初始化和超参数敏感,预训练帮助稳定
对称性/非对称性:目标分布计算不对称(平方、归一化)
代数:向量距离,指数运算,归一化
拓扑:嵌入空间的拓扑,簇中心的拓扑分布
几何:学生t分布基于距离的几何,簇中心几何
:对样本顺序的置换不变性,对簇标签的置换对称性(需处理)
组合数学特征:样本分配到簇的组合(软)

可处理文本数据,通过自动编码器学习文本表示(如句向量)
软分配可解释为文本属于各主题的概率

时序流程
1. 预训练阶段:t₀-t₁
- 在数据集上训练去噪自动编码器,最小化重构损失。
- 保存编码器部分。

2. 初始化:t₂
- 用预训练编码器提取所有样本的嵌入{z_i}。
- 在{z_i}上运行k-means,得到初始簇中心{μ_j}。

3. 聚类优化循环:for iter=1 to max_iters
a. 计算软分配:t₃
- 计算所有样本对所有簇的软分配q{ij}(使用学生t分布公式)。
b. 计算目标分布:t₄
- 根据当前q
{ij}计算目标分布p{ij}(锐化)。
c. 优化损失:t₅
- 计算KL散度损失ℒ = ∑
i ∑j p{ij} log(p{ij} / q{ij})。
- 反向传播,更新编码器参数θ和簇中心{μ_j}(将μ_j视为可训练参数)。
d. 检查收敛:t₆
- 如果簇分配变化小于阈值,则停止。

4. 输出:t₇
- 最终嵌入{z_i}和软分配{q_i},或硬分配argmax_j q_{ij}。

服务器配置
单机/多GPU训练:DEC训练包括预训练和聚类优化。预训练自动编码器可在单GPU上完成。聚类优化阶段需计算所有样本对簇中心的软分配,内存复杂度O(nK)。对于十亿级样本,需分布式计算或采样。建议使用多GPU,每GPU处理一个数据分片,同步更新中心。
分布式聚类框架:可借鉴分布式k-means,将样本分片,在多个节点上计算局部梯度和分配,然后聚合更新中心和编码器参数。需数十个节点,每个节点配备GPU和足够内存存储分片数据。
在线推理服务:对新样本,通过编码器得到嵌入,计算与簇中心的软分配。编码器推理快,软分配计算O(Kd)。10亿级样本的聚类分配更新可批量进行。
计算需求:预训练复杂度取决于自动编码器大小。聚类优化每轮需计算所有样本的嵌入和软分配,计算量较大。十亿样本千维嵌入K=1000,每轮约10¹⁵次运算,需TFLOPS级算力。
内存需求:需存储所有样本的嵌入(n×d)和软分配(n×K),内存消耗大。十亿样本d=100,K=1000,需约4.4TB(float32)。需外存或分布式存储。

1. IDEC (Improved DEC):在聚类损失中加入重构损失,防止嵌入空间扭曲
2. SDEC (Structural DEC):结合数据的内在结构(如图)
3. VaDE (Variational Deep Embedding):基于变分自编码器的生成式深度聚类
4. DCN (Deep Clustering Network):联合优化重构和k-means损失
5. JULE (Joint Unsupervised LEarning):层次化深度聚类
6. DBC (Deep Balanced Clustering):处理类别不平衡
7. DCCM (Deep Comprehensive Correlation Mining):挖掘更丰富的相关性
8. DEC for Multi-view Data:多视图深度聚类
9. Online Deep Clustering:流式数据的深度聚类
10. Self-supervised Deep Clustering:结合自监督任务的深度聚类

E-L1-0041

时间序列分类

深度时间卷积网络

TCN (Temporal Convolutional Network)

步骤1:因果卷积
确保输出只依赖于当前及过去的输入,不依赖未来。通过将标准卷积的输出在时间轴上偏移来实现。
步骤2:膨胀卷积
在卷积核元素间插入空洞,扩大感受野而不增加参数。对于膨胀率d,卷积核在输入上每间隔d-1个点采样。第i层的膨胀率通常按指数增长,如d_i = 2^i。
步骤3:残差块
基本构建块包含:膨胀因果卷积、权重归一化、ReLU激活、Dropout,以及一个残差连接(通过1×1卷积调整维度如果需要)。
步骤4:网络结构
堆叠多个残差块,每块可能改变通道数。最终通过全局平均池化或全连接层输出分类结果。
步骤5:训练
使用交叉熵损失,优化器常用Adam。
参数选择/优化
1. 膨胀率基数:通常2,使得感受野呈指数增长
2. 残差块数量:决定网络深度和最大感受野
3. 卷积核大小k:通常3或5
4. 每层通道数:可恒定或逐层增加
5. Dropout率:防止过拟合,如0.2
6. 优化器:Adam,学习率1e-3或调度

精度:在多个时间序列分类基准上达到或超越RNN(如LSTM)和传统方法,且训练更快
误差:交叉熵损失
强度:并行计算(训练时),稳定梯度,可控制感受野,内存效率高

因果卷积、膨胀卷积、残差网络、序列建模、感受野理论

1. 动作识别:基于传感器(如加速度计)数据识别人体动作
2. 语音识别:音频波形或MFCC序列分类
3. 心电图分类:心律失常等异常检测
4. 设备故障预测:基于传感器序列预测故障
5. 金融时间序列分类:股票走势模式识别
6. 手势识别:基于肌电或运动数据
7. 自然语言处理:可作为文本分类的编码器(字符或词级别)
8. 视频分析:处理视频帧序列
9. 网络入侵检测:分类网络流量序列
10. 脑电图分类:脑电信号模式识别
特征
- 局部特征:通过卷积捕获局部时间模式
- 多尺度特征:通过膨胀卷积捕获不同时间尺度依赖
- 因果特征:保证时间方向的因果关系

变量
x_{1:T}:输入时间序列(T×C_in)
h^l_t:第l层在时间t的激活值
ŷ:预测类别概率
常量
T:序列长度
k:卷积核大小
d:膨胀率
参数
卷积核权重、偏置,权重归一化参数,残差连接1×1卷积权重

集合特征:时间点集合,残差块集合,通道集合
逻辑特征:因果卷积的逻辑约束(无未来信息)
概率与统计特征:输出类别概率分布
随机性:Dropout,权重初始化
不确定性:分类的不确定性
数据规律和推断:时间序列的局部自相关性和模式
极限:当层数→∞,膨胀率→∞时的感受野极限(覆盖整个序列)
连续性:序列值的连续性(通常)
微分:通过反向传播计算梯度
积分:卷积运算本质是加权积分(离散)
级数:膨胀率按指数增长的级数,网络层堆叠
收敛性:训练损失收敛性,通常比RNN快
测度:卷积核权重作为时间模式的测度
离散:时间点的离散性
排序:时间顺序是固有的
组合:多层的组合,残差连接组合
构造:通过因果膨胀卷积构造序列表示
优化:最小化交叉熵损失
计算与算法特征:训练时时间复杂度O(T·C²·L)可并行,推理时O(T·C²)同样可并行,优于RNN的O(T)
稳定性:梯度稳定,无爆炸/消失问题,训练稳定
对称性/非对称性:因果性导致非对称(仅依赖过去)
代数:卷积运算,权重归一化,残差加法
拓扑:时间序列的拓扑(顺序)
几何:特征在通道-时间空间的几何
:时间平移的不变性(对平稳部分)
组合数学特征:卷积核在膨胀下的模式组合

可处理字符级或词级文本序列,用于分类
膨胀卷积可捕获长距离依赖,但可能不如Transformer灵活

时序流程(一个残差块)
1. 膨胀因果卷积:t₀
- 输入序列x∈ℝ^{T×C_in}。
- 应用膨胀率为d,核大小为k的因果卷积。输出维度T×C_out(通过补零保持长度)。
- 权重归一化,ReLU激活。
- 可选Dropout。

2. 第二次卷积:t₁
- 类似,可能使用相同膨胀率。
- 权重归一化,ReLU激活,Dropout。

3. 残差连接:t₂
- 如果输入输出通道数相同,则直接将输入x加到第二次卷积的输出上。
- 如果不同,则对输入x应用1×1卷积调整通道数,然后相加。

4. 激活:t₃
- 对相加结果应用ReLU激活,得到该块输出。

整体网络:多个残差块串联,可能在不同块间改变通道数和膨胀率。最终全局平均池化(时间维)或取最后一个时间步,接全连接分类层。

训练:前向计算,交叉熵损失,反向传播。

服务器配置
GPU训练集群:TCN训练可高度并行,适合GPU。对于大规模时间序列数据集,可采用数据并行在多GPU上训练。需4-16张NVIDIA V100/A100 GPU。
在线推理服务:TCN推理也是并行前向,延迟低。单条序列推理时间与长度成正比,但可批量处理。实时分类场景(如传感器流)可部署在边缘GPU或CPU上。10亿级日分类请求(如IoT设备状态监控)通常批量处理,需数百个CPU/GPU核心。
计算需求:训练复杂度与序列长度、通道数和层数成正比。大规模训练需TFLOPS级算力。
内存需求:需存储中间特征图,内存消耗与序列长度和通道数成正比。长序列可能需要分块处理或使用更深的网络(膨胀卷积节省内存)。

1. WaveNet:用于音频生成的深度TCN,门控激活,因果卷积
2. Temporal Block with Gating:在TCN残差块中加入门控机制(如GLU)
3. Dilated TCN with Attention:结合注意力机制
4. Multi-scale TCN:并行多个不同膨胀率的TCN分支
5. TCN for Multivariate Time Series:多变量输入处理
6. Quasi-Recurrent Neural Networks (QRNN):结合卷积和循环的优点
7. Causal Convolutions with Skip Connections:更密集的跳跃连接
8. TCN with Memory:引入外部记忆单元
9. Lightweight TCN:深度可分离卷积等减少参数量
10. TCN for Anomaly Detection:用于时间序列异常检测

E-L1-0042

生成模型

去噪扩散概率模型

DDPM (Denoising Diffusion Probabilistic Models)

步骤1:前向过程(加噪)
定义马尔可夫链,逐步向数据x_0添加高斯噪声:q(x_t |x{t-1}) = N(x_t; √(1-β_t) x{t-1}, β_t I),其中β_t∈(0,1)是噪声调度。可推导出:q(x_t |x_0) = N(x_t; √(ᾱt) x_0, (1-ᾱt)I),其中α_t=1-β_t, ᾱt=∏{s=1}^{t} α_s。
步骤2:反向过程(去噪)
定义另一个马尔可夫链,学习从噪声中恢复数据:p_θ(x{t-1} |x_t) = N(x{t-1}; μ_θ(x_t, t), Σ_θ(x_t, t))。通常固定方差Σ_θ(x_t, t)=σ_t^2 I,σ_t^2=β_t或(1-ᾱ{t-1})/(1-ᾱt) β_t。
步骤3:训练目标
训练一个神经网络ε_θ(x_t, t)来预测添加到x_0的噪声ε。简化损失函数:L_simple = E{t, x_0, ε}[ |ε - ε_θ(√(ᾱt)x_0 + √(1-ᾱt)ε, t) |^2 ],其中t均匀采样,ε~N(0,I)。
步骤4:神经网络架构
通常使用U-Net结构,包含下采样和上采样,以及时间步t的嵌入(通过正弦位置编码或MLP)。
步骤5:采样
从标准高斯噪声x_T ~ N(0,I)开始,迭代应用:x
{t-1} = 1/√(α_t) ( x_t - (β_t/√(1-ᾱ_t)) ε_θ(x_t, t) ) + σ_t z,其中z~N(0,I),最后一步不加噪声(σ_1=0)。
参数选择/优化
1. 时间步数T:通常1000
2. 噪声调度β_t:线性从β_1=1e-4到β_T=0.02,或余弦调度
3. 网络:U-Net with attention,通道数、深度根据分辨率调整
4. 优化器:Adam,学习率通常1e-4
5. 训练步数:通常数十万到百万步

精度:在图像生成质量(如FID, IS)上达到当时SOTA,生成多样性和真实性高
误差:预测噪声的均方误差(简化损失)
强度:训练稳定,生成质量高,覆盖模式全

扩散过程、变分推断、马尔可夫链、得分匹配、朗之万动力学

1. 图像生成:无条件生成高分辨率真实图像
2. 图像修复:给定部分图像,补全缺失部分
3. 图像超分辨率:从低分辨率生成高分辨率
4. 图像上色:为黑白图像上色
5. 文本到图像生成:结合文本编码(如CLIP)生成图像
6. 音频生成:生成语音、音乐
7. 分子生成:生成药物分子结构
8. 3D形状生成:生成3D模型
9. 视频生成:生成视频序列
10. 数据增强:生成合成训练数据
特征
- 多尺度特征:U-Net结构捕获多尺度信息
- 时间特征:网络输入时间步t,控制噪声水平
- 随机特征:生成过程随机,可采样多样本

变量
x_0:原始数据
x_t:t时刻加噪数据
ε:高斯噪声
α_t, β_t:调度参数
常量
T:扩散步数
参数
去噪网络参数θ(U-Net权重)

集合特征:时间步集合{1,...,T},数据点集合
逻辑特征:马尔可夫链的前向和反向逻辑
概率与统计特征:高斯分布,KL散度,变分下界
随机性:前向噪声的随机性,采样时z的随机性
不确定性:生成过程的不确定性(随机采样)
数据规律和推断:数据分布通过逐步去噪的扩散过程建模
极限:当T→∞,β_t→0时,前向过程成为连续时间扩散
连续性:数据空间的连续性,噪声过程的连续性
微分:训练目标梯度,连续时间扩散对应随机微分方程
积分:变分下界的积分形式,连续时间情况下的积分
级数:ᾱ_t是α_t的连乘积
收敛性:训练损失收敛性,采样链的收敛性(到数据分布)
测度:KL散度作为分布间距离测度
离散:时间步的离散性
排序:时间步的顺序
组合:多步噪声的组合,U-Net编码器-解码器的组合
构造:通过逆向扩散过程构造数据样本
优化:最大化变分下界或最小化简化损失
计算与算法特征:训练时间复杂度O(T·网络计算),采样需T次网络前向,慢
稳定性:训练稳定,但采样慢
对称性/非对称性:前向过程对称(加噪),反向过程非对称(去噪)
代数:高斯分布参数计算,采样公式
拓扑:数据流形的拓扑
几何:数据在噪声空间中的几何演化
:对数据空间的对称性(如平移)取决于网络结构
组合数学特征:噪声步骤的组合

不直接处理语言,但可结合文本编码进行文生图
扩散过程本身针对连续数据(如图像像素)

时序流程(训练)
1. 采样:t₀
- 从训练集采样真实数据x_0。
- 均匀采样时间步t ~ Uniform({1,...,T})。
- 采样噪声ε ~ N(0, I)。

2. 加噪:t₁
- 计算加噪数据:x_t = √(ᾱt) x_0 + √(1-ᾱt) ε。

3. 去噪预测:t₂
- 将x_t和时间步t输入神经网络ε_θ,预测噪声ε_θ(x_t, t)。

4. 损失计算:t₃
- 计算均方误差:L = |ε - ε_θ(x_t, t) |²。

5. 反向传播:t₄
- 更新网络参数θ。

采样(生成)流程
1. 从标准高斯分布采样x_T ~ N(0, I)。
2. for t = T, ..., 1:
a. 预测噪声:ε_θ = ε_θ(x_t, t)。
b. 计算均值:μ_θ = 1/√(α_t) ( x_t - (β_t/√(1-ᾱt)) ε_θ )。
c. 采样噪声:如果t>1,采样z ~ N(0, I),否则z=0。
d. 更新:x
{t-1} = μ_θ + σ_t z。
3. 输出x_0作为生成样本。

服务器配置
大规模GPU集群训练:DDPM训练需要大量计算和内存。生成高分辨率图像(如256x256)需要较深的U-Net和大量时间步。需32-128张NVIDIA A100 GPU(每卡80GB)进行数据并行和可能的模型并行(U-Net分片)。训练需数天到数周。
分布式训练框架:使用PyTorch DDP,DeepSpeed。注意U-Net的激活内存大,需梯度检查点。
在线推理服务:DDPM采样需要T次(如1000)网络前向,非常慢。不适合实时生成。加速采样方法(如DDIM)可将步数减少到50-100步。10亿级生成请求不可行,但可用于离线内容生成(如艺术创作、数据增强)。实时服务需使用GAN或蒸馏的快速扩散模型。
计算需求:训练算力巨大(PFLOPS·天)。采样算力也大,但可并行处理多个样本。
内存需求:U-Net参数和中间激活占用大内存。高分辨率图像需大显存或使用CPU卸载。

1. Improved DDPM:学习方差,使用余弦噪声调度,提升效果
2. DDIM (Denoising Diffusion Implicit Models):非马尔可夫扩散,加速采样
3. Score-Based Generative Models (NCSN):基于得分匹配的另一种视角,使用朗之万动力学采样
4. Stable Diffusion:在潜在空间进行扩散,大幅降低计算成本
5. DALL-E 2:结合CLIP文本编码的扩散模型
6. Classifier Guidance:使用分类器梯度指导生成,提升样本质量
7. Latent Diffusion Models (LDM):在VAE潜在空间扩散
8. Progressive Distillation:将多步模型蒸馏为少步模型,加速采样
9. Diffusion with Conditional Inputs:条件生成(如类别、文本)
10. Continuous-Time Diffusion:基于SDE的框架,更一般化

E-L1-0043

特征选择

基于稀疏学习的特征选择

LASSO (Least Absolute Shrinkage and Selection Operator)

步骤1:目标函数
在普通最小二乘(OLS)回归损失中加入L1正则化项:
min_β (1/(2n)) ∑{i=1}^{n} (y_i - ∑{j=1}^{p} β_j x{ij})² + λ ∑{j=1}^{p}

β_j


其中λ≥0是正则化参数,控制稀疏度。
步骤2:几何解释
L1约束在参数空间中构成一个菱形(高维是交叉多面体)。最优解往往出现在菱形的角上,使得某些系数恰好为0,从而实现特征选择。
步骤3:求解算法
常用坐标下降法:每次更新一个系数β_j,保持其他系数固定,求解一维优化问题:
β_j = S( (1/n)∑i x{ij}(y_i - ŷi^{-j}), λ ) / ( (1/n)∑i x{ij}² )
其中ŷ
i^{-j}是使用除j外所有特征的预测,S是软阈值函数:S(z, λ) = sign(z)(|z|- λ)_+。
步骤4:正则化路径
通过逐渐增大λ,记录系数β的变化路径。λ越大,越多系数变为0。
步骤5:参数选择
通过交叉验证选择λ,通常使用最小化交叉验证误差或“1标准误”准则。
参数选择/优化
1. 正则化参数λ:通过交叉验证选择
2. 标准化:通常对特征进行标准化(均值为0,方差为1),使惩罚公平
3. 截距:通常不加惩罚,可中心化数据后忽略截距
4. 算法:坐标下降法高效,也可用最小角回归(LARS)计算整个路径

精度:在特征选择和高维预测中,LASSO可提高预测准确性(通过降低方差)和可解释性
误差:均方误差(训练)或交叉验证误差
强度:产生稀疏解,自动进行特征选择,计算高效

凸优化、L1正则化、稀疏性、坐标下降、软阈值

1. 高维回归:基因表达数据预测表型,p>>n
2. 特征选择:从大量特征中选择相关特征
3. 信号处理:压缩感知,信号重构
4. 金融建模:股票收益预测,选择相关因子
5. 医学诊断:从医学影像特征中选择生物标志物
6. 文本分类:从高维词袋特征中选择重要词
7. 推荐系统:选择重要的用户或物品特征
8. 因果推断:用于工具变量选择等
9. 图像处理:图像去噪、修复
10. 时间序列预测:选择相关滞后变量
特征
- 稀疏特征:解中许多系数为0
- 稳定性:在一定条件下,可正确识别真实非零系数
- 线性特征:模型是线性的

变量
β∈ℝ^p:回归系数向量
λ:正则化参数
常量
n:样本数
p:特征数
参数
系数β_j(待求),正则化参数λ(需调)

集合特征:特征集合,非零系数索引集合
逻辑特征:特征选择逻辑(系数是否为零)
概率与统计特征:在贝叶斯视角下,对应拉普拉斯先验;系数估计的分布
随机性:数据采样随机性,交叉验证分割随机性
不确定性:选择特征集的不稳定性(对数据微小变化敏感)
数据规律和推断:假设真实模型是稀疏的
极限:当λ→∞,所有系数趋于0;当λ→0,趋于OLS解
连续性:解路径β(λ)是分段线性连续(LARS)

编号

类别

模型配方

算法/模型/方法名称

算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化

精度/密度/误差/强度

底层规律/理论定理

典型应用场景【10个场景】和各类特征

变量/常量/参数列表及说明

数学特征

语言特征

时序和交互流程的所有细节/分步骤时序情况及数学方程式

10亿级并发下的服务器性能与规模需求

配套优化算法列表

E-L1-0053

深度学习

多层感知机

全连接前馈神经网络 (Feedforward Neural Network)

步骤1:前向传播
给定输入向量x,对于第l层(l=1,...,L),计算净输入z^(l) = W^(l) a^(l-1) + b^(l),其中a^(0)=x,W^(l)为权重矩阵,b^(l)为偏置向量。然后应用激活函数σ(·):a^(l) = σ(z^(l))。常用激活函数:ReLU: σ(z)=max(0,z), Sigmoid: σ(z)=1/(1+e^{-z}), Tanh: σ(z)=(e^z - e^{-z})/(e^z + e^{-z})。输出层a^(L)即为预测值ŷ。
步骤2:损失函数计算
计算预测ŷ与真实y之间的损失L(ŷ, y)。例如,回归用均方误差:L = (1/n)∑(y_i - ŷi)²;二分类用交叉熵:L = -(1/n)∑[y_i log(ŷi) + (1-y_i)log(1-ŷ_i)]。
步骤3:反向传播
计算损失对参数的梯度,从输出层反向传播至输入层。定义第l层的误差项δ^(l) = ∂L/∂z^(l)。对于输出层:δ^(L) = ∂L/∂a^(L) ⊙ σ'(z^(L)),其中⊙为逐元素乘法。对于隐藏层:δ^(l) = ( (W^(l+1))ᵀ δ^(l+1) ) ⊙ σ'(z^(l))。然后计算梯度:∂L/∂W^(l) = δ^(l) (a^(l-1))ᵀ, ∂L/∂b^(l) = δ^(l)。
步骤4:参数更新
使用梯度下降更新参数:W^(l) := W^(l) - α ∂L/∂W^(l), b^(l) := b^(l) - α ∂L/∂b^(l),其中α为学习率。常用优化器:SGD、Momentum、Adam。
步骤5:迭代训练
重复前向传播、损失计算、反向传播和参数更新,直到收敛或达到最大迭代次数。
参数选择/优化
1. 网络结构:层数、每层神经元数,通过实验或架构搜索选择。
2. 激活函数:ReLU常用,可尝试Leaky ReLU、ELU等。
3. 初始化:He初始化(ReLU)、Xavier初始化(Sigmoid/Tanh)。
4. 正则化:L2正则化、Dropout、Batch Normalization。
5. 优化器:Adam通常作为默认选择。

精度:在复杂非线性问题上可达到高精度,但可能过拟合。
误差:训练误差和验证误差,可用早停防止过拟合。
强度:万能近似定理保证可拟合任意连续函数,但需要足够神经元和合适的训练。

万能近似定理、链式法则、梯度下降、反向传播算法

1. 函数逼近:拟合任意复杂度的输入输出映射
2. 图像分类:手写数字识别、物体分类
3. 回归预测:房价预测、销量预测
4. 语音识别:声学模型
5. 自然语言处理:词性标注、情感分析
6. 游戏AI:Atari游戏、棋类游戏(与强化学习结合)
7. 金融预测:股票价格预测、风险评估
8. 医疗诊断:医学影像分析、疾病预测
9. 推荐系统:用户兴趣预测
10. 控制系统:机器人控制、自动驾驶
特征
- 多层非线性变换:可学习复杂特征表示
- 端到端学习:从原始输入直接学习输出
- 黑箱特性:可解释性差

变量
x:输入向量
y:真实输出
ŷ:预测输出
z^(l):第l层净输入
a^(l):第l层激活输出
δ^(l):第l层误差项
常量
L:网络总层数
n:样本数
参数
权重矩阵W^(l),偏置向量b^(l),学习率α等超参数

集合特征:神经元集合,层集合
逻辑特征:前向计算逻辑,反向传播链式法则逻辑
概率与统计特征:损失函数基于概率(如交叉熵),参数初始化基于统计分布
随机性:参数初始化随机性,Dropout随机性,数据shuffle随机性
不确定性:预测不确定性可通过贝叶斯神经网络或集成估计
数据规律和推断:通过多层非线性变换学习数据规律
极限:当神经元数→∞,可近似任意连续函数(万能近似定理)
连续性:激活函数通常连续可导(ReLU在0点不可导但可处理)
微分:反向传播基于梯度计算,需要激活函数可导
积分:损失函数是求和(离散积分)
级数:网络是层的级联
收敛性:非凸优化,可能收敛到局部最优,依赖初始化和优化器
测度:损失函数作为预测误差的测度
离散:输入输出可以是离散值(如分类标签)
排序:无特定排序
组合:神经元连接的组合,特征组合通过非线性变换
构造:通过堆叠层构造深度网络
优化:最小化损失函数,使用梯度下降及其变体
计算与算法特征:前向传播O(∑l n{l-1} n_l),反向传播类似。矩阵运算可并行化。
稳定性:梯度消失/爆炸问题,可通过BatchNorm、残差连接缓解
对称性/非对称性:网络结构通常不对称
代数:矩阵乘法,向量加法,逐元素非线性
拓扑:网络是有向无环图(前馈)
几何:每层进行仿射变换加非线性,形成复杂决策边界
:对输入平移、旋转等变换不具有不变性(除非数据增强)
组合数学特征:网络架构的组合搜索空间巨大

本身不直接处理序列语言,但可作为文本分类器(输入为词向量)
可处理词袋、TF-IDF等文本表示

时序流程(一个训练批次)
1. 前向传播:t₀
- 输入一个批次数据X_batch。
- 对于每一层l=1 to L:
- 计算Z^(l) = W^(l) A^(l-1) + b^(l) (A^(0)=X_batch)。
- 计算A^(l) = σ(Z^(l))。
- 输出Ŷ = A^(L)。
2. 损失计算:t₁
- 计算损失L = (1/batch_size) ∑ Loss(ŷi, y_i)。
3. 反向传播:t₂
- 计算输出层误差δ^(L) = ∇
A L ⊙ σ'(Z^(L))。
- 对于l=L-1 to 1:
- 计算δ^(l) = ( (W^(l+1))ᵀ δ^(l+1) ) ⊙ σ'(Z^(l))。
- 计算梯度dW^(l) = δ^(l) (A^(l-1))ᵀ, db^(l) = sum(δ^(l), axis=1)。
4. 参数更新:t₃
- 使用优化器(如Adam)更新参数:W^(l) := W^(l) - α · m_t/(√v_t + ε),其中m_t, v_t为动量项。
5. 循环:t₄
- 重复以上步骤直到遍历所有训练数据(一个epoch),多个epoch直到收敛。

服务器配置
GPU集群:训练深度神经网络需要大量矩阵运算,GPU(如NVIDIA A100/H100)比CPU快数十倍。对于大型网络(参数>10⁹)和大数据,需多机多GPU集群(如数百块GPU),使用数据并行(每个GPU持有模型副本,处理不同数据批次,同步梯度)或模型并行(模型拆分到不同GPU)。
在线推理服务:前向传播计算复杂度O(∑l n{l-1} n_l)。10亿级并发请求需要极高性能:需数千个GPU或专用推理芯片(如NVIDIA T4, Google TPU),通过模型量化、剪枝、蒸馏等技术优化,并使用负载均衡和缓存。
计算需求:训练需要PFLOPS级算力。推理需要高吞吐和低延迟。
内存需求:存储模型参数、激活值、梯度。大型模型参数可达数百GB,需高带宽内存(HBM)。
通信开销:数据并行中,GPU间同步梯度需要高速互联(如NVLink, InfiniBand)。

1. 反向传播算法:计算梯度的核心算法
2. 随机梯度下降:基本优化算法
3. 动量法:加速SGD,抑制振荡
4. Adam:自适应学习率优化器
5. Dropout:随机失活,防止过拟合
6. Batch Normalization:批标准化,加速训练并稳定
7. 权重初始化:Xavier、He初始化
8. 学习率调度:余弦退火、指数衰减等
9. 早停:防止过拟合
10. L1/L2正则化:权重衰减,防止过拟合

E-L1-0054

深度学习

卷积神经网络

卷积神经网络 (Convolutional Neural Network, CNN)

步骤1:卷积层
使用卷积核(滤波器)在输入特征图上滑动,计算局部区域的点积并加上偏置,生成输出特征图。对于输入X(尺寸H×W×C_in),卷积核W(尺寸K×K×C_in×C_out),输出Y(尺寸H'×W'×C_out):Y(i,j,c) = σ( ∑{m=0}^{K-1} ∑{n=0}^{K-1} ∑{d=1}^{C_in} X(i+m, j+n, d) · W(m,n,d,c) + b(c) ),其中σ为激活函数。步长(stride)和填充(padding)控制输出尺寸。
步骤2:池化层
对特征图进行下采样,保留主要特征同时减少参数。最大池化:Y(i,j,c) = max
{m,n∈窗口} X(i·s+m, j·s+n, c)。平均池化:取平均值。
步骤3:全连接层
将卷积和池化层提取的特征展平,输入全连接层进行分类或回归。
步骤4:训练
使用反向传播和梯度下降优化所有参数(卷积核权重、全连接层权重、偏置)。
步骤5:经典架构
如LeNet、AlexNet、VGG、ResNet等,通过堆叠卷积、池化、全连接层构成。
参数选择/优化
1. 卷积核大小:常用3×3、5×5。
2. 卷积核数量:逐层增加,捕获更复杂特征。
3. 步长和填充:控制输出尺寸,保持空间分辨率常用padding='same'。
4. 池化窗口大小:常用2×2。
5. 网络深度:越深表征能力越强,但难训练,可用残差连接。
6. 正则化:Dropout、BatchNorm、数据增强。

精度:在图像分类、目标检测等任务上达到人类水平或超越。
误差:分类错误率、定位误差等。
强度:参数共享大幅减少参数量,局部连接和平移不变性适合图像数据。

卷积定理、稀疏交互、参数共享、平移等变性、层次特征提取

1. 图像分类:ImageNet竞赛、人脸识别
2. 目标检测:YOLO、Faster R-CNN
3. 语义分割:FCN、U-Net
4. 图像生成:生成对抗网络、风格迁移
5. 视频分析:动作识别、视频分类
6. 医学影像分析:肿瘤检测、细胞分割
7. 自动驾驶:道路识别、交通标志检测
8. 遥感图像分析:地物分类、变化检测
9. 自然语言处理:文本分类(1D卷积)、机器翻译
10. 语音识别:声谱图分析
特征
- 局部感知:卷积核只关注局部区域
- 参数共享:同一卷积核在整张图上共享权重
- 平移不变性:物体在图中平移,输出特征图也平移
- 层次结构:浅层提取边缘、纹理,深层提取语义特征

变量
X:输入特征图(张量)
W:卷积核权重(张量)
b:偏置
Y:输出特征图
常量
K:卷积核尺寸
C_in, C_out:输入/输出通道数
s:步长
p:填充
参数
卷积核权重W,偏置b,全连接层权重等

集合特征:特征图集合,卷积核集合
逻辑特征:局部连接逻辑,滑动窗口逻辑,池化下采样逻辑
概率与统计特征:通过训练学习卷积核权重,BatchNorm使用批次统计量
随机性:权重初始化随机性,Dropout随机性
不确定性:预测不确定性可通过贝叶斯CNN或集成估计
数据规律和推断:假设数据具有局部相关性和平移不变性(如图像)
极限:当深度→∞,理论上可表示任意函数,但训练困难
连续性:输入输出通常是连续的(如图像像素强度)
微分:卷积操作可微,可使用反向传播
积分:卷积是连续卷积的离散近似
级数:网络是层的级联
收敛性:深度CNN优化困难,需残差连接、BatchNorm等技巧
测度:损失函数作为预测误差的测度
离散:输入输出可以是离散(如分类标签)
排序:无特定排序
组合:局部特征的组合形成全局特征
构造:通过堆叠卷积、池化、全连接层构造
优化:最小化损失函数,使用梯度下降
计算与算法特征:卷积计算可转化为矩阵乘法(im2col)或使用FFT加速。计算复杂度O(H·W·C_in·C_out·K²)。
稳定性:深度CNN存在梯度消失/爆炸,可用BatchNorm、残差连接稳定
对称性/非对称性:卷积操作具有平移等变性,但不具有旋转不变性(除非数据增强)
代数:卷积运算,矩阵乘法,非线性激活
拓扑:特征图是网格拓扑,卷积是局部操作
几何:卷积核学习局部模式,池化提供空间不变性
:对平移具有等变性,对缩放、旋转不具有不变性(除非特别设计)
组合数学特征:卷积核参数组合,网络架构组合

可用于文本分类(1D卷积处理词序列)
卷积核可视为n-gram特征检测器

时序流程(一个训练批次)
1. 前向传播:t₀
- 输入图像批次X_batch (B×H×W×C)。
- 对于每个卷积层:
- 卷积操作:Y = Conv2D(X, W, stride, padding)。
- 加偏置和激活:Y = σ(Y + b)。
- 对于每个池化层:Y = MaxPool2D(X, pool_size, stride)。
- 展平特征图:Flatten。
- 全连接层:类似MLP。
- 输出预测Ŷ。
2. 损失计算:t₁
- 计算损失L(如交叉熵)。
3. 反向传播:t₂
- 计算损失对输出的梯度。
- 通过全连接层反向传播。
- 通过池化层反向传播(最大池化记录最大值位置)。
- 通过卷积层反向传播,计算对卷积核权重和输入的梯度。
4. 参数更新:t₃
- 使用优化器更新所有参数(卷积核、全连接权重、偏置)。
5. 循环:t₄
- 重复直到收敛。

服务器配置
GPU集群:CNN训练计算密集,尤其是卷积运算。需要高性能GPU(如NVIDIA A100)和高速GPU间互联(NVLink)。对于大型数据集(如ImageNet)和深度网络(如ResNet-152),需多机多GPU训练,使用数据并行。
在线推理服务:单张图像前向传播需要数十到数百毫秒(取决于网络深度和输入尺寸)。10亿级并发图像识别请求(如手机相册分类)需要超大规模推理集群:数千个GPU或专用AI芯片(如TPU),通过模型压缩(量化、剪枝)、动态批处理、服务端缓存优化。实时视频流处理需求更高。
计算需求:训练需要PFLOPS级算力。推理需要高吞吐和低延迟,特别是实时应用。
内存需求:存储模型参数和中间激活。大型CNN参数可达数百MB,激活值可能更大,需高带宽内存。
通信开销:数据并行中,梯度同步通信量大,需高速网络。

1. 反向传播:通用训练算法
2. 随机梯度下降及其变体:优化权重
3. Dropout:防止过拟合
4. Batch Normalization:加速训练,提高稳定性
5. 数据增强:旋转、裁剪、翻转等增加数据多样性
6. 迁移学习:使用预训练模型微调
7. 卷积核优化:使用1×1卷积降维,深度可分离卷积减少参数
8. 架构搜索:自动搜索最优网络结构
9. 知识蒸馏:用小模型模拟大模型
10. 模型剪枝和量化:减少模型大小,加速推理

E-L1-0055

深度学习

循环神经网络

循环神经网络 (Recurrent Neural Network, RNN)

步骤1:循环单元计算
在时间步t,输入x_t,隐藏状态h{t-1},计算当前隐藏状态h_t = σ(W{xh} x_t + W{hh} h{t-1} + b_h),其中σ是激活函数(如tanh)。输出y_t = softmax(W{hy} h_t + b_y)(对于分类)。
步骤2:沿时间展开
将RNN沿时间序列展开,形成深度网络,参数共享。
步骤3:损失计算
对于序列长度T,总损失L = ∑
{t=1}^{T} L_t(y_t, ŷt),其中L_t是每个时间步的损失(如交叉熵)。
步骤4:随时间反向传播
计算损失对参数W
{xh}, W{hh}, W{hy}的梯度。由于参数共享,梯度需要从时间步T反向传播到时间步1,可能产生梯度消失或爆炸问题。
步骤5:变体
长短期记忆网络(LSTM)和门控循环单元(GRU)通过门控机制缓解梯度消失,捕获长期依赖。
参数选择/优化
1. 隐藏层维度:控制状态向量大小。
2. 网络层数:堆叠多层RNN以增加容量。
3. 激活函数:tanh常用。
4. 初始化:正交初始化有助于缓解梯度问题。
5. 优化器:Adam、RMSprop适合RNN。
6. 梯度裁剪:防止梯度爆炸。

精度:在序列建模任务上有效,但标准RNN对长期依赖建模困难,LSTM/GRU更好。
误差:序列预测误差(如困惑度、交叉熵)。
强度:可处理变长序列,具有记忆能力,参数共享。

序列建模、动态系统、参数共享、梯度消失/爆炸、BPTT算法

1. 语言建模:预测下一个词
2. 机器翻译:序列到序列学习
3. 语音识别:音频序列转文本
4. 文本生成:诗歌、故事生成
5. 时间序列预测:股票价格、天气预测
6. 视频分析:视频帧序列理解
7. 音乐生成:音符序列生成
8. 手写识别:笔迹轨迹识别
9. 情感分析:分析文本情感随时间变化
10. 机器人控制:序列决策
特征
- 序列处理:可处理任意长度序列
- 参数共享:同一权重在时间步间共享
- 记忆能力:隐藏状态传递历史信息
- 梯度问题:标准RNN存在梯度消失/爆炸

变量
x_t:时间步t的输入
h_t:时间步t的隐藏状态
y_t:时间步t的输出
常量
T:序列长度
参数
权重矩阵W{xh}, W{hh}, W_{hy},偏置b_h, b_y

集合特征:时间步序列,隐藏状态序列
逻辑特征:循环计算逻辑,时间展开逻辑
概率与统计特征:输出可以是概率分布(如softmax)
随机性:权重初始化随机性
不确定性:序列预测的不确定性(可通过概率输出或集成)
数据规律和推断:假设当前输出依赖于当前输入和过去状态(马尔可夫性)
极限:当序列长度T→∞,梯度可能消失或爆炸
连续性:隐藏状态和输出通常是连续向量
微分:BPTT基于链式法则,梯度可能指数级缩小或放大
积分:损失是时间步损失的和(离散积分)
级数:时间展开形成深度网络
收敛性:训练可能不稳定,需梯度裁剪、合适初始化
测度:困惑度(Perplexity)衡量语言模型性能
离散:输入输出可以是离散符号(如单词)
排序:时间顺序是关键的排序
组合:序列元素的组合通过隐藏状态编码
构造:通过循环连接构造动态系统
优化:最小化序列损失,使用BPTT
计算与算法特征:每个时间步计算复杂度O(d_h (d_x + d_h)),d_h隐藏层维度,d_x输入维度。序列计算无法并行(训练时可沿时间展开并行,但推理需顺序)。
稳定性:标准RNN不稳定,LSTM/GRU更稳定
对称性/非对称性:时间方向不对称(单向RNN)
代数:矩阵乘法,向量加法,非线性激活
拓扑:循环连接形成有环图
几何:隐藏状态在状态空间中演化
:对时间平移不具有不变性(除非特别设计)
组合数学特征:序列的组合,时间步的组合

核心序列模型,直接处理词序列,用于语言建模、机器翻译等
隐藏状态可视为上下文表示

时序流程(一个训练样本序列)
1. 初始化隐藏状态:t₋₁
- 初始化h_0为零向量或可学习参数。
2. 前向传播(按时间步):for t=1 to T
a. 计算隐藏状态:t₀
- h_t = tanh(W{xh} x_t + W{hh} h{t-1} + b_h)。
b. 计算输出:t₁
- y_t = softmax(W
{hy} h_t + b_y)。
c. 计算损失:t₂
- L_t = CrossEntropy(y_t, ŷt)。
3. 总损失:t₃
- L = ∑
{t=1}^{T} L_t。
4. 反向传播(BPTT):t₄
- 初始化梯度:∂L/∂h_T 从输出层得到。
- for t=T to 1:
- 计算损失对h_t的梯度(考虑来自t+1的梯度):∂L/∂h_t = ∂L_t/∂h_t + (∂L/∂h{t+1}) (∂h{t+1}/∂h_t)。
- 计算参数梯度:∂L/∂W{hh} += (∂L/∂h_t) h{t-1}^T, ∂L/∂W_{xh} += (∂L/∂h_t) x_t^T, ∂L/∂b_h += ∂L/∂h_t。
- 更新参数:使用梯度下降。
5. 循环:t₅
- 对多个序列重复。

服务器配置
GPU集群:RNN训练由于序列依赖,难以并行化。但可以使用批量训练(不同序列组成批次)和沿时间展开并行。LSTM/GRU计算更复杂。需要GPU加速矩阵运算。对于长序列,需处理梯度消失/爆炸。
在线推理服务:RNN推理是顺序的,每个时间步需要前一个隐藏状态,因此难以并行。10亿级并发序列推理(如实时语音识别)挑战巨大:需要极高性能顺序处理。通常使用优化后的RNN实现(如CuDNN RNN)和批处理来提高吞吐量。对于极高性能要求,可能使用Transformer等更并行化的架构替代。
计算需求:训练复杂度O(T·d_h·(d_x+d_h)) per sample。对于长序列和大模型,需要TFLOPS级算力。
内存需求:存储隐藏状态和梯度,序列长时内存消耗大。需高带宽内存。
通信开销:数据并行训练时,梯度同步通信量中等。

1. 随时间反向传播:RNN训练算法
2. 长短期记忆网络:引入门控机制,缓解梯度消失
3. 门控循环单元:简化LSTM,效果相当
4. 双向RNN:同时考虑过去和未来上下文
5. 深度RNN:堆叠多层RNN
6. 梯度裁剪:防止梯度爆炸
7. 序列到序列模型:编码器-解码器架构
8. 注意力机制:增强Seq2Seq,关注相关部分
9. Teacher Forcing:训练时使用真实上一输出作为输入
10. 束搜索:解码时寻找较优序列

E-L1-0056

深度学习

自注意力机制

Transformer

步骤1:输入嵌入与位置编码
将输入序列(如词索引)通过嵌入层转换为向量序列X ∈ ℝ^{n×d_model}。加入位置编码PE(pos,2i)=sin(pos/10000^{2i/d_model}), PE(pos,2i+1)=cos(pos/10000^{2i/d_model}),得到输入表示Z = X + PE。
步骤2:多头自注意力
对于每个头h(共h个头),将输入Z线性投影到查询Q_h = Z W_h^Q,键K_h = Z W_h^K,值V_h = Z W_h^V,其中W_h^Q, W_h^K, W_h^V ∈ ℝ^{d_model×d_k}。计算注意力分数:Attention(Q_h, K_h, V_h) = softmax( (Q_h K_h^T) / √{d_k} ) V_h。将h个头的输出拼接并线性投影:MultiHead(Z) = Concat(head_1, ..., head_h) W^O。
步骤3:前馈网络
每个位置独立应用两层全连接层:FFN(x) = max(0, x W_1 + b_1) W_2 + b_2。
步骤4:残差连接与层归一化
每个子层(自注意力、前馈网络)输出为LayerNorm(x + Sublayer(x))。
步骤5:堆叠编码器与解码器
编码器由N个相同层堆叠,每层包含多头自注意力和前馈网络。解码器类似,但增加编码器-解码器注意力层,并使用掩码防止关注未来位置。
步骤6:训练
使用交叉熵损失,优化器如Adam,学习率预热和衰减。
参数选择/优化
1. d_model:模型维度,如512、768、1024。
2. h:注意力头数,如8、12、16。
3. d_k, d_v:每个头的维度,通常d_k = d_v = d_model / h。
4. N:编码器/解码器层数,如6、12、24。
5. 前馈网络隐藏层维度:通常4×d_model。
6. Dropout率:防止过拟合。
7. 学习率调度:预热步数,然后衰减。

精度:在机器翻译等序列任务上达到SOTA,大幅超越RNN。
误差:困惑度、BLEU分数等。
强度:并行计算能力强,可捕获长距离依赖,无需循环,训练快。

自注意力、缩放点积注意力、残差网络、层归一化、位置编码

1. 机器翻译:如Google Translate
2. 文本生成:GPT系列模型
3. 文本分类:BERT等预训练模型微调
4. 问答系统:阅读理解、开放域问答
5. 语音识别:音频序列转文本
6. 图像生成:Vision Transformer、DALL-E
7. 代码生成:GitHub Copilot
8. 蛋白质结构预测:AlphaFold2
9. 推荐系统:序列推荐
10. 多模态学习:图文跨模态理解
特征
- 自注意力:每个位置关注序列所有位置,捕获全局依赖
- 并行计算:自注意力可完全并行,训练高效
- 位置编码:注入序列顺序信息
- 缩放点积:防止softmax梯度消失

变量
X:输入序列(整数索引或向量)
Z:嵌入后输入表示
Q, K, V:查询、键、值矩阵
常量
n:序列长度
d_model:模型维度
h:注意力头数
N:层数
参数
嵌入矩阵,投影矩阵W^Q, W^K, W^V, W^O,前馈网络权重,层归一化参数

集合特征:序列位置集合,注意力头集合,层集合
逻辑特征:自注意力逻辑,残差连接逻辑,层归一化逻辑
概率与统计特征:注意力权重是概率分布(softmax输出)
随机性:权重初始化随机性,Dropout随机性
不确定性:预测不确定性(可通过输出概率或集成)
数据规律和推断:通过自注意力机制学习序列内元素间关系
极限:当序列长度n→∞,注意力计算复杂度O(n²)成为瓶颈
连续性:嵌入向量连续,注意力权重连续
微分:所有操作可微,可使用反向传播
积分:注意力是加权和(离散积分)
级数:网络是层的堆叠
收敛性:训练相对稳定,得益于残差连接和层归一化
测度:交叉熵损失,困惑度
离散:输入输出可以是离散符号(如单词)
排序:位置编码注入顺序信息,但注意力本身是排列等变的
组合:多头注意力组合不同表示子空间
构造:通过堆叠编码器/解码器层构造
优化:最小化交叉熵,使用Adam优化器
计算与算法特征:自注意力复杂度O(n²·d_model),前馈网络复杂度O(n·d_model²)。可并行计算。
稳定性:残差连接和层归一化缓解梯度问题,训练稳定
对称性/非对称性:自注意力对输入排列是等变的(无位置编码时)
代数:矩阵乘法,softmax,残差加法,层归一化
拓扑:完全图(每个位置关注所有位置)
几何:将序列映射到高维空间,通过注意力计算相似度
:无位置编码时,对输入排列具有等变性;有位置编码后,打破等变性,注入顺序信息
组合数学特征:序列位置间的注意力组合,多头组合

核心自然语言处理模型,直接处理词序列,通过自注意力捕获上下文依赖
位置编码为序列注入顺序信息

时序流程(编码器层,训练阶段)
1. 输入:t₀
- 输入序列经过嵌入和位置编码,得到Z ∈ ℝ^{n×d_model}。
2. 多头自注意力:t₁
- 对每个头h:
- 计算Q_h = Z W_h^Q, K_h = Z W_h^K, V_h = Z W_h^V。
- 计算注意力分数 S_h = Q_h K_h^T / √{d_k}。
- 计算注意力权重 A_h = softmax(S_h)。
- 计算头输出 head_h = A_h V_h。
- 拼接所有头输出:MultiHead = Concat(head_1, ..., head_h)。
- 线性投影: Z_attn = MultiHead W^O。
3. 残差连接与层归一化:t₂
- Z_attn = LayerNorm(Z + Z_attn)。
4. 前馈网络:t₃
- Z_ffn = FFN(Z_attn) = max(0, Z_attn W_1 + b_1) W_2 + b_2。
5. 残差连接与层归一化:t₄
- Z_out = LayerNorm(Z_attn + Z_ffn)。
6. 堆叠:t₅
- 将Z_out作为下一层输入,重复N次。
7. 训练:t₆
- 计算损失(如交叉熵),反向传播更新所有参数。

服务器配置
大规模GPU/TPU集群:Transformer训练计算和内存需求巨大。大型模型(如GPT-3)有数千亿参数,需数千张GPU/TPU(如NVIDIA A100或Google TPU v4)进行分布式训练(数据并行、模型并行、流水线并行)。内存需存储参数、梯度、优化器状态和激活值,模型并行可分摊内存。
在线推理服务:Transformer推理可并行计算注意力,但自注意力复杂度O(n²)对长序列是瓶颈。10亿级并发请求(如智能助手、搜索)需要超大规模推理集群:数千个GPU/TPU,使用模型压缩(量化、蒸馏)、注意力优化(如稀疏注意力)、动态批处理。对于长序列,需优化内存和计算。
计算需求:训练需要EFLOPS级算力(如GPT-3训练消耗数千PetaFLOP/s-day)。推理需要高吞吐和低延迟。
内存需求:参数、激活值、KV缓存(自回归生成时)需要极大内存。使用混合精度训练节省内存。
通信开销:分布式训练中,模型并行需要频繁通信激活值和梯度,需极高速互联(如NVLink, Optical Switch)。

1. 缩放点积注意力:核心注意力机制
2. 多头注意力:并行多个注意力头
3. 位置编码:正弦/余弦编码,可学习编码
4. 残差连接:缓解梯度消失,使训练更深网络
5. 层归一化:稳定训练,加速收敛
6. Adam优化器:自适应学习率
7. 学习率预热:训练初期线性增加学习率
8. 标签平滑:防止过拟合,提高泛化
9. 束搜索:自回归生成时使用
10. 梯度裁剪:防止梯度爆炸

E-L1-0057

深度学习

生成对抗网络

生成对抗网络 (Generative Adversarial Network, GAN)

步骤1:定义生成器和判别器
生成器G:输入噪声z(通常从先验分布p_z,如正态分布采样),输出生成数据G(z)。判别器D:输入真实数据x或生成数据G(z),输出标量表示输入为真的概率D(x)或D(G(z))。
步骤2:对抗训练
目标函数是极小极大博弈:min_G max_D V(D,G) = E{x∼p_data}[log D(x)] + E{z∼p_z}[log(1 - D(G(z)))]。判别器D试图最大化该值(正确区分真假),生成器G试图最小化该值(使生成数据被判别为真)。
步骤3:交替优化
训练时交替更新D和G:
1. 固定G,更新D:最大化 V(D,G) ≈ (1/m)∑{i=1}^{m}[log D(x^{(i)}) + log(1 - D(G(z^{(i)})))]。
2. 固定D,更新G:最小化 V(D,G),实际中常最大化 E
{z∼p_z}[log D(G(z))] 以避免梯度消失。
步骤4:收敛
理想情况下,当p_g = p_data时达到纳什均衡,此时D(x)=1/2处处成立。
步骤5:变体与改进
DCGAN(深度卷积GAN)、WGAN(Wasserstein GAN)、CycleGAN(循环一致GAN)等。
参数选择/优化
1. 网络架构:生成器和判别器通常是对称的深度网络(如CNN)。
2. 损失函数:原始GAN使用最小最大损失,WGAN使用Wasserstein距离。
3. 优化器:通常使用Adam。
4. 学习率:需要仔细调整,防止模式崩溃。
5. 正则化:梯度惩罚、谱归一化等提高训练稳定性。

精度:生成数据与真实数据分布接近程度,可用IS(Inception Score)、FID(Fréchet Inception Distance)等评估。
误差:生成器和判别器的损失值,但不直接反映生成质量。
强度:可生成高质量、多样化的数据,无需显式似然函数。但训练不稳定,易模式崩溃。

博弈论、纳什均衡、 Jensen-Shannon散度、Wasserstein距离、概率分布匹配

1. 图像生成:生成逼真人脸、风景、艺术品
2. 图像到图像翻译:风格迁移、语义分割图转照片
3. 超分辨率:低分辨率图像生成高分辨率版本
4. 数据增强:生成训练数据以扩充数据集
5. 文本到图像生成:根据文本描述生成图像
6. 视频生成:生成连续视频

涵盖机器学习、深度学习、强化学习、生成模型等多个领域:

编号

类别

模型配方

算法/模型/方法名称

算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化

精度/密度/误差/强度

底层规律/理论定理

典型应用场景【10个场景】和各类特征

变量/常量/参数列表及说明

数学特征

语言特征

时序和交互流程的所有细节/分步骤时序情况及数学方程式

10亿级并发下的服务器性能与规模需求

配套优化算法列表

E-L1-0058

分类与回归

最大间隔分类器

支持向量机 (Support Vector Machine, SVM)

步骤1:问题定义
给定训练数据{(x_i, y_i)}, y_i∈{-1,+1},SVM寻找超平面w·x + b = 0,使得间隔最大化。间隔定义为最近点到超平面的距离:margin = 2/‖w‖。
步骤2:优化问题
最大化间隔等价于最小化‖w‖²,约束为y_i(w·x_i + b) ≥ 1。原始问题:min_{w,b} (1/2)‖w‖², s.t. y_i(w·x_i + b) ≥ 1。
步骤3:对偶问题
引入拉格朗日乘子α_i ≥ 0,得到拉格朗日函数L(w,b,α) = (1/2)‖w‖² - ∑α_i[y_i(w·x_i + b) - 1]。对w,b求导得:w = ∑α_i y_i x_i, ∑α_i y_i = 0。代入得对偶问题:max_α ∑α_i - (1/2)∑∑α_i α_j y_i y_j x_i·x_j, s.t. α_i ≥ 0, ∑α_i y_i = 0。
步骤4:核技巧
对于非线性问题,引入核函数K(x_i,x_j) = φ(x_i)·φ(x_j),将内积替换为核函数,实现非线性映射。常用核:线性、多项式、高斯RBF。
步骤5:求解
使用序列最小优化(SMO)等算法求解α_i。支持向量是α_i > 0对应的样本。决策函数:f(x) = sign(∑α_i y_i K(x_i,x) + b)。
参数选择/优化
1. 正则化参数C:控制间隔与分类错误的权衡,通过交叉验证选择。
2. 核函数及参数:如RBF核的γ,影响模型复杂度。
3. 多分类:一对多或一对一扩展。

精度:在小样本、高维数据上表现优异,泛化能力强。
误差: hinge损失:max(0, 1 - y_i f(x_i))。
强度:最大间隔保证泛化误差界,核技巧处理非线性,但大规模训练慢。

统计学习理论、VC维、结构风险最小化、核方法、凸优化

1. 文本分类:垃圾邮件检测、情感分析
2. 图像识别:手写数字识别、物体检测
3. 生物信息学:基因分类、蛋白质结构预测
4. 金融风控:信用评分、欺诈检测
5. 医学诊断:疾病预测、影像分析
6. 推荐系统:用户偏好分类
7. 时间序列预测:回归形式支持向量回归(SVR)
8. 异常检测:单类SVM
9. 语音识别:声学模型
10. 工业质量控制:缺陷检测
特征
- 最大间隔:追求分类边界最大鲁棒性
- 核技巧:隐式映射到高维,无需显式计算
- 稀疏性:仅支持向量影响模型
- 凸优化:全局最优解

变量
x_i:特征向量
y_i:标签(±1)
w:超平面法向量
b:偏置
α_i:拉格朗日乘子
常量
C:正则化参数
参数
w, b(原始),α_i(对偶),核函数参数

集合特征:支持向量集合
逻辑特征:最大间隔逻辑,对偶转化逻辑
概率与统计特征:基于结构风险最小化,非概率模型
随机性:无随机性,确定性优化
不确定性:不直接输出概率,可通过Platt缩放估计
数据规律和推断:假设数据线性可分或可通过核映射线性分开
极限:当C→∞,等价于硬间隔SVM;当C→0,忽略误分类,间隔最大化
连续性:决策函数连续依赖于输入
微分:优化问题可微,但对偶问题更易求解
积分:无
级数:无
收敛性:凸优化问题,保证收敛到全局最优
测度:间隔作为分类器鲁棒性的测度
离散:标签离散,支持向量选择离散
排序:无特定排序
组合:支持向量的线性组合构成决策函数
构造:通过求解凸优化问题构造超平面
优化:最小化‖w‖²,受线性约束,转化为对偶问题求解
计算与算法特征:训练复杂度O(n²)到O(n³),核矩阵存储O(n²)。大规模数据需优化算法(如SMO)。
稳定性:解唯一(若可分离),受支持向量影响
对称性/非对称性:对数据顺序对称
代数:向量内积,核函数,二次规划
拓扑:特征空间的拓扑由核函数定义
几何:寻找最大间隔超平面,核映射到高维特征空间
:对特征缩放敏感,需标准化
组合数学特征:支持向量的组合

可用于文本分类,将文档表示为向量(如TF-IDF),使用线性或非线性核
支持向量决定分类边界

时序流程
1. 数据预处理:t₀
- 特征标准化(均值为0,方差为1)。
2. 选择核函数和参数:t₁
- 根据问题选择核(如RBF)并设置参数(C, γ)。
3. 构建优化问题:t₂
- 计算核矩阵K{ij} = K(x_i, x_j)。
- 构建对偶问题:max_α ∑α_i - (1/2)∑∑α_i α_j y_i y_j K
{ij},约束α_i ≥ 0, ∑α_i y_i = 0, α_i ≤ C。
4. 求解对偶问题:t₃
- 使用SMO算法迭代优化α_i:
- 选择两个违反KKT条件的α_i, α_j。
- 固定其他α,优化这两个α,解析求解。
- 更新α_i, α_j和b。
- 重复直到收敛。
5. 得到支持向量:t₄
- α_i > 0对应的样本即为支持向量。
6. 构建决策函数:t₅
- 计算b = 平均( y_s - ∑α_i y_i K(x_i, x_s) ),其中x_s为支持向量。
- 决策函数 f(x) = sign( ∑_{i∈SV} α_i y_i K(x_i, x) + b )。
7. 预测:t₆
- 对新样本x,计算f(x)。

服务器配置
单机多核CPU:SVM训练需要求解二次规划,复杂度O(n²)到O(n³)。对于中等规模数据(n<10⁵),可在单机多核CPU上使用LIBSVM等库。内存需存储核矩阵O(n²),大数据需核缓存或近似方法。
分布式计算:对于大规模数据(n>10⁶),需分布式SVM(如Spark MLlib的线性SVM)。使用线性核时,可并行计算梯度。需数十个节点,每个节点多核CPU。
在线推理服务:预测需要计算新样本与所有支持向量的核函数值,复杂度O(n_sv·d),n_sv为支持向量数。10亿级并发请求需数千个CPU核心,但支持向量数通常远小于训练样本数,预测较快。可通过缓存核计算结果优化。
计算需求:训练需要TFLOPS级算力(对于大规模非线性SVM)。
内存需求:核矩阵存储是主要瓶颈,需数百GB内存(对于n=10⁵)。

1. 序列最小优化:高效求解SVM对偶问题
2. 核技巧:RBF核、多项式核等处理非线性
3. 支持向量回归:回归形式的SVM
4. 一类SVM:异常检测
5. 最小二乘SVM:将不等式约束改为等式,求解线性系统
6. 概率输出:Platt缩放将输出转换为概率
7. 多分类SVM:一对多、一对一
8. 在线SVM:流数据增量学习
9. 稀疏SVM:引入L1正则化获得稀疏解
10. 近似核方法:Nyström方法、随机傅里叶特征加速大规模核SVM

E-L1-0059

集成学习

装袋法+决策树

随机森林 (Random Forest)

步骤1:自助采样
从训练集(n个样本)中有放回随机抽取n个样本,形成一个自助样本集(bootstrap sample)。约37%的样本未被抽中,称为袋外样本(OOB)。
步骤2:构建决策树
对每个自助样本集,构建一棵决策树。在树的每个节点分裂时,从所有p个特征中随机选择m个特征(通常m = √p),然后从这m个特征中选择最佳分裂点(如基尼指数最小化或信息增益最大化)。树生长到最大深度或不纯度为0。
步骤3:集成预测
对于分类问题,每棵树对样本投票,最终类别为得票最多的类。对于回归问题,取所有树的预测平均值。
步骤4:特征重要性评估
基于袋外误差或基于分裂时的不纯度减少量计算特征重要性。
步骤5:参数选择
1. 树的数量(n_estimators):越多越好,但计算成本增加,通常100-500。
2. 每棵树的最大深度(max_depth):控制过拟合,通常不限制或较大。
3. 分裂时考虑的特征数(max_features):常用√p或log2(p)。
4. 最小样本分裂(min_samples_split):节点分裂所需最小样本数。
5. 最小样本叶节点(min_samples_leaf):叶节点最少样本数。

精度:通常比单棵决策树精度高,抗过拟合,对噪声和异常值鲁棒。
误差:分类错误率、回归均方误差。袋外误差可作为泛化误差的无偏估计。
强度:高精度,可处理高维数据,提供特征重要性,并行化容易。但解释性较差。

大数定律、自助法、决策树、不纯度度量(基尼指数、信息增益)

1. 分类问题:客户流失预测、疾病诊断、图像分类
2. 回归问题:房价预测、销量预测、股票价格预测
3. 特征选择:基于特征重要性排序
4. 异常检测:利用袋外概率或距离
5. 生存分析:随机生存森林
6. 生物信息学:基因选择、药物发现
7. 金融风控:信用评分、欺诈检测
8. 推荐系统:用户行为预测
9. 生态学:物种分布建模
10. 工业预测:设备故障预测
特征
- 装袋法:减少方差,提高稳定性
- 随机特征选择:进一步降低方差,减少树间相关性
- 并行训练:每棵树独立,可并行构建
- 非参数:无需假设数据分布

变量
x:特征向量
y:真实值
ŷ_i:第i棵树的预测
常量
n_estimators:树的数量
max_features:每节点考虑的特征数
参数
每棵树的参数(深度、分裂准则等)

集合特征:树集合,自助样本集集合
逻辑特征:投票/平均逻辑,随机特征选择逻辑
概率与统计特征:分类输出可视为概率(票数比例),袋外误差估计泛化误差
随机性:自助采样随机性,特征选择随机性
不确定性:预测不确定性可通过票数分布或袋外概率估计
数据规律和推断:通过多棵树的共识捕捉数据规律
极限:当树的数量→∞,泛化误差收敛到极限
连续性:回归输出连续,分类输出离散但可输出概率
微分:无
积分:预测是树预测的平均(离散积分)
级数:树的数量
收敛性:大数定律保证随着树增加,预测趋于稳定
测度:基尼指数、信息增益作为分裂质量的测度
离散:分类输出离散,树结构离散
排序:特征重要性排序
组合:多棵树的组合,特征子集的组合
构造:通过自助采样和随机特征选择构造多样化的树
优化:每棵树贪心分裂,整体通过集成降低方差
计算与算法特征:训练每棵树复杂度O(n p log n),可并行。预测复杂度O(n_estimators·深度)。
稳定性:对数据扰动稳定,对噪声鲁棒
对称性/非对称性:对数据顺序对称(除随机性)
代数:投票计数,平均值计算
拓扑:每棵树是树拓扑,森林是树的集合
几何:决策边界是多个树边界的组合,更平滑
:对特征缩放不变(树基于排序)
组合数学特征:自助样本组合,特征子集组合

可用于文本分类,将文档表示为词向量,随机森林可处理高维稀疏特征
特征重要性可识别关键词语

时序流程
1. 初始化:t₀
- 设定超参数:树的数量B,最大深度,max_features等。
2. 构建每棵树:for b=1 to B
a. 自助采样:t₁
- 从训练集有放回抽取n个样本,形成自助样本集D_b。
b. 生长树:t₂
- 从根节点开始,递归分裂:
- 若节点样本数小于min_samples_split或深度达到max_depth,则停止分裂,成为叶节点,预测值为节点内样本的多数类(分类)或均值(回归)。
- 否则,随机选择max_features个特征。
- 对每个选中的特征,寻找最佳分裂点(如基尼指数最小化)。
- 选择最佳特征和分裂点进行分裂,生成子节点。
c. 记录袋外样本:t₃
- 将未出现在D_b中的样本作为该树的袋外样本,用于后续评估。
3. 集成预测:t₄
- 对于新样本x:
- 每棵树独立预测ŷb(x)。
- 分类:最终预测 = argmax
{c} ∑{b=1}^{B} I(ŷb(x) = c)。
- 回归:最终预测 = (1/B) ∑{b=1}^{B} ŷb(x)。
4. 特征重要性计算:t₅
- 基于袋外误差:对每个特征,随机置换袋外样本中该特征的值,重新预测,计算误差增加,归一化得到重要性。
- 基于不纯度减少:对每棵树,计算每个特征带来的不纯度减少总和,取平均。

服务器配置
多机多核CPU集群:随机森林训练可完全并行,每棵树独立构建。对于大规模数据(n>10⁹, p>10⁴),需分布式实现(如Spark MLlib)。数据分片,每个节点构建部分树,然后聚合。需数十到数百个节点,每个节点多核CPU。
内存需求:每棵树需存储自助样本集,但可增量构建。总体内存需求与树的数量和深度成正比。大数据需分布式存储。
在线推理服务:预测需要遍历所有树,复杂度O(B·深度)。对于B=100,深度=10,预测很快(微秒级)。10亿级并发预测请求需数千个CPU核心,可通过负载均衡和缓存树结构实现。模型更新需重新训练,但可增量添加树。
计算需求:训练复杂度O(B·n p log n)。大规模数据需TFLOPS级算力。
通信开销:训练时每棵树独立,无需通信。预测时需聚合所有树的预测,但每个请求独立。

1. 决策树算法:CART、ID3、C4.5
2. 装袋法:自助采样集成
3. 随机子空间:随机选择特征子集
4. 极端随机树:随机选择分裂点,进一步降低方差
5. 特征重要性评估:基于袋外误差或不纯度减少
6. 袋外误差估计:无偏泛化误差估计
7. 并行化:每棵树独立训练,易并行
8. 增量学习:可添加新树,但无法更新现有树
9. 缺失值处理:通过代理分裂或中位数填充
10. 不平衡数据处理:类权重、欠采样、过采样

E-L1-0060

集成学习

梯度提升决策树

梯度提升机 (Gradient Boosting Machine, GBM)

步骤1:初始化
初始化模型为一个常数值,对于回归常用目标均值:F_0(x) = argmin_γ ∑{i=1}^{n} L(y_i, γ)。对于平方损失,F_0(x) = 均值(y)。
步骤2:迭代提升
对于m=1到M(M为树的数量):
1. 计算伪残差:r
{im} = -[∂L(y_i, F(x_i))/∂F(x_i)]{F=F{m-1}}。
2. 拟合一棵回归树h_m(x)到伪残差{(x_i, r{im})},得到叶节点区域R{jm},j=1..J_m。
3. 对于每个叶节点区域R{jm},计算最优输出值:γ{jm} = argmin_γ ∑{x_i∈R{jm}} L(y_i, F{m-1}(x_i) + γ)。对于平方损失,γ{jm} = 均值(r{im})。
4. 更新模型:F_m(x) = F
{m-1}(x) + ν·∑{j=1}^{J_m} γ{jm} I(x∈R_{jm}),其中ν为学习率(收缩因子)。
步骤3:输出
最终模型F_M(x)。
步骤4:正则化
通过控制树的数量M、学习率ν、树的最大深度、子采样比例等防止过拟合。
参数选择/优化
1. 树的数量M:通过早停选择。
2. 学习率ν:小值(如0.01-0.1)需更多树,但泛化更好。
3. 树的最大深度:控制每棵树的复杂度,通常3-8。
4. 子采样比例:随机选择部分样本训练每棵树,类似随机森林。
5. 损失函数L:回归可用平方损失、绝对损失;分类可用对数损失。

精度:通常比随机森林精度更高,但更容易过拟合。
误差:损失函数值,可通过交叉验证估计泛化误差。
强度:高精度,可处理复杂非线性关系,但训练较慢,需仔细调参。

梯度下降、加法模型、决策树、函数空间优化

1. 回归预测:房价预测、需求预测、金融时间序列
2. 分类问题:广告点击率预测、客户流失预测、图像分类
3. 排序学习:搜索引擎排名、推荐系统
4. 异常检测:基于预测误差
5. 特征转换:作为特征工程工具
6. 多输出问题:多标签分类、多目标回归
7. 生存分析:梯度提升生存树
8. 概率预测:输出概率分布
9. 医学诊断:疾病风险预测
10. 工业预测:设备剩余寿命预测
特征
- 顺序集成:逐棵添加树,纠正前序残差
- 梯度下降:在函数空间中进行梯度下降
- 灵活性:可自定义损失函数
- 易过拟合:需正则化

变量
x_i:特征向量
y_i:真实值
F_m(x):第m轮模型预测
r_{im}:伪残差
常量
M:树的数量
ν:学习率
参数
每棵树的结构和叶节点值,超参数(深度、子采样等)

集合特征:树序列,样本子集(子采样)
逻辑特征:梯度下降逻辑,加法模型逻辑
概率与统计特征:损失函数的梯度,叶节点值优化
随机性:子采样随机性(如果使用)
不确定性:预测不确定性可通过分位数回归或集成方差估计
数据规律和推断:通过梯度提升逐步拟合残差
极限:当M→∞且树足够复杂,可拟合任意函数(但会过拟合)
连续性:预测值连续(回归),概率连续(分类)
微分:使用损失函数的梯度指导优化
积分:模型是树的加和(离散积分)
级数:加法模型是树的级数
收敛性:随着树增加,训练损失下降,需早停防止过拟合
测度:损失函数作为预测误差的测度
离散:树结构离散,分裂点离散
排序:按贡献顺序添加树
组合:多棵树的组合,特征组合通过树路径
构造:通过前向分步加法构造集成模型
优化:在函数空间中梯度下降,每棵树拟合负梯度
计算与算法特征:每棵树拟合复杂度O(n p log n),整体复杂度O(M n p log n)。可并行化每棵树内部的分裂点寻找,但顺序添加树限制了并行度。
稳定性:对超参数敏感,需仔细调参
对称性/非对称性:对数据顺序对称(除随机子采样)
代数:梯度计算,叶节点值计算
拓扑:树结构的拓扑
几何:决策边界是分段常数(树)的加和,更复杂
:对特征缩放不变(树基于排序)
组合数学特征:特征选择组合,分裂点选择组合

可处理文本特征,用于文本分类或回归
特征重要性可解释

时序流程
1. 初始化:t₀
- 设定超参数:M, ν, 树的最大深度,子采样比例等。
- 初始化模型:F_0(x) = argmin_γ ∑ L(y_i, γ)。
2. 迭代提升:for m=1 to M
a. 计算伪残差:t₁
- 对于每个样本i,计算 r{im} = -[∂L(y_i, F(x_i))/∂F(x_i)]{F=F{m-1}}。
b. 拟合回归树:t₂
- 使用子采样(如果启用)从数据中采样。
- 拟合一棵回归树h_m(x)到伪残差{(x_i, r
{im})},得到叶节点区域R{jm}, j=1..J_m。
c. 计算叶节点值:t₃
- 对于每个区域R
{jm},计算 γ{jm} = argmin_γ ∑{x_i∈R{jm}} L(y_i, F{m-1}(x_i) + γ)。
d. 更新模型:t₄
- F_m(x) = F{m-1}(x) + ν·∑{j=1}^{J_m} γ{jm} I(x∈R{jm})。
e. 评估:t₅
- 计算当前损失,若验证集性能不再提升则早停。
3. 输出:t₆
- 最终模型 F(x) = F_M(x)。
4. 预测:t₇
- 对新样本x,每棵树输出对应叶节点的值,加权求和得到最终预测。

服务器配置
多机多核CPU集群:GBM训练是顺序的,每棵树依赖前一棵树的残差,难以并行。但每棵树内部的分裂点寻找可并行。对于大规模数据,可使用分布式GBM(如XGBoost on Spark、LightGBM)。数据分片,每个节点计算局部梯度直方图,然后聚合寻找全局最佳分裂。需数十到数百个节点,每个节点多核CPU。
内存需求:需要存储数据集、梯度、叶节点值。使用直方图算法可减少内存消耗。
在线推理服务:预测需要遍历所有树,复杂度O(M·深度)。对于M=100,深度=6,预测很快(微秒级)。10亿级并发预测请求需数千个CPU核心,可通过负载均衡和缓存树结构实现。模型更新需重新训练,但可增量添加树(在线学习变体)。
计算需求:训练复杂度O(M·n p log n)。大规模数据需PFLOPS级算力。
通信开销:分布式训练中,每个节点计算局部梯度直方图,然后同步全局直方图,通信量较大。

1. 梯度提升树:基本算法
2. XGBoost:正则化目标函数,二阶导数,稀疏感知
3. LightGBM:直方图算法,leaf-wise生长,更快更省内存
4. CatBoost:处理类别特征,避免目标泄漏
5. 随机梯度提升:每棵树使用子采样
6. 分位数回归梯度提升:预测分位数
7. 自定义损失函数:可定义任意可微损失函数
8. 早停:防止过拟合
9. 特征重要性:基于增益或覆盖度
10. 单调性约束:强制预测随特征单调变化

E-L1-0061

序列模型

隐马尔可夫模型

隐马尔可夫模型 (Hidden Markov Model, HMM)

步骤1:模型定义
HMM由以下参数定义:
- 状态集合S = {s_1,...,s_N}。
- 观测集合V = {v_1,...,v_M}。
- 初始状态概率向量π = [π_i],π_i = P(q_1 = s_i)。
- 状态转移概率矩阵A = [a{ij}],a{ij} = P(q{t+1}=s_j |q_t=s_i)。
- 观测概率矩阵B = [b_j(k)],b_j(k) = P(o_t=v_k |q_t=s_j)。
步骤2:三个基本问题
1. 评估问题:给定模型λ=(π,A,B)和观测序列O=o_1o_2...o_T,计算P(O|λ)。使用前向算法或后向算法。
2. 解码问题:给定λ和O,求最可能的状态序列Q=q_1q_2...q_T。使用维特比算法。
3. 学习问题:给定O,估计模型参数λ。使用Baum-Welch算法(EM算法)。
步骤3:前向算法
定义前向变量α_t(i) = P(o_1o_2...o_t, q_t=s_i |λ)。递归计算:
初始化:α_1(i) = π_i b_i(o_1)。
递归:α
{t+1}(j) = [∑{i=1}^{N} α_t(i) a{ij}] b_j(o{t+1})。
终止:P(O|λ) = ∑
{i=1}^{N} α_T(i)。
步骤4:维特比算法
定义δ_t(i) = max{q_1,...,q{t-1}} P(q_1...q_t=s_i, o_1...o_t |λ)。递归:
初始化:δ_1(i) = π_i b_i(o_1), ψ_1(i)=0。
递归:δ_t(j) = max{1≤i≤N} [δ{t-1}(i) a{ij}] b_j(o_t), ψ_t(j)=argmax_i [δ{t-1}(i) a{ij}]。
终止:P* = max
{1≤i≤N} δ_T(i), q_T* = argmax_i δ_T(i)。
回溯:q_t* = ψ{t+1}(q{t+1}), t=T-1,...,1。
步骤5:Baum-Welch算法
E步:计算前向变量α_t(i)和后向变量β_t(i)=P(o{t+1}...o_T |q_t=s_i,λ),以及ξ_t(i,j)=P(q_t=s_i,q{t+1}=s_j|O,λ)和γ_t(i)=P(q_t=s_i|O,λ)。
M步:重新估计参数:
π_i' = γ_1(i), a{ij}' = ∑{t=1}^{T-1} ξ_t(i,j) / ∑{t=1}^{T-1} γ_t(i), b_j(k)' = ∑{t=1, o_t=v_k}^{T} γ_t(j) / ∑_{t=1}^{T} γ_t(j)。

参数选择/优化*:
1. 状态数N:通过模型选择准则(如BIC)或领域知识选择。
2. 初始参数:随机初始化或基于先验知识。
3. 训练:Baum-Welch算法可能收敛到局部最优,多次随机初始化。

精度:在序列标注、语音识别等任务上有效,但假设观测独立给定状态,可能过于简化。
误差:序列对数似然,状态预测错误率。
强度:建模序列的隐含状态,计算高效(动态规划),但假设强(一阶马尔可夫性,观测独立)。

马尔可夫过程、隐状态、动态规划、期望最大化算法

1. 语音识别:声学建模,将音频帧序列映射为音素状态序列
2. 词性标注:将词序列映射为词性标签序列
3. 生物序列分析:基因预测、蛋白质结构预测
4. 手写识别:笔迹轨迹识别
5. 时间序列预测:金融时间序列、气象数据
6. 故障诊断:系统状态监测
7. 自然语言处理:命名实体识别、分块
8. 运动分析:人体动作识别
9. 信号处理:通信信号解码
10. 金融分析:市场状态识别
特征
- 隐状态:观测背后的隐含状态序列
- 一阶马尔可夫性:当前状态只依赖于前一个状态
- 观测独立:当前观测只依赖于当前状态
- 生成模型:可生成观测序列

变量
q_t:时刻t的隐状态
o_t:时刻t的观测
常量
N:状态数
M:观测符号数
T:序列长度
参数
π, A, B

集合特征:状态集合,观测集合,序列位置集合
逻辑特征:马尔可夫链逻辑,动态规划逻辑
概率与统计特征:状态转移概率,观测概率,初始概率
随机性:状态转移和观测生成是随机的
不确定性:隐状态的不确定性,可通过后验概率估计
数据规律和推断:假设序列由隐马尔可夫过程生成
极限:当T→∞,参数估计收敛到真实值(在假设下)
连续性:状态和观测可以是离散或连续(连续HMM用高斯混合)
微分:无
积分:前向/后向算法求和所有路径(离散积分)
级数:序列长度T
收敛性:Baum-Welch算法保证收敛到局部最优
测度:序列概率作为模型拟合的测度
离散:状态和观测通常离散,也可连续
排序:时间顺序是关键的排序
组合:状态序列的组合,观测序列的组合
构造:通过EM算法从数据学习参数
优化:最大似然估计,使用EM算法
计算与算法特征:前向/后向算法复杂度O(N²T),维特比算法同样。可并行化矩阵运算。
稳定性:对初始值敏感,可能陷入局部最优
对称性/非对称性:时间方向不对称(一阶马尔可夫)
代数:矩阵乘法,概率计算
拓扑:状态转移图(有向图)
几何:状态空间是离散集合,观测空间可以是离散或连续
:对时间平移具有不变性(齐次马尔可夫)
组合数学特征:状态序列的路径组合

用于词性标注、命名实体识别等序列标注任务
状态可表示词性标签,观测为词语

时序流程(维特比解码)
1. 初始化:t=1
- 对于每个状态i=1 to N:
- δ_1(i) = π_i b_i(o_1)。
- ψ_1(i) = 0。
2. 递归:for t=2 to T
- 对于每个状态j=1 to N:
- δ_t(j) = max{1≤i≤N} [δ{t-1}(i) a{ij}] b_j(o_t)。
- ψ_t(j) = argmax
{1≤i≤N} [δ{t-1}(i) a{ij}]。
3. 终止:t=T
- P* = max{1≤i≤N} δ_T(i)。
- q_T* = argmax
{1≤i≤N} δ_T(i)。
4. 回溯:for t=T-1 down to 1
- q_t* = ψ{t+1}(q{t+1})。
5. 输出:最可能状态序列Q
= q_1,...,q_T

服务器配置
单机多核CPU:HMM的前向、后向、维特比算法复杂度O(N²T),对于中等规模(N<100, T<10⁶)可在单机多核CPU上运行。矩阵运算可并行化。内存需存储概率矩阵O(N²+N M)。
分布式计算:对于极长序列(T>10⁹)或大量序列,可将序列分片处理。但HMM的序列依赖性强,分布式挑战较大。通常单机足够。
在线推理服务:解码(维特比)需要O(N²T)计算,对于实时应用(如语音识别),T是序列长度(如音频帧数)。10亿级并发请求(如实时语音转写)需要高性能CPU集群:数千个核心,通过优化算法(如beam search)和硬件加速(如GPU)实现。模型小,参数少,但计算密集。
计算需求:训练(Baum-Welch)需要多次迭代,每次迭代O(N²T)。大规模序列需TFLOPS级算力。
内存需求:存储A,B,π矩阵,内存需求小(KB到MB级)。

1. 前向算法:计算观测序列概率
2. 后向算法:与前

编号

类别

模型配方

算法/模型/方法名称

算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化

精度/密度/误差/强度

底层规律/理论定理

典型应用场景【10个场景】和各类特征

变量/常量/参数列表及说明

数学特征

语言特征

时序和交互流程的所有细节/分步骤时序情况及数学方程式

10亿级并发下的服务器性能与规模需求

配套优化算法列表

E-L1-0062

深度学习

深度卷积生成对抗网络

DCGAN (Deep Convolutional GAN)

步骤1:架构设计
生成器和判别器都使用卷积神经网络。生成器:输入噪声z(通常100维),通过转置卷积(反卷积)逐步上采样,生成图像(如64×64×3)。判别器:输入图像,通过卷积层下采样,最后输出一个标量(真/假概率)。
步骤2:训练过程
遵循原始GAN的极小极大博弈,但使用改进的损失函数和训练技巧。损失函数:生成器最小化log(1 - D(G(z))),判别器最小化 -[log(D(x)) + log(1 - D(G(z)))]。实践中,生成器常最大化log(D(G(z)))以避免梯度消失。
步骤3:架构约束
1. 判别器中使用步长卷积代替池化层,生成器中使用转置卷积。
2. 在生成器和判别器中都使用批归一化(BN),但生成器的输出层和判别器的输入层不用BN。
3. 去除全连接层,使用全局平均池化。
4. 激活函数:生成器输出用tanh,其他层用ReLU;判别器用LeakyReLU。
步骤4:训练技巧
使用Adam优化器,学习率0.0002,动量0.5。标签平滑(真实标签用0.9代替1)防止过拟合。小批量训练,批次大小128。
参数选择/优化
1. 噪声维度:通常100维,从均匀分布或正态分布采样。
2. 生成器结构:多层转置卷积,每层后接BN和ReLU,输出层tanh。
3. 判别器结构:多层卷积,每层后接BN和LeakyReLU,输出层sigmoid。
4. 学习率调度:可随时间衰减。

精度:生成图像质量可通过人工评估或IS、FID等指标衡量。DCGAN能生成较清晰的图像。
误差:生成器和判别器的损失函数值,但不直接反映生成质量。
强度:结合CNN的强表示能力,生成图像质量较高,训练相对稳定。

生成对抗网络、卷积神经网络、反卷积、批归一化

1. 图像生成:生成人脸、室内场景、物体等
2. 图像编辑:属性操作、超分辨率
3. 数据增强:为分类任务生成训练样本
4. 风格迁移:结合其他网络进行风格化
5. 视频生成:扩展到视频帧生成
6. 半监督学习:利用生成样本提高分类器性能
7. 艺术创作:生成艺术作品
8. 游戏开发:生成游戏场景、角色
9. 医学影像:生成医学图像用于研究
10. 安全验证:生成验证码图像
特征
- 卷积结构:利用CNN提取空间特征
- 反卷积:上采样生成图像
- 批归一化:稳定训练,加速收敛
- 无全连接层:减少参数量,提高效率

变量
z:噪声向量
G(z):生成图像
x:真实图像
D(x):判别器对真实图像的输出
D(G(z)):判别器对生成图像的输出
常量
噪声维度:100
图像尺寸:如64×64×3
参数
生成器参数θ_g,判别器参数θ_d

集合特征:噪声向量空间,图像空间,特征图空间
逻辑特征:对抗博弈逻辑,卷积和反卷积操作逻辑
概率与统计特征:判别器输出概率,生成器学习数据分布
随机性:噪声采样随机性,权重初始化随机性
不确定性:生成图像的不确定性(随机噪声导致)
数据规律和推断:生成器学习真实数据分布,判别器学习区分真假
极限:当训练达到纳什均衡时,生成分布等于真实分布,判别器输出0.5处处成立
连续性:生成器是连续函数,噪声到图像的映射连续
微分:通过反向传播计算梯度,使用Adam优化器
积分:损失函数是期望形式(离散近似)
级数:生成器和判别器是多层网络的级联
收敛性:训练不稳定,可能振荡、模式崩溃,需小心调参
测度:JS散度或Wasserstein距离衡量分布距离
离散:图像像素值离散(但通常处理为连续)
排序:无特定排序
组合:噪声向量的不同维度组合可能对应不同语义特征
构造:通过对抗训练构造生成器和判别器
优化:极小极大博弈,交替优化生成器和判别器
计算与算法特征:每次迭代需前向传播两次(生成和判别)和反向传播两次,复杂度取决于网络大小。训练较慢。
稳定性:DCGAN相比原始GAN更稳定,但仍可能模式崩溃
对称性/非对称性:生成器和判别器结构不对称
代数:卷积运算,矩阵乘法,激活函数
拓扑:噪声空间到图像空间的映射拓扑,数据流形的拓扑
几何:生成器学习将噪声空间映射到数据流形
:对图像平移、旋转等不具有不变性,除非数据增强
组合数学特征:网络架构的组合,超参数组合

不直接处理文本,但可结合文本编码进行文本到图像生成
生成图像可用于多模态任务

时序流程
1. 初始化:t₀
- 初始化生成器G和判别器D的参数。
- 设定超参数:学习率、批次大小、迭代次数等。
2. 训练循环:for epoch=1 to N
a. 采样小批量:t₁
- 从真实数据采样m个图像{x^(1),...,x^(m)}。
- 从噪声分布采样m个噪声向量{z^(1),...,z^(m)}。
b. 生成图像:t₂
- 通过生成器得到生成图像:G(z^(i))。
c. 更新判别器:t₃
- 计算判别器损失:L_D = -(1/m)∑[log(D(x^(i))) + log(1 - D(G(z^(i))))]。
- 反向传播更新判别器参数θ_d。
d. 更新生成器:t₄
- 重新采样噪声向量。
- 计算生成器损失:L_G = -(1/m)∑log(D(G(z^(i))))。
- 反向传播更新生成器参数θ_g。
e. 评估:t₅
- 定期保存生成图像,计算评估指标(如IS)。
3. 生成:t₆
- 训练后,用生成器G从噪声生成新图像。

服务器配置
GPU集群:DCGAN训练需要大量计算,尤其是生成高分辨率图像。需要高性能GPU(如NVIDIA V100/A100)。对于大规模训练(如生成1024×1024图像),可能需要多GPU并行(数据并行或模型并行)。
在线推理服务:生成图像只需一次生成器前向传播,延迟较低(毫秒级)。10亿级生成请求(如艺术创作、游戏内容生成)需要大规模GPU集群,但通常生成请求是异步的,可排队处理。实时生成需求不高。
计算需求:训练复杂度取决于图像分辨率、网络深度和迭代次数。生成高分辨率图像需要TFLOPS级算力,训练数天到数周。
内存需求:存储生成器和判别器模型参数,以及中间特征图。高分辨率图像生成需要大显存(如16GB以上)。
通信开销:多GPU训练时,需同步梯度,通信量中等。

1. 原始GAN:基础框架
2. WGAN:使用Wasserstein距离,提高训练稳定性
3. WGAN-GP:加入梯度惩罚,满足Lipschitz约束
4. LSGAN:使用最小二乘损失,提高生成质量
5. Conditional GAN:加入条件信息,控制生成内容
6. CycleGAN:无配对图像到图像翻译
7. StyleGAN:精细控制生成图像风格
8. Progressive GAN:渐进式训练生成高分辨率图像
9. Self-Attention GAN:加入自注意力机制,捕获全局依赖
10. BigGAN:大规模训练生成高质量图像

E-L1-0063

图神经网络

图卷积网络

GCN (Graph Convolutional Network)

步骤1:图卷积操作
图卷积层通过聚合节点邻居的特征来更新节点表示。使用谱图卷积的局部一阶近似:H^{(l+1)} = σ( D^{-1/2} A D^{-1/2} H^{(l)} W^{(l)} ),其中A是邻接矩阵(加上自环),D是度矩阵,H^{(l)}是第l层的节点特征矩阵,W^{(l)}是可学习权重矩阵,σ是激活函数。
步骤2:多层堆叠
堆叠多个图卷积层以捕获多跳邻域信息。每层可写为:H^{(l+1)} = σ( A_norm H^{(l)} W^{(l)} ),其中A_norm = D^{-1/2} A D^{-1/2}。
步骤3:节点分类
最后一层输出每个节点的类别预测,使用softmax激活:Z = softmax( A_norm H^{(L)} W^{(L)} ),损失函数为交叉熵:L = -∑{l∈Y_L} ∑{c=1}^{C} Y{lc} ln Z{lc},其中Y_L是有标签节点的集合。
步骤4:训练
使用梯度下降优化权重矩阵W。由于A_norm是稀疏矩阵,乘法可高效实现。
步骤5:变体
可加入Dropout、权重衰减等正则化。
参数选择/优化
1. 层数L:通常2-3层,太多层可能导致过平滑。
2. 隐藏层维度:如16、32、64。
3. 学习率:0.01左右。
4. Dropout率:0.5。
5. 权重衰减:5e-4。

精度:在引文网络(Cora, Citeseer, Pubmed)节点分类任务上达到较高准确率。
误差:交叉熵损失。
强度:简单高效,利用图结构,但无法处理有向图、异质图等复杂结构。

谱图理论、卷积定理、拉普拉斯矩阵、消息传递

1. 社交网络分析:用户分类、社区检测
2. 推荐系统:用户-物品二部图,预测用户兴趣
3. 知识图谱:实体分类、链接预测
4. 化学分子:分子性质预测
5. 交通预测:路网节点流量预测
6. 自然语言处理:句法依赖图、文本分类
7. 计算机视觉:场景图生成、图像分类
8. 生物信息学:蛋白质相互作用网络
9. 网络安全:恶意软件传播网络分析
10. 金融风控:交易网络欺诈检测
特征
- 局部性:每个节点聚合邻居特征
- 权重共享:同一层所有节点共享权重矩阵
- 谱域:基于图拉普拉斯算子的谱分解
- 直推式:训练时看到全图,无法泛化到新图

变量
A:邻接矩阵(n×n)
X:节点特征矩阵(n×d)
H^{(l)}:第l层节点表示矩阵(n×h_l)
常量
n:节点数
d:输入特征维度
L:层数
参数
权重矩阵W^{(l)},偏置(可选)

集合特征:节点集合,边集合,邻居集合
逻辑特征:邻居聚合逻辑,消息传递逻辑
概率与统计特征:输出类别概率,损失函数基于交叉熵
随机性:权重初始化,Dropout
不确定性:预测概率提供不确定性
数据规律和推断:图中节点特征受邻居影响(同质性)
极限:当层数→∞,所有节点表示趋向相同(过平滑)
连续性:节点表示连续变化
微分:通过反向传播计算梯度
积分:邻居特征的加权和(离散积分)
级数:多层堆叠
收敛性:训练损失收敛,但可能过拟合
测度:节点度作为邻居影响的权重(归一化)
离散:图结构离散,节点离散
排序:无特定排序
组合:邻居特征的组合,层间组合
构造:通过谱图卷积构造节点表示
优化:最小化交叉熵损失,使用梯度下降
计算与算法特征:时间复杂度O(|E|h^2),与边数线性相关。稀疏矩阵乘法高效。
稳定性:对图结构扰动敏感,但归一化有助于稳定
对称性/非对称性:邻接矩阵对称(无向图),操作对称
代数:矩阵乘法,稀疏矩阵运算,归一化
拓扑:图拓扑,拉普拉斯矩阵谱
几何:节点在嵌入空间的几何,图拉普拉斯特征向量
:对节点编号的置换不变性(图同构)
组合数学特征:邻居的组合,路径的组合

可用于文本分类(构建文档-词图),节点表示可视为文档嵌入
特征矩阵X可包含词袋或词向量

时序流程
1. 预处理:t₀
- 构建邻接矩阵A(加上自环),计算度矩阵D,归一化邻接矩阵A_norm = D^{-1/2} A D^{-1/2}。
2. 初始化:t₁
- 初始化权重矩阵W^{(l)},设置层数L,隐藏维度等。
3. 前向传播:t₂
- 输入特征矩阵H^{(0)} = X。
- 对于每一层l=0 to L-1:
- 计算Z^{(l)} = A_norm H^{(l)} W^{(l)}。
- 计算H^{(l+1)} = σ(Z^{(l)}),最后一层用softmax。
4. 计算损失:t₃
- 取有标签节点的输出,计算交叉熵损失L。
5. 反向传播:t₄
- 计算梯度,更新参数W^{(l)}。
6. 预测:t₅
- 对测试节点,取输出层概率,预测类别。

服务器配置
GPU/CPU混合集群:GCN训练需要处理稀疏邻接矩阵和特征矩阵。对于大规模图(数亿节点、数十亿边),需要分布式图计算框架(如DGL、PyG分布式)。图数据划分到不同机器,通过消息传递进行聚合。需要数十到数百个节点,每个节点配备多核CPU和GPU(用于矩阵运算)。
内存需求:存储邻接矩阵(稀疏格式)、特征矩阵、中间激活。大规模图需要TB级内存,分布式存储。
在线推理服务:GCN推理需要全图信息,难以处理新节点(除非重新运行)。对于动态图,可定期更新节点表示。10亿级节点图推理需要分布式计算,延迟较高。实时推理挑战大,通常离线计算节点嵌入,在线查询。
计算需求:训练复杂度与边数成正比。十亿边图训练需TFLOPS级算力。
通信开销:分布式训练中,节点间需要交换邻居信息,通信量大,需优化图划分。

1. 谱图卷积:基于图傅里叶变换
2. 切比雪夫多项式近似:加速谱卷积
3. GraphSAGE:归纳式学习,采样邻居
4. GAT:加入注意力机制
5. FastGCN:通过重要性采样加速
6. Cluster-GCN:基于图聚类划分,训练子图
7. GraphSAINT:基于子图采样
8. 简化GCN:移除非线性,简化模型
9. 混合模型网络:结合GCN和RNN处理时序图
10. 异质GCN:处理异质图

E-L1-0064

强化学习

深度Q网络

DQN (Deep Q-Network)

步骤1:Q学习
Q学习是一种无模型强化学习算法,通过更新动作值函数Q(s,a)来学习最优策略。更新规则:Q(s_t,a_t) ← Q(s_t,a_t) + α[ r_t + γ max_a Q(s{t+1},a) - Q(s_t,a_t) ],其中α是学习率,γ是折扣因子。
步骤2:深度Q网络
用深度神经网络近似Q函数,参数为θ。网络输入状态s,输出每个动作的Q值。损失函数:L(θ) = E[( r + γ max
{a'} Q(s',a';θ^-) - Q(s,a;θ) )²],其中θ^-是目标网络的参数,定期从在线网络复制。
步骤3:经验回放
将智能体的经验(s_t,a_t,r_t,s_{t+1})存储在回放记忆D中,训练时随机采样小批量,打破序列相关性,提高数据效率。
步骤4:目标网络
使用单独的目标网络计算TD目标,提高稳定性。目标网络参数θ^-每C步更新一次:θ^- ← θ。
步骤5:训练流程
智能体与环境交互,收集经验,存储在D中。定期从D采样,更新在线网络。使用ε-greedy策略平衡探索与利用。
参数选择/优化
1. 网络架构:卷积网络处理图像状态,全连接网络处理向量状态。
2. 回放记忆大小:通常10^5~10^6。
3. 目标网络更新频率C:通常1000~10000步。
4. 折扣因子γ:通常0.99。
5. 学习率α:如0.00025。
6. ε衰减:初始1,逐渐衰减到0.1。

精度:在Atari游戏上达到人类水平,但需要大量训练样本。
误差:时序差分误差(TD error)。
强度:结合深度学习的表示能力和Q学习的价值学习,可处理高维状态,但可能高估Q值。

贝尔曼方程、动态规划、时序差分学习、函数逼近、经验回放

1. 游戏AI:Atari游戏、棋类游戏
2. 机器人控制:机械臂抓取、导航
3. 自动驾驶:决策规划
4. 资源管理:计算资源分配、网络路由
5. 推荐系统:新闻推荐、广告投放
6. 金融交易:股票交易策略
7. 能源管理:智能电网调度
8. 供应链优化:库存管理
9. 对话系统:聊天机器人策略
10. 医疗:个性化治疗策略
特征
- 值函数逼近:用神经网络近似Q函数
- 经验回放:提高数据效率,稳定训练
- 目标网络:稳定训练目标
- 离线策略:可复用历史经验

变量
s_t:状态
a_t:动作
r_t:奖励
Q(s,a;θ):Q网络输出
常量
γ:折扣因子
α:学习率
参数
在线网络参数θ,目标网络参数θ^-

集合特征:状态空间,动作空间,经验回放池
逻辑特征:贝尔曼最优方程逻辑,ε-greedy策略逻辑
概率与统计特征:Q值估计的统计特性,TD误差分布
随机性:环境随机性,探索随机性,经验采样随机性
不确定性:Q值估计的不确定性(可通过ensemble估计)
数据规律和推断:贝尔曼方程:最优Q函数满足自洽方程
极限:当样本→∞,函数逼近器足够表达,Q学习收敛到最优(在表格情况下)
连续性:状态和动作可以是连续或离散,DQN处理离散动作
微分:通过反向传播计算梯度,最小化TD误差的平方
积分:期望通过样本平均估计(离散积分)
级数:贝尔曼方程涉及无穷级数(折扣回报)
收敛性:非线性函数逼近可能不收敛,但目标网络和经验回放帮助稳定
测度:TD误差作为更新大小的测度
离散:动作空间离散,时间步离散
排序:按Q值选择动作
组合:状态和动作的组合,经验样本的组合
构造:通过迭代贝尔曼更新构造Q函数
优化:最小化TD误差,使用随机梯度下降
计算与算法特征:每一步需前向传播两次(在线网络和目标网络),复杂度取决于网络大小。训练需要大量交互样本。
稳定性:训练不稳定,需目标网络和经验回放
对称性/非对称性:时间方向不对称(奖励延迟)
代数:矩阵运算,最大值操作
拓扑:状态-动作空间的拓扑
几何:Q函数在状态-动作空间中的几何形状
:状态/动作的对称性(若存在)可被利用
组合数学特征:动作序列的组合,状态转移的组合

可用于文本游戏,状态为文本描述,动作为离散命令
Q网络可处理文本状态(需编码)

时序流程
1. 初始化:t₀
- 初始化在线网络Q(θ)和目标网络Q(θ^-)(θ^- = θ)。
- 初始化回放记忆D,容量N。
2. 交互与训练:for episode=1 to M
a. 初始化状态s_1。
b. for t=1 to T
- 以概率ε选择随机动作a_t,否则a_t = argmax_a Q(s_t,a;θ)。
- 执行a_t,得到奖励r_t和下一状态s{t+1}。
- 存储经验(s_t,a_t,r_t,s
{t+1})到D。
- 从D中随机采样小批量经验(s_j,a_j,r_j,s{j+1})。
- 计算目标:如果s
{j+1}终止,则y_j = r_j,否则y_j = r_j + γ max{a'} Q(s{j+1},a';θ^-)。
- 计算损失:L = (y_j - Q(s_j,a_j;θ))²。
- 梯度下降更新θ。
- 每C步更新目标网络:θ^- ← θ。
- 衰减ε。

服务器配置
大规模CPU+GPU集群:DQN训练需要大量环境交互(仿真)。对于复杂环境(如Atari),需要数百万到数亿帧。通常使用分布式架构:多个CPU进程并行运行环境(actors),收集经验存入共享回放池;GPU机器(learner)采样经验训练网络,定期同步参数给actors。需要数百个CPU核心和多个GPU(如16-64个)。
在线推理服务:训练好的策略网络前向传播很快,适用于实时决策(如游戏AI)。10亿级并发决策请求(如自动驾驶)需要数千个GPU/专用AI芯片,但通常决策频率较低(如每秒10次)。
计算需求:训练复杂度取决于环境步进和网络训练。大规模训练需PFLOPS级算力。
内存需求:存储回放记忆(经验)需要大量内存(数十GB到TB)。网络参数较小(几MB到几百MB)。
通信开销:actors和learner之间需传递经验和参数,通信量较大,需高速网络。

1. Double DQN:解耦动作选择和目标值计算,减少高估
2. Dueling DQN:将Q值分解为状态价值和优势函数
3. Prioritized Experience Replay:按TD误差优先级采样经验
4. Noisy Nets:参数空间噪声,提高探索
5. Distributional DQN:学习Q值的分布,而不仅是期望
6. Rainbow:结合多种改进
7. Deep Recurrent Q-Network:处理部分可观测状态
8. Asynchronous DQN:异步并行多个actor-learner
9. Soft Actor-Critic:处理连续动作空间(非DQN)
10. Quantile Regression DQN:分位数回归学习分布

E-L1-0065

时间序列

自回归移动平均模型

ARIMA (Autoregressive Integrated Moving Average)

步骤1:模型形式
ARIMA(p,d,q)模型,其中p为自回归阶数,d为差分阶数,q为移动平均阶数。模型公式:φ(B)(1-B)^d y_t = θ(B) ε_t,其中B是后移算子,φ(B)=1-φ_1B-...-φ_pB^p,θ(B)=1+θ_1B+...+θ_qB^q,ε_t是白噪声。
步骤2:平稳性检验
通过ADF检验等方法检验序列平稳性。若非平稳,则进行d阶差分使之平稳。
步骤3:模型识别
通过自相关函数(ACF)和偏自相关函数(PACF)初步确定p和q。ACF截尾处为q,PACF截尾处为p。也可通过信息准则(AIC、BIC)选择。
步骤4:参数估计
使用最大似然估计或条件最小二乘估计参数φ和θ。
步骤5:模型检验
检验残差是否为白噪声(Ljung-Box检验)。若否,则重新选择p,q。
步骤6:预测
使用估计的模型进行向前预测,并计算预测区间。
参数选择/优化
1. 差分阶数d:通过ADF检验确定,或尝试d=0,1,2。
2. p,q:通过ACF/PACF或网格搜索最小化AIC。
3. 季节性:若有季节性,使用SARIMA模型,加入季节性项(P,D,Q)_s。

精度:在平稳时间序列预测上表现良好,尤其适合短期预测。
误差:均方误差、平均绝对误差等。
强度:经典方法,可解释性强,但假设线性,对非线性序列效果差。

自回归模型、移动平均模型、差分、平稳过程、Wold分解定理

1. 经济预测:GDP、通货膨胀、失业率
2. 销售预测:商品销量、零售额
3. 股票价格预测:股价、指数
4. 气象预测:温度、降水量
5. 流量预测:网站访问量、网络流量
6. 能源需求预测:电力负荷、天然气需求
7. 库存管理:库存水平预测
8. 质量控制:生产过程监控
9. 医学:流行病发病数预测
10. 信号处理:噪声消除
特征
- 线性模型:假设时间序列是线性的
- 平稳性:要求序列平稳(或差分后平稳)
- 短期依赖:适合短期预测,长期预测误差增大
- 可解释性:参数有明确统计意义

变量
y_t:时间序列在时刻t的值
ε_t:误差项(白噪声)
常量
p, d, q:模型阶数
参数
自回归系数φ_i,移动平均系数θ_j

集合特征:时间点集合,滞后集合
逻辑特征:自回归逻辑,移动平均逻辑,差分逻辑
概率与统计特征:时间序列视为随机过程,残差为白噪声
随机性:误差项随机性
不确定性:预测区间可通过误差分布估计
数据规律和推断:假设序列可表示为自身滞后和误差的线性组合
极限:当p,q→∞,可逼近任意平稳过程(Wold分解)
连续性:时间连续,但观测离散
微分:差分是离散微分
积分:求和是离散积分(与差分互逆)
级数:模型是滞后项的级数
收敛性:参数估计的统计收敛性
测度:自相关函数作为依赖性的测度
离散:时间离散,观测值离散(可连续)
排序:时间顺序至关重要
组合:自回归和移动平均的组合
构造:通过差分、自回归、移动平均构造模型
优化:最大似然估计或最小二乘估计参数
计算与算法特征:参数估计复杂度O((p+q)^3)(矩阵求逆),预测复杂度O(1)。
稳定性:要求特征根在单位圆内,保证平稳可逆
对称性/非对称性:时间方向不对称(因果)
代数:多项式运算,差分算子,后移算子
拓扑:时间序列的拓扑(顺序)
几何:序列在相空间的几何(滞后向量)
:时间平移不变性(平稳序列)
组合数学特征:滞后阶数的组合

可用于文本生成(字符级),但通常不用于自然语言,更适合数值序列
模型本身不处理语言

时序流程
1. 平稳性检验:t₀
- 绘制序列图,观察趋势和季节性。
- 进行ADF检验,若p值>0.05,则序列非平稳,进行差分,直到平稳,确定d。
2. 模型识别:t₁
- 绘制平稳序列的ACF和PACF图。
- 根据截尾/拖尾特征初步确定p和q。
3. 参数估计:t₂
- 使用最大似然估计或条件最小二乘估计参数φ_1..φ_p, θ_1..θ_q。
4. 模型检验:t₃
- 检验残差是否为白噪声(Ljung-Box检验)。
- 若残差非白噪声,调整p,q重新估计。
5. 预测:t₄
- 使用估计的模型向前预测h步:ŷ{T+h}。
- 计算预测区间:ŷ
{T+h} ± z_{α/2}·se,其中se为标准误。

服务器配置
单机CPU:ARIMA模型训练计算量小,可在单机CPU上运行。对于大规模时间序列(如数十万条序列),可并行处理每条序列。需要多核CPU和足够内存存储历史数据。
分布式计算:对于海量时间序列(如物联网传感器数据),可使用分布式计算框架(如Spark MLlib)并行拟合ARIMA模型。每个序列独立,可完美并行。需要数十个节点,每个节点多核CPU。
在线推理服务:预测是简单的线性组合,延迟极低(微秒级)。10亿级序列的实时预测(如每序列每秒一次)需要数千个CPU核心,但通常预测是批量进行的(如每小时预测一次)。
计算需求:单序列拟合复杂度低,但海量序列总体算力需求可达TFLOPS。
内存需求:存储历史序列数据,每条序列长度可能数千点。10亿序列1000点4字节 ≈ 4TB,需分布式存储。

1. 自回归模型:AR(p)
2. 移动平均模型:MA(q)
3. 自回归移动平均模型:ARMA(p,q)
4. 季节性ARIMA:SARIMA,加入季节性项
5. 向量自回归:多变量时间序列
6. 指数平滑:ETS模型
7. 状态空间模型:卡尔曼滤波
8. GARCH:波动率建模
9. 长短期记忆网络:深度学习替代
10. Prophet: Facebook时间序列预测工具

E-L1-0066

聚类

基于密度的聚类

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

步骤1:定义
给定邻域半径ε和最小点数MinPts。定义:
- ε邻域:N_ε(p) = {q ∈ D |dist(p,q) ≤ ε}。
- 核心点:|N_ε(p)|≥ MinPts。
- 边界点:不是核心点,但在某个核心点的ε邻域内。
- 噪声点:既不是核心点也不是边界点。
步骤2:密度直达
点p直接密度可达点q,如果p是核心点且q∈N_ε(p)。
步骤3:密度相连
点p和q密度相连,如果存在点o使得p和q都从o密度可达。
步骤4:聚类形成
聚类定义为最大的密度相连点集合。算法过程:
1. 将所有点标记为未访问。
2. 随机选择一个未访问点p,标记为已访问。
3. 如果p是核心点,创建一个新簇C,将p的所有密度可达点加入C(通过邻域扩展)。
4. 如果p是边界点(无足够邻居),则标记为噪声。
5. 重复直到所有点被访问。
步骤5:参数选择
通过k距离图(到第k近邻的距离)选择ε,k=MinPts-1。MinPts通常取2dim,dim为数据维度。
参数选择/优化*:
1. ε:邻域半径,影响聚类粒度。
2. MinPts:核心点最小邻居数,控制噪声容忍度。
3. 距离度量:欧氏距离常用。
4. 高维数据:维度灾难,效果下降。

精度:可发现任意形状的簇,对噪声鲁棒,但依赖参数,对密度变化大的数据效果差。
误差:无明确误差函数,可用轮廓系数等评估。
强度:无需指定簇数,可识别噪声,适合发现任意形状簇。

密度可达性、密度相连性、基于密度的聚类理论

1. 空间数据挖掘:地理信息聚类(如房屋、商店聚集区)
2. 图像分割:将像素按密度聚类
3. 异常检测:噪声点即为异常点
4. 社交网络分析:社区发现
5. 生物信息学:基因表达聚类
6. 金融交易分析:识别异常交易模式
7. 网络安全:检测网络入侵
8. 推荐系统:用户分群
9. 文本挖掘:文档聚类(需向量化)
10. 传感器网络:事件检测
特征
- 密度聚类:基于区域密度,而非距离
- 任意形状:可发现非球形簇
- 噪声容忍:可识别噪声点
- 参数敏感:ε和MinPts选择关键

变量
p, q:数据点
ε:邻域半径
MinPts:最小点数
常量

参数
ε, MinPts

集合特征:点集,核心点集,边界点集,噪声点集,簇集合
逻辑特征:密度可达逻辑,密度相连逻辑,邻域查询逻辑
概率与统计特征:密度估计(基于计数)
随机性:点访问顺序可能影响结果(但通常相同)
不确定性:边界点可能属于不同簇(但DBSCAN明确分配)
数据规律和推断:假设簇是数据空间中高密度区域,被低密度区域分隔
极限:当ε→∞,所有点成为核心点,形成一个簇;当ε→0,每个点自成一簇或噪声
连续性:数据点连续分布
微分:无
积分:邻域内点数可视为密度的离散积分
级数:无
收敛性:算法确定性(除访问顺序),一次遍历
测度:距离作为邻近性测度,密度作为点集中性测度
离散:点集离散
排序:无特定排序
组合:密度相连点的组合形成簇
构造:通过邻域查询和连通性构造簇
优化:无显式优化,纯几何计算
计算与算法特征:最坏复杂度O(n²),但使用空间索引(如kd树)可降至O(n log n)。内存需求O(n)。
稳定性:对参数敏感,对数据顺序不敏感(除边界情况)
对称性/非对称性:密度可达不对称,密度相连对称
代数:距离计算,计数
拓扑:基于ε邻域的拓扑,簇的连通性
几何:基于距离的几何,簇的形状任意
:对数据点的置换不变性
组合数学特征:邻域点的组合,核心点-边界点关系组合

可用于文本聚类(文档向量化后),但高维稀疏文本向量可能密度定义困难
噪声点可视为异常文档

时序流程
1. 参数设置:t₀
- 设置ε和MinPts。
2. 初始化:t₁
- 所有点标记为未访问。
3. 聚类:t₂
- 对于每个点p in 数据集D:
- 如果p已访问,跳过。
- 标记p为已访问。
- 计算p的ε邻域N_ε(p)。
- 如果|N_ε(p)|< MinPts,标记p为噪声。
- 否则,创建一个新簇C,将p加入C。
- 对于N_ε(p)中每个点q:
- 如果q未访问,标记为已访问,计算N_ε(q),如果|N_ε(q)|≥ MinPts,将N_ε(q)中未处理的点加入当前邻域(扩展)。
- 如果q还不属于任何簇,将q加入C。
4. 输出:t₃
- 簇集合和噪声点集合。

服务器配置
单机多核CPU:DBSCAN需要计算点间距离,复杂度O(n²)。对于中等规模数据(n<10⁶),可使用kd树等空间索引加速,在单机多核CPU上运行。内存需存储距离矩阵或索引结构O(n)。
分布式计算:对于大规模数据(n>10⁸),需分布式DBSCAN算法(如Spark MLlib)。数据分片,局部聚类后合并。但全局密度连通性需要跨分片通信,挑战大。需数十个节点,每个节点多核CPU和大内存。
在线推理服务:DBSCAN通常用于离线聚类。在线新点分配需判断是否在某个核心点的ε邻域内,复杂度O(核心点数)。10亿级点聚类后,在线分配新点需要查询大量核心点,可用空间索引加速。但通常不用于实时聚类。
计算需求:距离计算是主要开销,大规模数据需TFLOPS级算力。
内存需求:存储点坐标和索引,大规模数据需TB级分布式存储。

1. OPTICS:生成簇排序,可视化密度结构,减少参数依赖
2. HDBSCAN:层次DBSCAN,自动选择ε,提取稳定簇
3. DENCLUE:基于核密度估计的聚类
4. Mean Shift:基于密度梯度上升的聚类
5. SNN聚类:基于共享近邻的密度聚类,适用于高维数据
6. 分布式DBSCAN:适用于大数据的并行版本
7. 流数据DBSCAN:增量更新聚类
8. 子空间聚类:在高维子空间中聚类
9. 谱聚类:基于图割的聚类,可视为密度聚类的另一种形式
10. DBSCAN with Varying Density:处理密度变化大的数据

E-L1-0067

降维

随机投影

随机投影 (Random Projection)

步骤1:理论基础
Johnson-Lindenstrauss引理:高维空间中的点集可以嵌入到低维空间,同时保持点间距离的近似。给定ε>0和整数n,存在映射f: ℝ^d → ℝ^k,k = O(ε^{-2} log n),使得对于任意两点x,y,有(1-ε)|x-y|² ≤ |f(x)-f(y)|² ≤ (1+ε)|x-y|²。
步骤2:随机矩阵构造
构造一个随机矩阵R ∈ ℝ^{d×k},其中每个元素独立采样自某个分布,如:
- 高斯分布:R{ij} ~ N(0, 1/k)。
- 稀疏随机矩阵:R
{ij} = √3 × { +1 with prob. 1/6, 0 with prob. 2/3, -1 with prob. 1/6 }。
步骤3:投影
将数据矩阵X ∈ ℝ^{n×d}投影到低维:Y = X R。计算复杂度O(ndk),但矩阵乘法高度并行。
步骤4:距离保持
随机投影后,点对之间的距离平方的期望保持不变:E[|Y_i - Y_j|²] = |X_i - X_j|²。
步骤5:应用
用于降维后应用其他算法(如聚类、分类),或作为其他降维方法(如PCA)的预处理。
参数选择/优化
1. 目标维度k:根据JL引理,k至少为O(ε^{-2} log n),实践中通过实验选择。
2. 随机矩阵类型:高斯投影精度高但计算慢,稀疏投影快但可能需更大k。
3. 标准化:投影前是否标准化数据。

精度:距离保持的精度由ε控制,k越大精度越高。通常用于近似计算,而非精确表示。
误差:投影后距离的相对误差,以高概率小于ε。
强度:计算高效,尤其适合高维稀疏数据,与数据无关。但可解释性差。

Johnson-Lindenstrauss引理、度量嵌入、随机矩阵理论、集中不等式

1. 文本挖掘:将高维词袋向量降维,用于聚类、分类
2. 图像处理:降维后加速图像检索
3. 推荐系统:降维用户-物品矩阵
4. 生物信息学:基因表达数据降维
5. 信号处理:压缩感知
6. 数据库:近似最近邻搜索的预处理
7. 机器学习:加速核方法(随机傅里叶特征)
8. 可视化:快速降维可视化
9. 隐私保护:随机投影提供一定隐私性
10. 分布式计算:减少通信开销
特征
- 数据无关:投影矩阵与数据无关,无需训练
- 距离保持:近似保持欧氏距离
- 计算高效:矩阵乘法可并行,稀疏矩阵加速
- 非结构保持:不保持数据内部结构(如流形)

变量
X:原始数据矩阵(n×d)
R:随机投影矩阵(d×k)
Y:投影后数据(n×k)
常量
n:样本数
d:原始维度
k:目标维度
参数
随机种子,分布参数

集合特征:点集,随机向量集
逻辑特征:线性投影逻辑,随机性保证距离保持
概率与统计特征:Johnson-Lindenstrauss引理是概率性的,以高概率成立
随机性:投影矩阵的随机性
不确定性:距离保持的概率保证,非确定性
数据规律和推断:利用随机高维几何的性质
极限:当k→d,投影成为等距嵌入(但随机)
连续性:投影是线性连续映射
微分:线性映射,可微
积分:无
级数:无
收敛性:随着k增加,距离保持精度提高(概率)
测度:欧氏距离作为测度,投影后近似保持
离散:维度离散
排序:无特定排序
组合:随机向量的线性组合
构造:通过随机线性投影构造低维表示
优化:无优化,纯随机投影
计算与算法特征:矩阵乘法复杂度O(ndk),可并行化。稀疏数据可加速。
稳定性:对数据扰动稳定(因为随机),但每次投影结果不同(但相似)
对称性/非对称性:线性映射,对称?
代数:矩阵乘法
拓扑:线性子空间拓扑
几何:将数据投影到随机子空间,近似保持距离
:对数据旋转的不变性(随机旋转)
组合数学特征:随机矩阵元素的组合

适用于文本向量降维,保持文档间相似性
投影后向量可用于下游NLP任务

时序流程
1. 参数选择:t₀
- 选择目标维度k,随机矩阵类型(如高斯)。
2. 生成随机矩阵:t₁
- 生成随机矩阵R ∈ ℝ^{d×k},元素来自选定分布。
3. 投影:t₂
- 计算 Y = X R。(若X稀疏,使用稀疏矩阵乘法)
4. 应用:t₃
- 将Y用于后续任务(如分类、聚类)。
注意:随机投影无需训练,可直接应用于新数据:对新样本x,计算y = x R。

服务器配置
单机多核CPU/GPU:随机投影的核心是矩阵乘法,可高度并行。对于大规模数据(n>10⁹, d>10⁴),可使用GPU加速(如cuBLAS)或分布式矩阵乘法(如Spark MLlib)。单机多核CPU也可通过BLAS库加速。
内存需求:存储随机矩阵R需O(dk)内存,通常k较小(几百),d可能很大(如10⁶),需数百MB到几GB。数据矩阵X可能很大,需分布式存储。
在线推理服务:投影是向量-矩阵乘法,复杂度O(dk),很快。10亿级并发投影请求需数千个CPU核心,但可通过缓存随机矩阵R和批量处理优化。
计算需求:矩阵乘法算力需求高,大规模数据需TFLOPS级。
通信开销:分布式计算中,需分发随机矩阵R,通信量O(dk)。

1. 高斯随机投影:元素来自高斯分布
2. 稀疏随机投影:元素稀疏,加速计算
3. 随机傅里叶特征:近似核方法(如RBF核)
4. 结构化随机投影:使用快速变换(如Hadamard)加速
5. 非常数方差随机投影:调整方差以提高精度
6. 数据相关随机投影:如随机PCA
7. 多重随机投影:多个投影取平均或集成
8. 流式随机投影:在线更新投影
9. 量化随机投影:使用1位随机投影进一步压缩
10. 分布式随机投影:适用于大规模数据

E-L1-0068

分类

朴素贝叶斯

朴素贝叶斯 (Naive Bayes)

步骤1:贝叶斯定理
对于分类问题,给定特征向量x=(x_1,...,x_d),预测类别y,使用贝叶斯定理:P(y|x) = P(x|y) P(y) / P(x)。由于P(x)相同,比较P(y)∏{i=1}^{d} P(x_i|y)。
步骤2:朴素假设
假设特征条件独立:P(x|y) = ∏
{i=1}^{d} P(x_i|y)。
步骤3:模型类型
根据特征类型选择条件概率分布:
- 高斯朴素贝叶斯:连续特征,假设P(x_i|y)服从高斯分布N(μ{yi}, σ{yi}²)。
- 多项式朴素贝叶斯:离散特征计数(如词频),P(x_i|y)由多项分布生成,使用平滑(如拉普拉斯平滑)。
- 伯努利朴素贝叶斯:二值特征(如词出现与否)。
步骤4:参数估计
使用最大似然估计:
- 先验P(y):类y的频率。
- 条件概率P(x_i|y):对于高斯,估计均值和方差;对于多项式,估计特征i在类y中的频率。
步骤5:预测
对于新样本x,计算每个类别的后验概率,取最大:ŷ = argmax_y P(y)∏_{i=1}^{d} P(x_i|y)。
参数选择/优化
1. 平滑参数α:防止零概率,常用拉普拉斯平滑(α=1)。
2. 特征分布假设:根据数据类型选择高斯、多项式或伯努利。
3. 特征二值化:连续特征离散化可能提升多项式朴素贝叶斯性能。

精度:在小数据集、高维数据(如文本)上表现良好,计算高效,但条件独立假设通常不成立,精度可能受限。
误差:分类错误率,对数损失。
强度:简单、快速、可扩展,适合在线学习,提供概率输出。

贝叶斯定理、条件独立假设、最大似然估计、生成模型

1. 文本分类:垃圾邮件过滤、情感分析、新闻分类
2. 文档分类:主题分类、作者识别
3. 医疗诊断:疾病预测基于症状
4. 推荐系统:用户兴趣分类
5. 实时分类:需要快速预测的场景
6. 多标签分类:独立处理每个标签
7. 特征选择:基于特征重要性(互信息)
8. 异常检测:低概率样本视为异常
9. 图像分类:简单物体识别(与像素强度)
10. 社交网络分析:用户属性预测
特征
- 条件独立:强假设,但实际常违反而仍有效
- 生成模型:对联合分布建模,可生成数据
- 概率输出:提供预测概率,可用于排序
- 增量学习:可在线更新计数

变量
x_i:第i个特征
y:类别
常量
d:特征数
K:类别数
参数
先验概率P(y),条件概率P(x_i|y)的参数(如μ, σ²或计数)

集合特征:特征集合,类别集合
逻辑特征:条件独立逻辑,贝叶斯推理逻辑
概率与统计特征:贝叶斯定理,条件概率分布,最大似然估计
随机性:无随机性,确定性估计(除平滑)
不确定性:后验概率提供不确定性度量
数据规律和推断:假设特征在给定类别下独立,类别先验已知
极限:当样本数→∞,参数估计收敛到真实值(在假设下)
连续性:特征可以是连续或离散
微分:无
积分:概率归一化涉及求和(离散)或积分(连续)
级数:无
收敛性:参数估计收敛
测度:概率作为不确定性的测度
离散:类别离散,特征可以是离散
排序:按后验概率排序类别
组合:特征的条件概率乘积
构造:通过最大似然估计参数,使用贝叶斯定理构造分类器
优化:最大化后验概率等价于最大化联合概率(在独立假设下)
计算与算法特征:训练复杂度O(nd),预测复杂度O(dK)。非常高效。
稳定性:对缺失数据不敏感,平滑防止零概率
对称性/非对称性:对特征顺序对称(独立)
代数:概率乘法,对数运算(实际使用对数避免下溢)
拓扑:特征空间是各特征的乘积空间(由于独立)
几何:决策边界是线性的(对于高斯朴素贝叶斯,假设同方差)
:对特征缩放敏感(高斯假设下需标准化)
组合数学特征:特征组合被忽略(独立假设)

经典文本分类算法,特别适合词袋表示,特征条件独立假设在文本中近似成立
多项式朴素贝叶斯广泛用于文本分类

时序流程(多项式朴素贝叶斯)
1. 计算先验概率:t₀
- 对每个类别y,计算P(y) = (N_y + α) / (N + Kα),其中N_y是类y的样本数,N总样本数,α平滑参数。
2. 计算条件概率:t₁
- 对每个特征i和类别y,计算P(x_i|y) = (N{yi} + α) / (N_y + dα),其中N{yi}是特征i在类y中出现的次数(或值),d是特征数。
3. 预测:t₂
- 对新样本x,对每个类别y计算得分:log P(y) + ∑{i=1}^{d} x_i log P(x_i|y)。(使用对数防止下溢)
- 预测类别为得分最高的y。
训练流程:遍历所有样本,统计N_y和N
{yi}。

服务器配置
单机多核CPU:朴素贝叶斯训练只需计数,复杂度O(nd)。对于大规模数据(n>10⁹, d>10⁶,如文本),可在单机多核CPU上并行计数。内存需存储计数矩阵O(Kd),可能很大(如K=1000, d=10⁶,需4GB)。
分布式计算:对于超大规模文本(如全网网页分类),需分布式计数(如MapReduce)。每个节点统计局部计数,然后聚合。需数十个节点,每个节点多核CPU。
在线推理服务:预测是向量内积(对数概率),复杂度O(d)。10亿级并发分类请求(如垃圾邮件过滤)需数千个CPU核心,但每个请求计算简单,可轻松处理。模型小,可缓存。
计算需求:训练计算量小,主要是计数。大规模数据需TFLOPS级算力(因数据量大)。
内存需求:计数矩阵可能巨大,需内存优化(如稀疏表示)。

1. 高斯朴素贝叶斯:连续特征假设高斯分布
2. 多项式朴素贝叶斯:离散计数特征
3. 伯努利朴素贝叶斯:二值特征
4. 补充朴素贝叶斯:处理不平衡数据
5. 树增强朴素贝叶斯:放松独立性假设,考虑特征依赖
6. 平均一依赖估计:考虑每个特征对另一个特征的依赖
7. 贝叶斯网络:更一般的概率图模型
8. 最大熵模型:对数线性模型,与朴素贝叶斯有关
9. 增量学习:在线更新计数
10. 特征选择:基于互信息、卡方等选择特征

E-L1-0069

聚类

谱聚类

谱聚类 (Spectral Clustering)

步骤1:构建相似度矩阵
给定数据点x_1,...,x_n,计算相似度矩阵W,其中W{ij} = s(x_i,x_j),通常使用高斯核:s(x_i,x_j) = exp(-|x_i-x_j|²/(2σ²)),若i≠j,且W{ii}=0。也可构建k近邻图或ε邻域图。
步骤2:计算拉普拉斯矩阵
度矩阵D是对角矩阵,D{ii} = ∑j W{ij}。拉普拉斯矩阵L = D - W。通常使用归一化拉普拉斯矩阵L{sym} = D^{-1/2} L D^{-1/2} = I - D^{-1/2} W D^{-1/2}。
步骤3:特征分解
计算L{sym}的前k个最小特征值对应的特征向量u_1,...,u_k,形成矩阵U ∈ ℝ^{n×k},每行是一个数据点的k维表示。
步骤4:聚类
将U的行视为新的特征向量,使用k-means聚类成k个簇。
步骤5:输出
将原始数据点按k-means结果划分。
参数选择/优化
1. 相似度度量:高斯核的σ,影响相似度尺度。
2. 图构建:k近邻图的k,或ε邻域图的ε。
3. 归一化拉普拉斯:使用L
{sym}或L_{rw} = D^{-1}L。
4. 簇数k:通过特征值间隙或启发式方法选择。

精度:可发现非凸形状的簇,对噪声相对鲁棒,但计算复杂度高,对参数敏感。
误差:无明确误差函数,可用轮廓系数等评估。
强度:基于图割理论,可发现复杂形状簇,但需指定簇数,计算量大。

图割理论、拉普拉斯矩阵、谱图理论、瑞利商

1. 图像分割:将像素聚类成区域
2. 社区发现:社交网络中的社区检测
3. 文本聚类:文档主题发现
4. 基因表达聚类:发现基因模块
5. 语音分离:分离混合语音信号
6. 计算机视觉:物体识别、运动分割
7. 推荐系统:用户分群
8. 异常检测:离群点检测
9. 数据可视化:降维后可视化
10. 半监督学习:利用图结构进行标签传播
特征
- 图基:将聚类转化为图划分问题
- 谱映射:利用特征向量进行降维
- 全局优化:基于图割准则,而非局部优化
- 参数敏感:相似度图构建参数影响大

变量
W:相似度矩阵(n×n)
D:度矩阵
L:拉普拉斯矩阵
U:特征向量矩阵(n×k)
常量
n:样本数
k:簇数
参数
相似度核参数σ,近邻数k_neighbors

集合特征:点集,特征向量集合,簇集合
逻辑特征:图划分逻辑,谱映射逻辑
概率与统计特征:拉普拉斯矩阵的特征值/向量,与随机游走相关
随机性:k-means初始化的随机性
不确定性:无概率不确定性
数据规律和推断:假设数据点可构成图,簇对应图的分割(割最小化)
极限:当σ→∞,所有点相似度相同,谱聚类退化为随机划分;当σ→0,每个点自成一类
连续性:相似度函数连续依赖于距离
微分:特征值问题涉及二次型优化
积分:无
级数:特征值按大小排序
收敛性:特征分解是确定性的,k-means可能局部最优
测度:特征值间隙作为簇数的指示,割的大小作为分割质量的测度
离散:图是离散的,簇划分离散
排序:按特征值大小排序特征向量
组合:特征向量的组合表示数据点
构造:通过相似度图构造拉普拉斯矩阵,特征分解得到新表示
优化:最小化图割(或最大化类内相似度),近似通过谱松弛求解
计算与算法特征:相似度矩阵计算O(n²),特征分解O(n³)。大规模数据需近似算法(如Nystrom方法、幂迭代)。
稳定性:对参数敏感,对噪声相对鲁棒(因考虑全局结构)
对称性/非对称性:相似度矩阵对称,拉普拉斯对称
代数:矩阵运算,特征值分解
拓扑:图拓扑,谱图理论
几何:将数据映射到特征向量张成的空间,在该空间聚类
:对数据点的置换不变性(相似度矩阵相应置换)
组合数学特征:图划分的组合,特征向量的组合

可用于文本聚类,构建文档相似度图(基于词向量相似度),谱聚类发现主题
特征向量可视为文档嵌入

时序流程
1. 构建相似度图:t₀
- 计算点对相似度,构建相似度矩阵W(如高斯核)。或构建k近邻图:若j是i的k近邻或i是j的k近邻,则W{ij}=相似度,否则0。
2. 计算拉普拉斯矩阵:t₁
- 计算度矩阵D,D
{ii}=∑j W{ij}。
- 计算归一化拉普拉斯L = I - D^{-1/2} W D^{-1/2}。
3. 特征分解:t₂
- 计算L的前k个最小特征值对应的特征向量u_1,...,u_k。
- 形成矩阵U ∈ ℝ^{n×k},每行是数据点的k维谱嵌入。
4. 聚类:t₃
- 对U的行运行k-means聚类,得到k个簇。
5. 输出:t₄
- 将原始数据点划分到对应簇。

服务器配置
单机多核CPU/GPU:谱聚类的主要瓶颈是相似度矩阵计算O(n²)和特征分解O(n³)。对于中等规模数据(n<10⁵),可在单机多核CPU上使用高效的线性代数库(如ARPACK)进行特征分解。GPU可加速矩阵运算。
分布式计算:对于大规模数据(n>10⁶),需分布式谱聚类(如Spark MLlib)。使用Nystrom方法或随机特征映射近似相似度矩阵和特征分解。需数十个节点,每个节点多核CPU和足够内存。
在线推理服务:谱聚类是离线聚类方法,无法直接处理新样本(out-of-sample)。需使用近似方法(如将新样本投影到特征空间)。10亿级点聚类通常离线进行,在线查询簇归属需近似。
计算需求:精确谱聚类算力需求巨大,大规模数据需PFLOPS级算力。
内存需求:存储相似度矩阵O(n²)是主要瓶颈,需TB级内存(对于n=10⁵,矩阵约40GB)。需分布式存储或稀疏近似。

1. 归一化割:谱聚类的目标函数
2. Ratio Cut:另一种图割准则
3. 随机游走聚类:基于随机游走的谱聚类
4. 多路谱聚类:分割成多于两个簇
5. 稀疏谱聚类:使用稀疏相似度矩阵加速
6. Nystrom方法:近似特征分解,适用于大规模数据
7. 功率迭代聚类:快速近似谱聚类
8. 谱聚类与k-means结合:标准流程
9. 自调谐谱聚类:自动确定相似度参数
10. 多视图谱聚类:结合多个视图的相似度

E-L1-0070

回归

岭回归

岭回归 (Ridge Regression)

步骤1:目标函数
在线性回归的损失函数中加入L2正则化项:J(β) = |Y - Xβ|² + λ|β|²,其中λ ≥ 0是正则化参数。
步骤2:求解
对β求导并令为零,得到正规方程:(XᵀX + λI)β = XᵀY。解为β = (XᵀX + λI)^{-1} XᵀY。
步骤3:几何解释
L2约束在参数空间中构成一个球,最优解在球与等高线的切点处,使得系数缩小但不为0。
步骤4:标准化
由于正则化对系数施加同等惩罚,通常对特征标准化(均值为0,方差为1),使惩罚公平。
步骤5:参数选择
通过交叉验证选择λ,通常使用网格搜索,选择最小化交叉验证误差的λ。
步骤6:与普通线性回归比较
当λ=0时,岭回归退化为普通最小二乘。当λ→∞,系数趋近于0。岭回归减少方差,增加偏差,提高泛化能力。
参数选择/优化
1. 正则化参数λ:通过交叉验证选择,常用对数尺度(如10^{-3}到10^{3})。
2. 标准化:必须对特征标准化,或使用截距项时不惩罚截距。
3. 求解方法:小数据用解析解,大数据用梯度下降。

精度:在存在共线性的情况下,岭回归的均方误差通常低于普通最小二乘。
误差:均方误差(训练和验证)。
强度:解决多重共线性问题,防止过拟合,但所有特征都被保留,不进行特征选择。

正则化、偏差-方差权衡、岭回归估计量的性质(有偏但方差小)

1. 经济预测:存在多重共线性的经济指标预测
2. 生物统计:基因表达数据预测表型,特征数大于样本数
3. 图像处理:图像去噪、超分辨率
4. 推荐系统:用户评分预测
5. 自然语言处理:文本回归(如情感强度预测)
6. 化学计量学:光谱数据分析
7. 金融建模:资产定价模型
8. 医学研究:临床指标预测
9. 质量控制:过程参数预测
10. 心理学:量表得分预测
特征
- 收缩估计:系数向零收缩,但不为零
- 稳定:改善条件数,求解稳定
- 连续路径:解β(λ)是λ的连续函数
- 贝叶斯解释:对应高斯先验

变量
β:回归系数向量
λ:正则化参数
常量
n:样本数
p:特征数
参数
β(待估计),λ(需调优)

集合特征:样本集,特征集
逻辑特征:L2正则化逻辑,最小化带约束的损失
概率与统计特征:贝叶斯视角下,对应系数先验为高斯分布N(0, τ²I

编号

类别

模型配方

算法/模型/方法名称

算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化

精度/密度/误差/强度

底层规律/理论定理

典型应用场景【10个场景】和各类特征

变量/常量/参数列表及说明

数学特征

语言特征

时序和交互流程的所有细节/分步骤时序情况及数学方程式

10亿级并发下的服务器性能与规模需求

配套优化算法列表

E-L1-0071

多模态理解

视觉-语言-动作联合推理

ViLa (Vision-Language-Action) 模型

步骤1:多模态编码
分别编码视觉输入(图像/视频帧)、语言指令、历史动作序列。视觉编码器使用ViT或CNN,语言编码器使用BERT或GPT,动作编码器使用MLP。
步骤2:跨模态注意力融合
通过多头跨模态注意力机制融合不同模态信息:
1. 视觉-语言注意力:Q_v = W_Q^v·H_v, K_l = W_K^l·H_l, V_l = W_V^l·H_l
2. 语言-视觉注意力:类似
3. 动作-状态注意力:结合历史动作与环境状态
步骤3:分层决策网络
构建分层策略网络:高层任务规划(语言指令→子目标序列)、中层技能选择、底层动作执行。使用选项框架(Option-Critic)或分层强化学习。
步骤4:联合优化目标
多任务损失:L = λ1·L_RL + λ2·L_BC + λ3·L_VC + λ4·L_LM
其中L_RL是强化学习奖励,L_BC是行为克隆损失,L_VC是视觉重建损失,L_LM是语言建模损失。
步骤5:因果推理模块
加入因果图学习模块,建模"工具-目标-效果"的因果结构,提升决策可解释性。
参数选择/优化
1. 模态编码维度:视觉512,语言768,动作32
2. 注意力头数:8-16
3. 分层决策层数:3层(任务、技能、动作)
4. 损失权重λ:通过帕累托优化调整
5. 训练策略:课程学习,从简单任务到复杂任务

精度:在模拟环境和真实机器人任务中,成功率比单模态方法提高15-25%
误差:任务成功率、步骤效率、指令完成度
强度:实现视觉-语言-动作的端到端联合推理,具备工具使用和因果推理能力

多模态融合、分层强化学习、因果推断、跨模态注意力、课程学习

1. 家庭机器人:理解自然语言指令完成家务("把桌上的杯子放进厨房水槽")
2. 工业自动化:根据工单描述完成装配、检测任务
3. 自动驾驶:理解乘客语言指令完成复杂驾驶动作
4. 医疗辅助:协助医生进行手术操作,理解语音指导
5. 教育机器人:根据教师指令演示实验、辅导学生
6. 抢险救援:理解指挥中心指令在复杂环境执行任务
7. 智能仓储:多物品抓取、分类、包装
8. 虚拟助手:在AR/VR环境中执行用户指令
9. 残障辅助:帮助残障人士完成日常活动
10. 军事侦察:理解指令执行侦察、排查任务
特征
- 多模态融合特征:视觉场景、语言指令、动作序列的深度关联
- 层次化决策特征:从抽象目标到具体动作的层次分解
- 因果推理特征:理解动作与效果的因果关系
- 工具使用特征:识别工具属性,规划工具使用序列

变量
V:视觉观察序列
L:语言指令
A:动作序列
S:环境状态
G:目标表示
常量
模态编码维度d_v, d_l, d_a
决策层次数K
参数
编码器参数θ_e,融合器参数θ_f,决策器参数θ_π,因果图参数θ_c

集合特征:视觉patches集合,词语集合,动作集合,工具集合
逻辑特征:分层任务分解逻辑,因果图依赖逻辑,工具适用性逻辑
概率与统计特征:策略π(a|s)是动作分布,因果图的条件概率表
随机性:环境动态随机性,策略探索随机性
不确定性:多模态融合的不确定性,决策后果的不确定性
数据规律和推断:工具使用遵循"前因-工具-效果"因果链,任务可分层分解
极限:当任务复杂度→∞,需要无限层次分解;当模态缺失,性能下降
连续性:状态空间连续,动作空间连续
微分:策略梯度,损失函数梯度
积分:期望回报的积分,概率归一化的积分
级数:分层决策的级数展开,时间步骤的级数
收敛性:分层强化学习收敛困难,需课程学习辅助
测度:任务成功率作为性能测度,因果强度作为因果关系的测度
离散:技能选项离散,工具选择离散
排序:动作序列的时间排序,任务子目标的偏序关系
组合:多模态信息的组合,技能的组合,工具的组合
构造:通过跨模态注意力构造联合表示,通过分层策略构造动作序列
优化:最大化期望回报,最小化多任务损失
计算与算法特征:计算复杂度高,涉及多编码器、注意力融合、分层决策
稳定性:多模态训练需平衡,易出现模态主导
对称性/非对称性:时间不对称(因果),模态不对称(视觉主导空间,语言主导语义)
代数:矩阵乘法,softmax,注意力权重计算
拓扑:状态-动作空间的拓扑,因果图拓扑
几何:视觉场景几何,工具操作的运动几何
:对视觉平移、旋转的等变性(CNN/ViT部分实现)
组合数学特征:技能序列的组合,工具使用方式的组合

核心是理解自然语言指令并执行,语言是高级控制接口
可生成语言报告解释决策过程
支持多语言指令理解

时序流程
1. 感知阶段:t₀
- 接收视觉输入V(图像序列),语言指令L,历史动作A{1:t-1}
- 编码:H_v = Enc_v(V), H_l = Enc_l(L), H_a = Enc_a(A
{1:t-1})
2. 融合阶段:t₁
- 跨模态注意力:H{vl} = CrossAttn(H_v, H_l),H{lv} = CrossAttn(H_l, H_v)
- 拼接融合:H_fuse = [H_v; H_l; H_a; H{vl}; H{lv}]
3. 高层规划:t₂
- 根据H_fuse生成高层目标G = π_high(H_fuse)
- 分解为子目标序列[g_1, g_2, ..., g_k]
4. 中层技能选择:t₃
- 对当前子目标g_i,选择技能选项o_i = π_mid(H_fuse, g_i)
5. 底层动作生成:t₄
- 执行技能o_i,生成具体动作a_t = π_low(H_fuse, o_i)
6. 因果推理:t₅
- 预测动作效果:s_{t+1} = f(s_t, a_t)
- 更新因果图:如果实际效果与预测不符,调整因果概率
7. 循环执行:t₆
- 执行a_t,观察新状态,重复直到任务完成
8. 语言反馈:t₇
- 生成任务完成报告:R = Gen_Report(H_fuse, 轨迹)

服务器配置
大规模多模态训练集群:ViLa模型训练需要处理视觉、语言、动作数据,计算量大。需100-200张NVIDIA A100/H100 GPU,配备高带宽互联(NVLink)。视觉编码器(ViT-Huge)和语言编码器(GPT-3规模)需模型并行。内存需存储多模态数据集(TB级)。
分布式强化学习框架:结合环境模拟器(如Mujoco、Habitat)进行策略训练,需数千个CPU核心运行并行环境实例,GPU集群进行策略优化。使用IMPALA或SEED RL架构。
在线推理服务:单次决策需多模态编码和注意力融合,延迟约50-200ms。10亿级机器人/智能体并发决策不可行,但实际场景中,单个机器人决策频率约1-10Hz。对于百万级机器人集群,需数百个GPU服务器实时服务。
计算需求:训练算力约10²⁵ FLOPS,需数月训练。推理算力约10¹⁶ FLOPS/机器人/天。
内存需求:多模态模型参数达50-100B,需模型并行和优化内存管理。

1. RT-1/RT-2:机器人 Transformer,大规模视觉-语言-动作模型
2. Gato:多模态、多任务、多 embodiment 通用模型
3. Palm-E:具身语言模型,将连续传感器数据注入语言模型
4. VIMA:多模态决策 Transformer,处理视觉、语言、动作
5. Decision Transformer:序列建模决策过程
6. HuggingGPT:利用语言模型调度工具
7. Toolformer:让语言模型学会使用工具
8. Causal Transformer:加入因果注意力的 Transformer
9. Hierarchical RL:HIRO、Option-Critic 等分层强化学习算法
10. Modular Networks:模块化网络,提高组合泛化能力

E-L1-0072

社会计算

权力与影响力动态建模

权力动态图神经网络 (Power Dynamic GNN)

步骤1:多关系图构建
构建异质信息网络:节点类型={人物, 组织, 资源},边类型={隶属, 控制, 合作, 竞争, 影响}。每条边有权重w∈[0,1]表示关系强度。
步骤2:多维度特征编码
每个节点具有特征向量:
1. 结构特征:度中心性、特征向量中心性、PageRank
2. 属性特征:职位、财富、技能、声誉(数值化)
3. 动态特征:历史行为序列、资源变化轨迹
步骤3:关系感知的消息传递
定义关系特定的消息函数和聚合函数:
m{ij}^r = Msg_r(h_i^t, h_j^t, e{ij}^r)
h_i^{t+1} = Agg({m_{ij}^r, ∀j∈N_i(r), ∀r∈R})
使用注意力机制区分不同邻居的重要性。
步骤4:权力值计算
定义权力得分函数:P_i = σ(W·[h_i^T; C_i; R_i] + b),其中C_i是中心性指标,R_i是资源总量。通过对比学习或排名损失训练。
步骤5:动态预测
使用时间图神经网络(TGN)或GCRN建模权力演化:预测未来权力值、联盟形成、资源控制变化。
步骤6:博弈推理模块
引入博弈论层,模拟节点间的战略互动(合作/背叛),使用神经网络近似纳什均衡。
参数选择/优化
1. 图神经网络层数:2-3层
2. 节点嵌入维度:128-256
3. 关系类型数:通常5-10种
4. 时间窗口长度:历史10-50个时间步
5. 损失函数:对比损失+预测损失+博弈均衡损失

精度:在组织权力预测任务中,F1分数0.75-0.85;在资源控制预测中,准确率0.8-0.9
误差:均方误差(权力值预测),交叉熵(关系预测)
强度:综合结构、属性、动态、博弈多维度,可解释性强

社会网络分析、图神经网络、博弈论、权力理论、动态系统

1. 组织管理:识别关键人物,预测权力转移,优化组织架构
2. 政治分析:分析政治联盟形成,预测政策走向,评估影响力
3. 企业管理:识别实际决策者,分析部门间权力动态,优化资源分配
4. 社交媒体:识别意见领袖,预测信息传播路径,检测水军操控
5. 犯罪网络分析:识别犯罪头目,预测犯罪活动,瓦解犯罪组织
6. 学术合作:识别领域权威,预测合作模式,优化科研基金分配
7. 国际关系:分析国家间影响力,预测国际冲突与合作
8. 金融市场:分析机构投资者影响力,预测市场操纵行为
9. 项目管理:识别项目关键干系人,预测项目风险
10. 历史研究:分析历史人物权力网络,解释历史事件
特征
- 多关系特征:不同类型关系有不同语义和强度
- 动态特征:权力随时间演化,受事件影响
- 资源特征:控制资源类型和数量决定权力基础
- 博弈特征:主体间战略互动影响权力分配

变量
V:节点集合
E:边集合(带类型和权重)
h_i^t:节点i在时间t的嵌入
P_i^t:节点i在时间t的权力值
R_i:节点i控制的资源向量
常量
关系类型集合R
时间步数T
参数
消息函数参数θ_msg,聚合函数参数θ_agg,权力预测参数θ_power,博弈层参数θ_game

集合特征:节点集合,边集合,资源类型集合,时间点集合
逻辑特征:权力传递逻辑(A控制B,B控制C⇒A间接控制C),博弈均衡逻辑
概率与统计特征:关系存在概率,权力值概率分布,博弈策略混合策略
随机性:关系建立的随机性,策略选择的随机性(混合策略)
不确定性:权力值估计不确定性,关系预测不确定性
数据规律和推断:权力遵循"富者愈富"马太效应,结构洞位置获得信息优势
极限:当网络完全连接,权力均匀分布;当网络为星型,中心节点权力极大
连续性:权力值连续变化,资源量连续
微分:通过反向传播计算梯度,博弈论中的梯度优化
积分:权力积累是资源控制的积分,时间聚合是历史信息的积分
级数:多跳影响力传递是级数形式
收敛性:博弈达到纳什均衡,权力分布趋于稳定
测度:中心性指标作为权力的结构测度,资源控制作为权力的资源测度
离散:节点离散,关系类型离散,时间步离散
排序:按权力值排序节点,按资源量排序
组合:多跳关系的组合,多维特征的组合
构造:通过消息传递构造节点表示,通过博弈推理构造策略分布
优化:最小化预测损失,博弈均衡求解
计算与算法特征:时间复杂度O(T·(|V|d² + |E|d)),d为嵌入维度。博弈均衡求解需迭代。
稳定性:对网络扰动敏感,小变化可能导致权力重分布
对称性/非对称性:权力关系通常不对称(A对B有权力,B对A未必)
代数:矩阵运算,softmax,博弈收益矩阵计算
拓扑:网络拓扑,中心性拓扑指标
几何:节点在嵌入空间的几何关系反映权力关系
:网络的自同构群(对称性)可能对应权力结构的对称性
组合数学特征:联盟形成的组合,关系路径的组合

可处理文本描述的关系(如新闻中人物关系),需NLP提取
生成权力结构报告,解释关键人物和关系
支持多语言社会网络分析

时序流程
1. 数据构建:t₀
- 从多源数据(文本、数据库)构建多关系动态图G^1,...,G^T。
2. 特征提取:t₁
- 计算每个节点的结构特征、属性特征、资源特征。
3. 时空图神经网络:for t=1 to T
a. 关系感知消息传递:t₂
- 对每个关系类型r,计算消息m{ij}^r = W_r^msg [h_i^{t-1} |h_j^{t-1} |e{ij}^r]
- 对每个节点i,聚合消息:h_i^{t'} = Agg({m_{ij}^r, ∀j∈N_i(r), ∀r})
b. 时间更新:t₃
- 结合历史:h_i^t = GRU(h_i^{t'}, h_i^{t-1})
4. 权力预测:t₄
- 计算权力值:P_i^t = σ(W_power·[h_i^t |C_i^t |R_i^t] + b)
5. 博弈推理:t₅
- 对每个节点对(i,j),计算博弈收益矩阵U_ij
- 通过神经博弈层计算纳什均衡策略σ_i, σ_j
6. 预测与解释:t₆
- 预测未来权力分布、关系形成/断裂、资源流动
- 生成解释:关键路径、结构洞、权力枢纽

服务器配置
大规模图计算集群:权力动态图可能包含数百万节点(人物、组织)、数千万边。需分布式图计算框架(如DGL分布式、Spark GraphX)。每个节点需存储高维特征和历史嵌入。需50-100个节点,每个节点256GB内存,多核CPU。
GPU加速训练:GNN消息传递和博弈推理可GPU加速。需16-32张NVIDIA A100 GPU,用于模型训练。实时推理可在CPU集群进行。
在线推理服务:新事件(如人事变动、交易)触发图更新和权力重计算。10亿级事件处理(如全球新闻流)需流处理框架(如Flink)和数百个计算节点。实时权力分析延迟要求分钟级。
计算需求:图神经网络前向传播复杂度与边数成正比。大规模动态图训练需PFLOPS级算力。
内存需求:存储动态图快照和节点嵌入需要TB级内存,需分布式存储。

1. RGCN:关系图卷积网络,处理多关系图
2. HAN:异构图注意力网络
3. EvolveGCN:演化图卷积网络,处理动态图
4. TGN:时间图网络
5. GraphSAGE:归纳式学习,处理新节点
6. 博弈图网络:结合博弈论与GNN
7. Power-Iteration Networks:近似特征向量中心性
8. Causal GNN:因果图神经网络,区分相关与因果
9. Influence Maximization GNN:影响力最大化
10. Community Detection GNN:社区发现,识别利益集团

E-L1-0073

决策科学

多智能体资源分配博弈

资源分配博弈求解器 (Resource Allocation Game Solver)

步骤1:博弈模型定义
定义n个智能体,m种资源。每个智能体i有:
1. 效用函数U_i(x_i):x_i是资源分配向量,通常为拟凹函数
2. 初始资源禀赋e_i
3. 策略集:交易策略、投资策略、生产策略等
步骤2:市场机制设计
设计双重拍卖、连续双边交易、组合拍卖等市场机制。定义交易规则、价格形成机制、清算规则。
步骤3:均衡求解
求解一般均衡(瓦尔拉斯均衡)或纳什均衡。条件:
1. 市场出清:∑i x_i = ∑i e_i
2. 个体理性:每个智能体在预算约束下最大化效用
3. 价格均衡:不存在超额需求
步骤4:计算优化
使用梯度下降法求解均衡:定义损失函数L = |ExcessDemand(p)|²,通过价格调整p ← p + α·ExcessDemand(p)迭代求解。
步骤5:策略学习
使用深度强化学习(多智能体PPO/MADDPG)让智能体学习交易策略,收敛到均衡。
步骤6:机制评估
评估指标:配置效率、帕累托最优、激励相容、个体理性、预算平衡、计算可行性。
参数选择/优化
1. 效用函数形式:Cobb-Douglas, CES, Leontief等,参数通过历史数据估计
2. 学习率α:影响收敛速度,自适应调整
3. 智能体数量n:可扩展性测试
4. 资源种类m:复杂度随m指数增长,需近似
5. 市场机制参数:如拍卖保留价、手续费率

精度:均衡计算误差(供需不平衡度)<1%,配置效率>95%
误差:市场出清误差,效用损失
强度:理论上保证均衡存在性和效率,但计算复杂度高,需简化假设

一般均衡理论、博弈论、市场设计、机制设计、福利经济学

1. 频谱拍卖:电信频谱资源分配,最大化社会总福利
2. 电力市场:电力交易,实时平衡供需,避免市场操控
3. 云计算资源:CPU、内存、存储的动态拍卖分配
4. 碳排放权交易:碳排放配额分配与交易,实现减排目标
5. 广告位拍卖:搜索引擎、社交媒体广告位实时拍卖
6. 土地利用规划:土地资源在农业、工业、居住间的分配
7. 水资源分配:流域水资源在地区、行业间的分配
8. 人才市场:岗位与求职者的匹配,工资形成
9. 研发资金分配:科研基金在项目间的分配,最大化创新产出
10. 紧急物资调配:灾害时救援物资的公平高效分配
特征
- 多主体特征:多个利益相关方,目标冲突
- 资源约束特征:资源有限,分配需满足总量约束
- 策略互动特征:智能体策略相互影响,形成均衡
- 机制设计特征:规则影响结果,可设计规则实现社会目标

变量
p:价格向量(m维)
x_i:智能体i的资源分配向量(m维)
U_i:效用函数
e_i:禀赋向量
常量
n:智能体数
m:资源种类数
参数
效用函数参数,学习率α,市场机制参数

集合特征:智能体集合,资源类型集合,交易集合
逻辑特征:市场出清逻辑,效用最大化逻辑,均衡存在逻辑
概率与统计特征:智能体类型分布,效用随机性,贝叶斯均衡
随机性:智能体偏好随机性,外部冲击随机性
不确定性:未来资源价值不确定性,其他智能体策略不确定性
数据规律和推断:均衡价格反映资源稀缺性,边际效用相等原则
极限:当智能体数n→∞,价格接受者假设成立,竞争均衡;当m→∞,计算不可行
连续性:资源量连续,价格连续,效用函数连续
微分:效用函数梯度,超额需求函数的雅可比矩阵
积分:社会总福利是各智能体效用的加权和(积分)
级数:迭代求解的级数,泰勒展开近似
收敛性:在凸性假设下,梯度下降收敛到均衡;博弈学习可能收敛到均衡
测度:帕累托效率作为分配好坏的测度,基尼系数作为公平性测度
离散:智能体离散,资源种类离散
排序:按支付意愿排序竞标者,按成本排序供给者
组合:资源组合的效用,智能体联盟的组合
构造:通过迭代价格调整构造均衡,通过机制设计构造市场规则
优化:每个智能体优化自身效用,市场设计者优化社会目标
计算与算法特征:求解均衡复杂度O(poly(n,m)),组合拍卖是NP难。需近似算法。
稳定性:均衡稳定性分析,动态调整路径
对称性/非对称性:智能体可能不对称(大小、信息),市场规则应对称
代数:线性规划,非线性方程组,矩阵求逆
拓扑:资源空间的拓扑,偏好关系的拓扑
几何:埃奇沃思盒,帕累托前沿,核(core)
:对智能体重新标号的不变性(对称性)
组合数学特征:资源分配的组合,联盟形成的组合

可处理自然语言描述的资源需求和约束,需NLP解析
生成分配方案报告,解释分配原则和效率
支持多语言用户界面

时序流程
1. 初始化:t₀
- 定义智能体集合N,资源集合M,每个智能体的效用函数U_i和禀赋e_i。
- 初始化价格向量p(随机或历史)。
2. 迭代求解均衡:while 不收敛
a. 智能体最优化:t₁
- 每个智能体i求解:max{x_i} U_i(x_i), s.t. p·x_i ≤ p·e_i
- 得到需求函数x_i(p)。
b. 计算超额需求:t₂
- 总需求D(p) = ∑
i x_i(p)
- 总供给S = ∑_i e_i
- 超额需求Z(p) = D(p) - S
c. 价格调整:t₃
- 更新价格:p_j ← max(0, p_j + α·Z_j(p)) 对每种资源j
d. 检查收敛:t₄
- 如果|Z(p)|< ε,则收敛,输出均衡(p, {x_i})
3. 机制运行:t₅
- 在实际市场中运行拍卖/交易机制,智能体提交出价/要价。
- 根据规则匹配交易,计算清算价格和分配。
4. 评估:t₆
- 计算配置效率、公平性指标。
5. 机制优化:t₇
- 如果结果不理想,调整市场机制参数,重新设计。

服务器配置
高性能计算集群:求解大规模一般均衡(如数万智能体、数千资源)需要大量线性/非线性规划求解。需CPU集群(如数百核心)运行并行优化。内存需存储大规模稀疏矩阵(供需矩阵)。
分布式市场模拟平台:多智能体强化学习训练需要大规模模拟。需数千个CPU核心运行智能体环境,GPU集群训练策略网络。使用Ray、MALib等多智能体框架。
在线交易系统:实时资源分配(如云计算资源拍卖)需要低延迟(毫秒级)。10亿级并发报价/交易请求(如广告拍卖)需专用交易引擎,每秒处理百万级交易。需FPGA/ASIC加速,内存数据库。
计算需求:均衡求解计算复杂度高,大规模问题需TFLOPS级算力。实时拍卖需高吞吐低延迟。
内存需求:存储智能体状态、订单簿、交易历史,需TB级内存。

1. 一般均衡求解算法:Scarf算法,单纯形法,梯度下降法
2. 组合拍卖算法:Vickrey-Clarke-Groves机制,近似算法
3. 双重拍卖:连续双边拍卖,集合竞价
4. 匹配算法:Gale-Shapley稳定匹配,Top Trading Cycles
5. 多智能体强化学习:MADDPG, MAPPO, QMIX
6. 机制设计自动化:通过深度学习自动设计机制
7. 预测市场:利用市场聚合信息预测事件
8. 自动化做市商:恒定乘积做市商等去中心化金融机制
9. 公平分配算法:最大最小公平,比例公平
10. 鲁棒优化:考虑不确定性的资源分配

E-L1-0074

认知计算

道德与法律推理引擎

道德-法律-事实三重推理模型 (Moral-Legal-Factual Reasoning)

步骤1:事实抽取与表示
从文本(案件描述、新闻报道)抽取:主体、动作、客体、时间、地点、意图、因果。使用基于BERT的序列标注和关系抽取。构建知识图谱。
步骤2:道德原则匹配
匹配道德原则库:功利主义(最大化幸福)、义务论(遵守规则)、美德伦理学(培养品格)、关怀伦理学(关注关系)。计算行为与各原则的符合度分数。
步骤3:法律条文检索与解释
检索相关法律条文,使用法律BERT计算条文与案件的相关性。进行法律解释:文义解释、体系解释、目的解释、历史解释。
步骤4:三重推理融合
构建贝叶斯网络,节点={事实F, 道德M, 法律L, 判决J}。计算后验概率P(J|F,M,L)。使用注意力机制加权融合道德、法律、事实证据。
步骤5:判决生成与解释
生成判决:有罪/无罪,责任比例,惩罚建议。生成解释链:"因为事实A,违反法律B,违背道德C,所以判决D。"
步骤6:价值对齐
通过人类反馈强化学习(RLHF)对齐社会主流价值观。构建价值排序:生命>自由>财产>便利。
参数选择/优化
1. 道德原则权重:通过社会调查或专家标注确定
2. 法律条文库规模:涵盖刑法、民法、行政法等
3. 贝叶斯网络参数:通过历史案例学习
4. 解释生成模板:可配置模板,支持自然语言生成
5. 价值对齐奖励函数:设计综合奖励(公正、效率、人道)

精度:在模拟案件判决中,与人类法官一致率75-85%;法律条文检索准确率90%+
误差:判决错误率,解释合理性评分
强度:结合形式逻辑与概率推理,可解释性强,但道德量化困难,文化差异大

道德哲学、法律推理、贝叶斯网络、知识图谱、可解释AI

1. 司法辅助:为法官提供判决建议,减轻工作负担
2. 企业合规:自动审查合同、交易是否符合法律和道德
3. 新闻伦理审查:判断新闻报道是否违反伦理规范
4. 自动驾驶伦理:在不可避免事故时做道德决策
5. 医疗伦理:辅助医疗决策,如资源分配、生命支持
6. 人工智能治理:评估AI系统行为是否符合伦理准则
7. 历史事件评价:从道德和法律角度评价历史事件
8. 教育评估:评估学生行为,进行道德教育
9. 社交媒体审核:判断内容是否违规,提供解释
10. 国际争端调解:提供基于国际法和普世价值的调解建议
特征
- 多维度特征:事实维度(真/假),法律维度(合法/非法),道德维度(善/恶)
- 可解释特征:每一步推理可追溯,可生成自然语言解释
- 价值敏感特征:明确价值排序,避免价值冲突
- 文化适应特征:可调整道德原则权重适应不同文化

变量
F:事实陈述(知识图谱)
M:道德原则集合
L:法律条文集合
J:判决结果
V:价值排序向量
常量
道德原则库大小N_m
法律条文库大小N_l
参数
事实抽取模型参数θ_f,道德匹配参数θ_m,法律检索参数θ_l,融合网络参数θ_fuse

集合特征:实体集合,关系集合,道德原则集合,法律条文集合
逻辑特征:三段论逻辑(大前提法律,小前提事实,结论判决),道义逻辑(义务、允许、禁止)
概率与统计特征:事实不确定性概率,法律适用概率,贝叶斯推理
随机性:事实抽取随机性,人类反馈随机性
不确定性:事实认定不确定性,法律解释不确定性,道德判断不确定性
数据规律和推断:类似案件类似判决(遵循先例),法律体系内在一致性
极限:当事实完全清晰,法律明确,道德一致,判决确定;否则存在模糊地带
连续性:责任程度连续,惩罚力度连续
微分:通过反向传播训练神经网络组件
积分:综合考虑多项原则的积分,历史案例的加权积分
级数:推理链的级数(多步推理)
收敛性:RLHF训练使模型对齐人类价值观
测度:正义指数,道德符合度,法律符合度
离散:判决结果离散(有罪/无罪),法律条文离散
排序:按严重性排序罪行,按重要性排序价值
组合:多事实组合认定,多法律条文组合适用
构造:通过逻辑推理和概率融合构造判决
优化:最大化与人类法官一致率,最大化解释合理性
计算与算法特征:事实抽取使用NLP模型,法律检索使用语义搜索,推理使用贝叶斯网络,复杂度中等
稳定性:对相似输入应产生相似输出,但允许合理变化
对称性/非对称性:法律面前人人平等(对称),但考虑情节可能不对称处理
代数:概率计算,注意力权重,向量相似度
拓扑:知识图谱拓扑,法律体系的层次拓扑
几何:道德原则在多维空间中的几何,价值排序的偏序关系
:对当事人重新标号的不变性(匿名性)
组合数学特征:事实组合,法律条文引用组合

核心处理自然语言文本(案件描述、法律条文),生成自然语言解释
支持多语言法律文本
法律条文检索需处理复杂法律语言

时序流程
1. 输入处理:t₀
- 输入案件描述文本T。
2. 事实抽取:t₁
- 使用NER抽取实体:人物、组织、地点、时间、物品。
- 使用关系抽取抽取关系:谁对谁做了什么,何时何地,意图如何,结果如何。
- 构建知识图谱G。
3. 道德评估:t₂
- 从道德原则库检索相关原则。
- 计算行为与每条原则的符合度分数s_m^i。
- 加权平均得到道德评分M = ∑ w_i s_m^i。
4. 法律检索:t₃
- 从法律数据库检索相关条文,计算相关性得分。
- 对每条相关条文,进行法律解释,判断是否适用。
- 得到法律评分L(违反程度)。
5. 融合推理:t₄
- 构建贝叶斯网络,输入事实G,道德M,法律L。
- 计算后验概率P(J|G,M,L)。
- 生成初步判决J(如罪名成立概率80%)。
6. 价值对齐校正:t₅
- 根据价值排序V调整判决:如生命权优先,则故意杀人比盗窃更严重。
7. 解释生成:t₆
- 生成自然语言解释:事实链→违反法律→违背道德→判决结果。
8. 人类反馈:t₇
- 如果提供,收集人类法官评价,用于RLHF微调模型。

服务器配置
法律知识图谱服务器集群:存储法律条文、案例、道德原则,构建大规模知识图谱。需图数据库(如Neo4j集群)和向量数据库(如Milvus)用于语义检索。需10-20个节点,每个节点128GB内存。
NLP模型推理集群:事实抽取、法律检索使用大型语言模型(如Legal-BERT, Lawformer)。需GPU服务器(如NVIDIA A100)进行实时推理。10亿级法律咨询请求不可行,但实际日均法律咨询量百万级,需数十个GPU实例。
在线推理服务:单次推理包括事实抽取、道德评估、法律检索、融合推理,延迟约1-5秒。对于法院系统,可接受。高并发时需负载均衡和缓存相似案件。
计算需求:法律检索语义相似度计算量大,需TFLOPS级算力。训练大规模法律语言模型需PFLOPS级算力。
内存需求:法律知识库(TB级),语言模型参数(GB级),需分布式存储。

1. BERT for Legal NLP:Legal-BERT, Lawformer等预训练模型
2. 知识图谱构建:实体识别、关系抽取、事件抽取
3. 法律条文检索:语义检索、关键案例检索
4. 贝叶斯网络推理:用于不确定性下的法律推理
5. 可解释AI:LIME, SHAP, 解释生成模型
6. 强化学习人类反馈:RLHF对齐人类价值观
7. 道德图神经网络:将道德原则表示为图,进行推理
8. 逻辑编程:Prolog等用于形式化法律推理
9. 案例推理:检索相似历史案例,类比推理
10. 论证挖掘:从文本中提取论证结构

E-L1-0075

多模态分析

阴谋论与虚假信息检测

阴谋论检测多模态网络 (Conspiracy Detection Multimodal Network)

步骤1:多模态特征提取
1. 文本特征:使用BERT提取语义特征,情感特征,立场特征,叙事结构特征
2. 图像特征:使用CNN/ViT提取视觉特征,OCR提取图中文字,人脸识别提取人物
3. 视频特征:提取关键帧,音频转文本,分析音调情绪
4. 图特征:构建传播网络(转发、评论、点赞关系)
步骤2:阴谋论模式识别
定义阴谋论特征模式:
1. 叙事模式:秘密控制、敌我二分、受害者叙事、预言应验
2. 逻辑谬误:诉诸恐惧、假两难、阴谋思维(将无关事件关联)
3. 信源特征:匿名信源、伪造专家、选择性引用
使用模式匹配和神经网络分类器识别这些模式。
步骤3:多模态一致性验证
计算跨模态一致性:文本描述与图像内容一致性,视频内容与音频一致性,不同信源间一致性。低一致性得分可能表明虚假信息。
步骤4:传播网络分析
分析传播网络:中心节点、社区结构、传播速度、机器人账户特征。使用图神经网络检测协同操纵行为。
步骤5:综合评分
综合多模态特征,计算阴谋论置信度分数:C = α·T + β·I + γ·V + δ·G,其中T,I,V,G分别是文本、图像、视频、图特征的阴谋论得分。
步骤6:溯源与解释
识别信息源头,生成解释报告:哪些特征符合阴谋论模式,传播路径如何,哪些账户可能为机器人。
参数选择/优化
1. 特征权重α,β,γ,δ:通过有标注数据学习
2. 模式匹配阈值:可调整检测敏感度
3. 传播网络时间窗口:如24小时、7天
4. 机器人检测特征:发帖频率、关注者/关注比、内容重复度
5. 多模态一致性阈值:低于阈值标记为可疑

精度:在公开数据集上,F1分数0.8-0.9;误报率5-10%
误差:假阳性(将正常内容误判为阴谋论),假阴性(漏判)
强度:多模态互补,结合内容与传播分析,但阴谋论定义模糊,边界难定

传播学、认知心理学、网络科学、多模态机器学习、数字取证

1. 社交媒体监控:检测平台上的阴谋论内容,防止虚假信息传播
2. 新闻事实核查:辅助记者快速核查可疑信息
3. 国家安全:监测极端主义、恐怖主义相关阴谋论
4. 公共卫生:监测疫苗阴谋论、医疗虚假信息
5. 金融监管:检测市场操纵相关的谣言和阴谋论
6. 选举安全:监测干预选举的虚假信息活动
7. 品牌保护:监测针对企业的恶意谣言
8. 学术研究:研究阴谋论的传播机制和影响
9. 教育工具:帮助学生识别虚假信息,提高媒体素养
10. 内容推荐:降低阴谋论内容的推荐权重
特征
- 多模态特征:文本、图像、视频、传播网络多维特征
- 模式特征:识别阴谋论的特定叙事和逻辑模式
- 一致性特征:跨模态一致性,跨信源一致性
- 传播特征:异常传播模式,机器人网络特征

变量
T:文本内容
I:图像内容
V:视频内容
G:传播图
S:信源特征
常量
阴谋论模式库P
一致性阈值τ
参数
多模态编码器参数,模式分类器参数,传播分析参数

集合特征:文本词语集合,图像区域集合,视频帧集合,传播节点集合
逻辑特征:阴谋论逻辑模式(如"如果A和B同时发生,则A导致B"),传播路径逻辑
概率与统计特征:阴谋论置信度概率,传播网络统计特征(度分布,聚类系数)
随机性:用户行为随机性,信息传播随机性
不确定性:内容真实性不确定性,信源可信度不确定性
数据规律和推断:阴谋论常包含情绪化语言,传播速度快,回声室效应强
极限:当信息完全真实,阴谋论得分为0;当完全虚构且符合所有模式,得分为1
连续性:置信度得分连续,一致性得分连续
微分:通过反向传播训练分类器
积分:综合考虑多模态证据的积分,时间窗口内传播的积分
级数:传播路径的级数(多跳传播)
收敛性:训练收敛,但在线检测需适应新模式
测度:阴谋论指数,传播异常指数,机器人概率
离散:内容片段离散,用户离散
排序:按阴谋论置信度排序内容,按传播影响力排序用户
组合:多模态证据组合,多模式特征组合
构造:通过模式匹配和神经网络构造阴谋论检测器
优化:最小化分类损失,最大化检测能力
计算与算法特征:多模态处理计算量大,传播图分析复杂度高。需分布式处理。
稳定性:对新出现的阴谋论模式可能漏检,需持续更新
对称性/非对称性:检测应公正,不因政治立场偏倚
代数:向量相似度,矩阵运算,图算法
拓扑:传播网络的拓扑,社区结构
几何:多模态特征在嵌入空间的几何关系
:对用户重新标号的不变性(匿名性)
组合数学特征:叙事元素的组合,传播路径的组合

核心处理自然语言文本,识别阴谋论叙事模式
生成检测报告,解释为何内容被标记
支持多语言阴谋论检测

时序流程
1. 数据收集:t₀
- 收集多模态内容:文本、图像、视频,及传播数据(转发、评论、时间戳)。
2. 特征提取:t₁
- 文本特征:通过BERT得到语义向量,情感分析,谬误检测。
- 图像特征:通过CNN得到视觉特征,OCR提取文字,人脸识别。
- 视频特征:关键帧提取,音频特征,语音转文本。
- 图特征:构建传播图,计算节点中心性,社区检测。
3. 模式识别:t₂
- 将文本与阴谋论模式库匹配,计算匹配度。
- 图像分析:是否包含误导性视觉元素(如伪造图片)。
- 一致性验证:比较文本描述与图像内容,计算一致性得分。
4. 传播分析:t₃
- 分析传播网络:识别核心传播节点,检测机器人账户(基于行为特征)。
- 计算传播异常得分:传播速度是否异常,是否集中在特定社区。
5. 综合评分:t₄
- 加权综合:C = w1文本阴谋论得分 + w2图像可疑得分 + w3一致性得分 + w4传播异常得分。
6. 决策与解释:t₅
- 如果C > 阈值,标记为阴谋论/虚假信息。
- 生成解释报告:列出匹配的模式,不一致之处,传播异常。
7. 溯源:t₆
- 追溯信息源头,分析原始发布者特征。
8. 持续学习:t₇
- 新出现的阴谋论模式加入模式库,更新模型。

服务器配置
大规模流处理平台:社交媒体数据流巨大(Twitter日推文数亿)。需流处理框架(如Apache Flink, Spark Streaming)实时处理。数百个节点,每个节点多核CPU,部分GPU用于图像/视频分析。
多模态分析集群:图像/视频分析需要GPU加速。需50-100张NVIDIA T4/A10 GPU用于实时推理。文本分析可用CPU或GPU。
图计算集群:传播图分析需要图计算引擎(如Apache Giraph, Spark GraphX)。需分布式内存,数十个节点,每个节点256GB+内存。
在线检测服务:延迟要求:实时检测(秒级)。10亿级内容检测(如平台所有新内容)需极大规模集群,但通常先采样或使用轻量级过滤器,可疑内容再深入分析。
计算需求:多模态分析计算密集,特别是视频分析。整体需PFLOPS级算力。
内存需求:存储传播图、特征向量、模型参数,需TB级分布式内存。

1. 多模态BERT:VisualBERT, LXMERT, VL-BERT
2. 虚假图像检测:GAN生成图像检测,篡改检测
3. 传播分析算法:影响力最大化检测,社区发现,机器人检测
4. 一致性验证:跨模态检索,文本-图像匹配
5. 模式匹配:规则匹配,神经网络分类器
6. 溯源算法:信息传播路径重建,原始信源识别
7. 解释生成:可解释AI方法生成检测理由
8. 增量学习:在线学习新出现的虚假信息模式
9. 对抗训练:提高模型对抗攻击的鲁棒性
10. 多语言处理:跨语言虚假信息检测

编号

类别

模型配方

算法/模型/方法名称

算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化

精度/密度/误差/强度

底层规律/理论定理

典型应用场景【10个场景】和各类特征

变量/常量/参数列表及说明

数学特征

语言特征

时序和交互流程的所有细节/分步骤时序情况及数学方程式

10亿级并发下的服务器性能与规模需求

配套优化算法列表

E-L1-0076

NLP与知识图谱

利益相关者与权力关系抽取模型

Stakeholder-Power Relation Extractor

步骤1:实体识别与分类
使用BERT-CRF或SpanBERT识别文本中的实体,并分类为:人物、组织、职位、资源、项目、事件等。实体类型扩展包括利益相关者类型(股东、员工、客户、政府等)。
步骤2:关系抽取
使用关系抽取模型(如BERT关系分类)识别实体间关系:控制、拥有、影响、依赖、合作、竞争、隶属等。定义关系类型包括权力关系(命令、汇报、审批)和利益关系(受益、受损、中立)。
步骤3:关系强度量化
基于上下文特征量化关系强度:
1. 文本特征:情感极性、模态动词(必须、应该)、程度副词
2. 结构特征:句子距离、语法依赖路径
3. 外部知识:组织层级、股权比例(若已知)
强度分数s∈[0,1]。
步骤4:图谱构建与推理
构建异质知识图谱,节点=实体,边=关系(带强度)。进行图谱推理:
1. 多跳关系推理:若A控制B,B控制C,则A间接控制C,强度衰减。
2. 冲突检测:识别利益冲突关系(如某人同时代表双方利益)。
步骤5:权力中心识别
计算节点中心性指标:度中心性、特征向量中心性、PageRank、Betweenness中心性。综合识别权力中心。
步骤6:动态更新
随着新文本输入,更新图谱:新增实体/关系,调整关系强度。
参数选择/优化
1. 实体类型数量:20-30类
2. 关系类型数量:15-20类
3. 关系强度量化模型:使用神经网络回归,训练数据需人工标注强度
4. 中心性权重:根据场景调整各中心性指标的权重
5. 衰减因子λ:多跳关系强度衰减因子,通常λ=0.7-0.9

精度:实体识别F1 0.85-0.9,关系抽取F1 0.75-0.85,关系强度量化MAE 0.1-0.15
误差:实体识别错误,关系误分类,强度估计误差
强度:结合语义和结构分析,可推理间接关系,但依赖文本质量

信息抽取、知识图谱、社会网络分析、图算法、自然语言处理

1. 企业治理:识别公司实际控制人,分析董事会权力结构
2. 政策分析:分析政策文件中的利益相关方及其影响力
3. 项目管理:识别项目干系人,分析其利益诉求和影响力
4. 诉讼案件:分析案件涉及方及其利益关系
5. 新闻报道:从新闻中提取人物、组织关系网
6. 学术研究:研究学术合作网络中的权力关系
7. 历史分析:分析历史事件中的利益集团和权力斗争
8. 投资分析:识别企业关联方,评估投资风险
9. 公共决策:识别政策影响的利益群体,评估接受度
10. 社交媒体:分析意见领袖及其影响力网络
特征
- 语义特征:从文本中提取关系语义
- 结构特征:利用句法依赖和篇章结构
- 量化特征:关系强度可量化,支持比较
- 推理特征:支持多跳关系推理和冲突检测

变量
E:实体集合
R:关系集合(带类型和强度)
G:知识图谱(异质图)
C:中心性分数向量
常量
实体类型集合T_e
关系类型集合T_r
衰减因子λ
参数
实体识别参数θ_ner,关系抽取参数θ_re,强度量化参数θ_strength

集合特征:实体集合,关系集合,句子集合,文档集合
逻辑特征:关系传递逻辑(若A控制B且B控制C,则A间接控制C),冲突检测逻辑
概率与统计特征:实体识别概率,关系分类概率,强度估计概率分布
随机性:文本表述的随机性,标注噪声
不确定性:关系存在不确定性,强度估计不确定性
数据规律和推断:权力关系常通过职位、所有权、影响力体现;利益关系常通过利益表述体现
极限:当文本无限多且准确,图谱趋于完整;当文本模糊,关系不确定
连续性:关系强度连续,中心性分数连续
微分:通过反向传播训练神经网络组件
积分:多跳关系强度是路径上强度的乘积(积分)
级数:多跳关系的级数(传递闭包)
收敛性:图谱构建逐步收敛,但新文本不断加入
测度:中心性作为权力的测度,关系强度作为关系紧密度的测度
离散:实体离散,关系类型离散
排序:按中心性排序实体,按强度排序关系
组合:多实体关系的组合,多文档信息的组合
构造:通过信息抽取构造图谱,通过图算法构造中心性指标
优化:最大化实体和关系抽取的F1分数,最小化强度估计误差
计算与算法特征:实体识别和关系抽取使用预训练模型,计算复杂度中等;图推理复杂度与图谱大小相关
稳定性:对文本表述变化敏感,但整体结构相对稳定
对称性/非对称性:权力关系通常不对称,利益关系可能对称或不对称
代数:矩阵运算(邻接矩阵),特征值计算(中心性)
拓扑:图谱拓扑,连通分量,中心性拓扑指标
几何:实体在嵌入空间的几何关系反映语义关系
:对实体重新标号的不变性(图同构)
组合数学特征:关系路径的组合,实体组合形成利益集团

核心处理自然语言文本,抽取实体和关系
生成结构化报告,描述权力结构和利益关系
支持多语言文本处理

时序流程
1. 文本预处理:t₀
- 输入文档集D,分句,分词。
2. 实体识别:t₁
- 对每个句子,使用NER模型识别实体,分类类型。
- 实体链接:链接到知识库中的同一实体。
3. 关系抽取:t₂
- 对每个句子中的实体对,使用关系分类模型判断关系类型。
4. 强度量化:t₃
- 对每个识别出的关系,基于上下文特征量化强度s。
5. 图谱构建:t₄
- 构建图谱G=(V,E),V=实体,E=关系(类型,强度)。
6. 图谱推理:t₅
- 计算传递闭包:若存在路径e1,e2,...,ek,则添加间接关系,强度=∏_{i=1}^{k-1} λ·s(e_i)。
- 冲突检测:检测同一实体参与的利益冲突关系(如同时代表对立双方)。
7. 中心性计算:t₆
- 计算各中心性指标,加权综合得到权力分数。
8. 可视化与报告:t₇
- 生成图谱可视化,输出关键实体和关系报告。
9. 增量更新:t₈
- 新文档到来,重复步骤1-7,更新图谱。

服务器配置
NLP模型推理集群:实体识别和关系抽取使用BERT类模型,需要GPU加速。对于大规模文档处理(如新闻流),需数十张NVIDIA T4/A10 GPU。实时处理要求延迟低(秒级)。
图数据库与计算集群:存储和查询知识图谱需要图数据库(如Neo4j集群)。对于大规模图谱(数亿实体、数十亿关系),需分布式图数据库(如JanusGraph)。计算中心性需要图计算引擎(如Spark GraphX)。需数十个节点,每个节点256GB+内存。
在线服务:10亿级文档处理(如全网爬取)需批处理,但实时分析(如新闻监控)只需处理新文档。对于实时监控百万级新闻源,需数百个CPU核心和数十个GPU。
计算需求:NER和关系抽取计算量大,但可并行处理文档。图推理和中心性计算复杂度高,需优化算法。
内存需求:存储图谱和模型参数,需TB级内存。

1. BERT for NER:BERT-CRF, SpanBERT
2. 关系抽取模型:BERT关系分类, CasRel, TPLinker
3. 实体链接:ELQ, BLINK, DeepType
4. 知识图谱嵌入:TransE, RotatE, ComplEx
5. 图算法:PageRank, Betweenness Centrality, Community Detection
6. 增量图更新:动态图算法,流式图处理
7. 冲突检测算法:基于规则的冲突检测,基于嵌入的相似性检测
8. 多文档融合:跨文档实体消歧,关系融合
9. 弱监督学习:利用远程监督生成训练数据
10. 主动学习:选择最有价值的样本进行标注

E-L1-0077

视频理解

工作活动识别与效率分析模型

Work Activity Recognition and Efficiency Analysis

步骤1:多模态特征提取
1. 视频特征:使用3D CNN或Video Transformer提取时空特征,关注人体姿态、物体交互、场景上下文。
2. 音频特征:MFCC、音调、音量,用于识别语音指令、机器声音、环境噪音。
3. 传感器特征(若可用):IMU数据(动作幅度、频率)、眼动数据(注意力焦点)。
4. 文本特征(若可用):工作指令、日志记录。
步骤2:活动分割与识别
使用时间卷积网络(TCN)或Transformer进行活动分割(边界检测)和识别。定义活动类别:操作、等待、移动、沟通、休息等。细粒度活动:具体操作步骤(如拧螺丝、焊接)。
步骤3:效率指标计算
定义效率指标:
1. 时间效率:实际用时 vs 标准用时
2. 动作经济性:动作路径长度、多余动作比例
3. 专注度:注意力分散频率
4. 协作效率:多人协作同步性
步骤4:异常检测
检测异常活动:不安全行为、错误操作、效率低下模式。使用自编码器或高斯混合模型建模正常活动模式,检测偏离。
步骤5:优化建议生成
基于识别结果,生成优化建议:重新安排工作流程、调整工具位置、改进操作方法。使用规则引擎或生成模型。
步骤6:个性化适应
考虑个体差异:技能水平、身体条件、习惯。建立个人档案,调整效率基准。
参数选择/优化
1. 视频采样率:根据活动速度选择,通常5-10 fps
2. 活动类别数:粗粒度5-10类,细粒度可达数百类
3. 时间窗口大小:用于活动识别,通常5-10秒
4. 效率基准:通过历史数据或标准工时测定法设定
5. 异常检测阈值:通过验证集调整,平衡误报和漏报

精度:活动识别准确率85-95%(粗粒度),70-85%(细粒度);效率评估与人工评估相关性0.8-0.9
误差:识别错误,时间测量误差,效率评估偏差
强度:多模态融合提高鲁棒性,但受视角、遮挡、光照影响

计算机视觉、音频处理、时间序列分析、人因工程、动作分析

1. 制造业:装配线工人动作分析,优化工艺流程
2. 物流仓储:拣货员效率分析,路径优化
3. 医疗手术:外科医生手术动作分析,评估手术技能
4. 建筑施工:工人安全行为监测,工作效率评估
5. 办公室工作:办公人员活动分析,优化办公环境
6. 零售服务:服务员效率分析,提升客户服务
7. 体育训练:运动员动作分析,纠正技术动作
8. 教育培训:学生课堂参与度分析,教师教学效果评估
9. 家庭护理:老年人日常活动监测,异常行为检测
10. 军事训练:士兵战术动作分析,训练效果评估
特征
- 时空特征:动作的时间序列和空间位置
- 多模态特征:视觉、音频、传感器互补
- 效率特征:时间、经济性、质量多维度
- 个性化特征:考虑个体差异,自适应基准

变量
V:视频帧序列
A:音频信号序列
S:传感器数据序列
T:文本指令(可选)
常量
活动类别集合C
时间窗口大小W
参数
视频编码器参数θ_v,音频编码器参数θ_a,活动识别参数θ_act,效率模型参数θ_eff

集合特征:视频帧集合,音频片段集合,活动实例集合
逻辑特征:工作流程逻辑(步骤顺序),动作-对象交互逻辑
概率与统计特征:活动分类概率,效率指标的概率分布,异常检测的概率模型
随机性:人体动作随机性,环境干扰随机性
不确定性:活动识别不确定性,效率评估不确定性
数据规律和推断:熟练工人动作更流畅、经济;异常动作在时空特征上偏离正常模式
极限:当视频分辨率→∞,遮挡→0,识别准确率→100%;但实际有限
连续性:动作连续,效率指标连续
微分:通过反向传播训练神经网络,计算动作路径的微分(速度、加速度)
积分:总时间是各活动时间的积分,总路径长度是瞬时速度的积分
级数:时间序列的级数表示,活动序列的级数
收敛性:训练收敛,但需适应新工人、新任务
测度:时间效率测度(实际/标准时间),动作经济性测度(路径长度),专注度测度(注意力分散次数)
离散:活动类别离散,时间离散采样
排序:按时间排序活动,按效率排序工人
组合:多模态特征的组合,多活动序列的组合
构造:通过时空编码构造动作表示,通过序列模型构造活动序列
优化:最小化活动识别损失,最大化效率评估准确性
计算与算法特征:视频处理计算量大,3D CNN或Video Transformer需要GPU加速。实时处理需要优化模型(如MobileNet3D)。
稳定性:对视角变化、遮挡、光照变化有一定鲁棒性,但可能下降
对称性/非对称性:左右手动作可能不对称,但功能对称
代数:矩阵乘法,卷积运算,注意力权重
拓扑:动作序列的拓扑,工作流程的拓扑(有向图)
几何:人体姿态几何,动作路径几何
:对图像平移、旋转的不变性(通过数据增强学习)
组合数学特征:动作序列的组合,工作流程的组合

可处理文本指令(工作指导),生成文本报告(效率分析、建议)
支持多语言界面和报告生成

时序流程
1. 数据采集:t₀
- 同步采集视频、音频、传感器数据,时间戳对齐。
2. 预处理:t₁
- 视频:降采样,人体检测与跟踪,姿态估计。
- 音频:降噪,特征提取(MFCC)。
- 传感器:滤波,特征提取。
3. 特征提取:t₂
- 视频特征:使用3D CNN提取时空特征F_v。
- 音频特征:使用1D CNN或RNN提取特征F_a。
- 传感器特征:使用MLP提取特征F_s。
4. 多模态融合:t₃
- 早期融合:拼接特征F = [F_v; F_a; F_s]。
- 或晚期融合:各模态单独预测后融合。
5. 活动识别:t₄
- 使用TCN或Transformer对序列进行分类,输出每个时间片的活性类别概率p_t(c)。
- 使用条件随机场(CRF)平滑序列,检测活动边界。
6. 效率计算:t₅
- 统计各类活动时长,与标准时长比较,计算时间效率。
- 分析动作路径(从姿态序列),计算路径长度,与最优路径比较。
- 分析专注度:通过眼动或头部姿态估计注意力方向。
7. 异常检测:t₆
- 使用自编码器重建正常活动特征,计算重建误差,误差大则异常。
8. 报告生成:t₇
- 生成效率报告:各指标值,与基准对比。
- 生成优化建议:如"工具放置位置导致多余移动,建议调整"。

服务器配置
边缘计算设备:实时活动识别需要在边缘设备(如摄像头内置AI芯片)进行,以减少数据传输延迟。使用轻量级模型(如MobileNetV3+TCN)。
云端分析集群:原始视频流上传云端进行详细分析和长期存储。需要GPU集群(如NVIDIA T4, A10)进行视频分析。对于大规模部署(如工厂数千摄像头),需数百个GPU。
存储系统:视频数据量大,需要分布式存储(如Ceph, HDFS)。长期存储需PB级容量。
实时处理需求:单摄像头视频流处理延迟需<1秒。10亿级摄像头不可行,但实际工业场景摄像头数量在百万级,需大规模边缘+云端架构。
计算需求:视频分析计算密集,3D CNN推理需要TFLOPS算力。边缘设备算力有限,需模型压缩和量化。
内存需求:存储视频帧和中间特征,边缘设备内存有限(GB级),云端服务器内存较大(数十GB)。

1. 3D CNN:I3D, SlowFast, R(2+1)D
2. Video Transformer:TimeSformer, ViViT, MViT
3. 时序动作分割:TCN, MS-TCN, ASRF
4. 姿态估计:OpenPose, HRNet, AlphaPose
5. 多模态融合:早期融合,晚期融合,注意力融合
6. 异常检测:自编码器,单类SVM,高斯混合模型
7. 效率分析:时间动作研究,工作抽样,预定时间标准法
8. 个性化适应:元学习,迁移学习,联邦学习
9. 模型压缩:知识蒸馏,量化,剪枝
10. 增量学习:适应新活动类别,新工人

E-L1-0078

音频处理

语音情感与意图识别模型

Speech Emotion and Intent Recognition

步骤1:声学特征提取
提取低层次声学特征:MFCC(梅尔频率倒谱系数)、pitch(基频)、energy(能量)、spectral centroid(频谱质心)、zero-crossing rate(过零率)。高层次特征:韵律特征(语调、节奏、重音)。
步骤2:深度特征学习
使用CNN或Transformer从声学特征学习深度表示。CNN捕获局部模式,Transformer捕获长距离依赖。使用预训练模型(如wav2vec 2.0, HuBERT)提取通用语音表示。
步骤3:双任务学习
共享编码器,两个输出头:
1. 情感分类:输出情感类别(高兴、悲伤、愤怒、恐惧、中性等)和强度(0-1)。
2. 意图识别:输出意图类别(请求、命令、询问、确认、拒绝等)和置信度。
损失函数:L = α·L_emotion + β·L_intent + γ·L_shared,其中L_shared是共享编码器的辅助损失。
步骤4:上下文融合
结合上下文信息:
1. 对话历史:使用RNN或Transformer编码历史话语。
2. 说话人身份:说话人嵌入(speaker embedding)帮助个性化情感识别。
3. 环境上下文:噪声水平、场景类型(会议、客服、家庭)。
步骤5:多模态增强(可选)
如果视频可用,融合面部表情和肢体语言特征,提高情感识别准确率。
步骤6:实时适应
在线学习适应特定说话人的情感表达风格,使用增量学习或元学习。
参数选择/优化
1. 声学特征维度:MFCC通常13-39维,加上其他特征总计50-100维
2. 深度模型架构:CNN层数3-5,Transformer层数4-8
3. 情感类别数:基本6类,可扩展至更多
4. 意图类别数:根据应用场景定义,通常10-20类
5. 损失权重α,β,γ:通过网格搜索或帕累托优化确定

精度:情感识别准确率70-85%(仅音频),85-95%(音频+视频);意图识别准确率80-90%
误差:情感误分类,意图误识别
强度:双任务共享表示提高效率,但情感和意图可能冲突,需小心处理

语音信号处理、深度学习、情感计算、语用学、多任务学习

1. 智能客服:识别客户情绪,调整服务策略;理解客户意图,准确转接
2. 心理健康:监测抑郁、焦虑情绪,提供预警
3. 教育评估:评估学生课堂情绪和参与意图,调整教学
4. 车载系统:识别驾驶员情绪和意图,提高安全性
5. 娱乐推荐:根据用户语音情绪推荐音乐、电影
6. 安全监控:识别电话中的威胁意图,及时报警
7. 人机交互:使机器人更自然地理解人类情感和意图
8. 市场研究:分析消费者对产品的情绪反应
9. 司法审讯:分析嫌疑人语音中的情绪和意图
10. 医疗诊断:辅助诊断某些精神疾病(如抑郁症)
特征
- 声学特征:基频、能量、频谱等与情感相关
- 语义特征:词汇、语法与意图相关(但本模型主要基于声学)
- 上下文特征:对话历史、说话人身份、环境
- 多任务特征:情感和意图共享底层声学表示

变量
X:音频信号(时域或频域)
C:上下文信息(历史、说话人、环境)
E:情感标签
I:意图标签
常量
情感类别集合C_e
意图类别集合C_i
参数
声学特征提取参数,编码器参数θ_enc,情感分类器参数θ_emo,意图分类器参数θ_int

集合特征:音频帧集合,特征向量集合,情感类别集合,意图类别集合
逻辑特征:情感-意图关联逻辑(如愤怒常伴随命令,悲伤常伴随请求)
概率与统计特征:情感类别概率,意图类别概率,声学特征的概率分布
随机性:语音产生的随机性,环境噪声随机性
不确定性:情感识别不确定性,意图识别不确定性
数据规律和推断:基频升高常表示兴奋或愤怒,能量变化大表示情绪强烈,语速快可能表示急切
极限:当音频质量极高,无噪声,情感和意图可完美识别;但实际有模糊性
连续性:情感强度连续,意图置信度连续
微分:通过反向传播训练神经网络,声学特征的微分(如基频变化率)
积分:情感强度是声学特征在时间上的积分,意图置信度是上下文的积分
级数:时间序列的级数表示,Transformer的自注意力级数
收敛性:训练收敛,但需适应不同口音、语言、文化
测度:情感识别准确率,意图识别准确率,F1分数
离散:情感类别离散,意图类别离散
排序:按情感强度排序,按意图置信度排序
组合:多声学特征的组合,多时间帧的组合
构造:通过深度网络构造情感和意图表示
优化:最小化多任务损失,平衡情感和意图识别
计算与算法特征:音频处理计算量小于视频,但深度模型仍需GPU加速。实时处理要求低延迟(<100ms)。
稳定性:对噪声、口音、录音设备有一定鲁棒性,但可能下降
对称性/非对称性:情感表达可能不对称(如高兴和悲伤的声学特征不对称)
代数:矩阵乘法,卷积运算,注意力权重
拓扑:声学特征空间的拓扑,情感空间的拓扑(如二维valence-arousal空间)
几何:声学特征在嵌入空间的几何,情感类别的几何分布
:对时间平移的不变性(通过池化或注意力)
组合数学特征:声学特征的组合,情感-意图对的组合

可处理语音转文本后的语义信息(但本模型主要基于声学)
生成情感和意图标签,可用于对话系统
支持多语言情感识别(声学特征跨语言)

时序流程
1. 音频预处理:t₀
- 输入音频信号X,预加重,分帧(帧长25ms,帧移10ms),加窗。
2. 特征提取:t₁
- 提取低层次特征:MFCC(13-39维),pitch,energy,spectral features。
- 提取高层次特征:韵律特征(语调轮廓,节奏)。
3. 深度编码:t₂
- 将特征序列输入共享编码器(CNN+Transformer),得到上下文感知的深度特征H。
4. 上下文融合:t₃
- 如果有对话历史,编码历史得到H_ctx,与H融合:H' = [H; H_ctx]。
- 如果有说话人信息,加入说话人嵌入。
5. 情感分类:t₄
- 情感分类头:p_emo = softmax(W_emo·H' + b_emo)。
- 情感强度:s_emo = σ(W_s·H' + b_s)。
6. 意图识别:t₅
- 意图分类头:p_intent = softmax(W_intent·H' + b_intent)。
7. 多模态融合(可选):t₆
- 如果视频可用,融合面部表情特征,调整情感预测。
8. 输出与适应:t₇
- 输出情感类别和强度,意图类别和置信度。
- 如果允许,使用预测结果在线更新模型(增量学习)。

服务器配置
实时音频处理服务器:语音情感识别通常需要实时处理(如客服电话)。需要CPU服务器处理音频流,GPU加速深度模型推理。单路音频处理计算量较小,但高并发(如万路并发)需要多核CPU和多个GPU。
云端训练集群:训练深度语音模型需要大量标注数据。需GPU集群(如NVIDIA V100/A100)训练wav2vec 2.0等模型。数据需数千小时标注语音。
边缘部署:车载、手机等设备上实时运行,需要模型压缩和量化,使用轻量级模型(如MobileNet for audio)。
计算需求:训练大规模语音模型需PFLOPS级算力。推理阶段,单路音频实时处理需GFLOPS级算力。
内存需求:模型参数存储(百MB级),音频缓冲区(MB级)。高并发时需要较大内存存储多路音频流状态。

1. 声学特征提取:MFCC, PLP, GeMAPS, eGeMAPS
2. 预训练语音模型:wav2vec 2.0, HuBERT, WavLM
3. 深度语音模型:CNN, LSTM, Transformer, Conv-TasNet
4. 多任务学习:共享编码器,多个任务头
5. 上下文建模:RNN, Transformer, Memory Networks
6. 多模态融合:音频-视频融合,注意力机制
7. 领域自适应:对抗训练,域自适应,元学习
8. 少样本学习:原型网络,匹配网络,用于新情感/意图类别
9. 数据增强:加噪,变速,变调,混响
10. 模型压缩:知识蒸馏,量化,剪枝,用于边缘部署

E-L1-0079

决策支持

多准则群体决策支持系统

Multi-Criteria Group Decision Support System

步骤1:决策问题结构化
定义决策问题:目标、备选方案、评价准则。准则分为效益型(越大越好)和成本型(越小越好)。构建层次结构(AHP)或网络结构(ANP)。
步骤2:决策者偏好收集
收集各决策者对准则的权重偏好,以及对各方案在各准则下的评价。方法:
1. 直接赋值:直接给出权重和评分
2. 两两比较:AHP方法,比较准则重要性
3. 语言评价:使用模糊语言(如"非常重要"、"一般重要")
步骤3:偏好聚合
聚合多个决策者的偏好,考虑决策者权威度、一致性。方法:
1. 加权平均:根据权威度加权
2. 模糊聚合:处理语言评价的模糊性
3. 共识度计算:测量群体意见一致性,若共识度低,则启动协商
步骤4:多准则决策方法
应用决策方法:
1. TOPSIS(逼近理想解排序法):计算各方案与理想解和负理想解的距离,排序
2. VIKOR(折衷排序法):考虑群体效用和个体遗憾,折衷排序
3. PROMETHEE(偏好排序组织法):基于偏好函数和流出/流入量排序
4. AHP/ANP:计算权重,综合评分
步骤5:敏感性分析
分析权重变化对结果的影响,识别关键准则。进行蒙特卡洛模拟,观察排序稳定性。
步骤6:结果解释与可视化
生成决策报告:各方案排名,优缺点,关键准则。提供可视化:雷达图、敏感性图、共识度图。
步骤7:协商支持(可选)
如果共识度低,支持决策者协商:识别分歧点,提供妥协建议,重新评价。
参数选择/优化
1. 准则数量:通常5-9个,太多导致认知负担
2. 决策者数量:3-20人,太多增加协调难度
3. 权重确定方法:AHP一致性比率CR<0.1可接受
4. 聚合方法权重:根据决策者权威度、专业知识设定
5. 共识度阈值:通常0.7-0.8,低于阈值需要协商

精度:决策结果与专家判断一致性80-90%;敏感性分析可识别关键准则
误差:偏好收集误差,聚合误差,模型假设误差
强度:结构化决策过程,考虑多准则和群体意见,但依赖决策者偏好主观性

多准则决策、群体决策、模糊数学、决策理论、协商理论

1. 项目选择:企业投资决策,选择最优项目
2. 供应商选择:评估多个供应商,选择最佳合作伙伴
3. 人才招聘:评估候选人,选择最合适人选
4. 产品设计:评估多个设计方案,选择最优方案
5. 政策制定:评估政策选项,选择最有效政策
6. 医疗决策:多医生会诊,选择治疗方案
7. 城市规划:评估城市规划方案,选择最优方案
8. 环境评估:评估环境影响,选择可持续发展方案
9. 军事指挥:多指挥官决策,选择作战方案
10. 应急管理:评估应急方案,选择最佳响应策略
特征
- 多准则特征:综合考虑多个相互冲突的准则
- 群体特征:聚合多个决策者意见,考虑权威度和一致性
- 不确定性特征:处理模糊、不确定的偏好信息
- 交互特征:支持协商,达成共识

变量
A:备选方案集合
C:准则集合
D:决策者集合
w_i^j:决策者j对准则i的权重
x_{ij}:方案i在准则j下的评价值
常量
准则类型(效益型/成本型)
聚合方法
参数
决策者权威度权重α_j,共识度阈值τ,敏感性分析参数

集合特征:方案集合,准则集合,决策者集合,评价矩阵
逻辑特征:多准则决策逻辑(加权和,距离计算),群体聚合逻辑
概率与统计特征:偏好分布,共识度的概率解释,敏感性分析的蒙特卡洛模拟
随机性:决策者偏好随机性,评价随机性
不确定性:准则权重不确定性,评价不确定性
数据规律和推断:群体决策往往比个体决策更准确(群体智慧),但可能受权威者过度影响
极限:当准则权重完全确定,评价完全准确,决策结果确定;但实际总有不确定性
连续性:评价值连续,权重连续
微分:敏感性分析中,排名对权重的偏导数
积分:综合评分是各准则评分的加权和(积分)
级数:多轮协商的级数,逐步逼近共识
收敛性:协商过程可能收敛到共识,也可能不收敛
测度:方案与理想解的距离,群体效用,个体遗憾,共识度
离散:方案离散,决策者离散
排序:方案排序,准则重要性排序,决策者权威度排序
组合:多准则的组合,多决策者意见的组合
构造:通过加权和、距离计算等构造综合评分
优化:最大化群体效用,最小化个体遗憾,最大化共识度
计算与算法特征:多准则决策方法计算复杂度不高,但协商过程可能迭代多次。AHP需要计算特征向量。
稳定性:对权重变化敏感,需进行敏感性分析
对称性/非对称性:决策者可能不对称(权威度不同),准则可能不对称(重要性不同)
代数:矩阵运算(判断矩阵),特征值计算,加权和计算
拓扑:方案在准则空间中的拓扑,偏好关系的拓扑
几何:理想解和负理想解的几何,方案在多维空间中的位置
:对决策者重新标号的不变性(如果权威度相同)
组合数学特征:方案排列组合,准则组合权重

收集决策者偏好需要自然语言界面(如问卷、对话)
生成决策报告和解释需要自然语言生成
支持多语言界面

时序流程
1. 问题定义:t₀
- 确定决策目标,列出备选方案A={A1,...,Am},准则C={C1,...,Cn},决策者D={D1,...,Dk}。
2. 偏好收集:t₁
- 收集每个决策者Dj的准则权重向量w^j(通过AHP两两比较或直接赋值)。
- 收集每个决策者对每个方案在每个准则下的评价值x{ij}^k(数值或语言)。
3. 一致性检查:t₂
- 对AHP方法,计算一致性比率CR,若CR>0.1,要求决策者调整判断。
4. 偏好聚合:t₃
- 根据决策者权威度α_j,聚合权重:w_i = ∑
{j=1}^k α_j w_i^j。
- 聚合评价:x{ij} = 聚合函数(x{ij}^1, ..., x{ij}^k)。
5. 多准则决策:t₄
- 选择决策方法(如TOPSIS):
a. 标准化评价矩阵:r
{ij} = x{ij}/√(∑i x{ij}^2)(效益型)或 r{ij}=1/x{ij}(成本型)标准化。
b. 加权标准化矩阵:v
{ij} = w_j * r{ij}。
c. 确定理想解A和负理想解A-。
d. 计算各方案到A
和A-的距离。
e. 计算相对接近度C_i = d_i^-/(d_i^* + d_i^-)。
6. 共识度计算:t₅
- 计算群体共识度:共识度 = 1 - (1/k)∑
j ∑_i

C_i - C_i^j

,其中C_i^j是决策者j的个人排序。
- 如果共识度<阈值τ,进入协商阶段。
7. 协商支持:t₆
- 识别分歧大的准则和方案,提供妥协建议。
- 决策者调整偏好,重复步骤2-6,直到共识度达标。
8. 敏感性分析:t₇
- 对权重进行扰动,观察排名变化,识别关键准则。
9. 结果输出:t₈
- 输出方案排名,综合评分,优缺点分析,可视化图表。

E-L1-0080

控制理论

复杂系统自适应控制与故障诊断

Adaptive Control and Fault Diagnosis for Complex Systems

步骤1:系统建模
建立被控对象的数学模型:状态空间方程、

编号

类别

模型配方

算法/模型/方法名称

算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化

精度/密度/误差/强度

底层规律/理论定理

典型应用场景【10个场景】和各类特征

变量/常量/参数列表及说明

数学特征

语言特征

时序和交互流程的所有细节/分步骤时序情况及数学方程式

10亿级并发下的服务器性能与规模需求

配套优化算法列表

E-L1-0080

控制理论

复杂系统自适应控制与故障诊断

自适应容错控制 (Adaptive Fault-Tolerant Control)

步骤1:系统建模
建立被控对象的数学模型:状态空间方程ẋ(t) = Ax(t) + Bu(t) + f(x,t) + d(t),其中f(x,t)表示系统不确定性,d(t)表示外部扰动,可能包含执行器故障、传感器故障等。
步骤2:自适应律设计
设计自适应律在线估计系统不确定性参数和故障参数。使用Lyapunov稳定性理论保证闭环系统稳定。例如,对于参数不确定性θ,设计自适应律˙θ̂ = -Γφ(x)e,其中e是跟踪误差,φ是回归向量,Γ是自适应增益矩阵。
步骤3:容错控制器设计
设计控制器u(t) = u_nom(t) + u_adapt(t) + u_fault(t),其中u_nom为标称控制器,u_adapt为自适应补偿项,u_fault为针对已知故障模式的补偿项。
步骤4:故障检测与隔离
使用观测器(如滑模观测器、卡尔曼滤波器)生成残差信号r(t) = y(t) - ŷ(t)。设置阈值,当|r(t)|超过阈值时触发故障报警。通过残差模式识别故障类型和位置。
步骤5:控制器重构
检测到故障后,根据故障类型重构控制器,例如重新分配控制律或切换至备份控制器。
步骤6:稳定性证明
使用Lyapunov方法证明闭环系统在故障和自适应律作用下的稳定性,确保跟踪误差有界。
参数选择/优化
1. 自适应增益Γ:影响参数收敛速度,过大可能导致振荡
2. 观测器带宽:影响残差对故障的灵敏度
3. 故障检测阈值:平衡误报率和漏报率
4. 控制器参数:通过极点配置或LQR优化
5. 鲁棒性参数:考虑未建模动态和扰动边界

精度:跟踪误差稳态值可达到期望的精度(如1%);故障检测延迟小于设定时间(如0.1s)
误差:跟踪误差e(t),参数估计误差˜θ = θ - θ̂
强度:能在系统参数不确定、存在扰动和故障的情况下保持稳定和性能,但设计复杂,需精确建模

Lyapunov稳定性理论、自适应控制、故障诊断、观测器设计、容错控制

1. 飞行器控制:在传感器或执行器故障时保持稳定飞行
2. 工业过程控制:化工反应器温度、压力控制,容错防止事故
3. 机器人控制:机械臂关节故障时仍能完成任务
4. 电力系统:电网频率、电压稳定控制,应对线路故障
5. 汽车控制:线控转向、刹车系统容错控制
6. 医疗设备:呼吸机、输液泵等安全关键系统
7. 航天器控制:卫星姿态控制,应对动量轮故障
8. 船舶控制:自动驾驶,应对舵机故障
9. 建筑结构:主动减震系统容错控制
10. 微电网:分布式发电控制,应对逆变器故障
特征
- 自适应性:在线估计不确定参数
- 容错性:检测并补偿故障
- 鲁棒性:抵御扰动和未建模动态
- 稳定性:保证闭环系统稳定

变量
x(t):系统状态
u(t):控制输入
y(t):测量输出
θ:未知参数
f:故障信号
常量
系统矩阵A,B
参考信号r(t)
参数
自适应增益Γ,观测器参数,控制器参数

集合特征:状态空间,参数空间,故障模式集合
逻辑特征:故障检测逻辑(阈值比较),控制器切换逻辑
概率与统计特征:故障发生概率,扰动统计特性(如方差)
随机性:外部扰动随机性,故障发生随机性
不确定性:参数不确定性,未建模动态,故障发生时间不确定性
数据规律和推断:系统动态通常有惯性,故障会导致动态特性变化
极限:当不确定性/扰动过大,可能失去稳定性;当故障太严重,可能无法完全补偿
连续性:状态连续变化,控制输入连续(除切换时刻)
微分:系统动态由微分方程描述,Lyapunov函数求导
积分:自适应律是参数误差的积分,控制作用包含积分项以消除稳态误差
级数:状态、控制输入在时间上的级数(离散时间)
收敛性:跟踪误差收敛到零或有界,参数估计收敛到真值(持续激励条件下)
测度:跟踪误差范数作为性能测度,残差范数作为故障检测测度
离散:故障模式离散,控制器模式离散
排序:按故障严重程度排序响应策略
组合:多故障组合,多控制器组合
构造:通过Lyapunov函数构造自适应律和控制器
优化:最小化跟踪误差,最大化鲁棒性,最小化控制能量
计算与算法特征:在线计算自适应律和控制器,复杂度与状态维度和参数数量成正比。实时性要求高。
稳定性:在满足条件下保证稳定,但需谨慎设计
对称性/非对称性:系统可能不对称,故障可能不对称
代数:矩阵运算,微分方程求解
拓扑:状态空间的拓扑,稳定区域的拓扑
几何:Lyapunov函数在状态空间中的几何,滑模面的几何
:系统对称性(如平移、旋转)可能简化控制设计
组合数学特征:故障模式的组合,控制器切换序列的组合

故障描述可能需要自然语言,生成故障报告需要自然语言生成
控制指令可转换为自然语言解释

时序流程
1. 初始化:t₀
- 设定参考信号r(t),初始化状态估计x̂(0),参数估计θ̂(0)。
2. 在线循环:在每个采样时刻t_k
a. 测量:t₁
- 读取传感器输出y(t_k)。
b. 状态与参数估计:t₂
- 使用观测器更新状态估计x̂(t_k)。
- 使用自适应律更新参数估计θ̂(t_k)。
c. 故障检测:t₃
- 计算残差r(t_k) = y(t_k) - Cx̂(t_k)。
- 如果|r(t_k)|> 阈值,则检测到故障,识别故障类型。
d. 控制器计算:t₄
- 根据当前故障状态,选择或重构控制器:u(t_k) = K(θ̂, f̂) x̂(t_k) + ...
e. 执行控制:t₅
- 输出控制信号u(t_k)到执行器。
f. 稳定性监控:t₆
- 计算Lyapunov函数V(t_k),确保V̇ ≤ 0。
3. 故障处理:t₇
- 如果检测到严重故障,触发安全协议(如切换到备份系统)。
4. 记录与报告:t₈
- 记录故障事件,生成报告。

服务器配置
实时控制系统:自适应容错控制通常运行在嵌入式实时操作系统(如VxWorks, QNX)上,需要确定性的响应时间(毫秒级)。CPU要求不高(如ARM Cortex系列),但需可靠性和实时性。对于复杂系统(如飞机),可能使用多冗余计算机。
云端监控与分析:故障数据上传云端进行长期分析和模型更新。需要时间序列数据库(如InfluxDB)和流处理(如Apache Kafka)。故障诊断算法可运行在云端,但控制环路必须在本地实时运行。
大规模部署:10亿级设备(如IoT传感器)不可能都运行复杂自适应控制,但关键设备(如工业机器人)需要。对于大规模简单控制,可使用边缘计算+云端优化。
计算需求:在线计算包括状态观测、参数自适应、控制律计算,计算量中等。需要浮点运算能力。
内存需求:存储系统模型、参数、状态估计,内存需求小(MB级)。

1. 模型参考自适应控制:使系统输出跟踪参考模型输出
2. 滑模控制:鲁棒性强,但可能有抖振
3. 自适应滑模控制:结合自适应和滑模的优点
4. 故障诊断观测器:滑模观测器、未知输入观测器、卡尔曼滤波器
5. 多模型自适应控制:多个模型并行,根据性能切换
6. 强化学习控制:无模型自适应控制
7. 预测控制:模型预测控制结合容错
8. 分布式容错控制:多智能体系统容错
9. 事件触发控制:节省通信和计算资源
10. 量化反馈控制:考虑传感器和执行器量化

E-L1-0081

强化学习

多智能体深度强化学习

MADDPG (Multi-Agent Deep Deterministic Policy Gradient)

步骤1:集中训练分散执行
训练时,每个智能体的Critic网络可以访问所有智能体的状态和动作信息,而Actor网络只使用本地观测。执行时,每个智能体只使用自己的Actor网络根据本地观测选择动作。
步骤2:Critic网络更新
对于智能体i,Critic网络Q_i(s, a_1, ..., a_N)的更新目标为:y_i = r_i + γ Q_i'(s', a_1', ..., a_N') |a_j'=μ_j'(o_j),其中μ_j'是目标策略网络。损失函数:L(θ_i^Q) = E[(Q_i(s,a)-y_i)^2]。
步骤3:Actor网络更新
通过策略梯度更新:∇{θ_i^μ} J ≈ E[∇{θ_i^μ} μ_i(o_i) ∇{a_i} Q_i(s, a_1, ..., a_N) |{a_i=μ_i(o_i)}]。
步骤4:目标网络更新
使用软更新:θ_i' ← τθ_i + (1-τ)θ_i',其中τ≪1。
步骤5:经验回放
存储所有智能体的联合经验(s, a, r, s')到回放缓冲池,随机采样打破序列相关性。
步骤6:多智能体协调
可引入通信机制、注意力机制或共享网络参数来促进协作。
参数选择/优化
1. 网络结构:Actor和Critic通常为2-3层MLP,隐藏单元256-512
2. 学习率:Actor通常1e-4,Critic 1e-3
3. 折扣因子γ:0.95-0.99
4. 目标网络更新率τ:0.01-0.05
5. 探索噪声:使用OU过程或高斯噪声,随训练衰减
6. 回放缓冲大小:1e5-1e6

精度:在多智能体协作任务中,性能优于独立DQN/DDPG,能够学习复杂协作策略
误差:Critic的TD误差,Actor的策略梯度误差
强度:集中训练分散执行平衡了训练效率与执行可行性,但训练不稳定,环境非平稳性挑战大

策略梯度方法、Actor-Critic框架、集中训练分散执行、多智能体强化学习

1. 多机器人协作:机器人编队、协同搬运、搜索救援
2. 自动驾驶车队:多车协同驾驶,提高交通效率
3. 游戏AI:多玩家游戏(如Dota、星际争霸)的智能体训练
4. 无人机集群:协同侦察、目标跟踪、区域覆盖
5. 网络路由:多路由器协同优化数据流
6. 电力系统:多微电网协同能量管理
7. 金融市场:多交易者博弈模拟
8. 体育训练:多球员战术配合
9. 社交模拟:人群行为模拟,紧急疏散
10. 分布式传感:传感器网络协同监测
特征
- 集中训练:训练时利用全局信息,学习协调策略
- 分散执行:执行时只依赖本地观测,适合分布式系统
- 环境非平稳:其他智能体策略变化导致环境不稳定,增加学习难度
- 信用分配:多智能体中如何分配全局奖励给个体

变量
s:全局状态
o_i:智能体i的局部观测
a_i:智能体i的动作
r_i:智能体i的奖励
常量
智能体数量N
折扣因子γ
参数
Actor网络参数θ_i^μ,Critic网络参数θ_i^Q,目标网络参数θ_i^μ', θ_i^Q'

集合特征:智能体集合,状态集合,动作集合
逻辑特征:集中训练分散执行逻辑,经验回放采样逻辑
概率与统计特征:策略是确定性或随机性,Critic估计Q值的统计特性
随机性:探索噪声随机性,环境动态随机性
不确定性:其他智能体策略不确定性,环境状态不确定性
数据规律和推断:智能体通过试错学习协调策略,在合作任务中倾向于找到纳什均衡
极限:当智能体数N→∞,集中训练不可行,需参数共享或均值场等方法
连续性:状态和动作通常连续(DDPG适用于连续动作)
微分:策略梯度,Critic损失梯度
积分:期望回报的积分,经验回放的期望近似
级数:时间步的级数,多智能体交互的级数
收敛性:多智能体RL收敛困难,常收敛到局部最优或不稳定
测度:团队累计奖励作为性能测度,个体贡献度作为信用分配测度
离散:智能体离散,时间步离散
排序:按智能体贡献排序,按动作价值排序
组合:多智能体动作的组合,状态-动作对的组合
构造:通过集中训练构造协调策略,通过分散执行构造分布式系统
优化:最大化每个智能体的期望回报,考虑其他智能体策略
计算与算法特征:训练复杂度高,Critic输入维度随智能体数线性增长。可并行化每个智能体的梯度计算。
稳定性:训练不稳定,需要仔细调参,目标网络和经验回放帮助稳定
对称性/非对称性:智能体可能同质或异质,对称性可简化设计
代数:矩阵运算,梯度计算
拓扑:智能体通信拓扑,状态空间的拓扑
几何:策略在参数空间的几何,值函数在状态-动作空间的几何
:对智能体重新标号的不变性(如果智能体同质)
组合数学特征:智能体联盟的组合,联合动作的组合

智能体间可进行自然语言通信,用于协调
训练过程可生成文本报告,描述学到的策略
支持多语言智能体

时序流程
1. 初始化:t₀
- 初始化所有智能体的Actor网络μ_i(θ_i^μ)、Critic网络Q_i(θ_i^Q)及对应的目标网络,清空回放缓冲D。
2. 训练循环:for episode=1 to M
a. 初始化环境,得到初始状态s。
b. for t=1 to T
- 每个智能体i根据当前观测o_i选择动作a_i = μ_i(o_i) + 探索噪声。
- 执行联合动作a = (a_1, ..., a_N),得到奖励r和下一状态s'。
- 存储(s, a, r, s')到D。
- 从D中采样一批经验(s^j, a^j, r^j, s'^j)。
- 对每个智能体i:
* 计算目标Q值:y_i^j = r_i^j + γ Q_i'(s'^j, a_1', ..., a_N') |a_k'=μ_k'(o_k^j)。
* 更新Critic:最小化L(θ_i^Q) = (Q_i(s^j, a^j)-y_i^j)^2。
* 更新Actor:∇{θ_i^μ} J ≈ ∇{θ_i^μ} μ_i(o_i^j) ∇{a_i} Q_i(s^j, a^j) |{a_i=μ_i(o_i^j)}。
- 软更新所有目标网络:θ_i' ← τθ_i + (1-τ)θ_i'。
c. 评估策略性能(可选)。
3. 执行:t₁
- 使用训练好的Actor网络,每个智能体根据局部观测选择动作,无需Critic网络。

服务器配置
分布式强化学习集群:MADDPG训练需要大量环境交互。可使用并行架构:多个环境实例(workers)并行运行,收集经验,参数服务器存储共享模型。需要数十个CPU核心运行环境,多个GPU(如V100/A100)用于神经网络训练。对于大规模多智能体(如100+智能体),需模型并行或参数共享。
在线执行:训练好的策略执行只需Actor网络前向传播,计算量小,可在边缘设备运行。对于大规模智能体系统(如无人机集群),每个智能体需本地计算资源(如Jetson Nano)。
计算需求:训练复杂度高,Critic网络输入维度随智能体数增长。大规模多智能体训练需TFLOPS-PFLOPS级算力。
内存需求:存储回放缓冲(百万级经验)和神经网络参数。回放缓冲可能很大(GB级)。
通信开销:分布式训练中,workers与参数服务器之间需传递经验和梯度,通信量大。执行时,智能体间可能需要通信(如果策略允许)。

1. 独立DQN/DDPG:每个智能体独立学习,不考虑其他智能体
2. Counterfactual Multi-Agent Policy Gradients:考虑其他智能体动作的基线,改进信用分配
3. Multi-Agent Proximal Policy Optimization:MAPPO,PPO的多智能体版本
4. QMIX:值分解网络,用于合作任务
5. MADDPG with Communication:加入通信机制
6. Mean Field Multi-Agent RL:处理大量智能体,使用平均场近似
7. Hierarchical Multi-Agent RL:分层决策,高层协调,底层执行
8. Transfer Learning in Multi-Agent RL:迁移学习加速训练
9. Adversarial Multi-Agent RL:对抗训练,提高鲁棒性
10. Multi-Agent Actor-Critic with Attention:使用注意力机制处理变数量智能体

E-L1-0082

生成模型

扩散模型

去噪扩散概率模型 (Denoising Diffusion Probabilistic Models, DDPM)

步骤1:前向过程(加噪)
定义马尔可夫链,逐步向数据x_0添加高斯噪声:q(x_t |x{t-1}) = N(x_t; √(1-β_t) x{t-1}, β_t I),其中β_t是噪声调度。可推导出:q(x_t |x_0) = N(x_t; √(ᾱt) x_0, (1-ᾱt)I),α_t = 1-β_t, ᾱt = ∏{s=1}^t α_s。
步骤2:反向过程(去噪)
定义另一个马尔可夫链,学习从噪声中恢复数据:p_θ(x{t-1} |x_t) = N(x{t-1}; μ_θ(x_t, t), Σ_θ(x_t, t))。通常固定方差Σ_θ(x_t, t)=σ_t^2 I。
步骤3:训练目标
训练一个神经网络ε_θ(x_t, t)来预测添加到x_0的噪声ε。简化损失函数:L_simple = E{t, x_0, ε}[ |ε - ε_θ(√(ᾱt)x_0 + √(1-ᾱt)ε, t) |^2 ]。
步骤4:神经网络架构
通常使用U-Net结构,包含下采样和上采样,以及时间步t的嵌入(通过正弦位置编码或MLP)。加入自注意力机制。
步骤5:采样
从标准高斯噪声x_T ~ N(0,I)开始,迭代应用:x
{t-1} = 1/√(α_t) ( x_t - (β_t/√(1-ᾱ_t)) ε_θ(x_t, t) ) + σ_t z,其中z~N(0,I),最后一步不加噪声。
步骤6:条件生成
可通过分类器指导或无分类器指导实现条件生成。无分类器指导:训练时随机丢弃条件c,采样时使用引导权重w:ε_θ(x_t, t, c) = (1+w)ε_θ(x_t, t, c) - wε_θ(x_t, t, ∅)。
参数选择/优化
1. 时间步数T:通常1000
2. 噪声调度β_t:线性从β_1=1e-4到β_T=0.02,或余弦调度
3. 网络:U-Net with attention,通道数、深度根据分辨率调整
4. 学习率:1e-4,使用Adam优化器
5. 训练步数:数十万到百万步
6. 条件生成引导权重w:通常7.5-10

精度:生成图像质量高(FID、IS分数好),多样性好,但训练和采样慢
误差:预测噪声的均方误差
强度:训练稳定,生成质量高,但采样需多次迭代,速度慢

扩散过程、变分推断、马尔可夫链、得分匹配、朗之万动力学

1. 图像生成:无条件生成高分辨率真实图像
2. 图像修复:给定部分图像,补全缺失部分
3. 图像超分辨率:从低分辨率生成高分辨率
4. 图像上色:为黑白图像上色
5. 文本到图像生成:结合文本编码(如CLIP)生成图像
6. 音频生成:生成语音、音乐
7. 分子生成:生成药物分子结构
8. 3D形状生成:生成3D模型
9. 视频生成:生成视频序列
10. 数据增强:生成合成训练数据
特征
- 多步生成:通过多步去噪生成样本,过程可逆
- 概率建模:明确建模数据分布,可计算似然
- 稳定训练:训练目标简单,梯度稳定
- 灵活的条件生成:可通过多种条件控制生成

变量
x_0:原始数据
x_t:t时刻加噪数据
ε:高斯噪声
常量
T:扩散步数
噪声调度{β_t}
参数
去噪网络参数θ(U-Net权重)

集合特征:时间步集合{1,...,T},数据点集合
逻辑特征:马尔可夫链的前向和反向逻辑
概率与统计特征:高斯分布,KL散度,变分下界
随机性:前向噪声的随机性,采样时z的随机性
不确定性:生成过程的不确定性(随机采样)
数据规律和推断:数据分布通过逐步去噪的扩散过程建模
极限:当T→∞,β_t→0时,前向过程成为连续时间扩散
连续性:数据空间的连续性,噪声过程的连续性
微分:训练目标梯度,连续时间扩散对应随机微分方程
积分:变分下界的积分形式,连续时间情况下的积分
级数:ᾱ_t是α_t的连乘积
收敛性:训练损失收敛,采样链收敛到数据分布
测度:KL散度作为分布间距离测度
离散:时间步的离散性
排序:时间步的顺序
组合:多步噪声的组合,U-Net编码器-解码器的组合
构造:通过逆向扩散过程构造数据样本
优化:最大化变分下界或最小化简化损失
计算与算法特征:训练时间复杂度O(T·网络计算),采样需T次网络前向,慢
稳定性:训练稳定,但采样慢
对称性/非对称性:前向过程对称(加噪),反向过程非对称(去噪)
代数:高斯分布参数计算,采样公式
拓扑:数据流形的拓扑
几何:数据在噪声空间中的几何演化
:对数据空间的对称性(如平移)取决于网络结构
组合数学特征:噪声步骤的组合

可结合文本编码进行文生图,文本作为条件
生成过程可描述为自然语言(如生成步骤)
支持多语言文本条件

时序流程(训练)
1. 采样:t₀
- 从训练集采样真实数据x_0。
- 均匀采样时间步t ~ Uniform({1,...,T})。
- 采样噪声ε ~ N(0, I)。
2. 加噪:t₁
- 计算加噪数据:x_t = √(ᾱt) x_0 + √(1-ᾱt) ε。
3. 去噪预测:t₂
- 将x_t和时间步t输入神经网络ε_θ,预测噪声ε_θ(x_t, t)。
4. 损失计算:t₃
- 计算均方误差:L = |ε - ε_θ(x_t, t) |²。
5. 反向传播:t₄
- 更新网络参数θ。
采样(生成)流程
1. 从标准高斯分布采样x_T ~ N(0, I)。
2. for t = T, ..., 1:
a. 预测噪声:ε_θ = ε_θ(x_t, t)。
b. 计算均值:μ_θ = 1/√(α_t) ( x_t - (β_t/√(1-ᾱt)) ε_θ )。
c. 采样噪声:如果t>1,采样z ~ N(0, I),否则z=0。
d. 更新:x
{t-1} = μ_θ + σ_t z。
3. 输出x_0作为生成样本。

服务器配置
大规模GPU/TPU集群:DDPM训练需要大量计算和内存。生成高分辨率图像(如256x256)需要较深的U-Net和大量时间步。需32-128张NVIDIA A100/H100 GPU(每卡80GB)进行数据并行和可能的模型并行(U-Net分片)。训练需数天到数周。
分布式训练框架:使用PyTorch DDP,DeepSpeed。注意U-Net的激活内存大,需梯度检查点。
在线推理服务:DDPM采样需要T次(如1000)网络前向,非常慢。不适合实时生成。加速采样方法(如DDIM)可将步数减少到50-100步。10亿级生成请求不可行,但可用于离线内容生成(如艺术创作、数据增强)。实时服务需使用GAN或蒸馏的快速扩散模型。
计算需求:训练算力巨大(PFLOPS·天)。采样算力也大,但可并行处理多个样本。
内存需求:U-Net参数和中间激活占用大内存。高分辨率图像需大显存或使用CPU卸载。

1. Improved DDPM:学习方差,使用余弦噪声调度,提升效果
2. DDIM:非马尔可夫扩散,加速采样
3. Score-Based Generative Models:基于得分匹配的另一种视角
4. Stable Diffusion:在潜在空间进行扩散,大幅降低计算成本
5. DALL-E 2:结合CLIP文本编码的扩散模型
6. Classifier Guidance:使用分类器梯度指导生成
7. Latent Diffusion Models:在VAE潜在空间扩散
8. Progressive Distillation:将多步模型蒸馏为少步模型,加速采样
9. Diffusion with Conditional Inputs:条件生成
10. Continuous-Time Diffusion:基于SDE的框架

E-L1-0083

因果推理

因果发现与效应估计

因果发现算法 (Causal Discovery Algorithms)

步骤1:条件独立性测试
测试变量间的条件独立性,使用统计检验(如偏相关、G平方检验、核条件独立性检验)。对于变量X,Y和条件集Z,检验X⊥Y|Z。
步骤2:图结构学习
基于条件独立性约束学习因果图结构。常用算法:
1. PC算法:从完全无向图开始,逐步删除边(基于条件独立测试),然后定向边(使用方向规则)。
2. FCI算法:处理潜在混杂因素,输出部分有向无环图(PAG)。
3. 基于分数的算法:搜索图空间,优化评分函数(如BIC, BDeu)。
步骤3:因果效应估计
给定因果图,估计干预效应。方法:
1. 后门准则:如果满足后门条件,则调整混淆因子:P(y|do(x)) = ∑_z P(y|x,z)P(z)。
2. 前门准则:如果存在中介变量,使用前门公式。
3. 工具变量:如果有工具变量,可用两阶段最小二乘等。
4. 双重机器学习:使用机器学习估计倾向得分和结果回归。
步骤4:验证与测试
使用干预数据验证发现的因果效应,或进行A/B测试验证。
步骤5:可解释性
生成因果图可视化,解释因果路径和效应大小。
参数选择/优化
1. 条件独立性检验的显著性水平α:通常0.01-0.05
2. 图搜索的评分函数:BIC、BDeu等,选择先验参数
3. 机器学习方法:选择基学习器(如随机森林、梯度提升)和正则化参数
4. 样本大小:需要足够样本才能可靠检测条件独立
5. 高维数据:需稀疏性假设,使用LASSO等变量选择

精度:图结构恢复的F1分数(与真实图比较)0.7-0.9;因果效应估计误差(与真实效应比较)<20%
误差:图结构错误(边遗漏、边误加、方向错误),效应估计偏差
强度:从观测数据中发现因果关系,但假设强(无混杂、无选择偏倚等),且只能发现因果图等价类

因果图理论、do-演算、结构因果模型、条件独立性、干预理论

1. 医疗研究:发现疾病风险因素,估计药物疗效
2. 经济学:分析政策干预效果,如最低工资对就业的影响
3. 市场营销:评估广告投放对销量的因果效应
4. 社会科学:研究教育、收入、健康之间的因果关系
5. 生物信息学:基因调控网络发现
6. 气候科学:分析人类活动对气候的因果影响
7. 推荐系统:估计推荐策略对用户行为的因果效应
8. 公平性分析:检测歧视性因果关系
9. 故障诊断:分析系统故障的根因
10. 心理学:研究心理因素间的因果关系
特征
- 条件独立特征:因果关系导致条件独立模式
- 干预特征:区分相关与因果,需干预或自然实验
- 可解释特征:因果图提供直观解释
- 反事实特征:可回答"如果...则会怎样"问题

变量
X, Y, Z:随机变量
G:因果图(有向无环图)
P(y|do(x)):干预分布
常量
变量集合V
条件独立检验阈值α
参数
图结构参数(边存在性、方向),效应估计参数

集合特征:变量集合,条件集集合,边集合
逻辑特征:条件独立逻辑,d-分离准则,do-演算规则
概率与统计特征:条件概率分布,独立性检验p值,效应估计的置信区间
随机性:数据生成随机性
不确定性:图结构的不确定性(等价类),效应估计的不确定性
数据规律和推断:因果 Markov 条件、 faithfulness 条件、因果 sufficiency 假设
极限:当样本数→∞,在假设下可正确恢复图结构(PC算法)
连续性:变量可以是连续或离散
微分:效应估计可能涉及导数(如边际效应)
积分:后门调整公式是求和或积分
级数:无
收敛性:算法收敛到图结构的马尔可夫等价类
测度:因果效应大小作为因果强度的测度,条件独立检验的p值作为独立性的测度
离散:变量离散,图结构离散
排序:按因果效应大小排序变量,按拓扑序排序变量
组合:条件集的组合,因果路径的组合
构造:通过条件独立测试构造图,通过调整公式构造效应估计
优化:最大化评分函数,最小化效应估计误差
计算与算法特征:条件独立检验复杂度随条件集大小指数增长,图搜索复杂度高。高维数据需近似算法。
稳定性:对假设敏感,小样本下不稳定
对称性/非对称性:因果方向不对称,但观测数据对称相关
代数:概率计算,矩阵运算(偏相关)
拓扑:有向无环图的拓扑,偏序关系
几何:变量在多维空间中的几何关系,但因果是图关系
:对变量重新标号的不变性(图同构)
组合数学特征:条件子集的组合,图结构的组合

变量名称通常是文本,因果解释需要自然语言生成
生成因果报告,描述发现的因果关系和效应大小
支持多语言报告生成

时序流程(PC算法)
1. 初始化:t₀
- 从完全无向图开始,所有变量间有边。
2. 骨架学习:t₁
- 令深度d=0。
- 重复:
- 对于每个相邻变量对(X,Y),如果存在条件集Z(大小为d)使得X⊥Y|Z,则删除边X-Y,记录Z为分隔集。
- d = d+1。
- 直到没有相邻对或d大于邻接集大小。
3. 方向传播:t₂
- 对于每个三元组X-Z-Y,如果X和Y不相邻,且Z不在分隔集中,则定向为X→Z←Y(v-结构)。
- 传播方向:如果存在X→Y-Z,且X和Z不相邻,则定向Y→Z;避免新v-结构和环。
4. 输出:t₃
- 输出部分有向无环图(CPDAG),表示马尔可夫等价类。
5. 效应估计:t₄
- 对于关心的干预X on Y,使用后门/前门准则确定调整集。
- 估计调整后的分布P(y|do(x))。
6. 验证:t₅
- 如果有干预数据,比较估计效应与实际效应。

服务器配置
高性能计算集群:因果发现算法需要进行大量条件独立性检验,复杂度高。对于高维数据(数百变量),需并行计算。需要多核CPU服务器,内存存储相关矩阵。PC算法复杂度O(n^d),d为最大条件集大小,通常限制d≤3-4。
大数据处理:对于大规模样本(数亿行),需分布式计算(如Spark)进行统计检验。效应估计中的双重机器学习需要训练机器学习模型,可使用GPU加速。
在线服务:因果发现通常是离线分析任务,但效应估计可在线进行(如实时策略效果评估)。10亿级效应估计请求(如个性化干预效果)需大规模计算,但通常批处理。
计算需求:因果发现计算复杂度高,但效应估计(如双重机器学习)需训练模型,计算量较大。总体需TFLOPS级算力。
内存需求:存储相关矩阵、条件独立测试结果、图结构。高维数据需GB级内存。

1. PC算法:基于约束的因果发现
2. FCI算法:处理潜在混杂
3. GES:基于分数的贪婪等价搜索
4. LiNGAM:线性非高斯模型,可确定唯一方向
5. ANM:加性噪声模型
6. CAM:因果加性模型,用于高维数据
7. NOTEARS:将结构学习转化为连续优化问题
8. Double Machine Learning:双重机器学习,估计因果效应
9. Meta-Learners:S-Learner, T-Learner, X-Learner
10. Matching Methods:倾向得分匹配,协变量平衡

E-L1-0084

多模态

视频-文本-音频联合理解模型

Video-Text-Audio Joint Understanding Model

步骤1:多模态特征提取
1. 视频特征:使用3D CNN(如I3D)或Video Transformer提取时空特征,包括外观和运动信息。
2. 文本特征:使用BERT或类似模型提取字幕、语音转文本的语义特征。
3. 音频特征:使用音频CNN或Transformer提取声学特征,包括语音内容、背景音乐、音效。
步骤2:跨模态对齐
使用对比学习(如CLIP)对齐视频-文本对:学习共享嵌入空间,使匹配的视频-文本对靠近,不匹配的远离。损失函数:InfoNCE损失。
步骤3:多模态融合
融合多模态特征进行下游任务:
1. 早期融合:拼接特征,输入统一Transformer。
2. 晚期融合:各模态单独处理,最后融合决策。
3. 注意力融合:跨模态注意力机制,让每个模态关注其他模态的相关部分。
步骤4:多任务学习
训练模型同时完成多个任务:视频分类、动作识别、事件检测、音频事件分类、语音识别、视频描述生成、视觉问答等。
步骤5:时空-音频-语义对齐
学习细粒度对齐:视频区域与文本词语对齐,音频片段与视频帧对齐,音频事件与文本描述对齐。
步骤6:零样本/少样本学习
利用文本语义,实现零样本视频分类:将类别名称作为文本,计算与视频特征的相似度。
参数选择/优化
1. 视频采样率:1-10 fps,根据动作速度调整
2. 特征维度:视频512-1024,文本768,音频256
3. 融合方式:注意力头数8-16,层数4-8
4. 损失权重:平衡多任务损失
5. 预训练数据:大规模视频-文本对(如WebVid, HowTo100M)

精度:视频分类准确率85-95%,视频检索Recall@1 40-60%,视频描述生成BLEU-4 30-40
误差:分类错误,检索排序错误,生成文本的BLEU/ROUGE分数
强度:联合理解多模态信息,实现互补,但数据需求大,计算成本高

多模态学习、对比学习、自监督学习、注意力机制、Transformer

1. 视频检索:用文本搜索视频,用视频搜索相关视频
2. 视频摘要:生成视频的文字摘要
3. 视频问答:回答关于视频内容的问题
4. 视频内容审核:检测暴力、色情、虚假信息等内容
5. 教育视频理解:自动生成课程笔记,知识点标注
6. 体育分析:识别精彩瞬间,生成解说
7. 医疗视频分析:内窥镜视频分析,手术步骤识别
8. 自动驾驶:理解交通场景,结合语音指令
9. 娱乐推荐:根据视频内容推荐相似视频或音乐
10. 人机交互:理解用户的多模态指令,执行任务
特征
- 多模态特征:视觉、文本、音频三种模态互补
- 时空特征:视频包含时间和空间维度
- 语义特征:文本提供高级语义标签
- 对齐特征:跨模态细粒度对齐提高理解

变量
V:视频帧序列
T:文本(字幕、语音转文本)
A:音频信号
常量
视频长度L_v,文本长度L_t,音频长度L_a
参数
视频编码器θ_v,文本编码器θ_t,音频编码器θ_a,融合网络θ_fuse

集合特征:视频帧集合,文本词语集合,音频帧集合
逻辑特征:跨模态对齐逻辑,时空-语义对应逻辑
概率与统计特征:对比学习的相似度分布,分类概率,生成文本的概率分布
随机性:视频内容随机性,文本描述随机性
不确定性:多模态融合的不确定性,生成内容的不确定性
数据规律和推断:视频、文本、音频在语义上相关,对齐后能相互增强
极限:当模态缺失,性能下降;当模态齐全且质量高,性能接近人类
连续性:视频连续,音频连续,文本离散但嵌入连续
微分:通过反向传播训练,对比损失梯度
积分:时间维度上的积分(池化),空间维度上的积分(全局平均)
级数:时间序列的级数,Transformer层的级数
收敛性:预训练收敛,但下游任务需微调
测度:对比学习的相似度度量,分类准确率,生成文本的BLEU分数
离散:文本词语离散,动作类别离散
排序:按相似度排序视频-文本对,按重要性排序视频片段
组合:多模态特征的组合,时空片段的组合
构造:通过对比学习构造共享嵌入空间,通过注意力构造跨模态交互
优化:最大化匹配对的相似度,最小化任务损失
计算与算法特征:视频处理计算量大,3D CNN或Video Transformer需要GPU加速。多模态融合增加计算量。训练需要大量数据。
稳定性:对噪声和缺失模态有一定鲁棒性,但可能依赖主导模态
对称性/非对称性:视频-文本检索对称,但生成任务不对称(视频到文本)
代数:矩阵乘法,注意力权重,相似度计算
拓扑:视频时空拓扑,文本序列拓扑
几何:多模态在共享嵌入空间的几何,相似性几何
:对视频的时间平移不变性(某些任务),空间平移不变性(CNN)
组合数学特征:多模态组合,时空-语义组合

文本是核心模态之一,用于检索、描述、问答
生成视频描述、问答答案需要自然语言生成
支持多语言文本处理

时序流程
1. 数据预处理:t₀
- 视频:均匀采样帧,调整分辨率,数据增强。
- 文本:分词,添加特殊token。
- 音频:重采样,提取log-Mel谱图。
2. 特征提取:t₁
- 视频特征F_v = Enc_v(V) (L_v×d_v)
- 文本特征F_t = Enc_t(T) (L_t×d_t)
- 音频特征F_a = Enc_a(A) (L_a×d_a)
3. 跨模态对齐(预训练阶段):t₂
- 计算视频-文本相似度矩阵S_{ij} = F_v_i·F_t_j^T。
- 对比损失:L_cl = (1/2)(CE(S, y) + CE(S^T, y)),其中y是匹配标签。
4. 多模态融合:t₃
- 将F_v, F_t, F_a输入跨模态Transformer,通过多头注意力交互。
- 得到融合特征F_fuse。
5. 任务特定头:t₄
- 分类任务:全连接层+softmax。
- 检索任务:计算相似度,排序。
- 生成任务:使用解码器(如Transformer decoder)生成文本。
6. 训练:t₅
- 多任务损失:L = λ1 L_cl + λ2 L_cls + λ3 L_gen + ...
7. 推理:t₆
- 根据任务,使用相应头输出结果。

服务器配置
大规模GPU集群:视频-文本-音频模型训练需要大量计算。需要数十到数百张NVIDIA A100/H100 GPU,用于3D CNN/Transformer训练。内存需存储大规模视频数据集(PB级)。
分布式训练框架:使用数据并行、模型并行(如将编码器分到不同GPU)。视频数据大,需优化数据加载和存储(如使用WebDataset)。
在线推理服务:视频理解延迟较高(秒级),因为需处理多帧。10亿级视频理解请求(如视频平台内容审核)需极大规模集群,但通常可异步处理,延迟要求分钟级。实时应用(如直播审核)需优化模型(如使用光流、关键帧)。
计算需求:训练算力巨大(PFLOPS·天)。推理算力也高,但可批量处理视频。
内存需求:存储视频帧、特征、模型参数。视频帧内存大,需分批处理。

1. CLIP:图像-文本对比学习,可扩展到视频
2. ALIGN:大规模图像-文本对比学习
3. VideoCLIP:视频-文本对比学习
4. MERLOT:视频-音频-文本掩码建模
5. Flamingo:多模态少样本学习模型
6. VL-BERT, VisualBERT:视觉-语言BERT
7. MDETR:检测+文本的端到端模型
8. UniVL:统一视频-语言预训练模型
9. VALOR:视频-音频-语言预训练
10. TVLT:仅使用原始视频和音频,无文本监督

E-L1-0085

图神经网络

动态图神经网络

动态图神经网络 (Dynamic Graph Neural Networks)

步骤1:动态图表示
动态图可以表示为时序图序列G^1, G^2, ..., G^T,或连续时间事件流(边添加/删除事件)。每个时间步的图包含节点和边,可能节点/边特征变化。
步骤2:时空图卷积
结合图卷积(空间维度)和时序卷积(时间维度)。例如,使用图卷积层(GCN, GAT)聚合邻居信息,使用1D卷积或RNN(LSTM, GRU)聚合时序信息。
步骤3:连续时间动态图
对于事件流,使用时间点过程建模。每个事件(边)有时间戳t,使用时间编码(如正弦函数)将时间信息注入节点嵌入。更新规则:当边(u,v,t)发生,更新节点u,v的嵌入:h_u(t) = f(h_u(t^-), h_v(t^-), φ(t-t_u)),其中φ是时间编码函数。
步骤4:动态图注意力
在聚合邻居信息时,考虑时间因素:更近的邻居可能更相关。使用时间衰减函数或注意力机制学习时间重要性。
步骤5:动态链接预测
预测未来时刻的边是否存在。使用节点嵌入计算节点对相似度:score(u,v,t) = σ(h_u(t)^T h_v(t))。通过历史边训练,预测未来边。
步骤6:动态节点分类
预测节点随时间变化的标签。使用节点嵌入输入分类器。
参数选择/优化
1. 时间窗口大小:历史时间步数,影响感受野
2. 图卷积层数:通常2-3层,太多可能过平滑
3. 时序模型:RNN、TCN、Transformer的选择
4. 时间编码维度:通常16-32
5. 负采样比例:链接预测中负样本比例,通常1-10

精度:动态链接预测AUC 0.8-0.95,动态节点分类准确率70-90%
误差:链接预测错误,节点分类错误
强度:建模图结构随时间演化,但计算复杂,需处理动态性

图神经网络、时间序列分析、点过程、动态系统、表示学习

1. 社交网络:预测好友关系形成,社区演化,影响力传播
2. 推荐系统:用户-物品交互图动态变化,预测用户未来行为
3. 交通预测:路网动态,预测交通流量、旅行时间
4. 金融网络:交易网络动态,风险传播,欺诈检测
5. 生物网络:蛋白质相互作用网络演化,疾病传播
6. 知识图谱:知识图谱随时间增长,补全未来事实
7. 网络安全:网络攻击图动态,入侵检测
8. 学术合作:合作网络演化,预测未来合作
9. 物联网:设备连接图动态,异常检测
10. 流行病学:接触网络动态,预测疫情传播
特征
- 时空特征:结合图结构空间特征和时间演化特征
- 动态性特征:节点/边出现/消失,特征变化
- 事件驱动特征:边添加/删除作为事件,驱动状态更新
- 预测特征:预测未来图状态

变量
G^t:时间t的图
h_i^t:节点i在时间t的嵌入
E:边事件流
常量
时间步数T
节点数N(可能变化)
参数
图卷积参数θ_g,时序模型参数θ_t,时间编码参数

集合特征:节点集合,边集合,时间点集合,事件集合
逻辑特征:时空消息传递逻辑,事件驱动更新逻辑
概率与统计特征:链接存在的概率,事件发生的时间点过程强度
随机性:边生成的随机性,节点特征变化的随机性
不确定性:未来图结构的不确定性,节点状态的不确定性
数据规律和推断:图演化常具有马太效应(富者愈富),同质性(相似节点相连)
极限:当时间步长→0,变为连续时间动态图;当图完全连接,失去结构信息
连续性:时间连续,节点嵌入连续变化
微分:连续时间动态图的微分方程形式,梯度下降训练
积分:时间上的积分聚合历史信息,邻居聚合是空间上的积分
级数:时间序列的级数,图卷积的多跳级数
收敛性:训练损失收敛,但动态图不断变化,需在线学习
测度:链接预测的AUC,节点分类的准确率,时间预测的MAE
离散:时间步离散,节点离散,事件离散
排序:按时间排序事件,按重要性排序邻居
组合:时空信息的组合,多跳邻居的组合
构造:通过时空图卷积构造节点嵌入序列,通过事件驱动更新构造动态嵌入
优化:最小化链接预测损失,节点分类损失
计算与算法特征:动态图计算复杂度高,需存储历史状态或重新计算。事件驱动更新可增量计算。训练时需处理时序依赖,难以并行。
稳定性:对图变化敏感,但模型应适应平滑变化
对称性/非对称性:边可能不对称,时间方向不对称
代数:矩阵运算,卷积运算,注意力权重
拓扑:图拓扑随时间变化,时空拓扑
几何:节点在嵌入空间的轨迹,图流形的演化
:对节点重新标号的不变性,时间平移的不变性(平稳动态)
组合数学特征:事件序列的组合,时空路径的组合

节点和边可能带有文本属性(如用户帖子,交易描述),需NLP处理
生成图演化报告需要自然语言生成
支持多语言文本属性

时序流程(离散时间动态GNN)
1. 输入:t₀
- 动态图序列G^1, G^2, ..., G^T。
2. 初始化:t₁
- 初始化节点嵌入h_i^0。
3. 时序迭代:for t=1 to T
a. 空间聚合:t₂
- 对每个节点i,聚合其当前邻居信息:m_i^t = AGG({h_j^{t-1}, ∀j∈N_i(t)})。
b. 时序更新:t₃
- 使用RNN更新节点嵌入:h_i^t = RNN(h_i^{t-1}, m_i^t)。
4. 任务预测:t₄
- 对于链接预测:使用h_u^t和h_v^t计算存在边的概率。
- 对于节点分类:使用h_i^t输入分类器。
5. 训练:t₅
- 通过时间步的损失(如跨熵)训练,可能使用BPTT(沿时间反向传播)。
6. 预测未来:t₆
- 使用训练好的模型,输入历史图,预测未来时间步的链接或节点标签。

服务器配置
分布式图计算集群:动态图可能很大(数亿节点),需要分布式图处理系统(如DGL分布式,Spark GraphX)。每个时间步的图需要存储,或事件流需要处理。需数十个节点,每个节点大内存(256GB+)。
GPU加速:GNN消息传递和RNN可GPU加速。需要多个GPU(如V100/A100)训练。动态图训练需处理时序依赖,难以并行,但每个时间步内的图卷积可并行。
在线推理服务:新事件(边)到来时,需更新受影响节点的嵌入,并预测。10亿级事件流处理(如社交网络实时边)需流处理框架(如Flink)和增量计算。延迟要求秒级到分钟级。
计算需求:时空图卷积计算量大,尤其是长时间历史。训练需TFLOPS级算力。
内存需求:存储历史嵌入或图快照,内存消耗大。需分布式存储或外存。

1. EvolveGCN:演化GCN,使用RNN演化GCN参数
2. DyRep:连续时间动态图,使用时间点过程
3. TGAT:时间图注意力网络,使用时间编码和注意力
4. JODIE:耦合的RNN建模节点和边的交互
5. DySAT:动态图自注意力网络
6. TGN:时间图网络,通用框架
7. CAW:因果匿名游走,用于动态链接预测
8. GraphSAGE for Dynamic Graphs:归纳式动态图学习
9. StreamGNN:流式图神经网络,增量更新
10. Memory-based Dynamic GNN:使用外部记忆存储历史信息

编号

类别

模型配方

算法/模型/方法名称

算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化

精度/密度/误差/强度

底层规律/理论定理

典型应用场景【10个场景】和各类特征

变量/常量/参数列表及说明

数学特征

语言特征

时序和交互流程的所有细节/分步骤时序情况及数学方程式

10亿级并发下的服务器性能与规模需求

配套优化算法列表

E-L1-0086

联邦学习

跨设备联邦学习

Federated Averaging (FedAvg) with Differential Privacy

步骤1:客户端选择
每轮训练从N个客户端中随机选择K个参与训练,K≪N,通常K=100-1000。
步骤2:本地训练
每个选中的客户端k下载全局模型w_t,使用本地数据D_k进行E个epoch的SGD更新:w{t+1}^k = w_t - η∇L_k(w_t; batch),其中L_k是客户端k的本地损失函数。
步骤3:模型聚合
服务器收集客户端更新,计算加权平均:w
{t+1} = ∑{k=1}^K (n_k/n) w{t+1}^k,其中n_k是客户端k的数据量,n=∑n_k。
步骤4:差分隐私保护
在客户端上传更新前添加高斯噪声:Δ̃k = Δ_k + N(0, σ^2I),其中Δ_k = w{t+1}^k - w_t。噪声尺度σ根据隐私预算(ε,δ)计算。
步骤5:安全聚合
使用安全多方计算或同态加密,使得服务器只能看到聚合结果,无法看到单个客户端更新。
步骤6:通信压缩
使用量化、稀疏化或梯度压缩减少通信量,如Top-k稀疏化:只上传梯度中绝对值最大的k%元素。
参数选择/优化
1. 客户端选择比例K/N:0.1%-1%
2. 本地训练epoch数E:1-10
3. 学习率η:0.01-0.1,可衰减
4. 批量大小:32-256
5. 差分隐私参数:ε=1-10,δ=1e-5
6. 压缩率:1%-10%

精度:在非IID数据下,准确率比集中式低2-10个百分点;通信轮数减少50-90%
误差:收敛速度慢,可能收敛到次优点;差分隐私引入噪声误差
强度:保护数据隐私,减少通信开销,但面临统计异质性和系统异质性挑战

分布式优化、差分隐私、安全多方计算、通信压缩、联邦学习

1. 移动键盘预测:在用户设备上训练语言模型,不上传原始输入
2. 医疗健康:医院间协作训练疾病诊断模型,保护患者隐私
3. 金融风控:银行间联合反欺诈模型,不共享客户数据
4. 物联网:边缘设备协同学习,减少云端数据传输
5. 自动驾驶:车辆间共享驾驶经验,保护位置隐私
6. 智能家居:家庭设备个性化,不上传隐私数据
7. 推荐系统:用户设备上训练个性化推荐,保护浏览历史
8. 工业物联网:工厂设备预测性维护,数据不出厂
9. 教育:学校间协作教育模型,保护学生数据
10. 政府数据:跨部门联合分析,保护公民隐私
特征
- 数据隐私:原始数据保留在本地
- 统计异质性:客户端数据非独立同分布
- 系统异质性:设备计算能力、网络状况不同
- 通信效率:通信是主要瓶颈

变量
w:全局模型参数
w^k:客户端k的本地参数
D_k:客户端k的本地数据集
常量
客户端总数N
每轮选择数K
隐私预算(ε,δ)
参数
学习率η,本地epoch数E,噪声尺度σ,压缩率c

集合特征:客户端集合,数据样本集合,参数空间
逻辑特征:客户端选择逻辑,聚合逻辑,隐私保护逻辑
概率与统计特征:客户端数据分布,噪声分布,收敛概率
随机性:客户端选择随机性,SGD随机性,噪声随机性
不确定性:客户端数据分布不确定性,收敛不确定性
数据规律和推断:客户端数据可能非IID,导致目标不一致;通过平均可收敛到全局解
极限:当客户端数N→∞,每轮选择K固定,收敛到集中式解;当隐私要求ε→0,噪声→∞,模型无用
连续性:参数空间连续,损失函数连续
微分:梯度下降,联邦平均可视为分布式SGD
积分:本地训练是多步SGD的积分,聚合是加权平均
级数:训练轮数的级数,通信轮数的级数
收敛性:在凸问题中收敛到全局最优,非凸问题中收敛到驻点
测度:模型性能测度(准确率),隐私损失测度(ε,δ),通信成本测度
离散:客户端离散,通信轮次离散
排序:按客户端数据量排序加权,按梯度大小排序压缩
组合:多客户端更新的组合,多轮训练的组合
构造:通过联邦平均构造全局模型,通过差分隐私构造隐私保护
优化:最小化全局损失函数,约束隐私预算和通信成本
计算与算法特征:本地计算可并行,通信是瓶颈。安全聚合增加计算开销。压缩减少通信但可能影响收敛。
稳定性:对学习率敏感,非IID数据下可能不稳定
对称性/非对称性:客户端可能不对称(数据量、计算能力)
代数:加权平均,梯度更新
拓扑:客户端网络拓扑(星型),参数空间的拓扑
几何:损失函数几何,参数空间的几何
:对客户端重新标号的不变性(如果同质)
组合数学特征:客户端选择的组合,梯度稀疏化的组合

模型更新可能包含文本嵌入层,需要处理多语言
联邦学习协调需要自然语言通信协议
生成隐私报告需要自然语言生成

时序流程
1. 初始化:t₀
- 服务器初始化全局模型w_0。
2. 通信轮次:for t=0 to T-1
a. 客户端选择:t₁
- 服务器随机选择K个客户端S_t。
b. 广播:t₂
- 服务器发送当前全局模型w_t给选中的客户端。
c. 本地训练:t₃(并行)
- 每个客户端k∈S_t:
* 下载w_t。
* 使用本地数据D_k进行E个epoch的SGD,得到本地更新w{t+1}^k。
* 计算更新Δ_k = w
{t+1}^k - w_t。
* 添加差分隐私噪声:Δ̃k = Δ_k + N(0, σ^2I)。
* 压缩更新:Δ̃
k^c = compress(Δ̃k)。
d. 上传:t₄
- 客户端上传加密的压缩更新Δ̃
k^c给服务器。
e. 安全聚合:t₅
- 服务器安全地聚合更新:Δ̃ = (1/K)∑{k∈S_t} Δ̃k^c。
f. 更新全局模型:t₆
- w_{t+1} = w_t + Δ̃。
3. 输出:t₇
- 返回最终模型w_T。

服务器配置
联邦学习服务器集群:协调服务器需要处理大量客户端连接。对于10亿级设备,不可能同时连接,但每轮选择K个(如百万级)。需要高并发连接管理(如使用epoll)。服务器需聚合模型更新,计算量不大,但需安全聚合计算(同态加密)可能较重。
客户端设备:移动设备、IoT设备等,计算能力有限。本地训练需优化(如使用TensorFlow Lite)。需考虑设备异构性。
通信网络:主要瓶颈。需压缩更新,使用高效协议(如gRPC)。差分隐私噪声增加通信误差。
计算需求:服务器聚合计算量小,但安全聚合可能需加密计算。客户端本地训练计算量中等,需优化能耗。
内存需求:服务器存储全局模型,内存需求小。客户端存储本地数据和模型,内存有限。
隐私保护:需差分隐私和安全聚合,增加计算和通信开销。

1. FedProx:添加近端项处理统计异质性
2. SCAFFOLD:使用控制变量减少客户端漂移
3. FedNova:归一化本地更新,加速收敛
4. FedOpt:使用自适应优化器(如Adam)
5. FedMA:层匹配聚合,处理异质架构
6. Personalized FL:个性化联邦学习
7. Vertical FL:纵向联邦学习,特征对齐
8. Federated Transfer Learning:联邦迁移学习
9. Asynchronous FL:异步联邦学习,处理掉队者
10. Federated Meta-Learning:联邦元学习

E-L1-0087

神经符号推理

神经定理证明器

Neural Theorem Prover with Differentiable Reasoning

步骤1:符号表示
将知识表示为逻辑公式(一阶逻辑、描述逻辑等)。例如:∀x (Human(x) → Mortal(x)), Human(Socrates) ⊢ Mortal(Socrates)。使用嵌入将符号映射到向量空间:符号→e∈R^d。
步骤2:可微推理
定义可微推理规则,如可微Modus Ponens:给定p→q和p,推出q的概率为σ(f(e_p→q, e_p)),其中f是神经网络,σ是sigmoid。
步骤3:神经引导搜索
使用神经网络指导定理证明搜索:给定目标G和知识库KB,神经网络预测下一步应用哪个推理规则和哪个前提,减少搜索空间。
步骤4:证明树生成
构建证明树,节点是公式,边是推理规则。使用递归神经网络编码证明树,计算证明得分。
步骤5:训练
使用强化学习或最大似然训练:最大化证明成功概率或最小化证明步骤。奖励:证明成功+1,失败-1,每步小惩罚。
步骤6:知识获取
从文本中自动提取逻辑公式,或通过反绎学习(abduction)补充缺失公理。
参数选择/优化
1. 嵌入维度d:100-300
2. 推理网络层数:2-4
3. 搜索宽度:5-20(每步考虑的候选数)
4. 搜索深度:10-50(最大证明长度)
5. 训练数据:人工标注的证明步骤或合成数据

精度:在标准定理证明基准(如Mizar, TPTP)上,证明成功率40-70%,高于传统ATP但低于人类专家
误差:证明失败,错误推理,搜索超时
强度:结合神经网络的模式识别和符号推理的精确性,但可扩展性有限,难以处理复杂领域

自动定理证明、可微推理、神经符号AI、逻辑编程、强化学习

1. 数学定理证明:自动证明数学定理,辅助数学家
2. 程序验证:验证软件正确性,证明程序属性
3. 知识推理:从知识库推理新事实,如医疗诊断
4. 法律推理:分析法律条文,推导法律结论
5. 学术论文验证:检查论文中的逻辑一致性
6. 教育:自动生成数学习题和证明
7. 硬件验证:验证芯片设计正确性
8. 网络安全:推理攻击路径,验证安全属性
9. 规划与调度:逻辑推理生成计划
10. 常识推理:从常识知识库推理日常情境
特征
- 符号精确性:逻辑推理严格,可解释
- 神经灵活性:神经网络处理模糊、复杂模式
- 可微性:推理过程可微,可通过梯度下降训练
- 搜索引导:神经引导减少组合爆炸

变量
F:逻辑公式集合
KB:知识库(公式集)
G:目标公式
P:证明树
常量
推理规则集合R
嵌入维度d
参数
嵌入矩阵E,推理网络参数θ,策略网络参数φ

集合特征:符号集合,公式集合,证明树集合
逻辑特征:逻辑推理规则,证明搜索逻辑
概率与统计特征:推理规则应用概率,证明成功概率
随机性:搜索策略的随机性,训练数据的随机性
不确定性:知识的不确定性,推理的不确定性
数据规律和推断:证明常使用已知模式,神经网络可学习这些模式
极限:当问题复杂度指数增长,搜索空间爆炸;当神经网络足够大,可近似任何推理模式
连续性:嵌入空间连续,概率连续
微分:通过策略梯度或可微推理进行梯度下降
积分:证明得分的期望,通过蒙特卡洛采样估计
级数:证明步骤的级数,搜索深度的级数
收敛性:训练收敛到有效策略,但可能局部最优
测度:证明成功率,平均证明长度,搜索时间
离散:符号离散,推理规则离散,证明步骤离散
排序:按启发式分数排序候选证明步骤
组合:推理规则的组合,证明步骤的组合
构造:通过神经引导搜索构造证明树,通过可微推理构造证明得分
优化:最大化证明成功率,最小化证明长度
计算与算法特征:证明搜索是指数复杂度,神经引导减少搜索。可微推理允许梯度训练。需要大量训练数据。
稳定性:对搜索策略敏感,可能陷入局部最优
对称性/非对称性:逻辑规则可能对称(如交换律)或不对称(如蕴含)
代数:逻辑公式的代数结构,嵌入空间的线性代数
拓扑:证明空间的拓扑,公式空间的拓扑
几何:符号在嵌入空间的几何关系反映逻辑关系
:对符号重新命名的不变性(α-等价)
组合数学特征:证明路径的组合,公式子结构的组合

逻辑公式通常用自然语言表示,需要自然语言理解
生成证明步骤的自然语言解释
从文本中提取逻辑公式需要NLP
支持多语言逻辑公式

时序流程
1. 问题表示:t₀
- 输入知识库KB和目标G,转换为逻辑公式。
- 将符号嵌入为向量:e = E(symbol)。
2. 证明搜索:t₁
- 初始化搜索状态:当前目标集={G},已用前提=KB,证明树为空。
- while 未超时且未证明:
a. 神经引导:t₂
- 使用策略网络π(a|s)选择动作:应用哪个推理规则和哪个前提。
b. 应用规则:t₃
- 执行动作,生成新子目标或闭合分支。
c. 更新状态:t₄
- 更新当前目标集,证明树。
d. 检查终止:t₅
- 如果所有目标都解决,则证明成功。
3. 训练:t₆
- 如果使用强化学习:
* 采样证明轨迹τ。
* 计算回报R(成功+1,失败-1,每步-0.01)。
* 更新策略网络:∇J = E[∑∇logπ(a_t|s_t) R]。
- 如果使用监督学习:
* 使用人工证明作为监督,最小化交叉熵。
4. 输出:t₇
- 返回证明树(如果成功)或失败。

服务器配置
高性能CPU服务器:定理证明搜索是CPU密集型,需要大量逻辑推理和搜索。需要多核CPU(如64核以上)和大量内存(256GB+)。神经网络推理需要GPU加速(如NVIDIA T4)。
分布式搜索:可并行探索多个证明分支。需要多个服务器节点,每个节点负责一个分支。通信开销小。
知识库存储:大型知识库(如整个数学知识)需要图数据库或专业逻辑数据库(如Prolog数据库)。
计算需求:搜索复杂度高,但神经引导减少搜索。训练需要大量证明数据,可能需合成数据。算力需求中等(TFLOPS)。
内存需求:存储知识库、神经网络参数、搜索状态。大型知识库需GB级内存。

1. DeepMath:使用seq2seq模型生成证明步骤
2. HOList:基于深度学习的Higher-Order Logic定理证明
3. GPT-f:基于Transformer的自动定理证明
4. TensorLog:可微逻辑推理框架
5. Neural Theorem Provers:结合嵌入和强化学习
6. Differentiable Inductive Logic Programming:可微归纳逻辑编程
7. Graph Neural Theorem Provers:使用GNN编码公式结构
8. Meta Learning for Theorem Proving:元学习快速适应新领域
9. Neuro-Symbolic Concept Learners:视觉推理的神经符号模型
10. Logic Tensor Networks:将逻辑规则融入神经网络

E-L1-0088

元学习

模型无关元学习

Model-Agnostic Meta-Learning (MAML)

步骤1:任务分布
假设任务来自分布p(T)。每个任务T_i有支持集(训练集)D_i^{tr}和查询集(测试集)D_i^{val},通常是小样本学习(如5-way 1-shot)。
步骤2:内循环(任务特定适应)
对于每个任务T_i,从初始参数θ开始,使用支持集进行一步或多步梯度更新:θ_i' = θ - α∇θ L{T_i}(f_θ; D_i^{tr}),其中α是内循环学习率。
步骤3:外循环(元学习)
在查询集上评估适应后的参数θ_i',计算元损失:L{meta}(θ) = ∑{T_i~p(T)} L{T_i}(f{θ_i'}; D_i^{val})。然后更新初始参数θ:θ ← θ - β∇θ L{meta}(θ),其中β是外循环学习率。
步骤4:计算二阶梯度
元梯度∇θ L{meta}(θ)涉及二阶导数(Hessian)。实际中常使用一阶近似(FOMAML)避免计算Hessian,但性能可能下降。
步骤5:测试时适应
给定新任务T_{new},使用其支持集对预训练的θ进行几步梯度更新,得到适应后的参数,然后在查询集上评估。
步骤6:扩展
可扩展到多步内循环、不同网络架构、不同任务分布。
参数选择/优化
1. 内循环学习率α:0.01-0.1
2. 外循环学习率β:0.001-0.01
3. 内循环步数:1-10
4. 任务批量大小(meta-batch size):4-32个任务
5. 网络架构:小网络(如4层CNN)以减少过拟合
6. 任务采样策略:均匀采样或课程学习

精度:在标准小样本学习基准(如Mini-ImageNet, Omniglot)上,5-way 1-shot准确率60-70%,5-way 5-shot准确率80-90%
误差:元训练误差,任务适应误差
强度:快速适应新任务,只需少量样本,但需要大量元训练任务,计算成本高(二阶梯度)

元学习、小样本学习、梯度下降、优化理论、任务分布

1. 小样本图像分类:识别新类别,每类只有几个样本
2. 机器人控制:快速适应新环境、新任务
3. 个性化医疗:根据少量患者数据调整治疗策略
4. 快速适应新语言:少量样本学习新语言任务
5. 游戏AI:快速学习新游戏
6. 推荐系统:冷启动用户个性化
7. 金融预测:快速适应新市场、新资产
8. 工业检测:少量缺陷样本学习检测新缺陷
9. 自动驾驶:适应新城市、新天气条件
10. 教育:个性化学习路径,适应学生特点
特征
- 任务泛化:学习跨任务的共性,快速适应新任务
- 优化视角:将学习算法本身参数化并优化
- 双层优化:内循环任务适应,外循环元学习
- 模型无关:适用于任何可微模型

变量
θ:模型初始参数
θ_i':任务T_i适应后的参数
D_i^{tr}:任务T_i的支持集
D_i^{val}:任务T_i的查询集
常量
内循环学习率α
外循环学习率β
参数
模型参数θ,元学习率β,内循环步数K

集合特征:任务集合,样本集合,参数空间
逻辑特征:双层优化逻辑,任务采样逻辑
概率与统计特征:任务分布p(T),损失函数的期望
随机性:任务采样随机性,数据采样随机性
不确定性:新任务的不确定性,适应性能的不确定性
数据规律和推断:任务间共享结构,元学习器学习该结构
极限:当任务数→∞,元学习器学习到最优初始点;当内循环步数→∞,变成多任务学习
连续性:参数空间连续,损失函数连续
微分:梯度下降,二阶梯度(Hessian)
积分:元损失是任务损失的期望(积分)
级数:内循环梯度步的级数,外循环迭代的级数
收敛性:在凸假设下收敛到元最优解,非凸下可能局部最优
测度:元损失作为泛化能力的测度,任务损失作为适应能力的测度
离散:任务离散,样本离散
排序:按任务难度排序,课程学习
组合:多任务组合,多步梯度组合
构造:通过双层优化构造快速适应能力,通过梯度下降构造参数更新
优化:最小化期望任务损失,双层优化问题
计算与算法特征:需要计算二阶梯度或使用近似,计算成本高。可并行处理多个任务。内存需存储多个梯度计算图。
稳定性:对学习率敏感,二阶梯度可能数值不稳定
对称性/非对称性:任务可能不对称,但元学习器应对称处理
代数:梯度计算,链式法则,矩阵运算(Hessian)
拓扑:参数空间的拓扑,任务空间的拓扑
几何:损失函数在参数空间的几何,任务分布的几何
:对参数重新参数化的不变性(如网络权重置换)
组合数学特征:任务采样的组合,梯度步骤的组合

任务描述可能需要自然语言,如"识别动物图片"
元学习器可生成任务描述
支持多语言任务描述

时序流程
1. 元训练阶段
a. 初始化:t₀
- 随机初始化模型参数θ。
b. 外循环迭代:for meta-iteration=1 to M
- 采样任务批次:t₁
* 从任务分布p(T)采样一批任务{T_i}{i=1}^B。
- 内循环适应:t₂(对每个任务并行)
* 对于每个任务T_i:
- 从支持集D_i^{tr}采样数据。
- 计算损失L
{T_i}(f_θ; D_i^{tr})。
- 计算梯度g_i = ∇θ L{T_i}(f_θ; D_i^{tr})。
- 更新任务特定参数:θ_i' = θ - α g_i。(多步则重复)
- 元更新:t₃
* 对于每个任务T_i,在查询集D_i^{val}上计算损失L{T_i}(f{θ_i'}; D_i^{val})。
* 计算元损失:L{meta} = (1/B)∑{i=1}^B L{T_i}(f{θ_i'}; D_i^{val})。
* 计算元梯度:∇θ L{meta}(需二阶梯度或使用一阶近似)。
* 更新元参数:θ ← θ - β ∇θ L{meta}。
2. 测试阶段
a. 新任务适应:t₄
- 给定新任务T{new}及其支持集D{new}^{tr}。
- 使用内循环同样步骤从θ快速适应到θ{new}'。
b. 评估:t₅
- 在查询集D
{new}^{val}上评估f{new}'}。

服务器配置
大规模GPU集群:MAML需要大量任务并行训练。每个任务需要内循环梯度计算,存储计算图。需要多GPU(如8-32张V100/A100)进行数据并行(任务并行)。内存消耗大,因为需存储二阶梯度计算图。
分布式训练:可分布式采样任务,每个worker处理一个任务。需要参数服务器同步元参数。通信开销中等。
计算需求:二阶梯度计算需要Hessian-vector products,计算量是普通训练的2-3倍。可使用一阶近似(FOMAML)减少计算,但性能可能下降。算力需求高(PFLOPS·天)。
内存需求:存储多个任务的计算图,内存消耗大。需梯度检查点技术。
在线适应:测试时适应只需几次梯度步,计算量小,可在边缘设备进行。

1. Reptile:一阶元学习,简单有效
2. Meta-SGD:学习每个参数的学习率
3. LEO:在潜在空间进行元学习
4. MAML++:改进MAML稳定性
5. ANIL:几乎内循环不变学习,只适应最后一层
6. Meta-Curvature:学习曲率信息
7. Bayesian MAML:贝叶斯元学习,量化不确定性
8. Latent Embedding Optimization:学习潜在嵌入
9. Gradient Agreement as an Optimization Objective:使用梯度一致性
10. Meta-Learning with Implicit Gradients:隐式梯度元学习

E-L1-0089

自监督学习

对比学习

SimCLR (Simple Framework for Contrastive Learning)

步骤1:数据增强
对每个输入样本x,应用两次随机增强,得到两个视图x_i和x_j。增强包括:随机裁剪、颜色失真、高斯模糊等。
步骤2:编码器
使用编码器f(·)(如ResNet)将增强样本映射到表示向量:h_i = f(x_i), h_j = f(x_j)。
步骤3:投影头
使用小型MLP投影头g(·)将表示映射到对比学习空间:z_i = g(h_i), z_j = g(h_j)。训练后丢弃g,使用h作为表示。
步骤4:对比损失
对于一个批次中的N个样本,产生2N个增强样本。对于正样本对(i,j),负样本为其他2(N-1)个样本。使用NT-Xent损失:
{i,j} = -log[exp(sim(z_i, z_j)/τ) / ∑{k=1}^{2N} 1{[k≠i]} exp(sim(z_i, z_k)/τ)],其中sim(u,v)=u^T v/|u||v|是余弦相似度,τ是温度参数。
步骤5:对称损失
计算ℓ
{i,j}和ℓ{j,i},平均得到最终损失:L = (1/2N)∑{k=1}^N [ℓ{2k-1,2k} + ℓ{2k,2k-1}]。
步骤6:下游任务微调
预训练后,移除投影头g,在编码器f后添加任务特定头(如分类层),用少量标注数据微调。
参数选择/优化
1. 批次大小N:大批次效果更好,通常512-4096
2. 温度τ:0.05-0.2
3. 编码器:ResNet-50, ResNet-101
4. 投影头维度:128-512
5. 优化器:LARS或AdamW,学习率随批次大小缩放
6. 训练epoch:100-1000

精度:在ImageNet上线性评估(冻结特征,训练线性分类器)准确率70-75%,微调后接近有监督(差1-2个百分点)
误差:对比损失,下游任务误差
强度:无需标注数据,学习高质量表示,但对数据增强敏感,需要大批次

对比学习、表示学习、度量学习、信息最大化、自监督学习

1. 图像表示学习:预训练视觉模型,用于下游分类、检测、分割
2. 视频表示学习:时空对比学习,用于动作识别
3. 音频表示学习:学习音频特征,用于语音识别、事件检测
4. 文本表示学习:句子对比学习,用于语义相似度
5. 多模态表示学习:对齐图像和文本表示
6. 医疗影像:缺乏标注,自监督预训练后微调
7. 遥感图像:大规模无标注卫星图像预训练
8. 工业检测:无缺陷样本多,自监督学习正常模式
9. 机器人感知:从机器人收集的无标注数据学习表示
10. 推荐系统:用户行为序列对比学习
特征
- 无需标注:完全自监督,利用数据本身
- 对比学习:拉近正样本,推远负样本
- 数据增强关键:定义什么构成"相同"样本
- 大批次:需要大量负样本

变量
x:原始样本
x_i, x_j:增强样本
h:表示向量
z:投影向量
常量
批次大小N
温度τ
参数
编码器参数θ_f,投影头参数θ_g

集合特征:样本集合,增强样本集合,正负样本对集合
逻辑特征:正负样本对构造逻辑,对称损失逻辑
概率与统计特征:样本分布,相似度分布,对比损失基于softmax概率
随机性:数据增强随机性,批次采样随机性
不确定性:表示质量的不确定性,下游任务性能的不确定性
数据规律和推断:相同样本的不同增强应具有相似表示,不同样本应具有不同表示
极限:当批次大小→∞,负样本足够多,效果趋近最优;当温度τ→0,只关注最困难负样本
连续性:表示空间连续,相似度连续
微分:对比损失梯度,通过反向传播更新参数
积分:损失是批次内样本对的平均(积分)
级数:训练epoch的级数,批次迭代的级数
收敛性:损失收敛,表示质量提升,但可能陷入平凡解(常数表示)
测度:对比损失作为表示质量的测度,下游任务准确率作为最终测度
离散:样本离散,类别离散(下游)
排序:按相似度排序样本,按难度排序负样本
组合:数据增强的组合,正负样本对的组合
构造:通过对比学习构造表示空间,通过数据增强构造正样本对
优化:最大化正样本相似度,最小化负样本相似度
计算与算法特征:需要大批次以获得足够负样本,内存消耗大。相似度矩阵计算复杂度O((2N)^2)。需GPU加速。
稳定性:对温度参数敏感,对数据增强敏感,大批次训练可能不稳定
对称性/非对称性:损失对称,编码器对称处理两个视图
代数:相似度计算,矩阵乘法,softmax
拓扑:表示空间的拓扑,数据流形的拓扑
几何:正样本在表示空间中靠近,负样本远离
:对数据增强的不变性是学习目标
组合数学特征:增强变换的组合,样本对的组合

文本对比学习需要自然语言处理,如句子嵌入
多模态对比学习需要对齐文本和图像
生成数据增强描述可能需要自然语言

时序流程
1. 数据加载:t₀
- 加载一个批次N个原始样本{x_1,...,x_N}。
2. 数据增强:t₁
- 对每个样本x_k,应用两次随机增强,得到x{2k-1}和x{2k},共2N个增强样本。
3. 编码:t₂
- 通过编码器f得到表示:h_i = f(x_i), i=1,...,2N。
4. 投影:t₃
- 通过投影头g得到投影向量:z_i = g(h_i), i=1,...,2N。
5. 计算相似度矩阵:t₄
- 计算所有投影向量的余弦相似度矩阵S∈R^{2N×2N},其中S{ij}=sim(z_i, z_j)。
6. 计算损失:t₅
- 对于每个正样本对(k, k'),其中k'是k的配对(如(1,2), (2,1), (3,4), ...):
* 计算softmax:ℓ
{k,k'} = -log[exp(S{k,k'}/τ) / ∑{m=1,m≠k}^{2N} exp(S{k,m}/τ)]。
- 对称损失:L = (1/2N)∑
{k=1}^N [ℓ{2k-1,2k} + ℓ{2k,2k-1}]。
7. 反向传播:t₆
- 计算梯度,更新f和g的参数。
8. 下游微调:t₇(预训练后)
- 移除g,在f后添加任务特定头,用标注数据微调。

服务器配置
大规模GPU集群:SimCLR需要大批次(如4096)以获得足够负样本。需要多GPU(如32-128张V100/A100)进行数据并行。每卡批次较小,但全局批次大。需同步BatchNorm。
内存需求:存储大批次数据和相似度矩阵。相似度矩阵大小(2N)^2,N=4096时约67M元素,占用~268MB(float32)。加上激活内存,需大显存(如80GB A100)。
计算需求:编码器前向传播2N次,相似度矩阵计算O(N^2)。算力需求高(PFLOPS·天)。
数据管道:需要高效数据增强和加载。使用TFRecord或WebDataset格式,多进程加载。
下游部署:预训练后,编码器可用于下游任务,计算量小,可在边缘设备部署。

1. MoCo:动量对比,使用队列存储负样本,减少批次需求
2. BYOL:无需负样本,使用预测头
3. SwAV:在线聚类,对比聚类分配
4. Barlow Twins:减少特征冗余,无需负样本
5. SimSiam:简单孪生网络,无需负样本和大批次
6. DINO:自蒸馏,无需负样本
7. InfoNCE:对比损失的一般形式
8. Supervised Contrastive Learning:使用标签构造正负对
9. Hard Negative Mining:挖掘困难负样本
10. Multi-Crop:使用多尺度裁剪增强

E-L1-0090

可解释AI

可解释性归因方法

Integrated Gradients (IG)

步骤1:基准选择
选择基准输入x'(如全零图像、均匀噪声),代表"无信息"状态。对于图像,常用全黑图像;对于文本,常用零向量或[MASK] token。
步骤2:路径积分
沿直线路径从基准x'到输入x积分梯度。定义插值:x(α) = x' + α(x - x'),α∈[0,1]。计算积分:
IG_i(x) = (x_i - x_i') × ∫{α=0}^1 [∂F(x(α))/∂x_i] dα,其中F是模型输出(如某个类的得分)。
步骤3:数值近似
使用黎曼和近似积分:IG_i(x) ≈ (x_i - x_i') × ∑
{k=1}^m [∂F(x' + (k/m)(x - x'))/∂x_i] × (1/m),其中m是近似步数(通常20-50)。
步骤4:归因可视化
对于图像,将IG_i(x)作为像素i的重要性,可视化热图。对于文本,将IG_i(x)作为词i的重要性,高亮显示。
步骤5:性质验证
检查IG是否满足期望性质:
1. 完备性:∑_i IG_i(x) = F(x) - F(x')。
2. 敏感性:如果输入i变化导致输出变化,则IG_i非零。
3. 实现不变性:功能等效的模型产生相同归因。
步骤6:扩展
可扩展到多路径积分、不同基准选择、不同插值函数。
参数选择/优化
1. 基准x':全零、均匀噪声、模糊版本等,影响解释
2. 积分步数m:20-50,越多越精确但计算成本高
3. 输出F:通常选择预测类的得分,或所有类的得分
4. 归一化:将归因值归一化到[0,1]或标准化
5. 平滑:对梯度进行平滑减少噪声

精度:归因与人类直觉一致性较高,但依赖基准选择;计算成本中等(需多次梯度计算)
误差:数值积分误差,基准选择引入的偏差
强度:理论保证(完备性),适用于任何可微模型,但需要选择基准,可能产生反直觉归因

可解释AI、归因方法、梯度积分、特征重要性、模型解释

1. 图像分类解释:可视化哪些像素对分类最重要
2. 文本分类解释:高亮对情感分类重要的词语
3. 医疗诊断:解释医疗影像分类模型,辅助医生决策
4. 自动驾驶:解释为何模型做出特定驾驶决策
5. 金融风控:解释为何拒绝贷款申请
6. 法律判决:解释法律文本分类模型
7. 推荐系统:解释为何推荐某个商品
8. 异常检测:解释为何某个样本被标记为异常
9. 科学发现:解释科学数据中的关键特征
10. 模型调试:识别模型依赖的虚假特征
特征
-

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐