编号

类型

函数/算法类型

函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表

参数类型和参数列表

参数/变量/常量/标量/张量/矩阵/集合列表

数学表达式/物理模型/计算机模型/通信模型/关联描述

典型值/范围 (管控目标)

核心关联参数

依赖关系

设计/软件开发/硬件制造/应用要求

测试/验证方法

关联学科/领域

资源需求

DW-FN-521

优化算法

小批量梯度下降

参数更新:θ_{t+1} = θ_t - η ∇_θ J_B(θ_t),其中J_B是小批量B的损失函数,B是随机采样的样本子集。

输入: 目标函数J, 初始参数θ_0, 学习率η, 批量大小`

B

<br>输出: 优化后的参数θ*`

θ, J, η: 同前
B: 小批量样本索引集

批量梯度下降和随机梯度下降的折中。利用向量化计算,比SGD更稳定,比BGD更快。

批量大小是重要超参,通常为2的幂(如32, 64, 128)。

参数维度d, 批量大小|B|, 数据量n

依赖小批量梯度计算。

是现代深度学习中最常用的优化算法基础。

监控训练损失和验证损失随epoch的变化。

DW-FN-522

优化算法

动量法

引入速度变量vv_{t+1} = γ v_t + η ∇_θ J(θ_t)θ_{t+1} = θ_t - v_{t+1}。其中γ是动量系数(通常0.9)。

输入: 目标函数J, 初始参数θ_0, 学习率η, 动量系数γ
输出: 优化后的参数θ*

θ, J, η
v: 速度变量(与θ同维)
γ: 动量系数(0≤γ<1)

模拟物理动量,加速在稳定方向的更新,抑制震荡。有助于穿过平坦区域和狭窄山谷。

γ通常设为0.9或0.99。

学习率η, 动量系数γ

依赖梯度计算和动量更新。

通常与SGD或小批量GD结合使用(SGDM)。

比较使用动量前后在优化曲面上的收敛速度。

优化算法

内存: 需要存储速度变量v, 与参数同规模。

DW-FN-523

优化算法

AdaGrad

为每个参数维护一个梯度平方的累积变量G。参数更新:θ_{t+1,i} = θ_{t,i} - (η / √(G_{t,ii} + ɛ)) ∇_{θ,i} J(θ_t)

输入: 目标函数J, 初始参数θ_0, 全局学习率η, 小常数ɛ(如1e-8)
输出: 优化后的参数θ*

θ, J, η
G: 梯度平方累积矩阵(对角)
ɛ: 防止除零的小常数

自适应学习率。对频繁更新的参数降低学习率,对稀疏特征加大更新。适用于稀疏数据。

学习率η通常可设大些(如0.01)。累积平方梯度会导致学习率过早下降至零。

参数维度d, 梯度稀疏性

依赖梯度计算和平方累积。

是自适应学习率算法的早期代表。在训练深度网络时可能过早停止学习。

在稀疏特征数据集(如文本)上测试效果。

自适应优化

内存: 存储G, 与参数同规模。

DW-FN-524

优化算法

RMSProp

改进AdaGrad,引入衰减系数ρE[g²]_t = ρ E[g²]_{t-1} + (1-ρ) g_t²。参数更新:θ_{t+1} = θ_t - (η / √(E[g²]_t + ɛ)) g_t

输入: 目标函数J, 初始参数θ_0, 学习率η, 衰减率ρ, 小常数ɛ
输出: 优化后的参数θ*

θ, J, η, ɛ
E[g²]: 梯度平方的指数移动平均
ρ: 衰减率(通常0.9)

解决AdaGrad学习率单调下降问题。对历史梯度平方进行指数衰减平均,关注近期梯度。

ρ通常设为0.9,η通常0.001。

学习率η, 衰减率ρ

依赖梯度计算和指数移动平均。

是深度学习常用的优化器之一。

在非凸优化问题(如神经网络训练)上观察收敛性。

自适应优化

内存: 存储E[g²], 与参数同规模。

DW-FN-525

优化算法

Adam

结合动量和RMSProp。计算梯度的一阶矩(均值)m_t和二阶矩(未中心化方差)v_t的指数移动平均,并进行偏差校正。更新:θ_{t+1} = θ_t - (η / (√(v̂_t) + ɛ)) m̂_t

输入: 目标函数J, 初始参数θ_0, 学习率η, 矩估计指数衰减率β1, β2, 小常数ɛ
输出: 优化后的参数θ*

θ, J, η, ɛ
β1, β2: 一阶和二阶矩的衰减率(通常0.9, 0.999)
m_t, v_t: 一阶和二阶矩估计

自适应学习率,且包含动量。通常默认参数表现良好,是深度学习最常用的优化器。

β1=0.9, β2=0.999, η=0.001, ɛ=1e-8。

学习率η, 衰减率β1, β2

依赖梯度计算和矩估计更新。

通常无需调参即表现良好。有时需配合学习率衰减。

在标准深度学习任务(如图像分类)上测试收敛速度和最终性能。

自适应优化、深度学习

内存: 存储m和v, 是参数量的两倍。

DW-FN-526

优化算法

牛顿法

使用二阶导数(海森矩阵H)信息:θ_{t+1} = θ_t - H^{-1}(θ_t) ∇J(θ_t)

输入: 目标函数J(二阶可导), 初始点θ_0
输出: 优化后的参数θ*

θ, J
H: 海森矩阵(二阶偏导矩阵)
∇J: 梯度

二阶收敛,速度比一阶方法快。但需计算和存储海森矩阵及其逆,计算开销大。

适用于参数规模不大的凸优化问题。

参数维度d, 海森矩阵的条件数

依赖计算海森矩阵和求解线性方程组。

通常不直接用于深度学习(参数量太大,且非凸)。

在小型凸优化问题(如逻辑回归)上与梯度下降比较收敛速度。

数值优化、凸优化

CPU/内存: 计算和存储海森矩阵O(d²), 求逆O(d³), 维度d大时不可行。

DW-FN-527

优化算法

拟牛顿法

用正定矩阵B_t近似海森矩阵的逆,满足拟牛顿条件(如BFGS:B_{t+1} = (I - ρ_t s_t y_t^T) B_t (I - ρ_t y_t s_t^T) + ρ_t s_t s_t^T,其中s_t = θ_{t+1}-θ_t, y_t = ∇J_{t+1}-∇J_t, ρ_t=1/(y_t^T s_t))。

输入: 目标函数J, 初始点θ_0, 初始矩阵B_0(通常为单位阵)
输出: 优化后的参数θ*

θ, J
B_t: 海森逆的近似矩阵
s_t, y_t: 参数和梯度的变化量

避免直接计算海森矩阵,迭代更新近似矩阵。收敛速度超线性,内存开销O(d²)。L-BFGS存储有限的历史向量,内存O(m d)。

适用于中等规模(d~10^4)的优化问题。

参数维度d, 存储的历史对数量m(L-BFGS)

依赖梯度计算和矩阵更新。

L-BFGS是常用的拟牛顿法,适用于全批量优化。

在逻辑回归、条件随机场等模型上比较性能。

数值优化、凸优化

内存: BFGS需O(d²), L-BFGS需O(m d)。 计算开销比一阶方法高。

DW-FN-528

优化算法

共轭梯度法

用于求解对称正定线性方程组A x = b。迭代方向d_k是共轭的:d_i^T A d_j = 0(i≠j)。更新:x_{k+1} = x_k + α_k d_k,其中α_k通过线搜索得到。

输入: 对称正定矩阵A, 向量b, 初始解x_0
输出: 解x

A: 系数矩阵
b: 右侧向量
x: 解向量
d_k: 共轭方向

一种迭代法,对于二次凸优化问题,最多n步收敛。可用于训练线性模型或作为神经网络优化器的子过程。

要求A对称正定。

矩阵A的条件数, 问题维度n

依赖矩阵-向量乘法和向量运算。

通常不直接用于深度神经网络训练,但可用于求解线性系统或子问题。

求解一个已知解的线性系统,验证误差收敛。

数值线性代数、优化

CPU/内存: 主要开销是矩阵-向量乘法, 内存存储A(如果稀疏可优化)。

DW-FN-529

优化算法

拉格朗日乘子法

将有约束优化问题min f(x) s.t. g_i(x)=0, h_j(x)≤0转化为拉格朗日函数L(x, λ, μ) = f(x) + Σ λ_i g_i(x) + Σ μ_j h_j(x),其中λ_i, μ_j≥0为拉格朗日乘子。KKT条件给出最优解必要条件。

输入: 目标函数f, 等式约束g_i, 不等式约束h_j
输出: 原问题的最优解x*和乘子λ*, μ*

f, g_i, h_j: 函数
λ, μ: 拉格朗日乘子
KKT条件

将约束问题转化为无约束问题求解。是支持向量机、对偶问题等的基础。

要求约束满足一定正则性条件(如Slater条件)。

约束的数量和形式

依赖求解KKT条件(可能非线性方程组)。

是优化理论的基础工具。实际中常使用对偶方法或内点法。

构造简单的带约束优化问题,验证解满足KKT条件。

凸优化、对偶理论

计算复杂度: 取决于具体求解方法(如求解KKT系统)。

DW-FN-530

优化算法

序列最小优化

用于训练SVM。将大的QP问题分解为一系列小的QP子问题。每次选择两个拉格朗日乘子α_i, α_j,固定其他,解析求解这两个变量的优化问题。

输入: 训练数据(x_i, y_i), 正则化参数C, 核函数
输出: SVM模型参数(支持向量,α, b)

x_i, y_i: 样本和标签
C: 惩罚参数
α: 拉格朗日乘子

高效,因为子问题有解析解。是LIBSVM等库的核心算法。

适用于二分类SVM。

样本数n, 核函数计算开销

依赖核函数计算和解析更新公式。

需要启发式选择工作集(两个乘子)以加速收敛。

在标准分类数据集上训练SVM,验证分类准确率。

支持向量机、凸优化

CPU: 通常比通用QP求解器快, 但仍是O(n²)到O(n³)量级。

DW-FN-531

优化算法

期望最大化

用于含有隐变量Z的概率模型参数估计。E步:基于当前参数θ^t计算隐变量的后验分布P(Z\|X,θ^t)。M步:最大化完全数据对数似然的期望Q(θ,θ^t)=E_{Z\|X,θ^t}[log P(X,Z\|θ)],得到新参数θ^{t+1}

输入: 观测数据X, 隐变量Z, 模型参数θ
输出: 参数估计θ*, 隐变量后验

X: 观测数据
Z: 隐变量
θ: 模型参数
Q函数: 期望完全数据对数似然

迭代算法,保证每次迭代似然函数不降。用于高斯混合模型、HMM、主题模型等。

可能收敛到局部最优,对初始值敏感。

隐变量结构, 模型复杂度

依赖E步的后验计算和M步的优化。

是无监督学习的重要算法。

在已知真实参数的人工生成数据上运行EM,验证参数估计的准确性。

统计计算、概率图模型

CPU: 迭代算法, 每轮E步和M步的计算开销取决于模型。

DW-FN-532

优化算法

遗传算法

模拟自然选择。1. 初始化种群(一组候选解)。2. 评估适应度。3. 选择:根据适应度选择父代。4. 交叉:父代交换部分基因产生子代。5. 变异:子代基因随机变化。6. 重复2-5直到满足停止条件。

输入: 适应度函数f, 种群大小N, 交叉概率p_c, 变异概率p_m
输出: 找到的最优解或近似最优解

种群P(个体集合)
适应度函数f
p_c, p_m: 交叉和变异概率

全局优化算法,适用于离散、连续、组合优化问题。不依赖梯度,可处理非凸、不可微问题。

参数(N, p_c, p_m)需要调优。收敛速度慢。

问题维度, 种群大小N, 遗传操作设计

依赖适应度评估和遗传操作。

适用于解空间大、缺乏好的启发式规则的优化问题。

在经典测试函数(如Rastrigin函数)上测试寻优能力。

进化计算、全局优化

CPU: 高, 需要评估大量个体, 迭代多代。

DW-FN-533

优化算法

粒子群优化

模拟鸟群觅食。每个粒子i有位置x_i和速度v_i。更新:v_i^{t+1} = w v_i^t + c1 r1 (pbest_i - x_i^t) + c2 r2 (gbest - x_i^t)x_i^{t+1} = x_i^t + v_i^{t+1}。其中pbest_i是粒子历史最优,gbest是全局最优。

输入: 适应度函数f, 粒子数N, 惯性权重w, 加速常数c1, c2
输出: 找到的最优解gbest

粒子群{x_i, v_i}
f: 适应度函数
w, c1, c2: 参数
r1, r2: 随机数

无梯度全局优化。易于实现,收敛较快。但可能早熟收敛(陷入局部最优)。

参数设置对性能影响大。w通常0.4-0.9,c1,c2通常2左右。

问题维度, 粒子数N, 参数w, c1, c2

依赖适应度评估和速度/位置更新。

适用于连续优化问题。

在标准测试函数上比较不同参数设置下的收敛性能。

群体智能、优化

CPU: 中高, 每轮评估N个个体的适应度。

DW-FN-534

优化算法

模拟退火

模拟固体退火过程。从高温开始,随着温度下降,在解空间中随机搜索,以一定概率(Metropolis准则)接受劣解,从而跳出局部最优。

输入: 目标函数f(最小化), 初始温度T0, 冷却计划, 马尔可夫链长度
输出: 找到的(近似)最优解

当前解s
温度T
冷却计划: T的下降策略
接受概率: P = exp(-ΔE / T), ΔE为新解与当前解的目标函数差

全局优化算法,理论上能以概率1收敛到全局最优(如果冷却足够慢)。

冷却计划(退火策略)是关键。

初始温度, 冷却速率, 迭代次数

依赖目标函数评估和随机邻域搜索。

可用于组合优化(如旅行商问题)和连续优化。

在TSP等组合优化问题上测试,与已知最优解比较。

随机优化、蒙特卡洛方法

CPU: 高, 需要大量迭代和随机搜索。

DW-FN-535

优化算法

蚁群算法

模拟蚂蚁觅食路径选择。蚂蚁在路径上释放信息素。路径越短,信息素浓度越高,后续蚂蚁选择该路径的概率越大。正反馈最终找到最优路径。

输入: 图G=(V,E), 距离/成本矩阵, 蚂蚁数量m, 信息素挥发率ρ
输出: 找到的最优路径(如TSP的解)

信息素矩阵τ
启发式信息η(如1/距离)
α, β: 信息素和启发式因子的权重
ρ: 挥发率

适用于组合优化路径问题,如TSP, 车辆路径问题。

参数α, β, ρ等需要调优。

问题规模(节点数), 蚂蚁数量m

依赖图上的路径构建和信息素更新。

是元启发式算法,对离散优化问题有效。

在TSPLIB标准问题上测试,比较与最优解的差距。

群体智能、组合优化

CPU: 高, 每轮需要m只蚂蚁构建完整路径并更新信息素。

DW-FN-536

优化算法

贝叶斯优化

用高斯过程(GP)代理模型建模目标函数f(x)。基于代理模型和采集函数(如EI, UCB)选择下一个评估点x_{t+1}。评估f(x_{t+1})并更新GP模型。迭代进行。

输入: 黑盒目标函数f(评估代价高), 定义域X, 初始采样点
输出: 找到的最优解x*

代理模型(如GP)
采集函数a(x)
观测数据D={x_i, f(x_i)}

用于超参数优化等黑盒函数优化问题。以较少的评估次数找到较优解。

适用于低维(<20维)连续优化,评估代价高的场景。

定义域维度d, 观测数据量

依赖高斯过程推断和采集函数优化。

是自动化超参数调优(如AutoML)的核心组件。

在测试函数(如Branin)上运行,比较评估次数和找到的最优值。

贝叶斯优化、全局优化

CPU: 中高, GP推断复杂度O(n³), n为观测点数, 随迭代增加。

DW-FN-537

图计算

深度优先搜索

递归或栈实现。从起点s开始,访问其未访问的邻居v,并递归调用DFS(v)。标记已访问节点防止重复。

输入: 图G=(V,E), 起点s
输出: DFS遍历序, 或生成DFS树/森林

G: 图(邻接表/矩阵)
s: 起点
visited: 访问标记数组

用于图的遍历、拓扑排序、寻找连通分量、检测环等。

图可以是无向或有向。

图的规模|V|, |E|

依赖递归栈或显式栈。

可生成深度优先森林,包括树边、后向边、前向边、横跨边。

对小图手动模拟DFS,验证遍历顺序。

图论、算法

CPU/内存: 时间O(|V|+|E|), 递归栈深度可达|V|。

DW-FN-538

图计算

最小生成树

Prim算法:从任意点开始,每次添加连接树与非树节点的最小权重边,直到所有点加入。Kruskal算法:按边权重排序,依次添加不形成环的边,直到有|V|-1条边。

输入: 加权无向连通图G=(V,E,w)
输出: 最小生成树T(边集)

G: 图, 边带权
T: 最小生成树边集
优先队列(Prim)或并查集(Kruskal)

用于网络设计、聚类等。Prim时间复杂度O(|E|log |V|)(二叉堆),Kruskal O(|E|log |E|)。

要求图连通。

顶点数|V|, 边数|E|

Prim依赖优先队列,Kruskal依赖排序和并查集。

两种算法都得到相同总权重的MST(如果边权不同)。

对已知MST的小图运行算法验证。

图论、贪心算法

CPU: Prim O(|E|log |V|), Kruskal O(|E|log |E|)。

DW-FN-539

图计算

最大流/最小割

Ford-Fulkerson方法:在残留网络中寻找增广路,更新流量,直到无增广路。Edmonds-Karp:用BFS找最短增广路,复杂度O(|V||E|²)。Dinic:分层网络+阻塞流,O(|V|² |E|)。

输入: 流网络G=(V,E,s,t,c), 源s, 汇t, 容量c
输出: 最大流值及流分配

G: 有向图, 边有容量
s, t: 源和汇
f: 流函数
残留网络G_f

最大流等于最小割。用于交通、网络流量、匹配等问题。

容量为非负实数。

顶点数|V|, 边数|E|, 最大容量

依赖增广路搜索和流量更新。

有多种高效实现(如Dinic, Push-Relabel)。

对小网络手动计算最大流,验证算法结果。

图论、组合优化

CPU: 依赖于算法, 最坏O(|V|³) 或 O(|V|² |E|)。

DW-FN-540

图计算

二分图匹配

匈牙利算法(用于最大匹配):通过增广路扩大匹配。Hopcroft-Karp:每次找多条最短增广路,复杂度O(√{|V|} |E|)。

输入: 二分图G=(U∪V, E)
输出: 最大匹配M(边集)

G: 二分图
M: 匹配(边集, 无公共顶点)
matched: 记录匹配关系

将问题转化为最大流(添加源汇,边容量为1)。用于任务分配、稳定婚姻等。

二分图的两部分顶点集U和V。

|U|, |V|, |E|

依赖增广路搜索或最大流算法。

匈牙利算法适用于稠密图,Hopcroft-Karp适用于稀疏图。

构造已知最大匹配的小图进行验证。

组合优化、图论

CPU: 匈牙利O(|V|³), Hopcroft-Karp O(√{|V|} |E|)。

DW-FN-541

图计算

拓扑排序

对有向无环图(DAG)的顶点进行排序,使得对每条有向边(u,v)u在排序中位于v之前。算法:1. 计算每个点的入度。2. 入度为0的点入队。3. 出队顶点u,输出,将其邻居入度减1,若减为0则入队。

输入: 有向无环图G=(V,E)
输出: 顶点的拓扑序列

G: DAG
in_degree: 顶点入度数组
队列Q

用于任务调度、依赖解析(如编译顺序)。若有环则无法完成拓扑排序。

图必须是无环的。

顶点数|V|, 边数|E|

依赖入度计算和队列操作。

可检测图中是否有环(若输出的顶点数<|V|,则有环)。

对已知DAG手动排序验证。

图论、调度

CPU: O(|V|+|E|)。

DW-FN-542

图计算

强连通分量

Kosaraju算法:1. DFS遍历图,记录完成时间。2. 计算图的转置G^T。3. 按完成时间降序对G^T做DFS,每棵DFS树是一个SCC。Tarjan算法:一次DFS,利用lowlink值。

输入: 有向图G=(V,E)
输出: 强连通分量划分

G: 有向图
SCC_id: 每个顶点所属的SCC编号

将有向图分解为强连通分量,每个分量内任意两点可达。用于编译器分析、社交网络。

适用于任意有向图。

|V|, |E|

依赖DFS和栈操作。

Kosaraju需两次DFS,Tarjan一次但实现稍复杂。

对小图手动找出SCC,验证算法结果。

图论、算法

CPU: 两种算法都是O(|V|+|E|)。

DW-FN-543

图计算

特征向量中心性

一个节点的重要性与其邻居的重要性之和成正比。即满足Ax = λx,其中A是邻接矩阵,x是特征向量中心性值,λ是最大特征值。

输入: 图G的邻接矩阵A
输出: 每个节点的特征向量中心性值x_i

A: 邻接矩阵
x: 特征向量(主特征向量)
λ: 主特征值

用于衡量节点在网络中的影响力。是PageRank的基础。

要求图是强连通的(或最大特征值唯一)。

图规模, 邻接矩阵的谱

依赖幂迭代法求主特征向量。

可用来识别网络中的关键人物。

计算小型网络的特征向量中心性,验证重要节点符合直觉。

网络分析、线性代数

CPU: 幂迭代法, 每次迭代O(|V|²)(稠密)或O(|E|)(稀疏)。

DW-FN-544

图计算

标签传播算法

初始化每个节点一个唯一标签。迭代:每个节点将其标签更新为其邻居中出现最多的标签。收敛后,具有相同标签的节点属于同一社区。

输入: 图G=(V,E)
输出: 社区划分(节点到社区的映射)

G: 图(通常无向)
label: 每个节点的标签

简单、快速,适用于大规模图。但结果可能不稳定,且对初始化敏感。

常用于社区发现。

顶点数|V|, 边数|E|, 图的模块性

依赖邻居标签统计。

是一种半监督学习算法(也可用于节点分类)。

在已知社区结构的人工网络上运行,评估社区发现质量(如NMI)。

社区发现、半监督学习

CPU: 接近线性O(|E|)。

DW-FN-545

图计算

图神经网络

消息传递框架:每个节点聚合其邻居的消息,并更新自身表示。第l层:h_u^{(l)} = UPDATE^{(l)}(h_u^{(l-1)}, AGGREGATE^{(l)}({h_v^{(l-1)}, ∀v∈N(u)}))

输入: 图G(节点特征X, 边列表), GNN层数L
输出: 节点表示H^{(L)}或 图表示

X: 节点特征矩阵
E: 边列表
W^{(l)}: 第l层参数
h_u^{(l)}: 节点u在第l层的表示

将深度学习应用于图结构数据。可用于节点分类、链接预测、图分类等任务。

层数L不宜过深(过平滑问题)。

图规模, 节点特征维度, 层数L

依赖消息传递和神经网络参数优化。

代表模型:GCN, GraphSAGE, GAT。需要大量标注数据。

在标准图数据集(如Cora, PubMed)上进行节点分类实验。

深度学习、图表示学习

GPU/CPU: 训练高, 需要存储中间激活和梯度。 推理可分批进行。

DW-FN-546

图计算

图注意力网络

在GNN中引入注意力机制。节点u对其邻居v的注意力系数:α_{uv} = softmax_v(LeakyReLU(a^T [W h_u \| W h_v]))。聚合时使用注意力加权和。

输入: 同GNN, 加注意力头数K
输出: 节点表示

X, E: 同前
a: 注意力机制的可学习参数
K: 多头注意力头数

允许节点对不同邻居分配不同的重要性。可缓解邻居噪声,提高模型表达力。

多头注意力(如K=8)可稳定训练。

同GNN, 加注意力头数K

依赖注意力计算和GNN框架。

是GNN的重要变体。

可视化学习到的注意力权重,检查是否合理。

注意力机制、图神经网络

GPU/CPU: 比普通GCN稍高, 因为要计算注意力系数。

DW-FN-547

自然语言处理

词嵌入

Word2Vec: Skip-gram目标:最大化log P(w_{t+j} \| w_t),其中P(w_o\|w_i) = exp(u_o^T v_i) / Σ_{w} exp(u_w^T v_i)。负采样简化。GloVe: 基于共现矩阵的加权最小二乘目标。

输入: 大量文本语料
输出: 每个词的d维向量表示

语料库
词汇表V
词向量矩阵W(

V

×d)

将词语映射到连续向量空间,语义相似的词向量接近。是NLP的基础组件。

向量维度d通常50-300。

词汇量|V|, 语料规模, 窗口大小

依赖大规模语料训练(无监督)。

预训练词向量可作为下游任务的输入特征。

评估词向量的类比任务(如 king - man + woman = queen)和相似度任务。

DW-FN-548

自然语言处理

序列到序列模型

编码器(如RNN)将输入序列(x1,...,x_n)编码为上下文向量c。解码器(如RNN)基于c和之前生成的输出,生成输出序列(y1,...,y_m)

输入: 源语言序列X
输出: 目标语言序列Y

X: 输入序列(词索引)
Y: 输出序列
c: 上下文向量
编码器/解码器RNN参数

用于机器翻译、文本摘要、对话系统等。是神经机器翻译的基石。

输入输出序列长度可变。

序列长度, 词汇表大小, RNN隐藏层大小

依赖编码器-解码器框架和注意力机制。

通常与注意力机制结合,解决长序列信息压缩问题。

在机器翻译数据集上评估BLEU分数。

机器翻译、序列生成

GPU/CPU: 训练高, 序列生成需自回归, 速度较慢。

DW-FN-549

自然语言处理

注意力机制

在Seq2Seq中,解码时每一步关注输入序列的不同部分。注意力分数e_{ti} = a(s_{t-1}, h_i),权重α_{ti}=softmax(e_{ti}),上下文c_t=Σ_i α_{ti} h_i。其中h_i是编码器隐藏状态。

输入: 编码器隐藏状态h_i, 解码器上一状态s_{t-1}
输出: 上下文向量c_t, 注意力权重α_{ti}

h_i: 编码器第i步的隐藏状态
s_{t-1}: 解码器上一状态
a: 对齐模型(如MLP)

解决信息瓶颈,允许模型关注输入的相关部分。极大提升长序列处理能力。

注意力函数有多种:加性、点积、缩放点积等。

输入序列长度n, 隐藏层维度

依赖对齐模型计算和softmax。

是Transformer的核心组件。

可视化注意力权重,观察对齐是否合理(如翻译中对齐词)。

注意力机制、神经机器翻译

计算开销: 计算所有对的注意力分数O(n m), n,m为序列长度。

DW-FN-550

自然语言处理

Transformer 模型

基于自注意力机制,完全摒弃RNN/CNN。编码器:多头自注意力 + 前馈网络,层归一化和残差连接。解码器:带掩码的多头自注意力 + 编码器-解码器注意力 + 前馈网络。

输入: 序列的嵌入向量 + 位置编码
输出: 序列的表示或生成序列

输入嵌入X
位置编码PE
多头注意力参数
前馈网络参数

并行度高,训练快,可捕捉长距离依赖。是BERT、GPT等预训练模型的基础。

模型规模大(数亿到数千亿参数)。

序列长度, 模型深度, 隐藏层维度, 注意力头数

依赖自注意力计算和深度神经网络训练。

需要大量数据和计算资源训练。

在GLUE等NLP基准测试上评估性能。

深度学习、自然语言处理

GPU内存: 极高, 注意力矩阵O(n² d) 占用大量显存, 限制序列长度。

DW-FN-551

自然语言处理

BERT 模型

基于Transformer编码器的双向预训练模型。预训练任务:1. 掩码语言模型(随机掩码15%的token,预测被掩码的词)。2. 下一句预测(判断两个句子是否连续)。

输入: 文本序列(可包含两个句子)
输出: 每个token的上下文表示, 以及[CLS]位置的句子表示

文本token序列
掩码位置
BERT模型参数(Transformer编码器)

生成上下文相关的词向量。通过微调可用于各种下游任务(分类、问答、NER等)。

常用版本:BERT-base (110M参数), BERT-large (340M参数)。

序列最大长度(如512), 模型规模

依赖Transformer编码器和预训练任务。

需要大规模语料(如Wikipedia)预训练。微调数据需求相对少。

在GLUE、SQuAD等基准上微调并评估。

预训练语言模型、自然语言理解

GPU内存: 大, 需要大显存加载模型和计算注意力。

DW-FN-552

自然语言处理

GPT 模型

基于Transformer解码器的自回归语言模型。预训练任务:给定前文,预测下一个词。通过生成式预训练,模型学会语言生成和推理。

输入: 文本序列
输出: 下一个词的概率分布, 或生成的后续文本

文本token序列
GPT模型参数(Transformer解码器, 带掩码自注意力)

擅长文本生成。通过提示(prompt)和少量示例(few-shot)可完成各种任务。

模型规模巨大(GPT-3 1750亿参数)。

序列长度, 模型规模, 上下文窗口

依赖自回归生成和Transformer解码器。

需要海量文本和巨大算力训练。可通过API调用使用。

评估生成文本的流畅性、相关性,以及在下游任务上的few-shot性能。

预训练语言模型、自然语言生成

GPU内存/计算: 极大, 训练和推理成本极高。

DW-FN-553

自然语言处理

文本分类

将文本分为预定义类别。模型:1. 词袋+分类器。2. TextCNN:用多个卷积核提取n-gram特征。3. TextRNN:用RNN编码整个文本。4. 基于BERT的微调。

输入: 文本字符串text
输出: 类别标签y

text: 输入文本
文本表示(如词向量、句向量)
分类器(如softmax)

常见任务:情感分析、主题分类、垃圾邮件检测等。

类别数从二分类到多分类。

文本长度, 类别数, 训练数据量

依赖文本表示模型和分类器。

需要标注数据。预训练模型大幅提升小数据性能。

划分训练/测试集,评估准确率、F1-score等。

自然语言处理、分类

计算开销: 取决于模型, BERT微调开销大, 简单模型快。

DW-FN-554

自然语言处理

命名实体识别

识别文本中属于特定类别的实体(如人名、地名、组织机构名、时间、金额等)。通常建模为序列标注问题(如BIO标注)。模型:BiLSTM-CRF, BERT+CRF。

输入: 文本序列tokens
输出: 每个token的实体标签序列labels

tokens: 分词后的序列
labels: BIO或BIOES标签序列
模型(如BiLSTM, CRF层)

是信息提取的基础步骤。

实体类别定义需明确。

文本长度, 实体类别数

依赖序列标注模型和标签解码。

需要标注的实体边界和类别数据。

评估精确率、召回率、F1(基于实体级别,而非token)。

信息提取、序列标注

GPU/CPU: 序列标注模型训练和推理开销中等。

DW-FN-555

自然语言处理

关系抽取

从文本中抽取实体之间的语义关系(如“出生于”)。方法:1. 有监督:建模为分类问题,输入包含两个实体的句子,预测关系。2. 远程监督:利用知识库自动标注。3. 开放关系抽取。

输入: 文本句子sentence, 已标记的实体对(e1, e2)
输出: 关系类型r(e1, r, e2)三元组

sentence: 包含实体的句子
e1, e2: 实体提及
r: 关系类型

用于构建知识图谱、问答系统等。

关系类型通常是预定义的封闭集,也可以是开放域。

句子长度, 关系类型数量

依赖句子编码和关系分类器。

需要标注的关系实例数据。远程监督有噪声。

评估抽取的三元组的准确率、召回率。

信息提取、知识图谱

计算开销: 类似句子分类。

DW-FN-556

自然语言处理

情感分析

分析文本所表达的情感倾向(正面/负面/中性,或更细的维度如喜悦、愤怒等)。可视为文本分类任务。

输入: 文本text
输出: 情感标签或强度分数

text: 输入文本(如评论、推文)
情感词典(基于规则方法)
分类模型(基于机器学习)

用于产品评论分析、舆情监控、社交媒体分析等。

二分类或多分类,有时是回归(预测情感强度)。

文本长度, 情感细分程度

依赖文本表示和情感分类模型。

有大量公开数据集(如IMDb影评)。

在标准数据集上评估准确率等。

情感计算、意见挖掘

同文本分类。

DW-FN-557

自然语言处理

文本摘要

抽取式摘要:从原文中选择重要的句子组成摘要。生成式摘要:生成新的句子概括原文。模型:Seq2Seq with attention, Pointer-Generator, BART, T5。

输入: 长文本document
输出: 简短摘要summary

document: 原文(较长)
summary: 摘要(较短)
模型(如Seq2Seq, Transformer)

帮助快速理解长文档内容。

摘要长度通常有比例或绝对限制。

原文长度, 摘要长度

依赖句子重要性评估(抽取式)或序列生成模型(生成式)。

需要原文-摘要对作为训练数据。生成式摘要更灵活但可能不忠实。

评估ROUGE分数(与参考摘要的重叠度),以及人工评价流畅性和忠实性。

文本生成、摘要

GPU/CPU: 生成式摘要训练和生成开销大, 特别是长文档。

DW-FN-558

自然语言处理

机器翻译

将一种语言的文本自动翻译为另一种语言。主流为神经机器翻译(NMT),基于Seq2Seq with attention 或 Transformer。

输入: 源语言文本source_text
输出: 目标语言文本target_text

source_text: 源语言句子
target_text: 目标语言句子
NMT模型(如Transformer)

是NLP最早的成功应用之一。

需要大规模平行语料(双语对照文本)。

句子长度, 语言对, 词汇表大小

依赖大规模平行语料和NMT模型训练。

商用系统需要处理领域、术语、低资源语言等问题。

评估BLEU分数(与参考翻译的n-gram重叠度)。

机器翻译、序列到序列学习

GPU/计算: 训练需要大量计算和语料, 推理需高效解码。

DW-FN-559

自然语言处理

问答系统

开放域QA:从大规模文档集合中寻找答案。机器阅读理解:给定文章和问题,从文章中找出答案片段。模型:BiDAF, BERT for QA, 生成式QA。

输入: 问题question, 上下文context(可选)
输出: 答案answer

question: 问题文本
context: 相关文章(阅读理解)
answer: 答案文本或片段

用于智能助理、搜索引擎、客服机器人等。

答案可以是抽取式(片段)或生成式。

问题复杂度, 文章长度

依赖阅读理解模型或检索-阅读流水线。

需要QA对数据集(如SQuAD)。

评估精确匹配(EM)和F1分数(对答案片段)。

问答、信息检索

计算开销: 阅读理解模型类似分类/序列标注, 开放域需加检索步骤。

DW-FN-560

自然语言处理

文本相似度计算

计算两段文本之间的语义相似度。方法:1. 表面特征(如Jaccard, 编辑距离)。2. 词向量平均+余弦相似度。3. 句子编码器(如BERT的[CLS]向量)的余弦相似度。4. 基于交互的模型(如ESIM)。

输入: 两段文本text1, text2
输出: 相似度分数score∈ [0,1] 或 距离

text1, text2: 输入文本
文本表示向量u, v
相似度函数(余弦、点积、曼哈顿等)

用于重复问题检测、检索、聚类等。

相似度度量应与任务相关。

文本长度, 语义相似性定义

依赖文本表示模型和相似度计算。

有监督方法需要标注的相似度分数或标签。

在STS基准测试上评估与人工评价的相关性(如皮尔逊相关系数)。

语义相似度、信息检索

计算开销: 取决于文本表示模型, BERT计算开销大。

DW-FN-561

自然语言处理

主题模型

LDA:假设文档由多个主题混合生成,每个主题是词汇表上的概率分布。生成过程:1. 对每个文档,从狄利克雷分布采样主题分布θ。2. 对文档中每个词,从θ采样一个主题z,然后从主题z的多项式分布采样词w。

输入: 文档集合documents, 主题数K
输出: 每个文档的主题分布θ, 每个主题的词分布φ

documents: 文档集(词袋表示)
K: 预设主题数
θ: 文档-主题分布
φ: 主题-词分布

无监督发现文档集合中的潜在主题。用于文本挖掘、降维、特征提取。

K需预先指定。可通过困惑度或主题一致性选择K。

文档数量, 词汇表大小, 主题数K

依赖吉布斯采样或变分推断求解。

结果可解释性好。但假设词袋,忽略词序和语义。

检查高频主题词是否具有连贯语义,计算困惑度。

主题模型、无监督学习

CPU: 高, 推断需要迭代采样或优化。

DW-FN-562

计算机视觉

图像分类

将图像分为预定义类别。经典模型:AlexNet, VGG, GoogLeNet, ResNet, EfficientNet等。基于卷积神经网络(CNN)。

输入: 图像image(H×W×C)
输出: 类别标签y或 类别概率分布p

image: 输入图像(通常缩放为固定大小)
CNN模型参数
全连接分类器

是计算机视觉的基础任务。

输入图像通常为224×224×3(RGB)。

图像分辨率, 类别数, 模型深度

依赖卷积神经网络和大量标注图像数据。

需要大规模数据集(如ImageNet)训练。预训练模型可迁移。

在测试集上评估Top-1和Top-5准确率。

计算机视觉、深度学习

GPU: 训练极高, 推理中高(取决于模型复杂度)。

DW-FN-563

计算机视觉

目标检测

检测图像中物体的位置(边界框)和类别。两阶段:R-CNN系列(候选区域+分类)。一阶段:YOLO, SSD, RetinaNet(将检测视为回归/分类问题)。

输入: 图像image
输出: 一组边界框bboxes和类别标签labels, 及置信度scores

image: 输入图像
bboxes: (x, y, w, h) 或 (x1, y1, x2, y2)
labels: 物体类别

用于自动驾驶、视频监控、图像理解等。

需要标注边界框和类别。

图像大小, 物体数量, 类别数

依赖CNN特征提取和检测头。

实时检测要求速度快(如YOLO)。

评估平均精度(mAP), 在不同IoU阈值下计算。

目标检测、计算机视觉

GPU: 训练和推理开销大, 尤其两阶段方法。

DW-FN-564

计算机视觉

语义分割

对图像的每个像素进行分类,确定其所属的物体类别。模型:FCN, U-Net, DeepLab, PSPNet等。输出与输入同分辨率的类别图。

输入: 图像image
输出: 分割掩码mask(H×W), 每个像素为类别ID

image: 输入图像
mask: 像素级类别标签
分割网络(编码器-解码器结构)

用于医学图像分析、自动驾驶场景理解等。

需要像素级标注,成本高。

图像分辨率, 类别数

依赖全卷积网络和上采样技术。

编码器通常使用预训练的CNN(如ResNet)。

评估平均交并比(mIoU),像素准确率。

语义分割、计算机视觉

GPU内存: 高, 需要处理高分辨率特征图。

DW-FN-565

计算机视觉

实例分割

在语义分割的基础上,区分同一类别的不同实例。模型:Mask R-CNN(在Faster R-CNN基础上增加掩码头),YOLACT, SOLO等。

输入: 图像image
输出: 每个实例的掩码masks和类别labels

image: 输入图像
masks: 每个实例的二进制掩码
labels: 实例类别

比目标检测提供更精确的物体轮廓。用于机器人抓取、视频编辑等。

标注成本极高(像素级实例标签)。

图像中实例数量, 类别数

依赖检测和分割双分支。

Mask R-CNN是经典方法。

评估平均精度(AP)基于掩码IoU。

实例分割、计算机视觉

GPU: 比目标检测和语义分割更耗资源。

DW-FN-566

计算机视觉

图像生成

生成新的图像。GAN:生成器G和判别器D博弈训练。VAE:学习数据的隐变量分布,从分布中采样生成。扩散模型:通过逐步去噪生成图像。

输入: 随机噪声z或 条件c(可选)
输出: 生成的图像x_gen

z: 潜在噪声向量
生成器G的参数
判别器D的参数(GAN)

用于数据增强、艺术创作、图像编辑等。

生成图像的质量和多样性是核心指标。

图像分辨率, 模型复杂度

依赖生成对抗训练或变分推断。

训练不稳定(尤其是GAN),需要技巧。

评估生成图像的视觉质量,使用IS(Inception Score)、FID(Frechet Inception Distance)等指标。

生成模型、计算机视觉

GPU: 极高, 尤其生成高分辨率图像需要大模型和长时训练。

DW-FN-567

计算机视觉

图像风格迁移

将一幅图像的内容与另一幅图像的风格结合,生成新图像。经典方法:Gatys等使用预训练VGG网络提取内容和风格特征,通过优化生成图像的特征匹配。快速风格迁移:训练一个前馈网络。

输入: 内容图像content_img, 风格图像style_img
输出: 生成图像output_img

content_img, style_img: 输入图像
内容层和风格层(如VGG的某些层)
损失权重α, β

用于艺术滤镜、创意设计。

内容与风格的权衡由损失权重控制。

图像大小, 风格强度

依赖预训练CNN特征提取和优化。

实时风格迁移需要训练好的前馈网络。

主观评价生成图像的质量和风格化程度。

风格迁移、计算机视觉

GPU: 优化方法每次生成需迭代, 前馈网络一次前向传播。

DW-FN-568

计算机视觉

图像超分辨率

将低分辨率图像重建为高分辨率图像。方法:基于插值(双线性、双三次)、基于学习(SRCNN, SRGAN, ESRGAN)。

输入: 低分辨率图像LR_img
输出: 高分辨率图像HR_img

LR_img: 输入低清图
HR_img: 输出高清图
超分辨率网络(如EDSR, RDN)

用于图像修复、监控、医疗成像等。

缩放倍数(如2x, 4x, 8x)。

输入分辨率, 放大倍数

依赖CNN学习从LR到HR的映射。

需要成对的LR-HR图像训练。感知损失可提高视觉质量。

评估PSNR(峰值信噪比)、SSIM(结构相似性),以及感知质量(如LPIPS)。

超分辨率、图像恢复

GPU: 训练高, 推理中(取决于模型大小和分辨率)。

DW-FN-569

计算机视觉

人脸识别

人脸验证:判断两张人脸是否属于同一人。人脸识别:从数据库中找到与查询人脸匹配的身份。模型:DeepFace, FaceNet, ArcFace。使用度量学习(如三元组损失、中心损失)。

输入: 人脸图像face_img
输出: 人脸特征向量embedding或 身份ID

face_img: 对齐后的人脸图像
人脸识别网络(如ResNet变体)
度量学习损失

用于身份认证、安防、相册管理等。

需要人脸检测和对齐作为预处理。

人脸图像质量, 姿态、光照、表情变化

依赖大规模人脸数据集和深度度量学习。

涉及隐私和伦理问题。

在LFW、MegaFace等基准上评估验证准确率或识别率。

人脸识别、生物识别

GPU: 训练需要大量人脸数据, 推理提取特征速度快。

DW-FN-570

计算机视觉

图像相似度计算

计算两幅图像在视觉内容上的相似度。方法:1. 传统特征(SIFT, SURF)匹配。2. 深度特征(如从预训练CNN中提取的特征)的余弦相似度。

输入: 两幅图像img1, img2
输出: 相似度分数score

img1, img2: 输入图像
特征提取器(如CNN)
特征向量f1, f2
距离度量(余弦、欧氏)

用于图像检索、版权保护、重复图片检测等。

相似度定义取决于任务(如实例级、类别级)。

图像内容复杂度

依赖特征提取模型。

深度特征通常比传统特征更鲁棒。

在图像检索数据集上评估检索精度(mAP)。

图像检索、计算机视觉

GPU/CPU: 特征提取开销(一次前向传播), 相似度计算快。

DW-FN-571

计算机视觉

光学字符识别

将图像中的文字区域检测并识别为文本。流程:1. 文本检测(定位文字区域)。2. 文本识别(将区域图像转为文本)。模型:CTPN, EAST用于检测;CRNN, Attention OCR用于识别。端到端:FOTS, Mask TextSpotter。

输入: 包含文本的图像image
输出: 识别的文本字符串text

image: 输入图像
文本检测框
文本识别模型(如CRNN)

用于文档数字化、车牌识别、场景文本理解等。

支持多种语言、字体、背景复杂。

图像中文本长度、字体、方向、语言

依赖文本检测和识别模型。

需要大量标注文本行图像数据。

评估字符准确率、单词准确率、端到端识别准确率。

OCR、文档分析

GPU: 检测和识别模型可分别或联合训练, 开销中等。

DW-FN-572

语音处理

语音识别

将语音信号转换为文本。传统:GMM-HMM。现代:端到端深度学习,如DeepSpeech(基于RNN+CTC), Listen, Attend and Spell(基于注意力), Transformer, Conformer。

输入: 语音波形或频谱特征audio
输出: 转录文本text

audio: 语音信号(可能转为频谱图)
声学模型、语言模型(可选)
解码器

用于语音助手、字幕生成、语音搜索等。

需要处理不同口音、噪声、语速、方言等。

音频长度, 词汇表大小, 任务复杂度

依赖声学模型和语言模型训练。

需要大量语音-文本配对数据。端到端简化流程。

评估词错误率(WER)。

语音识别、自动语音识别

GPU: 训练需要大量数据和计算, 推理可实时。

DW-FN-573

语音处理

语音合成

将文本转换为自然流畅的语音。参数合成:统计参数合成(HMM)。波形合成:WaveNet, WaveRNN, WaveGlow(生成原始波形)。端到端:Tacotron, Tacotron2(文本->频谱->波形)。

输入: 文本text
输出: 语音波形audio

text: 输入文本(可能经过前端文本分析)
声码器(vocoder)
声学模型(频谱预测)

用于语音助手、有声书、导航提示等。

追求自然度、表现力、实时性。

文本长度, 语音风格, 语言

依赖文本到声学特征预测和波形生成模型。

需要高质量的文本-语音对齐数据。神经声码器大幅提升质量。

主观MOS(平均意见分)评价自然度, 客观指标如MCD。

语音合成、文本到语音

GPU: 神经声码器(如WaveNet)生成波形慢, 需要优化(如WaveRNN, Parallel WaveNet)。

DW-FN-574

语音处理

说话人识别

说话人验证:判断两段语音是否来自同一说话人。说话人辨认:从注册说话人中识别出当前说话人。模型:基于i-vector, 或深度学习(x-vector, d-vector)。

输入: 语音audio
输出: 说话人嵌入向量embedding或 身份ID

audio: 语音片段
说话人特征提取网络(如TDNN)
损失函数(如softmax, angular softmax)

用于身份认证、个性化服务、犯罪侦查等。

需处理短语音、跨信道、噪声等问题。

语音长度, 说话人数量

依赖说话人特征提取和度量学习。

需要大量说话人数据训练。

评估等错误率(EER)、最小检测代价函数(minDCF)。

说话人识别、生物识别

GPU: 训练需要大量说话人数据, 提取嵌入向量开销中等。

DW-FN-575

语音处理

语音情感识别

识别语音中蕴含的情感状态(如高兴、悲伤、愤怒、中性等)。方法:提取声学特征(如韵律、音质、频谱),使用分类器(SVM, DNN, RNN)进行分类。

输入: 语音audio
输出: 情感类别emotion或 维度值(效价、唤醒度)

audio: 语音信号
声学特征(如MFCC, pitch, energy)
情感分类模型

用于客服质量监控、心理健康评估、人机交互等。

情感定义和标注具有主观性。

语音长度, 情感类别数

依赖声学特征提取和情感分类模型。

需要标注情感的数据集,但标注成本高且不一致。

在标准数据集上评估分类准确率。

情感计算、语音处理

CPU/GPU: 特征提取和分类开销中等。

DW-FN-576

语音处理

语音增强

从带噪语音中恢复纯净语音。方法:谱减法,维纳滤波,基于深度学习的映射(如DNN, CNN, RNN学习带噪到纯净的频谱映射),时域方法(如Wave-U-Net)。

输入: 带噪语音noisy_audio
输出: 增强后的语音enhanced_audio

noisy_audio: 输入带噪语音
增强模型(如SEGAN, Deep Feature Loss)

用于通信、助听器、语音识别前端处理。

需平衡噪声抑制和语音失真。

噪声类型和信噪比(SNR)

依赖噪声估计或深度学习模型。

需要成对的带噪-纯净语音数据训练。

评估客观指标:PESQ, STOI, SNR改善,以及主观听力测试。

语音增强、信号处理

GPU: 深度学习模型训练开销大, 推理可实时。

DW-FN-577

强化学习

Q学习

基于值函数。Q表存储状态-动作值Q(s,a)。更新:Q(s_t,a_t) ← Q(s_t,a_t) + α [r_{t+1} + γ max_a Q(s_{t+1},a) - Q(s_t,a_t)]

输入: 环境env, 学习率α, 折扣因子γ, 探索策略(如ε-greedy)
输出: 最优Q表, 策略π(s)=argmax_a Q(s,a)

s, a: 状态和动作
Q: Q值表
α: 学习率
γ: 折扣因子
r: 奖励

无模型,离策略。适用于离散状态和动作空间。

状态和动作空间需离散且较小,否则Q表太大。

状态空间大小|S|, 动作空间大小|A|

依赖与环境的交互和Q值迭代更新。

是强化学习的基础算法。

在简单环境(如FrozenLake)中训练,观察累积奖励收敛。

强化学习、动态规划

CPU/内存: 内存存储Q表O(|S||A|), 适用于小空间。

DW-FN-578

强化学习

深度Q网络

用深度神经网络近似Q函数:Q(s,a;θ)。目标:y = r + γ max_{a'} Q(s',a';θ^-)。损失:L(θ) = E[(y - Q(s,a;θ))²]。使用经验回放和固定目标网络。

输入: 环境env, DQN网络参数θ, 目标网络参数θ^-
输出: 训练好的Q网络, 策略

s, a, r, s': 转移样本
θ: 在线网络参数
θ^-: 目标网络参数(定期从θ复制)
经验回放缓冲区D

将Q学习扩展到高维状态空间(如图像)。是深度强化学习的里程碑。

需要大量交互数据,训练不稳定。

状态维度, 动作空间大小

依赖深度神经网络和Q学习更新。

需要技巧(如目标网络、经验回放)稳定训练。

在Atari游戏上训练,评估游戏得分。

深度强化学习、Q学习

GPU: 训练需要大量交互和神经网络训练, 样本效率低。

DW-FN-579

强化学习

策略梯度

直接优化参数化策略`π_θ(a

s)。目标:最大化期望回报J(θ)=E_π[Σ γ^t r_t]。梯度:θ J(θ) = E_π[∇θ log π_θ(a

s) Q^π(s,a)]`。使用蒙特卡洛采样估计。

输入: 环境env, 策略网络π_θ
输出: 最优策略参数θ*

π_θ: 参数化策略(如神经网络)
J(θ): 目标函数
τ: 轨迹样本

适用于连续动作空间。是策略优化方法的基础。

方差大,需要大量采样。

状态维度, 动作维度

依赖策略网络和蒙特卡洛采样。

经典算法REINFORCE(无基准线)。

在连续控制任务(如Pendulum)上训练。

DW-FN-580

强化学习

演员-评论家

结合值函数和策略梯度。演员(策略网络)选择动作,评论家(值函数网络V(s;w)Q(s,a;w))评估状态或动作值。更新演员:`∇θ J(θ) = E[∇θ log π_θ(a

s) A(s,a)],其中优势函数A(s,a)=Q(s,a)-V(s)`。

输入: 环境env, 演员网络π_θ, 评论家网络V_w
输出: 训练好的演员和评论家网络

π_θ: 策略网络
V_w: 值函数网络
A: 优势函数估计

减少策略梯度的方差,提高学习稳定性。是许多先进算法的基础。

需要同时训练两个网络,调参更复杂。

同策略梯度, 加值函数近似误差

依赖策略网络和值函数网络的联合训练。

代表算法:A2C, A3C(异步)。

在连续控制基准上比较性能。

演员-评论家、强化学习

DW-FN-581

强化学习

近端策略优化

优化目标:L(θ) = E_t [ min( r_t(θ) A_t, clip(r_t(θ), 1-ε, 1+ε) A_t ) ],其中`r_t(θ)=π_θ(a_t

s_t)/π_{θ_old}(a_t

s_t)`。约束策略更新幅度,提高训练稳定性。

输入: 环境env, 策略网络π_θ, 值函数网络V_w
输出: 训练好的策略网络

π_θ, V_w: 同演员-评论家
r_t(θ): 概率比
A_t: 优势函数估计
ε: 剪裁超参(如0.2)

易于实现,表现鲁棒,成为强化学习实践中的首选算法之一。

ε通常0.1~0.3。

同演员-评论家

依赖优势估计和 clipped surrogate objective。

是OpenAI的默认强化学习算法。

在MuJoCo连续控制任务上达到SOTA性能。

DW-FN-582

强化学习

深度确定性策略梯度

用于连续动作空间。演员网络输出确定性动作μ(s),评论家网络Q(s,a)。更新评论家:最小化TD误差。更新演员:`∇θ J(θ) = E[∇a Q(s,a)

{a=μ(s)} ∇θ μ(s)]`。使用目标网络和经验回放。

输入: 环境env, 演员μ_θ, 评论家Q_w, 目标网络
输出: 训练好的确定性策略

μ_θ: 确定性策略网络
Q_w: 动作-值函数网络
目标网络(演员和评论家)

将DQN扩展到连续动作空间。是深度强化学习处理连续控制的经典算法。

对超参数敏感,训练可能不稳定。

状态和动作维度

依赖确定性策略梯度和Q学习。

需要仔细调整超参数(如学习率、噪声)。

在连续控制任务(如MuJoCo)上训练。

深度强化学习、确定性策略梯度

DW-FN-583

强化学习

软演员-评论家

最大熵强化学习框架。优化目标:`J(π) = Σ_t E[(r(s_t,a_t) + α H(π(·

s_t))],其中H是熵,α`是温度参数。演员输出随机策略(如高斯分布)。

输入: 环境env, 策略网络π_θ(输出均值和方差), 两个Q网络Q_{w1}, Q_{w2}, 值网络V_ψ
输出: 训练好的随机策略

π_θ: 随机策略(如高斯)
Q_{w1}, Q_{w2}: 两个Q网络(缓解过估计)
V_ψ: 状态值网络
α: 温度参数

鼓励探索,提高鲁棒

编号

类型

函数/算法类型

函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表

参数类型和参数列表

参数/变量/常量/标量/张量/矩阵/集合列表

数学表达式/物理模型/计算机模型/通信模型/关联描述

典型值/范围 (管控目标)

核心关联参数

依赖关系

设计/软件开发/硬件制造/应用要求

测试/验证方法

关联学科/领域

资源需求

DW-FN-584

数据管理

数据清洗

检测和纠正(或移除)数据集中的不准确、不完整、不合理或重复的部分。包括:缺失值填充(均值、中位数、众数、插值、模型预测)、异常值处理(剔除、盖帽、替换)、格式标准化、重复记录删除等。

输入: 原始数据集D_raw, 清洗规则集rules
输出: 清洗后的数据集D_clean

D_raw: 包含错误/噪声的原始数据
rules: 针对不同数据质量问题的处理规则

数据预处理的关键步骤,为后续分析提供高质量数据。通常基于业务规则、统计方法或机器学习模型自动/半自动执行。

清洗的严格程度(如异常值处理的阈值)需根据业务容忍度调整。

数据错误的类型和比例, 业务容忍度

依赖数据质量检测规则和清洗操作(如插值、替换)。

清洗过程应可记录、可审计, 便于追踪数据变化。

比较清洗前后数据的统计分布, 或抽样进行人工验证。

数据质量、数据预处理

CPU/内存: 取决于数据量和清洗规则的复杂度, 从简单替换到复杂模型预测不等。

DW-FN-585

数据管理

数据集成

将来自不同数据源(格式、模式、语义可能不同)的数据组合起来,提供一个统一的视图。包括:模式匹配、数据冲突解决(如从多个来源中选择最新或最可靠的值)、实体解析。

输入: 多个异构数据源S1, S2, ..., 映射和转换规则mapping_rules
输出: 集成后的统一数据集D_integrated

源数据表/文件, 全局模式定义, 数据冲突解决策略(如最新胜出、投票)

解决“信息孤岛”问题。可能涉及ETL/ELT过程。核心挑战是处理模式异构性和数据不一致性。

源系统数量、数据量、变化频率。

源系统的数量和异构性, 数据更新频率

依赖模式映射、数据转换和合并操作。

需建立主数据或参考数据以保证一致性。增量集成是优化重点。

验证集成后数据的总行数、关键指标与各源系统汇总值的一致性。

数据整合、企业信息管理

计算/存储: 数据合并和冲突解决可能涉及大规模连接和比较, 开销大。

DW-FN-586

数据管理

数据变换

将数据从原始形式转换为更适合分析或建模的形式。包括:规范化(归一化、标准化)、聚合(求和、平均)、泛化(用更高层次概念替换,如年龄替换为年龄段)、特征构造(创建新特征)。

输入: 原始数据D, 变换函数集T
输出: 变换后的数据D_transformed

D: 输入数据
T: 变换操作列表(函数或表达式)

旨在改善数据质量或适应特定算法的需求。是特征工程的核心部分。

变换方法需与下游任务(如算法假设)匹配。

数据的原始分布, 下游任务要求

依赖具体的变换函数(如标度缩放、聚合函数)。

变换应可逆或至少可解释, 便于回溯。

检查变换后数据的分布(如是否标准化为N(0,1)), 或验证聚合结果的正确性。

特征工程、数据预处理

CPU: 取决于变换复杂度, 从简单算术运算到复杂函数计算。

DW-FN-587

数据管理

数据规约

在保持数据完整性的前提下,减少数据量。维规约:如PCA、特征选择,减少特征数。数值规约:如用聚类代表点、回归模型、直方图、抽样来减少数据量。

输入: 大数据集D_large, 规约技术参数(如目标维度k, 抽样率p)
输出: 规约后的小数据集D_small或 数据模型

D_large: 原始大规模数据
规约模型参数(如PCA的主成分数)

用于应对“维度灾难”, 降低存储和计算成本, 加速学习过程。

需权衡规约率与信息损失。通常通过重构误差或模型性能评估损失。

数据原始维度和规模, 可接受的信息损失

依赖规约算法(如PCA、聚类、抽样)。

规约后的数据/模型应能支持近似查询或分析。

在规约后的数据上运行下游任务, 与原始数据结果比较性能损失。

数据压缩、降维、抽样

CPU/内存: 规约过程本身可能有开销(如PCA计算), 但能大幅减少后续开销。

DW-FN-588

数据管理

数据离散化

将连续属性值划分为有限数量的区间(bin),并用区间标签(或整数编码)替代原始值。方法:等宽分箱、等频分箱、基于聚类分箱、基于信息增益分箱(如决策树)。

输入: 连续值列col_cont, 分箱方法及参数(如箱数k)
输出: 离散化后的列col_disc及 分箱边界

col_cont: 连续数值列
k: 箱数
分箱边界数组bins

简化数据, 减少噪声影响。某些算法(如决策树、贝叶斯网络)需要或更擅长处理离散数据。

箱数k的选择影响粒度, 常通过交叉验证确定。

连续值的分布, 箱数k

依赖排序、分位数计算或聚类算法。

分箱边界应具有业务可解释性。

检查每个箱内的样本分布, 或评估离散化后特征在模型中的重要性。

数据预处理、特征工程

CPU: 需要排序或聚类, O(n log n) 或更高。

DW-FN-589

数据管理

数据采样

从总体数据集N中选取一个子集n(n < N)进行分析。简单随机采样:每个样本被选中的概率相等。分层采样:按层(类别)分别随机采样,保证层间比例。系统采样:按固定间隔采样。

输入: 总体数据集D, 样本量n或 采样比例p, 采样方法
输出: 样本数据集D_sample

D: 总体数据
n: 样本大小
随机种子seed(保证可重复)

用于数据探索、快速原型、或处理大规模数据(先采样再全量训练)。采样需保证样本对总体的代表性。

样本量n需满足统计功效。根据总体分布和方差确定。

总体大小N, 总体分布, 样本量n

依赖随机数生成器和(对分层采样)类别分布。

采样应可重复(设置随机种子)。加权采样允许样本重要性不同。

比较样本与总体的关键统计量(均值、方差、分布)的差异。

统计学、抽样调查

CPU/IO: 低, 主要开销是读取数据和生成随机索引。

DW-FN-590

数据管理

数据标注

为未标记数据(如图像、文本、音频)添加标签, 形成(x, y)对, 用于监督学习。方法:人工标注、众包、主动学习、半监督学习、弱监督。

输入: 未标记数据X_unlabeled, 标注指南guidelines
输出: 已标记数据集(X_labeled, y)

X_unlabeled: 原始数据
标注员/工具
y: 人工生成的标签

是构建高质量训练集的关键, 通常成本高、耗时长。标注质量直接影响模型性能。

标注一致性(Inter-annotator agreement)是重要质量指标。

数据复杂度, 标注任务难度, 标注员水平

依赖人工或自动标注工具。

需设计清晰的标注指南和质量控制流程(如多人标注、仲裁)。

计算标注者间一致性(如Cohen‘s Kappa), 或在保留测试集上评估模型性能。

监督学习、人机交互

成本/时间: 人工标注成本高, 是机器学习项目的主要瓶颈之一。

DW-FN-591

数据管理

数据增强

通过对原始训练数据进行一系列随机变换,生成新的、人工的训练样本,从而扩大数据集。图像:旋转、翻转、裁剪、变色、加噪声。文本:同义词替换、随机插入/删除/交换、回译。

输入: 原始训练数据(X_train, y_train), 增强变换集aug_transforms
输出: 增强后的训练数据(X_aug, y_aug)

(X_train, y_train): 原始训练对
增强操作(如图像变换函数)
增强因子(每样本生成数)

增加数据多样性, 减轻过拟合, 提高模型泛化能力。尤其适用于数据稀缺场景。

增强变换应保持标签语义不变(如汽车旋转后仍是汽车)。

原始数据量, 任务类型, 增强强度

依赖数据域的特定变换操作。

增强策略需与任务相关, 避免引入无效或误导性样本。

比较使用数据增强前后, 模型在验证集/测试集上的性能提升。

计算机视觉、自然语言处理、正则化

CPU/内存: 运行时在线增强增加训练时间, 离线增强增加存储开销。

DW-FN-592

数据管理

数据版本控制

对数据集、数据处理代码及模型进行版本化管理, 类似Git对代码的管理。记录数据的历史状态, 支持回滚、比较和复现。工具:DVC, Git LFS, LakeFS。

输入: 数据文件/目录data, 版本信息message
输出: 数据版本快照(存储于版本库), 唯一版本哈希

数据存储(如对象存储), 元数据文件(.dvc), 版本哈希指针

确保实验可复现, 追踪数据沿袭, 协作时管理数据变更。核心是存储数据快照的指针, 而非直接存大文件于Git。

版本粒度:按commit, 按时间, 或按数据流水线阶段。

数据大小, 变更频率

依赖外部存储系统和版本控制工具集成。

需区分大文件存储(对象存储)和小元文件存储(Git仓库)。

检出特定版本的数据, 验证与历史记录一致。

数据治理、可复现性、DevOps

存储: 存储多个版本的数据快照, 但有去重机制。 管理开销: 维护版本元数据。

DW-FN-593

数据管理

数据流水线

自动化、可重复的数据处理流程。通常包括Extract(从源抽取)、Transform(清洗、转换)、Load(加载到目标)三个核心阶段。现代变体:ELT, Reverse ETL。调度工具:Airflow, Dagster, Prefect。

输入: 源数据定义, 转换逻辑, 目标定义, 调度计划
输出: 处理后的数据装载到目标系统, 及流水线运行状态和日志

源连接器, 转换任务DAG, 目标连接器, 调度器, 监控器

是数据基础设施的骨干, 确保数据从生产到消费的可靠、高效流动。支持增量处理、错误重试、监控告警。

流水线SLA(数据新鲜度、可用性)是关键运维指标。

数据量, 转换复杂度, 源/目标系统性能

依赖任务调度框架和各系统的连接器。

需设计幂等、容错、可监控的流水线。

端到端测试:注入测试数据, 验证完整流程输出符合预期。

数据工程、工作流调度

计算/调度资源: 运行流水线任务需要计算资源(如Spark集群), 调度器本身需要服务运行。

DW-FN-594

数据管理

数据编目

创建和维护企业数据资产的元数据目录。包含技术元数据(表结构、位置)、业务元数据(描述、所有者、术语)、操作元数据(血缘、使用情况)。提供搜索和发现功能。

输入: 来自各系统的元数据(自动扫描或手动注册)
输出: 可搜索的数据资产目录, 包含丰富的元数据标签

元数据扫描器/连接器, 元数据存储库, 搜索索引, 前端UI

解决“数据找不到、看不懂、不敢用”的问题。是数据治理和数据文化的基础设施。

元数据覆盖率、准确性和新鲜度是关键成功因素。

数据资产数量, 元数据来源多样性

依赖与数据源系统的集成和元数据采集框架。

需要推动业务和技术团队共同维护元数据(如添加业务描述)。

搜索已知存在的数据资产, 验证能否快速找到并理解其含义。

元数据管理、数据治理

存储/计算: 存储元数据开销小, 但构建全企业级目录的集成和维护工作量大。

DW-FN-595

数据管理

数据虚拟化

提供一个抽象层,允许用户和应用程序通过统一接口(如SQL)查询和访问分布在多个异构数据源中的数据,而无需物理移动或复制数据。

输入: 用户查询Q, 虚拟化层配置(数据源连接、模式映射)
输出: 整合后的查询结果, 如同来自单个数据库

虚拟化服务器, 连接器(到各数据源), 查询优化器和执行引擎

实现逻辑数据集成, 提供实时数据访问。减少数据冗余和ETL延迟。但对源系统性能和网络有要求。

适用于需要实时联合查询、但数据不便移动的场景。

源系统的性能、网络延迟、查询复杂度

依赖对下推(pushdown)优化的支持, 以减少数据传输。

查询优化是关键, 需将操作尽可能下推到源系统执行。

执行一个跨多个异构数据源的联合查询, 验证结果正确性和性能。

数据集成、中间件

网络/源系统负载: 查询可能给源系统带来额外负载, 网络传输可能成为瓶颈。

DW-FN-596

数据管理

数据归档

将不再频繁访问但仍需保留(出于合规、审计或历史分析目的)的数据从主存储系统(如生产数据库)迁移到更低成本、更高延迟的存储系统(如磁带、冷对象存储)。

输入: 待归档数据D_old, 归档策略(如超过N天)
输出: 数据从主存储移除, 在归档存储中保存

主存储系统, 归档存储系统, 归档策略(时间、访问模式)

优化主存储成本和性能。归档数据通常仍可通过特定流程恢复访问。

归档策略需平衡合规要求、访问可能性和成本。

数据总量, 数据“冷”的程度

依赖数据迁移工具和归档存储管理系统。

需确保归档数据的可读性和长期完整性(格式过时问题)。

归档后, 尝试从归档存储恢复少量数据验证完整性。

信息生命周期管理、存储管理

存储: 降低主存储成本, 但增加归档存储成本和管理开销。 恢复时间: 访问归档数据延迟高。

DW-FN-597

数据管理

数据销毁

安全、永久地删除数据,使其无法通过常规手段恢复。方法:物理销毁(消磁、粉碎)、多次覆写、加密后删除密钥。遵循数据隐私法规(如GDPR“被遗忘权”)。

输入: 待销毁数据标识D_to_destroy, 销毁方法method
输出: 数据被安全移除的证明certificate

存储介质, 销毁工具/软件, 审计日志

数据生命周期的终点。用于保护敏感信息, 满足合规要求。销毁需有审计跟踪。

销毁级别需匹配数据敏感度(如绝密数据需物理销毁)。

数据敏感级别, 存储介质类型

依赖安全销毁工具或服务。

需有正式的审批流程和完整的操作记录。

尝试使用数据恢复工具扫描存储介质, 验证数据已不可恢复。

数据安全、合规、信息安全

流程/审计: 管理流程和审计开销是关键, 实际销毁操作开销低。

DW-FN-598

数据管理

数据备份

创建数据在某个时间点的副本, 存储在独立的介质或位置, 用于在数据丢失、损坏时恢复。策略:完全备份、增量备份、差异备份。

输入: 源数据D_source, 备份目标target, 备份策略strategy
输出: 备份副本D_backup, 备份元数据(时间、校验和)

源数据存储, 备份存储(磁盘、磁带、云), 备份软件

灾难恢复的基础。需定期测试恢复流程以确保备份有效。RPO(恢复点目标)和RTO(恢复时间目标)是关键指标。

备份频率和保留周期根据业务重要性制定。

数据变化率, 数据量, RPO/RTO要求

依赖备份软件和存储系统。

遵循3-2-1原则:至少3份副本,2种介质,1份异地。

定期执行恢复演练, 验证备份数据可成功恢复且完整。

灾难恢复、业务连续性

存储/网络/时间: 备份消耗存储空间、网络带宽和时间窗口。

DW-FN-599

数据管理

数据恢复

从备份副本中将数据还原到可用状态。包括:全盘恢复、文件级恢复、时间点恢复(PITR)。是备份的逆过程。

输入: 备份副本D_backup, 恢复目标target, 恢复时间点t(对于PITR)
输出: 恢复后的数据D_restored

备份介质, 恢复目标系统, 恢复软件/脚本

验证备份有效性的唯一方法。恢复时间和数据完整性是关键。

实际RTO和RPO应满足业务要求。

备份数据量, 恢复目标系统性能, 恢复方式(全量/部分)

依赖备份格式和恢复工具。

恢复流程应文档化并定期演练。

恢复后, 验证关键业务功能可正常使用, 数据一致性通过检查。

灾难恢复、系统管理

时间/中断: 恢复过程可能导致服务中断, 时间是主要成本。

DW-FN-600

数据管理

数据加密

通过密码学算法将明文数据转换为密文, 以保护数据机密性。静态加密:对存储中的数据加密。传输中加密:对网络传输中的数据加密(如TLS/SSL)。算法:AES, RSA。

输入: 明文数据plaintext, 加密密钥key, 加密算法alg
输出: 密文数据ciphertext

plaintext/ciphertext: 数据
key: 密钥(对称或非对称)
alg: 加密算法(如AES-256-GCM)

数据安全的基础。密钥管理是关键。需权衡安全强度与性能开销。

密钥长度(如AES-256)和算法选择取决于安全要求。

数据敏感度, 性能要求, 合规标准

依赖加密算法库和密钥管理系统(KMS)。

应采用行业标准算法和实现。妥善管理密钥生命周期(生成、存储、轮换、销毁)。

加密后解密, 验证能无损恢复原始数据。对性能进行基准测试。

密码学、数据安全

CPU: 加密/解密计算开销, 对称加密快, 非对称加密慢。 管理: 密钥管理复杂度。

编号

类型

函数/算法类型

函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表

参数类型和参数列表

参数/变量/常量/标量/张量/矩阵/集合列表

数学表达式/物理模型/计算机模型/通信模型/关联描述

典型值/范围 (管控目标)

核心关联参数

依赖关系

设计/软件开发/硬件制造/应用要求

测试/验证方法

关联学科/领域

资源需求

DW-FN-601

数据质量

数据漂移检测 (K-S检验)

基于Kolmogorov-Smirnov双样本检验, 比较生产数据与训练数据(或历史基准数据)的分布差异。 KS统计量:D = sup_x \| F_prod(x) - F_ref(x) \|, 其中F是经验累积分布函数。 p值用于判断差异是否显著。

输入: 生产数据样本X_prod, 基准数据样本X_ref
输出: KS统计量D, p值

X_prod, X_ref: 两个样本集
F_prod, F_ref: 对应的经验累积分布函数
sup: 上确界(最大垂直距离)

用于检测数据分布是否发生漂移。 可对单个特征或模型输入的整体分布进行检测。 适用于连续和有序离散变量。

通常设置显著性水平α(如0.05), 若p值<α, 则拒绝“分布相同”的原假设, 认为发生了漂移。

样本量, 特征的真实分布

依赖KS检验统计量的计算和p值查找/计算。

是模型监控和数据质量监控的关键组件。 对样本量敏感。

在已知分布相同和不同的模拟数据集上运行检验, 验证p值行为符合预期。

统计学、概念漂移

CPU: 中, 需要计算两个样本的ECDF并求最大距离, 复杂度O(n log n)。

DW-FN-602

模型管理

模型卡生成

自动或半自动生成模型的标准化文档(模型卡), 包含模型目的、架构、训练数据、性能指标、公平性评估、使用限制、维护计划等。 遵循Meta的Model Cards for Model Reporting框架。

输入: 模型元数据、训练配置、评估结果、数据集信息
输出: 结构化的模型卡文档(如JSON, YAML, Markdown)

模型ID, 版本, 创建者, 训练数据集描述, 评估指标结果, 公平性报告, 已知局限性

提高模型透明度、可追溯性和责任性。 是负责任AI和模型治理的重要实践。 可与模型注册表集成。

模型卡应随模型版本一起发布和更新。

元数据的完整性和准确性

依赖模型开发流水线中各环节的元数据捕获。

需要模板和工具支持, 鼓励开发者填写。 部分信息可自动从实验追踪系统中提取。

检查生成的模型卡是否包含所有必填字段, 信息是否准确。

可解释AI、模型治理、MLOps

管理开销: 创建和维护模型卡需要额外工作, 但能提高信任度。

DW-FN-603

图计算

知识图谱嵌入 (TransE)

将知识图谱中的实体和关系映射到连续向量空间。 TransE模型假设:如果三元组(h, r, t)成立, 则h + r ≈ t。 损失函数:L = Σ_{(h,r,t)∈S} Σ_{(h',r,t')∈S'} [γ + d(h+r, t) - d(h'+r, t')]_+, 其中d是距离(如L1或L2范数),S'是负样本。

输入: 知识图谱三元组集合S = {(h, r, t)}
输出: 实体嵌入向量h, t和 关系嵌入向量r

h, t: 头尾实体向量
r: 关系向量
γ: 间隔参数
d: 距离函数

用于知识图谱补全、链接预测、实体分类等。 TransE是经典方法, 后续有TransH, TransR, RotatE等改进。

向量维度通常50-200。 训练轮数数百到数千。

实体和关系数量, 向量维度, 负采样策略

依赖负采样和基于距离的损失优化。

简单有效, 但对复杂关系(如1-N, N-1, N-N)建模能力有限。

在链接预测任务上评估MR(平均排名)、Hit@k等指标。

知识表示学习、图嵌入

CPU/GPU: 训练需要大量负采样和优化, 复杂度O(|S|* 负样本数)。

DW-FN-604

隐私计算

隐私保护记录连接 (Bloom Filter)

双方(机构A和B)希望找到共同的记录(如病人), 但不直接暴露各自的敏感数据。 使用布隆过滤器(BF)对记录标识符(如姓名、生日哈希)进行编码和交换, 在编码后的空间内计算相似度, 找出可能匹配的记录对。

输入: 双方各自的记录集R_A, R_B, 标识符编码函数, BF参数(大小m, 哈希函数数k
输出: 可能的匹配记录对列表

R_A, R_B: 待连接的记录列表
BF_A, BF_B: 布隆过滤器位数组
哈希函数集合H

一种近似、概率性的隐私保护连接方法。 存在假阳性, 但可通过对匹配对进行后续安全计算验证。 平衡了隐私、精度和效率。

BF参数mk影响假阳性率和隐私保护强度。

记录数量, 标识符的区分度, 隐私预算

依赖布隆过滤器构造和相似度计算(如Jaccard相似度)。

需处理编码碰撞和假阳性。 可与差分隐私结合增强保护。

在已知有部分重叠的记录集上运行, 验证能检测出重叠部分, 并评估假阳性率。

隐私保护、数据集成、安全多方计算

计算/通信: 主要开销是构建和传输BF, 以及计算集合相似度。

DW-FN-605

自动化机器学习

自动特征工程 (FeatureTools)

基于深度特征合成(DFS)算法。 自动对多表关系型数据应用一组可扩展的转换算子(如聚合、转换), 生成高阶特征。 DFS通过叠加“基元”(primitives)来创建特征。

输入: 实体集EntitySet(定义表和关系), 目标实体, 最大深度max_depth
输出: 生成的特征矩阵feature_matrix

EntitySet: 包含多个相关数据表的集合
primitives: 特征基元(如SUM, MEAN, WEEKDAY)
max_depth: 特征堆叠的最大深度

解决特征工程耗时问题。 自动探索数据中的潜在模式, 生成大量候选特征供后续选择。

max_depth通常2-3。 需控制生成特征的数量, 避免维度爆炸。

表的数量和关系复杂度, 基元数量, max_depth

依赖实体-关系模型和基元函数的定义与执行。

生成的特征需要筛选, 可能产生冗余或无意义特征。 可解释性需注意。

在标准预测任务上, 比较使用自动生成特征与专家构建特征的模型性能。

特征工程、AutoML

CPU/内存: 高, 可能生成海量特征, 需要大量计算和存储。

DW-FN-606

资源/成本管理

碳感知查询调度

在调度数据分析或训练作业时, 考虑电网的碳排放强度(随时间、地域变化)。 目标:在满足SLO的前提下, 将计算任务调度到碳排放较低的时间段(如可再生能源充足时)或地域。

输入: 查询/作业, 碳排放强度预测数据, 作业的截止时间或延迟容忍度
输出: 作业的排期时间(延迟执行)或执行地域选择

作业元数据(计算量、截止时间), 碳强度时间序列CI(t), 调度策略(如最小化碳足迹)

实现绿色计算, 降低数据中心的碳足迹。 是可持续计算和FinOps的结合。

需要权衡延迟和碳减排。 可设置碳预算或碳上限。

作业的紧急程度, 碳强度数据的准确性和粒度

依赖碳排放数据源和作业调度器的集成。

需要获取实时或预测的电网碳强度数据(如WattTime, Electricity Maps)。

模拟将作业从高碳时段移到低碳时段, 计算减少的碳排放量, 并评估对作业延迟的影响。

绿色计算、可持续性、调度

管理复杂度: 获取和集成碳数据, 修改调度策略。 对性能影响是延迟增加。

DW-FN-607

数据工程

数据契约测试 (Pact)

在数据生产者与消费者之间, 针对数据契约(如Schema、数据质量规则)编写自动化测试。 消费者端生成契约(包含期望的请求/响应模式), 生产者端验证其实现是否符合契约。 用于防止破坏性变更。

输入: 数据契约定义(如Protobuf .proto文件, 或JSON Schema), 测试用例
输出: 契约测试通过/失败报告

契约文件, 生产者服务模拟(Provider), 消费者测试用例(Consumer Test), 契约中介(Broker)

将消费者驱动的契约测试(CDC)理念应用于数据产品。 确保数据接口的兼容性, 是数据网格中数据产品间协作的关键实践。

集成到CI/CD流水线中, 在合并代码前运行。

契约的复杂度和变更频率

依赖契约测试框架(如Pact)和CI/CD系统。

需要文化转变, 鼓励消费者定义其期望, 生产者遵守契约。

修改生产者的Schema(如删除字段), 运行契约测试验证消费者测试会失败。

契约测试、API测试、数据网格

CI/CD开销: 增加测试套件的运行时间和维护成本, 但能防止线上故障。

DW-FN-608

向量检索

乘积量化 (Product Quantization)

用于压缩高维向量并加速最近邻搜索。 将原始向量x分割为m个子向量:x = [x^1, ..., x^m]。 对每个子空间分别进行k-means聚类, 得到码本。 向量用其子向量所属的簇ID(码)串联表示。 距离计算通过查表加速。

输入: 向量数据集X, 子空间数m, 每子空间聚类数k*(通常256, 用8位编码)
输出: PQ码本和所有向量的编码

X: 原始向量集
m: 子空间划分数
k*: 子空间聚类中心数
code: 向量的PQ编码(m个字节)

大幅压缩向量(如128维浮点向量压缩为8-16字节), 并支持非对称距离计算(ADC), 是IVF-PQ等索引的核心组件。

mk*的选择权衡压缩率、重建误差和搜索精度。 常用m=816, k*=256

向量维度d, 数据集大小N, 参数m, k*

依赖子空间聚类和编码。

是工业级向量数据库(如Faiss)的标配算法。

比较PQ压缩前后的向量重建误差, 以及搜索召回率与速度的权衡。

向量压缩、近似最近邻搜索

CPU/内存: 构建码本需要运行m次k-means, 开销大。 压缩后存储和计算开销极低。

编号

类型

函数/算法类型

函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表

参数类型和参数列表

参数/变量/常量/标量/张量/矩阵/集合列表

数学表达式/物理模型/计算机模型/通信模型/关联描述

典型值/范围 (管控目标)

核心关联参数

依赖关系

设计/软件开发/硬件制造/应用要求

测试/验证方法

关联学科/领域

资源需求

DW-FN-609

机器学习

大语言模型指令微调

在预训练大语言模型(LLM)基础上, 使用指令-输出配对数据 (instruction, response)进行有监督微调(SFT)。 最大化给定指令下生成目标响应的条件概率:max_θ Σ log P(response \| instruction; θ)

输入: 预训练LLM, 指令微调数据集 D_sft, 学习率 η
输出: 指令微调后的模型 LLM_θ

预训练模型参数 θ0, 指令-响应对 (I, R), 损失函数(交叉熵)

使通用LLM能够遵循人类指令, 完成特定任务(如问答、摘要、代码生成)。 是使模型“有用”、“无害”的关键步骤。

数据集规模通常数万到数十万。 需注意灾难性遗忘。

预训练模型规模, 指令数据质量和多样性

依赖大规模预训练模型和高质量指令数据。

需要精心设计指令和收集高质量响应(人工或AI生成)。 通常与RLHF结合。

在未见过的指令集上评估模型响应的相关性和有用性(人工或模型评估)。

自然语言处理、大语言模型

GPU内存/计算: 极高, 需要能加载和训练数十亿参数模型。

DW-FN-610

机器学习

大语言模型RLHF

基于人类反馈的强化学习。 1. SFT: 指令微调。 2. 奖励模型训练: 训练一个奖励模型 RM来评分模型输出, 拟合人类偏好。 3. RL微调: 使用PPO等算法, 以RM为奖励函数优化策略模型(SFT模型), 同时加入KL散度惩罚防止偏离SFT太远。

输入: SFT模型, 人类偏好数据 D_pref, PPO参数
输出: 对齐人类偏好的LLM

SFT模型 π_SFT, 奖励模型 R_φ, 策略模型 π_θ, 价值模型 V_ψ, PPO目标函数

将人类偏好(如 helpfulness, harmlessness)注入模型, 是ChatGPT、Claude等对话模型的核心技术。

需要大量高质量的人类偏好对比数据。 训练过程复杂不稳定。

偏好数据规模和质量, 奖励模型的准确性, PPO稳定性

依赖强化学习框架、奖励模型和策略梯度优化。

是当前实现AI对齐(AI Alignment)的主要方法。 工程实现挑战大。

通过人工评估或模型评估(如GPT-4作为裁判)比较RLHF前后模型输出的质量。

强化学习、AI对齐、大语言模型

GPU/计算: 极高, 需要多个模型(策略、价值、奖励)交互训练, 样本效率低。

DW-FN-611

机器学习

检索增强生成

为LLM增加外部知识检索能力。 对用户查询q, 从外部知识库检索相关文档D, 将qD一起作为上下文输入LLM生成答案:answer = LLM([q; D])。 检索器通常为稠密向量检索(如DPR)。

输入: 用户查询q, 外部文档集Corpus, 检索模型Retriever, LLM Generator
输出: 生成的答案a

查询q, 文档集嵌入索引, 检索器R, 生成器G, 提示模板

解决LLM的事实幻觉和知识过时问题。 可溯源, 可更新知识。 用于开放域问答、对话等。

检索文档数量k是重要参数(如5-10)。 需平衡检索召回率和上下文长度限制。

查询复杂度, 知识库规模和质量, 检索精度

依赖检索系统(向量数据库)和LLM生成能力。

检索器和生成器可联合训练或分开训练。 是构建企业知识库问答的核心架构。

评估最终答案的准确性, 以及检索文档的相关性(如通过人工或nDCG)。

信息检索、大语言模型、开放域问答

检索开销: 检索需查询向量索引。 生成开销: LLM需处理更长上下文。

DW-FN-612

机器学习

模型合并 (Model Merging)

将多个同架构、同任务的已训练模型参数进行合并, 得到一个单一的、性能稳健的模型。 方法: 1. 权重平均θ_merged = Σ w_i θ_i。 2. 任务算术θ_merged = θ_base + Σ λ_i (θ_i - θ_base), 其中θ_i是任务专用模型。

输入: 多个模型参数 {θ_1, θ_2, ..., θ_n}, 合并权重 {w_i}或 系数 {λ_i}
输出: 合并后的模型参数 θ_merged

基模型参数 θ_base, 任务增量向量 τ_i = θ_i - θ_base, 合并系数

无需额外训练, 快速集成多个专家模型的能力。 可用于模型融合、多任务学习、消除任务间干扰。

要求模型架构完全一致。 合并系数需仔细选择(可验证集上调优)。

参与合并的模型数量和性能, 模型参数空间的对齐性

依赖模型参数的线性运算。

是模型重用和高效多任务学习的新兴方向。 简单有效。

在保留的验证集上评估合并后模型在各任务上的性能, 确保不灾难性遗忘。

模型集成、多任务学习、迁移学习

CPU/内存: 低, 仅为参数加权平均, 但需加载多个模型。

DW-FN-613

机器学习

稀疏专家混合模型

一种条件计算模型。 网络中包含多个“专家”子网络(前馈层)。 每个输入由门控网络路由到少数几个(如1-2个)专家进行处理, 其他专家处于非激活状态。 总参数量大, 但激活参数量小。

输入: 输入x, 专家网络E_i, 门控网络G
输出: y = Σ_i G(x)_i * E_i(x), 其中G(x)是稀疏的(大部分为0)

输入x, 专家{E_1, ..., E_n}, 门控G, 激活专家数k(如top-2)

实现超大规模模型(如万亿参数)的高效训练和推理。 是Switch Transformer、GLaM等模型的核心。

专家数量可达数千。 负载均衡是关键挑战(需辅助损失)。

模型总参数量, 激活参数量, 专家数量

依赖门控路由和稀疏激活计算。

需要专门的系统支持(如Mesh-TensorFlow, DeepSpeed)来高效处理稀疏计算。

评估模型在目标任务上的性能, 并监控专家的负载均衡情况。

条件计算、大规模语言模型

计算/通信: 理论上更高效, 但稀疏计算和负载均衡对系统要求高。

DW-FN-614

机器学习

知识蒸馏

将一个大型、高性能的教师模型的知识“蒸馏”到一个更小的学生模型中。 学生模型不仅学习真实标签, 还学习教师模型的软化输出(soft labels)分布。 损失函数:L = α * H(y_true, y_s) + β * KL(p_t \| p_s)

输入: 教师模型T, 学生模型S, 训练数据(x, y), 温度参数τ
输出: 训练好的学生模型S

教师模型T, 学生模型S, 硬标签y, 软化概率p_t = softmax(z_t/τ), 温度τ

用于模型压缩, 在保持相近性能的同时大幅减小模型尺寸和推理延迟。 也用于从集成模型提取知识。

温度τ控制知识软化的程度。 通常>1。 学生模型架构需精心设计。

教师模型性能, 学生模型容量, 温度τ

依赖教师模型的推理和KL散度计算。

是无数据/少数据场景下压缩模型的有效方法。 可离线或在线进行。

在测试集上比较学生模型与教师模型的性能(精度、速度、大小)。

模型压缩、迁移学习

训练开销: 需要教师模型生成软化标签, 增加训练成本。 推理时学生模型快。

DW-FN-615

机器学习

持续学习/灾难性遗忘缓解

使模型能够连续学习一系列任务, 而不遗忘先前学到的知识。 方法: 1. 正则化: EWC(Elastic Weight Consolidation)通过对重要参数添加惩罚:L(θ) = L_new(θ) + Σ_i λ F_i (θ_i - θ_i*)^2, 其中F是费雪信息矩阵。 2. 回放: 存储旧任务少量样本。 3. 动态架构

输入: 模型θ, 新任务数据D_new, 旧任务重要参数估计F
输出: 更新后模型θ', 在旧任务和新任务上均表现良好

模型参数θ, 旧任务最优参数θ*, 重要性矩阵F(对角), 正则化强度λ

模拟人类持续学习能力。 对终身学习AI至关重要。 灾难性遗忘是核心挑战。

需要估计参数对旧任务的重要性(如EWC)。 回放缓冲区大小是关键。

任务数量和差异性, 模型容量

依赖重要性估计和正则化损失计算。

是迈向更通用AI的关键一步。 目前尚无完美解决方案。

在新任务训练后, 评估模型在所有已学任务上的平均准确率。

持续学习、灾难性遗忘

内存/计算: 回放法需存储数据, 正则化法需计算和存储重要性矩阵。

DW-FN-616

机器学习

神经架构搜索

自动化设计神经网络架构。 搜索空间定义可能的操作(卷积、池化等)和连接。 搜索策略: 1. 强化学习。 2. 进化算法。 3. 可微分NAS(如DARTS): 在连续松弛的搜索空间上通过梯度下降联合优化架构权重α和模型权重w

输入: 搜索空间S, 目标任务数据集D, 性能评估指标M
输出: 找到的高性能架构A

搜索空间超网络, 架构参数α, 网络权重w, 验证集性能

解放人力, 可能发现超出人类直觉的高效架构。 但计算成本极高。

搜索空间的设计对结果影响巨大。 需在性能和搜索成本间权衡。

搜索空间大小, 性能评估成本(需训练子模型)

依赖超网络训练和架构采样评估。

计算成本曾是主要瓶颈, 现在有更高效的方法(如权重共享、可微分)。

将搜索到的架构从头训练, 在独立测试集上验证其性能。

自动化机器学习、神经网络

GPU/计算: 极高, 早期RL/进化方法需训练成千上万个架构。 可微分NAS大幅降低, 但仍需大量算力。

DW-FN-617

系统与架构

数据编织 (Data Fabric)

一种架构框架, 利用元数据资产在适当的时间、以适当的方式、将适当的数据提供给适当的人或系统。 通过知识图谱、主动元数据管理和AI/ML实现数据的自动化集成、治理和自助服务。

输入: 企业数据资产, 元数据, 策略
输出: 一个统一的、智能的、自动化的数据访问和管理层

元数据图谱, 策略引擎, 自动化编排器, 统一的数据访问API

是数据管理架构的演进。 强调通过主动元数据驱动自动化, 实现数据的无缝、安全和受治理的流动。

旨在解决数据孤岛、数据发现、数据信任问题。 是逻辑架构, 而非单一产品。

元数据的丰富度和质量, AI/ML能力的集成

依赖元数据管理、知识图谱、数据目录、数据虚拟化等技术。

需要企业级顶层设计和持续投入。 是Gartner推崇的数据管理趋势。

衡量数据发现时间、数据准备时间、数据质量事件解决时间等运营指标是否改善。

数据架构、元数据管理、企业架构

集成复杂度: 高, 需要整合多种技术和工具, 并建立统一的元数据层。

DW-FN-618

系统与架构

湖仓一体 (Lakehouse) 查询加速 (Photon)

Databricks Photon: 用C++重写的、向量化的、LLVM编译的查询引擎, 专为湖仓一体架构设计。 直接读取Delta/Parquet格式, 实现亚秒级查询延迟和高并发。

输入: SQL查询, 存储在对象存储(如S3)中的Delta/Parquet表
输出: 查询结果, 执行性能显著提升

查询计划, Photon执行引擎(向量化算子, 代码生成), 列式存储数据

解决传统数据湖查询性能慢的问题, 使湖仓一体能同时承担数据科学、BI和实时应用负载。 核心是高性能执行引擎。

兼容Apache Spark API, 用户无感切换。 对即席查询、仪表板交互提速明显。

数据规模, 查询复杂度, 并发数

依赖向量化执行引擎和底层存储格式(Delta/Parquet)的优化。

是商业公司(Databricks)的专有技术, 体现其湖仓一体产品的核心竞争力。

对比相同查询在Photon引擎和传统Spark SQL引擎上的执行时间。

查询引擎、数据湖、性能优化

CPU: 充分利用现代CPU的SIMD指令和缓存, 计算密集型。

DW-FN-619

系统与架构

Kubernetes 原生数据库 (K8s-Native DB)

将数据库(如PostgreSQL, MySQL, MongoDB)以云原生方式部署和管理在Kubernetes上。 利用StatefulSets管理有状态Pod, Operators自动化管理任务(备份、扩缩容、升级)。 代表: Crunchy Data Postgres Operator, Percona Operator。

输入: 数据库定制资源定义(CRD)YAML文件
输出: 在K8s集群中运行的高可用数据库集群

数据库容器镜像, 持久卷声明(PVC), 配置文件, Operator控制器

实现数据库的声明式部署、自动化运维和弹性伸缩。 与K8s生态(如服务发现、监控、网络策略)无缝集成。

适用于希望统一使用K8s管理所有工作负载(包括数据库)的团队。 对运维团队K8s技能要求高。

数据库类型和版本, 存储性能要求, 高可用配置

依赖Kubernetes API、相关Operator和CSI存储驱动。

需仔细设计存储、网络和备份策略。 并非所有数据库都适合容器化。

模拟节点故障, 验证数据库Pod能否自动迁移恢复; 执行扩缩容操作验证。

云原生、Kubernetes、数据库运维

运维复杂度: 从管理虚拟机上的数据库转变为管理K8s上的Operator和CRD, 范式转变。

DW-FN-620

可观测性

持续剖析 (生产环境)

在低开销(通常<1% CPU)下, 持续对生产环境中的应用程序(包括数据库进程)进行性能剖析, 采集CPU、内存、I/O、锁等维度的性能数据, 生成火焰图等可视化报告, 用于性能优化和故障排查。

输入: 目标进程PID, 采样频率(如99Hz), 剖析类型
输出: 持续的剖析数据流, 可聚合的火焰图

目标程序(需支持帧指针或调试符号), 采样器(如eBPF, perf, async-profiler), 聚合存储

将性能剖析从“事后离线”变为“持续在线”, 能够发现仅在生产环境中出现的性能瓶颈。 是DevOps和SRE的强大工具。

需确保采样开销可接受, 并注意安全性和隐私(可能采集到堆栈中的敏感信息)。

进程的复杂度和活跃度, 采样频率

依赖操作系统和硬件(如perf)提供的剖析支持。

需要应用程序编译时保留帧指针或调试符号, 以便生成有意义的堆栈信息。

在测试环境对已知有性能热点的代码开启剖析, 验证火焰图能正确显示热点函数。

性能分析、可观测性、系统剖析

CPU: 固定采样开销, 通常很低。 存储: 存储剖析数据。

DW-FN-621

可观测性

分布式跟踪的因果推断

在微服务分布式跟踪中, 不仅记录调用的时间线和跨度(Span), 还利用因果推断技术分析服务间延迟的因果关系。 例如, 判断服务A的延迟增加是否是导致服务B延迟增加的根本原因, 而非仅仅是相关性。

输入: 分布式跟踪数据(Span, 包含时间戳、服务名、父SpanID等)
输出: 服务延迟的因果图, 根因分析报告

跟踪数据点, 因果发现算法(如PC算法、基于约束的方法), 服务依赖拓扑

增强传统分布式跟踪的根因定位能力。 从“发生了什么”到“为什么发生”, 加速故障排查。

需要足够多的跟踪样本以进行可靠的因果推断。

跟踪数据的完整性和采样率, 服务间交互的复杂性

依赖分布式跟踪系统和因果发现算法库。

是AIOps和可观测性领域的前沿探索。 将统计学与运维结合。

在模拟的故障注入场景(如人为增加某服务延迟)下, 验证因果推断能正确识别出根本原因服务。

因果推断、分布式追踪、根因分析

计算: 因果发现算法可能需要处理大量跟踪数据, 计算复杂度较高。

DW-FN-622

资源/成本管理

GPU 共享与弹性 (MIG, vGPU)

NVIDIA MIG: 将一块物理GPU(如A100)分割成多个独立的GPU实例(如7个5GB实例), 每个实例有自己的内存、缓存和计算核心, 实现硬隔离。 vGPU: 基于虚拟化的GPU分片, 允许多个虚拟机共享一块物理GPU。

输入: 物理GPU设备, 分区配置(如MIG实例大小)
输出: 多个逻辑上独立的GPU设备, 可分配给不同的容器或虚拟机

物理GPU, MIG分区配置文件, 驱动程序, 容器运行时(如Docker with nvidia-container-runtime

提高GPU利用率, 降低成本。 使小任务(如模型微调、推理)也能高效使用大算力卡。 实现更精细的资源管理和隔离。

MIG适用于多租户、多任务场景。 需GPU硬件支持(Ampere架构及以上)。

GPU型号, 工作负载的GPU内存和算力需求

依赖GPU硬件、驱动和容器/虚拟化平台的支持。

分区策略需根据工作负载特征设计。 分区后实例无法动态调整大小。

创建不同大小的MIG实例, 分别运行推理或训练任务, 验证其独立性和性能隔离性。

GPU虚拟化、资源隔离、云计算

管理开销: 配置和管理多个GPU实例。 物理GPU的总体利用率得到提升。

DW-FN-623

安全与合规

机密计算 (Confidential Computing)

利用CPU安全飞地(如Intel SGX, AMD SEV-SNP, ARM CCA)或专用机密计算芯片, 在内存中创建一个受保护的执行环境(TEE)。 数据在TEE内解密、计算、再加密, 确保数据在使用过程中(而不仅仅是传输和存储时)也不被云服务商或其他进程窥探。

输入: 加密数据, 加密的应用程序(Enclave)
输出: 在TEE内处理后的加密结果

CPU/芯片的TEE功能, 飞地镜像, 远程证明服务, 加密的数据通道

实现“使用中”数据的安全。 用于隐私保护机器学习、安全多方计算、保护知识产权代码等。

编程模型复杂(需将应用逻辑移植到飞地内), 飞地内存有限, 性能有开销。

数据敏感度, 应用程序的复杂度和内存需求

依赖支持TEE的硬件、驱动和软件开发工具包(SDK)。

是“零信任”架构和隐私计算的关键技术。 生态系统仍在发展中。

部署一个简单的SGX应用程序, 验证即使主机有root权限也无法读取飞地内的明文数据。

机密计算、硬件安全、隐私增强技术

CPU性能: 飞地内外切换和数据加解密有开销。 内存: 飞地内存(如SGX的EPC)大小受限。

DW-FN-624

安全与合规

同态加密 (近似算术) CKKS

Cheon-Kim-Kim-Song (CKKS) 方案, 支持对复数(或实数)向量的近似算术(加法和乘法)。 允许在加密数据上直接进行机器学习推理等计算。 相比完全同态加密(FHE), CKKS效率更高, 但引入可控的误差。

输入: 加密的向量 Enc(m), 同态操作(加、乘、旋转)
输出: 加密的结果 Enc(f(m)), 解密后得到 f(m) + e, 其中e为小误差。

明文向量 m, 密文 c, 加密参数(多项式次数N, 模数链Q), 缩放因子Δ

用于隐私保护的预测服务。 服务器在不解密用户数据的情况下进行模型推理, 返回加密结果。 保护用户数据和模型参数(可选)。

计算深度(乘法和旋转的次数)受限于密文噪声增长和模数链长度。 精度与效率需权衡。

计算复杂度, 所需的数值精度, 安全级别

依赖同态加密算法库(如Microsoft SEAL, OpenFHE)。

性能开销仍很大(比明文慢数千倍), 主要用于对延迟不敏感的高隐私场景。

用CKKS加密一批数据, 执行一系列同态操作后解密, 验证结果与明文计算结果的误差在可接受范围内。

同态加密、隐私保护机器学习

CPU: 极高, 多项式环上的运算非常耗时。 内存消耗也大。

DW-FN-625

数据工程

数据可观测性 (Data Observability)

借鉴SRE对系统可观测性的理念, 应用于数据领域。 通过监控五个核心支柱来评估数据健康状况: 1. 新鲜度: 数据是否及时更新。 2. 分布: 数据值是否符合预期模式(范围、类型)。 3. : 数据量是否在预期范围内。 4. 模式: 数据结构(Schema)是否变化。 5. 沿袭: 数据的来源和转换是否清晰。

输入: 数据管道、存储的元数据和日志
输出: 数据健康度评分、异常告警、根本原因分析

元数据变更事件, 数据质量指标, 管道运行日志, 血缘信息

旨在主动发现和解决数据问题, 防止“坏数据”影响下游决策和应用。 是DataOps的核心实践。

需要定义各支柱的监控指标和阈值。 与数据质量监控紧密相关但更全面。

数据资产的数量和复杂度, 管道的规模和更新频率

依赖元数据管理、数据质量检测和监控告警系统。

需要专用工具(如Monte Carlo, Metaplane)或自建平台。 是数据团队的“监控仪表盘”。

模拟一次数据异常(如管道失败、Schema变更), 验证可观测性平台能及时检测并告警。

数据质量、DataOps、可观测性

系统开销: 持续收集和分析元数据、运行数据质量检查需要计算资源。

DW-FN-626

数据工程

反向ETL

将数据仓库中经过清洗、建模后的数据, 同步回业务系统(如CRM, ERP, 营销自动化平台), 用于运营、营销和客户服务。 是Modern Data Stack的关键组成部分, 实现数据闭环。

输入: 数据仓库中的表/视图, 目标业务系统API
输出: 业务系统中的数据被更新

源表(在Snowflake, BigQuery等), 目标系统连接器和配置, 同步频率

使业务团队能在其日常工具中直接使用分析团队产出的高质量数据, 激活数据价值。 区别于传统ETL(业务系统->数仓)。

同步通常为增量。 需处理目标系统的API限流和数据模型映射。

数据量, 目标系统API性能和限制, 同步延迟要求

依赖数据仓库的连接器和目标业务系统的API。

需要管理API凭证、处理失败重试、监控同步状态。 工具如Hightouch, Census。

在数据仓库中更新一条记录, 验证能通过反向ETL同步到目标系统(如Salesforce)。

数据集成、Modern Data Stack、运营分析

网络/API调用: 从数仓拉取数据并推送至业务系统, 产生网络流量和API调用开销。

DW-FN-627

数据工程

数据产品即服务 (Data as a Product)

在数据网格架构中, 将数据视为独立的产品进行管理。 数据产品团队负责其端到端的生命周期, 包括: 1. 提供满足明确SLA的数据。 2. 提供易于发现的元数据和文档。 3. 提供易用的消费接口(如SQL视图、API)。 4. 保证数据质量和安全。

输入: 原始数据, 领域知识, 消费者需求
输出: 一个符合数据网格原则的数据产品(包含数据、代码、基础设施、策略)

领域数据, 产品负责人, 数据产品平台(提供计算、存储、治理等基础能力)

是数据网格的核心支柱。 旨在解决集中式数据平台的扩展性和敏捷性问题, 将责任下放到领域团队。

数据产品应有明确的负责人、路线图和SLA。 是长期资产, 而非项目副产品。

领域复杂度, 团队的数据工程能力, 企业文化和组织结构

依赖自助式数据平台、数据治理框架和组织变革。

不仅是技术变革, 更是组织和文化变革。 需要高层的支持和持续的投入。

评估一个数据产品是否容易被其他领域团队发现、理解、信任和使用。

数据网格、数据治理、产品管理

组织/管理开销: 初期需要建立新的角色、职责、流程和平台, 转型成本高。

DW-FN-628

系统与架构

WebAssembly 数据计算引擎

将数据计算引擎(如查询引擎、UDF运行时)编译为WebAssembly(Wasm)模块。 Wasm模块可在浏览器、边缘设备或服务器中安全、高效、跨平台地执行, 实现“计算跟随数据”或“计算下推”。

输入: 数据, Wasm格式的计算模块(如过滤、聚合函数)
输出: 在Wasm沙箱中执行计算后的结果

数据(可能序列化), Wasm字节码, Wasm运行时(如Wasmtime, WasmEdge)

提供安全的沙箱环境, 避免UDF对主系统的威胁。 实现一次编写, 多处运行(浏览器、边缘、云)。 是计算下推的新载体。

性能接近原生代码(约70-80%)。 对系统资源(内存、CPU)访问有限制。

计算任务的复杂性, Wasm运行时的性能

依赖Wasm编译工具链和运行时。

适用于需要安全隔离和跨平台部署的轻量级计算场景。 数据库领域开始探索(如Snowflake Wasm UDF)。

编写一个简单的聚合函数, 分别编译为Wasm和原生代码, 在相同数据上运行比较性能和结果。

WebAssembly、边缘计算、沙箱技术

CPU: Wasm执行速度接近原生, 但仍有差距。 内存: Wasm内存与主机隔离, 需通过接口交换数据。

DW-FN-629

资源/成本管理

可持续AI (Green AI)

在AI模型研发和部署的全生命周期中, 测量和优化其能源消耗和碳足迹。 包括: 选择高效的模型架构、使用混合精度训练、在可再生能源充足时训练、优化推理服务、选择碳效率高的云区域等。

输入: AI工作负载, 能源/碳强度数据
输出: 工作负载的能耗/碳排放估算, 及优化建议

硬件配置(GPU型号、数量), 训练时长, 云区域, 电网碳强度CI, 功耗利用系数(PUE)

响应AI计算巨大的环境影响。 推动研究更高效的算法和系统, 促进负责任的AI发展。

可用工具(如CodeCarbon, ML CO2 Impact)估算碳排放。 目标是减少总排放, 而非仅追求精度。

计算规模, 硬件能效, 能源来源

依赖硬件功耗监控和碳强度数据源。

需要开发者、研究者和机构提高意识, 并将可持续性作为评估指标之一。

跟踪同一模型在不同优化策略(如架构搜索、蒸馏)下的精度-能耗帕累托前沿。

可持续计算、人工智能伦理、环境科学

管理/意识: 主要成本是改变实践和增加测量环节, 但长期看可降低能源成本和环境 impact。

DW-FN-630

数据科学

因果推断 (双重差分法)

用于评估政策或处理效果的准实验方法。 比较处理组和对照组在政策实施前后结果Y的变化差异:DID = (Y_{treated, after} - Y_{treated, before}) - (Y_{control, after} - Y_{control, before})。 假设平行趋势。

输入: 面板数据(个体i, 时间t), 处理指示变量D_it, 结果变量Y_it
输出: 处理效应的估计值β(来自回归:Y_it = α + β D_it + γ_i + δ_t + ϵ_it

个体固定效应γ_i, 时间固定效应δ_t, 处理变量D_it, 结果Y_it

在无法随机分组的观察性研究中, 估计因果效应。 广泛应用于经济学、社会学、政策评估。

需要至少两期面板数据。 核心假设是:若无处理, 处理组和对照组的变化趋势应平行。

数据的时间跨度, 处理组和对照组的可比性, 平行趋势假设

依赖面板数据回归模型。

需谨慎检验平行趋势假设, 并考虑可能的混淆因素。

进行安慰剂检验(将处理时间提前)或绘制事件研究图来检验平行趋势假设。

计量经济学、因果推断、政策评估

计算: 低, 为面板数据回归。

DW-FN-631

数据科学

因果发现 (PC算法)

从观测数据中推断变量间的因果图结构。 PC算法(以Peter和Clark命名): 1. 从完全无向图开始。 2. 基于条件独立性测试逐步移除边(如果X _\|_ Y \| S, 则移除边X-Y)。 3. 确定边的方向(利用V-结构等规则)。

输入: 观测数据集D(变量V), 条件独立性测试(如卡方、G检验), 显著性水平α
输出: 一个部分有向无环图(CPDAG), 表示等价类

变量集V, 条件集S, 独立性测试p值, 图G

无监督地探索数据中的潜在因果关系, 为后续因果效应估计提供假设。 是因果科学的基础工具。

假设无隐藏混杂、无反馈环、 faithfulness等。 输出是等价类, 而非唯一图。

变量数量, 样本量, 变量间关系的强度

依赖条件独立性测试和图操作。

变量顺序、样本量、测试方法影响结果。 计算复杂度随变量数指数增长。

在已知真实因果图的人工生成数据上运行算法, 比较输出与真实结构的相似度(如结构汉明距离)。

因果推断、图模型、贝叶斯网络

CPU: 高, 最坏情况需测试所有可能的条件集, 变量多时不可行。 可用并行优化。

DW-FN-632

图计算

图学习 (Graph Self-Supervised Learning)

在图数据上进行无监督/自监督学习, 获取节点或图的表示。 方法: 1. 对比学习: 如GraphCL, 通过增强(边丢弃、特征掩码)生成正负样本对, 最大化正样本对的相似性。 2. 生成式学习: 如GraphMAE, 掩码节点特征并重构。

输入: 图G=(A, X)(无标签)
输出: 预训练的图编码器f, 可用于下游任务的节点/图表示

邻接矩阵A, 节点特征X, 数据增强策略T, 对比损失(如InfoNCE)

解决图数据标注成本高的问题。 利用图自身的结构信息进行预训练, 提升下游任务(如节点分类)性能。

图增强策略的设计是关键。 需要与图的性质(同配性等)匹配。

图规模, 特征维度, 增强策略的有效性

依赖图神经网络和对比/生成式学习框架。

是图表示学习的热点方向。 可迁移性是其价值所在。

在标准图数据集上, 使用自监督预训练模型初始化下游分类器, 与随机初始化比较性能提升。

自监督学习、图表示学习

GPU: 训练GNN和对比学习需要计算资源, 尤其在大图上。

DW-FN-633

时序分析

时序异常检测 (MERLIN)

Meta的开源库MERLIN使用集合方法检测大规模指标中的异常。 结合了多种检测器(如S-H-ESD, 检测离群点; Prophet, 检测序列水平变化)的结果, 并通过随机森林分类器聚合, 输出异常概率和可解释的贡献度。

输入: 时间序列指标y_t, 可选季节性period
输出: 每个时间点的异常分数和标记, 及各检测器的贡献

时间序列y, 检测器集合{D_i}, 聚合模型(如随机森林)

针对运维监控场景设计, 处理大规模(数百万序列)、高基数指标的自动化异常检测。 提供可解释性。

旨在降低误报率, 提高检测覆盖率。 默认参数在运维数据上表现良好。

序列长度, 季节性, 异常模式多样性

依赖多个底层异常检测算法和模型集成。

是工业级的解决方案, 集成了Meta的实战经验。 可扩展新的检测器。

在标注了异常点的时间序列数据集上评估精确率、召回率、F1分数。

时间序列分析、异常检测、AIOps

CPU: 中高, 需要运行多个检测器和聚合模型, 但针对大规模优化。

DW-FN-634

时序分析

神经控制微分方程

用神经网络参数化动力系统的微分方程:dz/dt = f_θ(z(t), t)。 初始状态z(t0)已知。 通过ODE求解器(如dopri5)数值积分得到任意时刻的状态:z(t1) = z(t0) + ∫_{t0}^{t1} f_θ(z(t), t) dt

输入: 初始状态z0, 时间t, 神经网络f_θ
输出: 状态z(t)

初始状态z0, 神经网络f_θ, ODE求解器, 伴随状态方法(用于反向传播)

连续时间深度学习的基石。 适用于不规则时间序列建模、生成模型(FFJORD)、物理信息神经网络。 参数量不随网络深度增加。

需要选择ODE求解器和容忍误差。 反向传播通过伴随方法, 内存复杂度O(1)。

动力系统的复杂度, 时间跨度和采样密度

依赖ODE求解器和自动微分。

是深度学习和微分方程的交叉领域。 可解释性更强(通过学习到的微分方程)。

在模拟的动力系统数据上训练NCDE, 预测未来状态, 并与真实值比较。

神经常微分方程、连续时间模型、科学计算

计算: ODE求解是迭代过程, 比前馈网络慢, 但内存高效。

DW-FN-635

机器学习

自动机器学习管道 (AutoML Pipeline)

端到端自动化机器学习流程, 包括数据预处理、特征工程、模型选择、超参数调优、模型评估和部署。 将多个AutoML步骤串联, 形成可重复、可优化的完整工作流。 工具: Google Vertex AI Pipelines, Kubeflow Pipelines。

输入: 原始数据集D, 任务定义(分类/回归), 性能指标M
输出: 训练好的最佳模型M*, 及完整的管道定义文件

原始数据, 管道组件(算子), 搜索空间(特征组合、模型、超参数), 优化目标

降低ML应用门槛, 提高数据科学家效率, 保证流程的一致性和可复现性。 是MLOps的核心组成部分。

管道设计需考虑组件的可复用性和数据接口。 优化搜索空间可能巨大。

数据复杂度, 管道深度, 搜索空间大小

依赖任务编排框架、AutoML库和模型注册表。

需要权衡自动化程度与人类专家干预。 可解释性和可调试性是挑战。

在多个标准数据集上运行自动管道, 评估最终模型的性能以及管道构建的时间成本。

自动化机器学习、MLOps、工作流

计算资源: 高, 需要大量计算资源进行超参数搜索和模型训练。

DW-FN-636

数据治理

数据市场 (Data Marketplace)

一个集中化的平台, 允许数据提供者发布、描述和销售其数据产品, 数据消费者发现、评估、订阅和使用这些数据。 包含数据目录、搜索、试用、计费、合同管理和交付等功能。

输入: 数据产品列表及其元数据、SLA、定价
输出: 一个可供内部或外部用户浏览和交易数据的在线市场

数据产品列表, 供应商和消费者账户, 搜索和发现界面, 合同与计费引擎, 数据交付API

促进数据货币化和数据资产的价值实现。 可以是内部的(跨部门共享), 也可以是外部的(面向公众或合作伙伴)。

需要解决数据定价、质量保证、合规性(如数据使用权)和隐私保护等复杂问题。

数据产品的数量和质量, 市场活跃度, 合规要求

依赖数据目录、访问控制和计费系统。

是数据中台或数据网格架构的最终价值体现形式之一。 需要强大的治理和运营。

模拟一个数据消费者从搜索、试用、订阅到获取数据的完整流程, 验证其顺畅性。

数据经济、数据治理、平台商业模式

平台开发/运营: 构建和维护市场的成本, 以及运营(如审核、支持)成本。

DW-FN-637

安全与合规

区块链数据溯源

将关键数据操作(如数据生成、授权访问、重大修改)的哈希指纹和元数据记录在区块链(如联盟链)上。 利用区块链的不可篡改和可追溯特性, 为数据提供可信的审计溯源。

输入: 数据操作事件event(包含数据ID、操作者、时间、操作类型等)
输出: 该事件的交易哈希tx_hash被记录在区块链上, 作为存证

数据事件, 区块链网络节点, 智能合约(定义存证结构), 事件哈希H(event)

增强数据在多方协作中的可信度。 用于供应链溯源、电子存证、科研数据完整性保障等场景。

通常只存储数据的哈希和关键元数据, 而非原始数据本身(因成本、性能和隐私)。

数据操作的频率, 区块链的性能(TPS)和成本

依赖区块链网络和智能合约。

需要参与方对区块链网络达成共识。 查询溯源信息需通过区块链浏览器或API。

写入一个测试事件到区块链, 然后通过交易哈希查询验证其存在和内容一致性。

区块链、数据溯源、可信计算

区块链交易成本: 每次存证产生交易费用(Gas费)。 性能: 写入延迟和吞吐量受限于区块链。

DW-FN-638

数据科学

生物信息学序列比对 (BLAST)

基本局部比对搜索工具。 用于在数据库中搜索与查询序列(核酸或蛋白质)相似的序列。 核心: 1. 生成查询序列的短单词(k-mer)列表。 2. 在数据库中扫描找到匹配单词的位置( seeding)。 3. 对匹配区域进行扩展和评分(使用替换矩阵, 如BLOSUM)。 4. 报告显著的匹配(E值评估)。

输入: 查询序列Q, 目标序列数据库DB, 评分矩阵S, 阈值E
输出: 与查询显著相似的数据库序列列表, 及比对详情和统计显著性(E值)

查询序列, 数据库, 单词大小W, 打分矩阵, 空缺罚分, E值阈值

是生物信息学的基石工具, 用于寻找同源序列、推断功能、进行物种分类等。 有大量变体和优化。

E值(期望值)越小, 匹配越显著。 通常E<0.05或更小视为显著。

查询序列长度, 数据库规模, 相似度阈值

依赖序列索引和动态规划(局部扩展)。

有成熟的软件包(NCBI BLAST+)和在线服务。 需理解其统计意义。

用已知的同源序列对运行BLAST, 验证能正确检索到并给出低的E值。

生物信息学、序列分析、动态规划

CPU/内存: 高, 特别是对大数据库。 需要建立索引加速。

DW-FN-639

数据科学

计算几何 (Delaunay三角剖分)

对平面点集P的三角剖分, 满足Delaunay准则: 每个三角形的外接圆内不包含其他点。 最大化最小角, 避免“瘦长”三角形。 是Voronoi图的对偶。

输入: 平面点集P = {p_i}
输出: 三角网格T, 连接P中点的边集合, 将凸包区域划分为三角形

点集P, 边e, 三角形t, 外接圆C(t)

用于有限元分析、地形建模、计算机图形学、网格生成等。 是许多空间分析的基础。

要求点不共线。 算法复杂度O(n log n)。 有增量算法、分治算法等。

点的数量n, 点的分布

依赖几何谓词(点定位、圆测试)和数据结构(如DCEL)。

数值稳定性是关键(需处理浮点误差)。 有成熟库(如CGAL, scipy.spatial.Delaunay)。

检查生成的三角网格是否满足空圆特性, 以及是否覆盖了点的凸包。

计算几何、网格生成、空间分析

CPU: O(n log n), 对于大规模点集需要高效实现。

DW-FN-640

前沿探索

量子机器学习 (变分量子电路)

将经典数据编码到量子比特状态(如角度编码), 通过参数化的量子电路(含旋转门、纠缠门)进行变换, 最后测量得到输出。 电路参数θ通过经典优化器(如梯度下降)调整, 以最小化损失函数。

输入: 经典数据x, 参数化量子电路U(θ), 测量算子M
输出: 测量期望值`<ψ(θ)

M

ψ(θ)>` 作为模型预测

量子比特, 量子门(RX, RY, RZ, CNOT), 参数θ, 期望值

探索量子计算在机器学习中的潜在优势(如处理高维Hilbert空间)。 目前处于早期, 在含噪声中等规模量子(NISQ)设备上运行。

电路深度受限于当前量子设备的相干时间。 需要错误缓解技术。

问题映射方式, 电路深度, 量子比特数和连通性

依赖量子计算模拟器或真实量子硬件, 以及经典优化器。

是量子-经典混合算法。 需要量子计算和机器学习的交叉知识。

在经典模拟器上运行VQC解决简单分类问题, 验证其可训练性。

DW-FN-641

前沿探索

神经辐射场 (NeRF)

用于3D场景重建和新视角合成的深度学习模型。 用一个多层感知机(MLP)隐式地表示连续场景:F_θ: (x, d) -> (c, σ), 其中x是3D位置,d是观看方向,c是颜色,σ是体密度。 通过体渲染合成图像。

输入: 多视角2D图像及其相机参数
输出: 一个连续的3D场景表示, 可从任意视角渲染新图像

3D坐标x, 方向d, MLP参数θ, 体渲染积分公式C(r) = ∫ T(t) σ(r(t)) c(r(t), d) dt

生成高保真、视角一致的新视图。 是神经渲染领域的突破。 应用于视图合成、3D重建、SLAM等。

需要大量(数十到数百张)校准图像。 训练和渲染速度慢。

输入图像的数量和质量, 场景复杂度, MLP容量

依赖可微分体渲染和位置编码。

后续工作致力于加速训练和推理(如InstantNGP)。 是Metaverse的基础技术之一。

在已知相机姿态的合成场景(如Blender)上训练NeRF, 渲染新视角并与真实值比较PSNR/SSIM。

计算机视觉、计算机图形学、神经渲染

GPU/时间: 训练极慢(数小时到数天), 需要大量显存和高性能GPU。 推理也慢。

DW-FN-642

前沿探索

脉冲神经网络

模仿生物神经元脉冲发放行为的第三代神经网络。 神经元模型(如LIF)包含膜电位V, 当V超过阈值V_th时发放脉冲, 并重置。 信息编码在脉冲的时序中。 训练算法: STDP(无监督), 或通过代理梯度法的反向传播(有监督)。

输入: 脉冲序列(或编码后的脉冲)
输出: 脉冲序列或分类标签

神经元膜电位V, 阈值V_th, 时间常数τ, 突触权重w, 脉冲发放函数S(阶跃函数)

具有事件驱动、稀疏计算、低功耗的潜力。 适用于神经形态硬件。 应用于动态视觉传感器(DVS)数据处理、低功耗边缘AI。

时间维度是核心。 训练比传统ANN更具挑战性。

时间步长, 神经元模型复杂度, 脉冲编码方式

依赖脉冲神经元模拟和时序反向传播。

是类脑计算的研究方向。 编程模型和硬件生态不成熟。

在MNIST的脉冲编码版本上训练SNN进行分类, 评估准确率和模拟的能耗(脉冲数)。

类脑计算、神经形态工程、脉冲神经网络

计算范式: 理论上在专用硬件上能耗低。 在传统硬件上模拟效率低。

DW-FN-643

前沿探索

数字孪生仿真与优化

构建物理实体(如工厂、城市、人体)的虚拟映射(数字孪生), 并利用实时数据、仿真模型和AI进行状态监控、预测、假设分析和优化。 核心是仿真引擎(基于物理或数据驱动)和优化算法(如强化学习)的闭环。

输入: 物理实体的实时传感器数据I(t), 仿真模型M
输出: 虚拟实体的状态S_v(t), 预测P(t+Δt), 优化决策A*

传感器数据流, 几何/物理模型, 数据同化算法, 仿真求解器, 优化器

用于产品设计、预测性维护、城市管理、医疗个性化等。 是实现工业4.0、智慧城市的关键。

仿真精度和实时性是关键挑战。 需要高保真模型和高效计算。

物理系统的复杂度, 数据质量和频率, 仿真的保真度要求

依赖多物理场仿真软件、实时数据流处理和AI/ML平台。

跨学科领域, 需要OT与IT的深度融合。 仍在发展中。

在数字孪生中模拟一个故障, 验证其能预测物理实体的相应变化; 或执行一个优化策略并在物理世界验证效果。

仿真科学、物联网、控制优化、工业工程

计算/数据: 高, 需要强大的算力运行复杂仿真, 并处理海量实时数据。

DW-FN-644

前沿探索

边缘AI模型蒸馏与部署

将云端大模型(教师)的知识蒸馏到适用于边缘设备的小模型(学生)中, 并利用边缘推理框架(如TensorFlow Lite, PyTorch Mobile, NVIDIA TensorRT)进行优化(量化、剪枝、编译)和部署。 实现低延迟、低功耗、隐私保护的本地推理。

输入: 云端教师模型T, 边缘设备约束(算力、内存、功耗)
输出: 部署在边缘设备上的优化学生模型S

教师模型T, 学生模型架构搜索空间, 蒸馏损失, 边缘推理优化工具链

使AI能力延伸到网络边缘, 适用于物联网、移动设备、自动驾驶等场景。 解决带宽、延迟、隐私和可靠性问题。

需权衡模型大小、精度和推理速度。 硬件感知的神经网络搜索是前沿。

边缘硬件规格, 任务精度要求, 功耗预算

依赖模型压缩工具、硬件厂商的SDK和边缘运行时。

需要针对特定硬件进行精细调优。 软硬件协同设计是关键。

在目标边缘设备上测量优化后模型的推理延迟、功耗和任务精度。

边缘计算、模型压缩、嵌入式AI

开发/优化成本: 为不同硬件平台优化和部署模型需要专门知识。 边缘设备资源有限。

DW-FN-645

数据管理

数据编织主动元数据

在数据编织架构中, 元数据不仅是 passively collected, 而是 actively driving automation。 例如, 当检测到数据质量问题时, 自动触发告警并关联影响的下游资产; 当查询模式变化时, 自动建议索引或物化视图。

输入: 各种被动元数据(技术、业务、操作), AI/ML引擎
输出: 自动化动作(建议、修复、优化)或增强的洞察

元数据图谱, 推理引擎, 策略引擎, 动作执行器

是数据编织实现价值的关键。 将元数据从“记录系统”转变为“参与系统”, 实现数据的自描述、自管理、自优化。

需要丰富的上下文(血缘、语义、使用情况)和智能来做出正确决策。

元数据的数量、质量和关联度, AI/ML模型的成熟度

依赖知识图谱、推理引擎和工作流自动化。

是数据管理的未来形态。 需要强大的元数据基础。

模拟一个常见数据问题(如Schema变更), 验证主动元数据系统能正确识别影响并触发通知或补救工作流。

元数据管理、人工智能、数据编织

系统复杂性: 构建和维护一个智能的、自动化的元数据驱动系统复杂度高。

DW-FN-646

系统与架构

存内计算 (In-Memory Computing)

将计算单元嵌入到内存阵列中, 直接在存储数据的位置进行计算, 而非在CPU和内存间移动数据。 利用模拟或数字电路执行矩阵-向量乘法等操作, 适用于神经网络推理和图形处理。

输入: 输入数据向量x, 存储在内存阵列中的权重矩阵W
输出: 计算结果y = Wx(或近似)

内存计算单元(如Memristor交叉阵列), 数模/模数转换器, 控制器

突破“内存墙”, 实现极高的能效和吞吐量, 特别适合AI推理。 是后冯·诺依曼架构的探索方向。

目前精度、可靠性和制造成本是主要挑战。 多用于边缘推理场景。

计算精度要求, 内存技术(ReRAM, PCM等), 阵列规模

依赖新型非易失性存储器件和混合信号电路设计。

是硬件层面的根本性创新。 仍处于研究和早期产品化阶段。

在模拟器或原型芯片上运行一个小的神经网络层, 测量其计算能效和准确性。

计算机体系结构、半导体、存算一体

硬件研发: 需要全新的芯片设计和制造工艺, 前期投入巨大。

DW-FN-647

系统与架构

分散式SQL查询引擎 (Trino)

一个开源的分布式SQL查询引擎, 允许查询位于多个异构数据源(如HDFS, S3, RDBMS, NoSQL)中的数据, 而无需移动数据。 采用主从架构, 协调节点解析和优化查询, 工作节点并行处理数据。

输入: 跨多个数据源的SQL查询
输出: 查询结果, 如同查询单个数据库

协调器, 多个工作节点, 连接器(到各数据源), 查询执行计划

实现逻辑数据仓库。 提供交互式查询能力。 是数据湖查询的流行选择。 前身为PrestoSQL。

适用于即席查询和数据分析, 而非高并发TP。 对内存要求高。

查询复杂度, 数据源性能和网络, 集群规模

依赖连接器实现和各数据源的查询下推能力。

需要调优内存配置和连接器参数。 社区活跃, 连接器丰富。

执行一个跨Hive表和MySQL表的关联查询, 验证结果正确性和性能。

分布式计算、数据虚拟化、SQL引擎

内存/网络: 大量使用内存进行shuffle和聚合, 网络是跨节点通信瓶颈。

DW-FN-648

数据工程

流式变更数据捕获 (Debezium)

一个开源的分布式平台, 将现有数据库的变更流(CDC)捕获为事件流。 连接器(如MySQL, PostgreSQL, MongoDB)读取数据库事务日志, 将变更(INSERT/UPDATE/DELETE)发布到Kafka主题, 供下游消费。

输入: 源数据库连接配置, Kafka集群
输出: 以Avro/JSON格式写入Kafka的变更事件流

源数据库连接器, Kafka Connect框架, 模式注册表(可选), 变更事件结构

实现低延迟的数据集成和微服务间数据同步。 是事件驱动架构和CQRS模式的基础设施。

需要源数据库开启二进制日志或类似功能。 保证至少一次交付语义。

数据库变更频率, 网络稳定性, Kafka性能

依赖数据库日志解析器和Kafka Connect运行时。

需谨慎处理Schema变更、大事务和连接器故障恢复。

在源库执行DML操作, 验证Kafka中能收到相应的变更事件, 且数据一致。

变更数据捕获、事件流、数据复制

源库负载: 读取事务日志对源库有额外IO负载。 网络: 持续的变更流数据传输。

DW-FN-649

机器学习

联邦学习 (水平)

多个数据持有方在本地训练模型, 只交换模型更新(如梯度、参数), 而不交换原始数据, 共同训练一个全局模型。 经典算法FedAvg: 服务器聚合本地模型参数:w_{t+1} = Σ_{k=1}^K (n_k / n) w_{t+1}^k

输入: 各参与方的本地数据集D_k, 初始全局模型w_0
输出: 训练好的全局模型w

参与方k, 本地数据D_k, 本地模型w^k, 聚合权重p_k

解决数据孤岛和隐私保护下的联合建模问题。 适用于参与方数据特征空间相同、样本ID不同的场景(如不同医院的病人数据)。

需处理统计异构性(非IID数据)、通信效率、安全聚合等问题。

参与方数量, 数据异构程度, 通信轮数

依赖安全聚合协议和分布式优化。

需要中心协调方或对等网络。 谷歌的TensorFlow Federated是框架之一。

在模拟的非IID数据集上运行FedAvg, 比较与集中式训练模型的性能差距。

隐私保护机器学习、分布式优化

网络通信: 多轮模型参数传输, 是主要瓶颈。 计算: 各参与方本地训练开销。

DW-FN-650

机器学习

联邦学习 (垂直)

多个数据持有方的数据特征不同, 但样本ID有部分重叠。 各方在重叠样本上协作训练模型, 而不暴露各自特征。 通过加密对齐样本ID后, 使用同态加密或安全多方计算等技术进行联合训练(如逻辑回归、决策树)。

输入: 各参与方的特征数据X_k(样本部分对齐), 标签方持有y
输出: 联合训练好的模型

对齐的样本ID子集, 各方特征, 标签, 安全计算协议(如Paillier)

适用于跨行业联合建模(如银行+电商)。 比水平联邦更复杂, 需要样本对齐和安全计算。

样本对齐本身可能泄露隐私, 需隐私保护集合求交(PSI)。 计算和通信开销大。

重叠样本比例, 特征维度, 安全计算协议效率

依赖PSI、同态加密或安全多方计算库。

目前仍处于研究和小规模试验阶段。 工程实现复杂。

在模拟的垂直分区数据上, 运行一个安全的逻辑回归训练, 验证其精度与集中式训练相当。

隐私保护机器学习、安全多方计算

计算/通信: 极高, 安全计算协议带来数个数量级的开销。

DW-FN-651

数据科学

生存分析 (Cox比例风险模型)

用于分析直到某个事件(如死亡、故障)发生的时间数据。 Cox模型: 风险函数h(t\|x) = h_0(t) exp(β^T x)。 其中h_0(t)是基准风险函数,x是协变量,β是系数。 通过偏似然估计β, 不依赖于h_0(t)的具体形式。

输入: 生存时间T_i, 事件指示δ_i(1发生/0删失), 协变量x_i
输出: 系数估计β, 风险比HR = exp(β), 生存函数估计

生存时间T, 删失状态δ, 协变量x, 偏似然函数L(β)

用于医学研究、可靠性工程、客户流失预测等。 处理右删失数据是其特点。

比例风险假设需检验。 风险比HR解释为协变量对事件风险的乘性效应。

样本量, 事件数, 协变量数量

依赖偏似然最大化(通常用Newton-Raphson)。

是生存分析的经典模型。 有扩展(如时变系数)。

用模拟的生存数据拟合Cox模型, 验证系数估计接近真实值, 并进行比例风险假设检验。

生存分析、生物统计学、可靠性工程

计算: 低, 为模型拟合。

DW-FN-652

数据科学

空间计量经济学 (空间自回归)

考虑地理空间单元之间的相互依赖。 空间自回归模型: y = ρ W y + X β + ε, 其中W是空间权重矩阵,ρ是空间自相关系数。 用于估计“溢出效应”。

输入: 因变量y, 自变量X, 空间权重矩阵W
输出: 参数估计ρ, β, 及显著性检验

空间单元数据, 邻接或距离权重矩阵W, 空间滞后项W y, 误差项ε

用于房地产、环境、公共政策等涉及空间交互的研究。 忽略空间自相关会导致估计偏误。

权重矩阵W的构建是关键(如邻接、k近邻、距离衰减)。 需检验空间相关性(Moran's I)。

空间单元数量, 空间依赖的强度, 权重矩阵定义

依赖最大似然估计或广义矩估计。

是GIS和计量经济学的交叉。 有专门软件(如GeoDa, R的spdep)。

在已知存在空间自相关的人工数据上拟合SAR模型, 验证能正确估计出ρ

空间计量、地理信息系统、经济学

计算: 中, 涉及权重矩阵运算和最大似然估计, 单元数多时计算量大。

DW-FN-653

数据工程

数据合约测试 (Great Expectations)

使用Great Expectations等框架定义、记录和验证关于数据的期望。 在数据流水线中作为测试运行, 确保数据满足其“合约”(如非空、唯一、在特定范围内)。 支持自动生成数据质量文档。

输入: 数据批次batch, 期望规则集expectations(如expect_column_values_to_be_unique
输出: 验证结果(通过/失败)及详细报告

数据批次, 期望套件(Suite), 验证结果(Validation Result), 数据文档(Data Docs)

将软件工程的测试实践引入数据工程。 实现数据质量的内建(shift-left)。 是数据可观测性的组成部分。

期望应具有业务意义。 可配置严格程度(如success_on_last_run)。

数据变化频率, 规则数量和复杂度

依赖Great Expectations库和存储(如文件、数据库)来保存期望和结果。

需要团队文化接受“数据测试”。 集成到CI/CD和数据流水线中。

对已知质量好/坏的数据运行同一套期望, 验证能正确通过/失败。

数据质量、测试、DataOps

运行时开销: 运行大量期望会增加流水线处理时间。

DW-FN-654

系统与架构

无服务器工作流 (AWS Step Functions)

使用JSON格式的状态机语言定义一系列AWS服务(如Lambda, ECS, SNS)的协调逻辑。 服务器自动管理状态、错误处理、重试和可视化。 实现复杂业务逻辑的编排。

输入: 状态机定义(ASL), 初始输入input
输出: 工作流执行结果, 及详细的执行历史

状态机(包含States, Choice, Parallel, Wait等状态), 执行ARN, 任务令牌(Task Token)

简化微服务或无服务器函数间协调的开发和运维。 提供内置的可靠性、可观察性和可调试性。

适用于有状态、多步骤的异步流程。 定价基于状态转换次数。

工作流的步骤数和复杂度, 执行频率

依赖云服务商的工作流服务。

是事件驱动架构的强力粘合剂。 需遵循其状态机定义规范。

设计一个简单的订单处理工作流(如验证->付款->发货), 执行并检查每个步骤的状态。

无服务器计算、工作流编排、云原生

云成本: 按状态转换次数计费, 高频长流程可能成本高。 管理开销低。

DW-FN-655

系统与架构

服务网格 (Istio)

为微服务架构提供透明的、语言无关的网络层基础设施。 通过注入Sidecar代理(Envoy)劫持微服务间流量, 实现流量管理(负载均衡、路由、金丝雀)、可观测性(指标、日志、追踪)和安全性(mTLS、鉴权)。

输入: 微服务部署, Istio控制平面配置
输出: 增强的微服务网络, 具备上述能力

控制平面(Istiod), 数据平面(Envoy Sidecar), 自定义资源定义(如VirtualService, DestinationRule)

解耦网络治理逻辑与业务逻辑。 是云原生微服务的事实标准中间件。 但增加复杂性和延迟。

适用于Kubernetes环境。 对延迟有额外开销(约数毫秒)。

服务数量, 网络策略复杂度

依赖Kubernetes和容器网络。

需要学习新的抽象和配置。 适用于中大型、对治理有要求的微服务集群。

配置一个金丝雀发布规则, 将部分流量导向新版本服务, 验证流量按预期分割。

微服务、服务网格、云原生

资源开销: 每个Pod增加一个Sidecar容器, 消耗额外CPU和内存。 网络延迟小幅增加。

DW-FN-656

安全与合规

零信任数据访问 (Zero Trust Data Access)

在零信任安全模型下, 任何用户、设备或系统在访问数据前都必须经过严格的身份验证和授权, 且授权是动态的、基于上下文(如用户角色、设备状态、位置、时间)的。 默认不信任网络内部和外部的任何请求。

输入: 访问请求(身份、上下文), 数据资源, 策略引擎
输出: 访问决策(允许/拒绝)及可能的数据脱敏/过滤

身份提供商(IdP), 策略决策点(PDP), 策略管理点(PAP), 属性(用户、资源、环境)

应对网络边界模糊化(如远程办公、云化)。 核心原则: 永不信任, 始终验证。 最小权限访问。

需要强大的身份管理和持续的信任评估。 是对传统边界安全模型的根本性改变。

用户和系统数量, 策略的粒度和复杂度

依赖统一的身份、策略管理和执行点(如代理、API网关)。

是系统工程和文化变革, 需分阶段实施。 是数据安全架构的演进方向。

模拟一个来自不常见位置/设备的访问请求, 验证系统会要求额外验证或直接拒绝。

零信任安全、身份与访问管理、数据安全

管理/集成复杂度: 高, 需要改造现有身份和访问控制系统, 并定义细粒度策略。

DW-FN-657

资源/成本管理

FinOps 云财务运营

一套将财务责任引入云可变支出模型的实践和文化, 使工程、财务和业务团队通过协作数据驱动决策来加速价值实现。 核心: 1. 告知(成本可视化和分摊)。 2. 优化(资源效率提升)。 3. 运营(持续优化流程)。

输入: 云账单和使用数据, 业务元数据(标签)
输出: 成本透明性报告, 优化建议, 预算和预测

云账单文件, 资源标签, 成本分配模型, 预算和预测工具, 优化工作流

旨在控制云成本的同时不牺牲创新速度。 是云计算时代的新型IT财务管理。 需要跨部门协作。

建立责任制(如让技术团队对其产生的云成本负责)是关键。

云支出的规模和复杂度, 标签覆盖率, 组织协作成熟度

依赖云成本管理工具(如CloudHealth, Cloudability)和流程。

需要高管支持和文化转变。 FinOps基金会提供了最佳实践框架。

跟踪单位成本(如每次查询成本、每个用户服务成本)的变化趋势, 并驱动优化。

云计算财务管理、IT财务管理、DevOps

工具/流程: 需要投资工具和建立新的流程(如预算跟踪、优化工作坊)。

DW-FN-658

数据管理

数据网格数据产品自检

数据产品团队负责实现和运行自动化的数据产品自检(Self-serve Testing), 作为CI/CD的一部分。 包括: 模式测试、数据质量测试、沿袭验证、SLA监控等。 确保数据产品在上线或更新后持续满足契约。

输入: 数据产品代码/配置, 测试套件
输出: 自检通过/失败, 决定能否部署/发布

数据产品代码库, 测试框架(如dbt test, Great Expectations), CI/CD流水线, 监控配置

将质量内建(Shift-Left)和运维责任(You Build It, You Run It)原则应用于数据产品。 是数据网格成功运营的保障。

自检应尽可能自动化, 并作为发布门禁。 失败应阻止部署并通知团队。

数据产品的复杂度, 测试覆盖的全面性

依赖团队的工程能力和自动化测试工具。

需要数据产品团队具备软件

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐