【信息科学与工程学】【数据科学】第五十一篇 数据仓库02
|
编号 |
类型 |
函数/算法类型 |
函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表 |
参数类型和参数列表 |
参数/变量/常量/标量/张量/矩阵/集合列表 |
数学表达式/物理模型/计算机模型/通信模型/关联描述 |
典型值/范围 (管控目标) |
核心关联参数 |
依赖关系 |
设计/软件开发/硬件制造/应用要求 |
测试/验证方法 |
关联学科/领域 |
资源需求 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
DW-FN-521 |
优化算法 |
小批量梯度下降 |
参数更新: |
输入: 目标函数 |
B |
|
|
批量梯度下降和随机梯度下降的折中。利用向量化计算,比SGD更稳定,比BGD更快。 |
批量大小是重要超参,通常为2的幂(如32, 64, 128)。 |
参数维度d, 批量大小|B|, 数据量n |
依赖小批量梯度计算。 |
是现代深度学习中最常用的优化算法基础。 |
监控训练损失和验证损失随epoch的变化。 |
|
DW-FN-522 |
优化算法 |
动量法 |
引入速度变量 |
输入: 目标函数 |
|
模拟物理动量,加速在稳定方向的更新,抑制震荡。有助于穿过平坦区域和狭窄山谷。 |
γ通常设为0.9或0.99。 |
学习率η, 动量系数γ |
依赖梯度计算和动量更新。 |
通常与SGD或小批量GD结合使用(SGDM)。 |
比较使用动量前后在优化曲面上的收敛速度。 |
优化算法 |
内存: 需要存储速度变量v, 与参数同规模。 |
|
DW-FN-523 |
优化算法 |
AdaGrad |
为每个参数维护一个梯度平方的累积变量 |
输入: 目标函数 |
|
自适应学习率。对频繁更新的参数降低学习率,对稀疏特征加大更新。适用于稀疏数据。 |
学习率η通常可设大些(如0.01)。累积平方梯度会导致学习率过早下降至零。 |
参数维度d, 梯度稀疏性 |
依赖梯度计算和平方累积。 |
是自适应学习率算法的早期代表。在训练深度网络时可能过早停止学习。 |
在稀疏特征数据集(如文本)上测试效果。 |
自适应优化 |
内存: 存储G, 与参数同规模。 |
|
DW-FN-524 |
优化算法 |
RMSProp |
改进AdaGrad,引入衰减系数 |
输入: 目标函数 |
|
解决AdaGrad学习率单调下降问题。对历史梯度平方进行指数衰减平均,关注近期梯度。 |
ρ通常设为0.9,η通常0.001。 |
学习率η, 衰减率ρ |
依赖梯度计算和指数移动平均。 |
是深度学习常用的优化器之一。 |
在非凸优化问题(如神经网络训练)上观察收敛性。 |
自适应优化 |
内存: 存储E[g²], 与参数同规模。 |
|
DW-FN-525 |
优化算法 |
Adam |
结合动量和RMSProp。计算梯度的一阶矩(均值) |
输入: 目标函数 |
|
自适应学习率,且包含动量。通常默认参数表现良好,是深度学习最常用的优化器。 |
β1=0.9, β2=0.999, η=0.001, ɛ=1e-8。 |
学习率η, 衰减率β1, β2 |
依赖梯度计算和矩估计更新。 |
通常无需调参即表现良好。有时需配合学习率衰减。 |
在标准深度学习任务(如图像分类)上测试收敛速度和最终性能。 |
自适应优化、深度学习 |
内存: 存储m和v, 是参数量的两倍。 |
|
DW-FN-526 |
优化算法 |
牛顿法 |
使用二阶导数(海森矩阵 |
输入: 目标函数 |
|
二阶收敛,速度比一阶方法快。但需计算和存储海森矩阵及其逆,计算开销大。 |
适用于参数规模不大的凸优化问题。 |
参数维度d, 海森矩阵的条件数 |
依赖计算海森矩阵和求解线性方程组。 |
通常不直接用于深度学习(参数量太大,且非凸)。 |
在小型凸优化问题(如逻辑回归)上与梯度下降比较收敛速度。 |
数值优化、凸优化 |
CPU/内存: 计算和存储海森矩阵O(d²), 求逆O(d³), 维度d大时不可行。 |
|
DW-FN-527 |
优化算法 |
拟牛顿法 |
用正定矩阵 |
输入: 目标函数 |
|
避免直接计算海森矩阵,迭代更新近似矩阵。收敛速度超线性,内存开销O(d²)。L-BFGS存储有限的历史向量,内存O(m d)。 |
适用于中等规模(d~10^4)的优化问题。 |
参数维度d, 存储的历史对数量m(L-BFGS) |
依赖梯度计算和矩阵更新。 |
L-BFGS是常用的拟牛顿法,适用于全批量优化。 |
在逻辑回归、条件随机场等模型上比较性能。 |
数值优化、凸优化 |
内存: BFGS需O(d²), L-BFGS需O(m d)。 计算开销比一阶方法高。 |
|
DW-FN-528 |
优化算法 |
共轭梯度法 |
用于求解对称正定线性方程组 |
输入: 对称正定矩阵 |
|
一种迭代法,对于二次凸优化问题,最多n步收敛。可用于训练线性模型或作为神经网络优化器的子过程。 |
要求A对称正定。 |
矩阵A的条件数, 问题维度n |
依赖矩阵-向量乘法和向量运算。 |
通常不直接用于深度神经网络训练,但可用于求解线性系统或子问题。 |
求解一个已知解的线性系统,验证误差收敛。 |
数值线性代数、优化 |
CPU/内存: 主要开销是矩阵-向量乘法, 内存存储A(如果稀疏可优化)。 |
|
DW-FN-529 |
优化算法 |
拉格朗日乘子法 |
将有约束优化问题 |
输入: 目标函数 |
|
将约束问题转化为无约束问题求解。是支持向量机、对偶问题等的基础。 |
要求约束满足一定正则性条件(如Slater条件)。 |
约束的数量和形式 |
依赖求解KKT条件(可能非线性方程组)。 |
是优化理论的基础工具。实际中常使用对偶方法或内点法。 |
构造简单的带约束优化问题,验证解满足KKT条件。 |
凸优化、对偶理论 |
计算复杂度: 取决于具体求解方法(如求解KKT系统)。 |
|
DW-FN-530 |
优化算法 |
序列最小优化 |
用于训练SVM。将大的QP问题分解为一系列小的QP子问题。每次选择两个拉格朗日乘子 |
输入: 训练数据 |
|
高效,因为子问题有解析解。是LIBSVM等库的核心算法。 |
适用于二分类SVM。 |
样本数n, 核函数计算开销 |
依赖核函数计算和解析更新公式。 |
需要启发式选择工作集(两个乘子)以加速收敛。 |
在标准分类数据集上训练SVM,验证分类准确率。 |
支持向量机、凸优化 |
CPU: 通常比通用QP求解器快, 但仍是O(n²)到O(n³)量级。 |
|
DW-FN-531 |
优化算法 |
期望最大化 |
用于含有隐变量 |
输入: 观测数据 |
|
迭代算法,保证每次迭代似然函数不降。用于高斯混合模型、HMM、主题模型等。 |
可能收敛到局部最优,对初始值敏感。 |
隐变量结构, 模型复杂度 |
依赖E步的后验计算和M步的优化。 |
是无监督学习的重要算法。 |
在已知真实参数的人工生成数据上运行EM,验证参数估计的准确性。 |
统计计算、概率图模型 |
CPU: 迭代算法, 每轮E步和M步的计算开销取决于模型。 |
|
DW-FN-532 |
优化算法 |
遗传算法 |
模拟自然选择。1. 初始化种群(一组候选解)。2. 评估适应度。3. 选择:根据适应度选择父代。4. 交叉:父代交换部分基因产生子代。5. 变异:子代基因随机变化。6. 重复2-5直到满足停止条件。 |
输入: 适应度函数 |
种群 |
全局优化算法,适用于离散、连续、组合优化问题。不依赖梯度,可处理非凸、不可微问题。 |
参数(N, p_c, p_m)需要调优。收敛速度慢。 |
问题维度, 种群大小N, 遗传操作设计 |
依赖适应度评估和遗传操作。 |
适用于解空间大、缺乏好的启发式规则的优化问题。 |
在经典测试函数(如Rastrigin函数)上测试寻优能力。 |
进化计算、全局优化 |
CPU: 高, 需要评估大量个体, 迭代多代。 |
|
DW-FN-533 |
优化算法 |
粒子群优化 |
模拟鸟群觅食。每个粒子i有位置 |
输入: 适应度函数 |
粒子群 |
无梯度全局优化。易于实现,收敛较快。但可能早熟收敛(陷入局部最优)。 |
参数设置对性能影响大。w通常0.4-0.9,c1,c2通常2左右。 |
问题维度, 粒子数N, 参数w, c1, c2 |
依赖适应度评估和速度/位置更新。 |
适用于连续优化问题。 |
在标准测试函数上比较不同参数设置下的收敛性能。 |
群体智能、优化 |
CPU: 中高, 每轮评估N个个体的适应度。 |
|
DW-FN-534 |
优化算法 |
模拟退火 |
模拟固体退火过程。从高温开始,随着温度下降,在解空间中随机搜索,以一定概率(Metropolis准则)接受劣解,从而跳出局部最优。 |
输入: 目标函数 |
当前解 |
全局优化算法,理论上能以概率1收敛到全局最优(如果冷却足够慢)。 |
冷却计划(退火策略)是关键。 |
初始温度, 冷却速率, 迭代次数 |
依赖目标函数评估和随机邻域搜索。 |
可用于组合优化(如旅行商问题)和连续优化。 |
在TSP等组合优化问题上测试,与已知最优解比较。 |
随机优化、蒙特卡洛方法 |
CPU: 高, 需要大量迭代和随机搜索。 |
|
DW-FN-535 |
优化算法 |
蚁群算法 |
模拟蚂蚁觅食路径选择。蚂蚁在路径上释放信息素。路径越短,信息素浓度越高,后续蚂蚁选择该路径的概率越大。正反馈最终找到最优路径。 |
输入: 图 |
信息素矩阵 |
适用于组合优化路径问题,如TSP, 车辆路径问题。 |
参数α, β, ρ等需要调优。 |
问题规模(节点数), 蚂蚁数量m |
依赖图上的路径构建和信息素更新。 |
是元启发式算法,对离散优化问题有效。 |
在TSPLIB标准问题上测试,比较与最优解的差距。 |
群体智能、组合优化 |
CPU: 高, 每轮需要m只蚂蚁构建完整路径并更新信息素。 |
|
DW-FN-536 |
优化算法 |
贝叶斯优化 |
用高斯过程(GP)代理模型建模目标函数 |
输入: 黑盒目标函数 |
代理模型(如GP) |
用于超参数优化等黑盒函数优化问题。以较少的评估次数找到较优解。 |
适用于低维(<20维)连续优化,评估代价高的场景。 |
定义域维度d, 观测数据量 |
依赖高斯过程推断和采集函数优化。 |
是自动化超参数调优(如AutoML)的核心组件。 |
在测试函数(如Branin)上运行,比较评估次数和找到的最优值。 |
贝叶斯优化、全局优化 |
CPU: 中高, GP推断复杂度O(n³), n为观测点数, 随迭代增加。 |
|
DW-FN-537 |
图计算 |
深度优先搜索 |
递归或栈实现。从起点 |
输入: 图 |
|
用于图的遍历、拓扑排序、寻找连通分量、检测环等。 |
图可以是无向或有向。 |
图的规模|V|, |E| |
依赖递归栈或显式栈。 |
可生成深度优先森林,包括树边、后向边、前向边、横跨边。 |
对小图手动模拟DFS,验证遍历顺序。 |
图论、算法 |
CPU/内存: 时间O(|V|+|E|), 递归栈深度可达|V|。 |
|
DW-FN-538 |
图计算 |
最小生成树 |
Prim算法:从任意点开始,每次添加连接树与非树节点的最小权重边,直到所有点加入。Kruskal算法:按边权重排序,依次添加不形成环的边,直到有|V|-1条边。 |
输入: 加权无向连通图 |
|
用于网络设计、聚类等。Prim时间复杂度O(|E|log |V|)(二叉堆),Kruskal O(|E|log |E|)。 |
要求图连通。 |
顶点数|V|, 边数|E| |
Prim依赖优先队列,Kruskal依赖排序和并查集。 |
两种算法都得到相同总权重的MST(如果边权不同)。 |
对已知MST的小图运行算法验证。 |
图论、贪心算法 |
CPU: Prim O(|E|log |V|), Kruskal O(|E|log |E|)。 |
|
DW-FN-539 |
图计算 |
最大流/最小割 |
Ford-Fulkerson方法:在残留网络中寻找增广路,更新流量,直到无增广路。Edmonds-Karp:用BFS找最短增广路,复杂度O(|V||E|²)。Dinic:分层网络+阻塞流,O(|V|² |E|)。 |
输入: 流网络 |
|
最大流等于最小割。用于交通、网络流量、匹配等问题。 |
容量为非负实数。 |
顶点数|V|, 边数|E|, 最大容量 |
依赖增广路搜索和流量更新。 |
有多种高效实现(如Dinic, Push-Relabel)。 |
对小网络手动计算最大流,验证算法结果。 |
图论、组合优化 |
CPU: 依赖于算法, 最坏O(|V|³) 或 O(|V|² |E|)。 |
|
DW-FN-540 |
图计算 |
二分图匹配 |
匈牙利算法(用于最大匹配):通过增广路扩大匹配。Hopcroft-Karp:每次找多条最短增广路,复杂度O(√{|V|} |E|)。 |
输入: 二分图 |
|
将问题转化为最大流(添加源汇,边容量为1)。用于任务分配、稳定婚姻等。 |
二分图的两部分顶点集U和V。 |
|U|, |V|, |E| |
依赖增广路搜索或最大流算法。 |
匈牙利算法适用于稠密图,Hopcroft-Karp适用于稀疏图。 |
构造已知最大匹配的小图进行验证。 |
组合优化、图论 |
CPU: 匈牙利O(|V|³), Hopcroft-Karp O(√{|V|} |E|)。 |
|
DW-FN-541 |
图计算 |
拓扑排序 |
对有向无环图(DAG)的顶点进行排序,使得对每条有向边 |
输入: 有向无环图 |
|
用于任务调度、依赖解析(如编译顺序)。若有环则无法完成拓扑排序。 |
图必须是无环的。 |
顶点数|V|, 边数|E| |
依赖入度计算和队列操作。 |
可检测图中是否有环(若输出的顶点数<|V|,则有环)。 |
对已知DAG手动排序验证。 |
图论、调度 |
CPU: O(|V|+|E|)。 |
|
DW-FN-542 |
图计算 |
强连通分量 |
Kosaraju算法:1. DFS遍历图,记录完成时间。2. 计算图的转置 |
输入: 有向图 |
|
将有向图分解为强连通分量,每个分量内任意两点可达。用于编译器分析、社交网络。 |
适用于任意有向图。 |
|V|, |E| |
依赖DFS和栈操作。 |
Kosaraju需两次DFS,Tarjan一次但实现稍复杂。 |
对小图手动找出SCC,验证算法结果。 |
图论、算法 |
CPU: 两种算法都是O(|V|+|E|)。 |
|
DW-FN-543 |
图计算 |
特征向量中心性 |
一个节点的重要性与其邻居的重要性之和成正比。即满足 |
输入: 图 |
|
用于衡量节点在网络中的影响力。是PageRank的基础。 |
要求图是强连通的(或最大特征值唯一)。 |
图规模, 邻接矩阵的谱 |
依赖幂迭代法求主特征向量。 |
可用来识别网络中的关键人物。 |
计算小型网络的特征向量中心性,验证重要节点符合直觉。 |
网络分析、线性代数 |
CPU: 幂迭代法, 每次迭代O(|V|²)(稠密)或O(|E|)(稀疏)。 |
|
DW-FN-544 |
图计算 |
标签传播算法 |
初始化每个节点一个唯一标签。迭代:每个节点将其标签更新为其邻居中出现最多的标签。收敛后,具有相同标签的节点属于同一社区。 |
输入: 图 |
|
简单、快速,适用于大规模图。但结果可能不稳定,且对初始化敏感。 |
常用于社区发现。 |
顶点数|V|, 边数|E|, 图的模块性 |
依赖邻居标签统计。 |
是一种半监督学习算法(也可用于节点分类)。 |
在已知社区结构的人工网络上运行,评估社区发现质量(如NMI)。 |
社区发现、半监督学习 |
CPU: 接近线性O(|E|)。 |
|
DW-FN-545 |
图计算 |
图神经网络 |
消息传递框架:每个节点聚合其邻居的消息,并更新自身表示。第 |
输入: 图 |
|
将深度学习应用于图结构数据。可用于节点分类、链接预测、图分类等任务。 |
层数L不宜过深(过平滑问题)。 |
图规模, 节点特征维度, 层数L |
依赖消息传递和神经网络参数优化。 |
代表模型:GCN, GraphSAGE, GAT。需要大量标注数据。 |
在标准图数据集(如Cora, PubMed)上进行节点分类实验。 |
深度学习、图表示学习 |
GPU/CPU: 训练高, 需要存储中间激活和梯度。 推理可分批进行。 |
|
DW-FN-546 |
图计算 |
图注意力网络 |
在GNN中引入注意力机制。节点 |
输入: 同GNN, 加注意力头数 |
|
允许节点对不同邻居分配不同的重要性。可缓解邻居噪声,提高模型表达力。 |
多头注意力(如K=8)可稳定训练。 |
同GNN, 加注意力头数K |
依赖注意力计算和GNN框架。 |
是GNN的重要变体。 |
可视化学习到的注意力权重,检查是否合理。 |
注意力机制、图神经网络 |
GPU/CPU: 比普通GCN稍高, 因为要计算注意力系数。 |
|
DW-FN-547 |
自然语言处理 |
词嵌入 |
Word2Vec: Skip-gram目标:最大化 |
输入: 大量文本语料 |
语料库 |
V |
×d) |
将词语映射到连续向量空间,语义相似的词向量接近。是NLP的基础组件。 |
向量维度d通常50-300。 |
词汇量|V|, 语料规模, 窗口大小 |
依赖大规模语料训练(无监督)。 |
预训练词向量可作为下游任务的输入特征。 |
评估词向量的类比任务(如 king - man + woman = queen)和相似度任务。 |
|
DW-FN-548 |
自然语言处理 |
序列到序列模型 |
编码器(如RNN)将输入序列 |
输入: 源语言序列 |
|
用于机器翻译、文本摘要、对话系统等。是神经机器翻译的基石。 |
输入输出序列长度可变。 |
序列长度, 词汇表大小, RNN隐藏层大小 |
依赖编码器-解码器框架和注意力机制。 |
通常与注意力机制结合,解决长序列信息压缩问题。 |
在机器翻译数据集上评估BLEU分数。 |
机器翻译、序列生成 |
GPU/CPU: 训练高, 序列生成需自回归, 速度较慢。 |
|
DW-FN-549 |
自然语言处理 |
注意力机制 |
在Seq2Seq中,解码时每一步关注输入序列的不同部分。注意力分数 |
输入: 编码器隐藏状态 |
|
解决信息瓶颈,允许模型关注输入的相关部分。极大提升长序列处理能力。 |
注意力函数有多种:加性、点积、缩放点积等。 |
输入序列长度n, 隐藏层维度 |
依赖对齐模型计算和softmax。 |
是Transformer的核心组件。 |
可视化注意力权重,观察对齐是否合理(如翻译中对齐词)。 |
注意力机制、神经机器翻译 |
计算开销: 计算所有对的注意力分数O(n m), n,m为序列长度。 |
|
DW-FN-550 |
自然语言处理 |
Transformer 模型 |
基于自注意力机制,完全摒弃RNN/CNN。编码器:多头自注意力 + 前馈网络,层归一化和残差连接。解码器:带掩码的多头自注意力 + 编码器-解码器注意力 + 前馈网络。 |
输入: 序列的嵌入向量 + 位置编码 |
输入嵌入 |
并行度高,训练快,可捕捉长距离依赖。是BERT、GPT等预训练模型的基础。 |
模型规模大(数亿到数千亿参数)。 |
序列长度, 模型深度, 隐藏层维度, 注意力头数 |
依赖自注意力计算和深度神经网络训练。 |
需要大量数据和计算资源训练。 |
在GLUE等NLP基准测试上评估性能。 |
深度学习、自然语言处理 |
GPU内存: 极高, 注意力矩阵O(n² d) 占用大量显存, 限制序列长度。 |
|
DW-FN-551 |
自然语言处理 |
BERT 模型 |
基于Transformer编码器的双向预训练模型。预训练任务:1. 掩码语言模型(随机掩码15%的token,预测被掩码的词)。2. 下一句预测(判断两个句子是否连续)。 |
输入: 文本序列(可包含两个句子) |
文本token序列 |
生成上下文相关的词向量。通过微调可用于各种下游任务(分类、问答、NER等)。 |
常用版本:BERT-base (110M参数), BERT-large (340M参数)。 |
序列最大长度(如512), 模型规模 |
依赖Transformer编码器和预训练任务。 |
需要大规模语料(如Wikipedia)预训练。微调数据需求相对少。 |
在GLUE、SQuAD等基准上微调并评估。 |
预训练语言模型、自然语言理解 |
GPU内存: 大, 需要大显存加载模型和计算注意力。 |
|
DW-FN-552 |
自然语言处理 |
GPT 模型 |
基于Transformer解码器的自回归语言模型。预训练任务:给定前文,预测下一个词。通过生成式预训练,模型学会语言生成和推理。 |
输入: 文本序列 |
文本token序列 |
擅长文本生成。通过提示(prompt)和少量示例(few-shot)可完成各种任务。 |
模型规模巨大(GPT-3 1750亿参数)。 |
序列长度, 模型规模, 上下文窗口 |
依赖自回归生成和Transformer解码器。 |
需要海量文本和巨大算力训练。可通过API调用使用。 |
评估生成文本的流畅性、相关性,以及在下游任务上的few-shot性能。 |
预训练语言模型、自然语言生成 |
GPU内存/计算: 极大, 训练和推理成本极高。 |
|
DW-FN-553 |
自然语言处理 |
文本分类 |
将文本分为预定义类别。模型:1. 词袋+分类器。2. TextCNN:用多个卷积核提取n-gram特征。3. TextRNN:用RNN编码整个文本。4. 基于BERT的微调。 |
输入: 文本字符串 |
|
常见任务:情感分析、主题分类、垃圾邮件检测等。 |
类别数从二分类到多分类。 |
文本长度, 类别数, 训练数据量 |
依赖文本表示模型和分类器。 |
需要标注数据。预训练模型大幅提升小数据性能。 |
划分训练/测试集,评估准确率、F1-score等。 |
自然语言处理、分类 |
计算开销: 取决于模型, BERT微调开销大, 简单模型快。 |
|
DW-FN-554 |
自然语言处理 |
命名实体识别 |
识别文本中属于特定类别的实体(如人名、地名、组织机构名、时间、金额等)。通常建模为序列标注问题(如BIO标注)。模型:BiLSTM-CRF, BERT+CRF。 |
输入: 文本序列 |
|
是信息提取的基础步骤。 |
实体类别定义需明确。 |
文本长度, 实体类别数 |
依赖序列标注模型和标签解码。 |
需要标注的实体边界和类别数据。 |
评估精确率、召回率、F1(基于实体级别,而非token)。 |
信息提取、序列标注 |
GPU/CPU: 序列标注模型训练和推理开销中等。 |
|
DW-FN-555 |
自然语言处理 |
关系抽取 |
从文本中抽取实体之间的语义关系(如“出生于”)。方法:1. 有监督:建模为分类问题,输入包含两个实体的句子,预测关系。2. 远程监督:利用知识库自动标注。3. 开放关系抽取。 |
输入: 文本句子 |
|
用于构建知识图谱、问答系统等。 |
关系类型通常是预定义的封闭集,也可以是开放域。 |
句子长度, 关系类型数量 |
依赖句子编码和关系分类器。 |
需要标注的关系实例数据。远程监督有噪声。 |
评估抽取的三元组的准确率、召回率。 |
信息提取、知识图谱 |
计算开销: 类似句子分类。 |
|
DW-FN-556 |
自然语言处理 |
情感分析 |
分析文本所表达的情感倾向(正面/负面/中性,或更细的维度如喜悦、愤怒等)。可视为文本分类任务。 |
输入: 文本 |
|
用于产品评论分析、舆情监控、社交媒体分析等。 |
二分类或多分类,有时是回归(预测情感强度)。 |
文本长度, 情感细分程度 |
依赖文本表示和情感分类模型。 |
有大量公开数据集(如IMDb影评)。 |
在标准数据集上评估准确率等。 |
情感计算、意见挖掘 |
同文本分类。 |
|
DW-FN-557 |
自然语言处理 |
文本摘要 |
抽取式摘要:从原文中选择重要的句子组成摘要。生成式摘要:生成新的句子概括原文。模型:Seq2Seq with attention, Pointer-Generator, BART, T5。 |
输入: 长文本 |
|
帮助快速理解长文档内容。 |
摘要长度通常有比例或绝对限制。 |
原文长度, 摘要长度 |
依赖句子重要性评估(抽取式)或序列生成模型(生成式)。 |
需要原文-摘要对作为训练数据。生成式摘要更灵活但可能不忠实。 |
评估ROUGE分数(与参考摘要的重叠度),以及人工评价流畅性和忠实性。 |
文本生成、摘要 |
GPU/CPU: 生成式摘要训练和生成开销大, 特别是长文档。 |
|
DW-FN-558 |
自然语言处理 |
机器翻译 |
将一种语言的文本自动翻译为另一种语言。主流为神经机器翻译(NMT),基于Seq2Seq with attention 或 Transformer。 |
输入: 源语言文本 |
|
是NLP最早的成功应用之一。 |
需要大规模平行语料(双语对照文本)。 |
句子长度, 语言对, 词汇表大小 |
依赖大规模平行语料和NMT模型训练。 |
商用系统需要处理领域、术语、低资源语言等问题。 |
评估BLEU分数(与参考翻译的n-gram重叠度)。 |
机器翻译、序列到序列学习 |
GPU/计算: 训练需要大量计算和语料, 推理需高效解码。 |
|
DW-FN-559 |
自然语言处理 |
问答系统 |
开放域QA:从大规模文档集合中寻找答案。机器阅读理解:给定文章和问题,从文章中找出答案片段。模型:BiDAF, BERT for QA, 生成式QA。 |
输入: 问题 |
|
用于智能助理、搜索引擎、客服机器人等。 |
答案可以是抽取式(片段)或生成式。 |
问题复杂度, 文章长度 |
依赖阅读理解模型或检索-阅读流水线。 |
需要QA对数据集(如SQuAD)。 |
评估精确匹配(EM)和F1分数(对答案片段)。 |
问答、信息检索 |
计算开销: 阅读理解模型类似分类/序列标注, 开放域需加检索步骤。 |
|
DW-FN-560 |
自然语言处理 |
文本相似度计算 |
计算两段文本之间的语义相似度。方法:1. 表面特征(如Jaccard, 编辑距离)。2. 词向量平均+余弦相似度。3. 句子编码器(如BERT的[CLS]向量)的余弦相似度。4. 基于交互的模型(如ESIM)。 |
输入: 两段文本 |
|
用于重复问题检测、检索、聚类等。 |
相似度度量应与任务相关。 |
文本长度, 语义相似性定义 |
依赖文本表示模型和相似度计算。 |
有监督方法需要标注的相似度分数或标签。 |
在STS基准测试上评估与人工评价的相关性(如皮尔逊相关系数)。 |
语义相似度、信息检索 |
计算开销: 取决于文本表示模型, BERT计算开销大。 |
|
DW-FN-561 |
自然语言处理 |
主题模型 |
LDA:假设文档由多个主题混合生成,每个主题是词汇表上的概率分布。生成过程:1. 对每个文档,从狄利克雷分布采样主题分布θ。2. 对文档中每个词,从θ采样一个主题z,然后从主题z的多项式分布采样词w。 |
输入: 文档集合 |
|
无监督发现文档集合中的潜在主题。用于文本挖掘、降维、特征提取。 |
K需预先指定。可通过困惑度或主题一致性选择K。 |
文档数量, 词汇表大小, 主题数K |
依赖吉布斯采样或变分推断求解。 |
结果可解释性好。但假设词袋,忽略词序和语义。 |
检查高频主题词是否具有连贯语义,计算困惑度。 |
主题模型、无监督学习 |
CPU: 高, 推断需要迭代采样或优化。 |
|
DW-FN-562 |
计算机视觉 |
图像分类 |
将图像分为预定义类别。经典模型:AlexNet, VGG, GoogLeNet, ResNet, EfficientNet等。基于卷积神经网络(CNN)。 |
输入: 图像 |
|
是计算机视觉的基础任务。 |
输入图像通常为224×224×3(RGB)。 |
图像分辨率, 类别数, 模型深度 |
依赖卷积神经网络和大量标注图像数据。 |
需要大规模数据集(如ImageNet)训练。预训练模型可迁移。 |
在测试集上评估Top-1和Top-5准确率。 |
计算机视觉、深度学习 |
GPU: 训练极高, 推理中高(取决于模型复杂度)。 |
|
DW-FN-563 |
计算机视觉 |
目标检测 |
检测图像中物体的位置(边界框)和类别。两阶段:R-CNN系列(候选区域+分类)。一阶段:YOLO, SSD, RetinaNet(将检测视为回归/分类问题)。 |
输入: 图像 |
|
用于自动驾驶、视频监控、图像理解等。 |
需要标注边界框和类别。 |
图像大小, 物体数量, 类别数 |
依赖CNN特征提取和检测头。 |
实时检测要求速度快(如YOLO)。 |
评估平均精度(mAP), 在不同IoU阈值下计算。 |
目标检测、计算机视觉 |
GPU: 训练和推理开销大, 尤其两阶段方法。 |
|
DW-FN-564 |
计算机视觉 |
语义分割 |
对图像的每个像素进行分类,确定其所属的物体类别。模型:FCN, U-Net, DeepLab, PSPNet等。输出与输入同分辨率的类别图。 |
输入: 图像 |
|
用于医学图像分析、自动驾驶场景理解等。 |
需要像素级标注,成本高。 |
图像分辨率, 类别数 |
依赖全卷积网络和上采样技术。 |
编码器通常使用预训练的CNN(如ResNet)。 |
评估平均交并比(mIoU),像素准确率。 |
语义分割、计算机视觉 |
GPU内存: 高, 需要处理高分辨率特征图。 |
|
DW-FN-565 |
计算机视觉 |
实例分割 |
在语义分割的基础上,区分同一类别的不同实例。模型:Mask R-CNN(在Faster R-CNN基础上增加掩码头),YOLACT, SOLO等。 |
输入: 图像 |
|
比目标检测提供更精确的物体轮廓。用于机器人抓取、视频编辑等。 |
标注成本极高(像素级实例标签)。 |
图像中实例数量, 类别数 |
依赖检测和分割双分支。 |
Mask R-CNN是经典方法。 |
评估平均精度(AP)基于掩码IoU。 |
实例分割、计算机视觉 |
GPU: 比目标检测和语义分割更耗资源。 |
|
DW-FN-566 |
计算机视觉 |
图像生成 |
生成新的图像。GAN:生成器G和判别器D博弈训练。VAE:学习数据的隐变量分布,从分布中采样生成。扩散模型:通过逐步去噪生成图像。 |
输入: 随机噪声 |
|
用于数据增强、艺术创作、图像编辑等。 |
生成图像的质量和多样性是核心指标。 |
图像分辨率, 模型复杂度 |
依赖生成对抗训练或变分推断。 |
训练不稳定(尤其是GAN),需要技巧。 |
评估生成图像的视觉质量,使用IS(Inception Score)、FID(Frechet Inception Distance)等指标。 |
生成模型、计算机视觉 |
GPU: 极高, 尤其生成高分辨率图像需要大模型和长时训练。 |
|
DW-FN-567 |
计算机视觉 |
图像风格迁移 |
将一幅图像的内容与另一幅图像的风格结合,生成新图像。经典方法:Gatys等使用预训练VGG网络提取内容和风格特征,通过优化生成图像的特征匹配。快速风格迁移:训练一个前馈网络。 |
输入: 内容图像 |
|
用于艺术滤镜、创意设计。 |
内容与风格的权衡由损失权重控制。 |
图像大小, 风格强度 |
依赖预训练CNN特征提取和优化。 |
实时风格迁移需要训练好的前馈网络。 |
主观评价生成图像的质量和风格化程度。 |
风格迁移、计算机视觉 |
GPU: 优化方法每次生成需迭代, 前馈网络一次前向传播。 |
|
DW-FN-568 |
计算机视觉 |
图像超分辨率 |
将低分辨率图像重建为高分辨率图像。方法:基于插值(双线性、双三次)、基于学习(SRCNN, SRGAN, ESRGAN)。 |
输入: 低分辨率图像 |
|
用于图像修复、监控、医疗成像等。 |
缩放倍数(如2x, 4x, 8x)。 |
输入分辨率, 放大倍数 |
依赖CNN学习从LR到HR的映射。 |
需要成对的LR-HR图像训练。感知损失可提高视觉质量。 |
评估PSNR(峰值信噪比)、SSIM(结构相似性),以及感知质量(如LPIPS)。 |
超分辨率、图像恢复 |
GPU: 训练高, 推理中(取决于模型大小和分辨率)。 |
|
DW-FN-569 |
计算机视觉 |
人脸识别 |
人脸验证:判断两张人脸是否属于同一人。人脸识别:从数据库中找到与查询人脸匹配的身份。模型:DeepFace, FaceNet, ArcFace。使用度量学习(如三元组损失、中心损失)。 |
输入: 人脸图像 |
|
用于身份认证、安防、相册管理等。 |
需要人脸检测和对齐作为预处理。 |
人脸图像质量, 姿态、光照、表情变化 |
依赖大规模人脸数据集和深度度量学习。 |
涉及隐私和伦理问题。 |
在LFW、MegaFace等基准上评估验证准确率或识别率。 |
人脸识别、生物识别 |
GPU: 训练需要大量人脸数据, 推理提取特征速度快。 |
|
DW-FN-570 |
计算机视觉 |
图像相似度计算 |
计算两幅图像在视觉内容上的相似度。方法:1. 传统特征(SIFT, SURF)匹配。2. 深度特征(如从预训练CNN中提取的特征)的余弦相似度。 |
输入: 两幅图像 |
|
用于图像检索、版权保护、重复图片检测等。 |
相似度定义取决于任务(如实例级、类别级)。 |
图像内容复杂度 |
依赖特征提取模型。 |
深度特征通常比传统特征更鲁棒。 |
在图像检索数据集上评估检索精度(mAP)。 |
图像检索、计算机视觉 |
GPU/CPU: 特征提取开销(一次前向传播), 相似度计算快。 |
|
DW-FN-571 |
计算机视觉 |
光学字符识别 |
将图像中的文字区域检测并识别为文本。流程:1. 文本检测(定位文字区域)。2. 文本识别(将区域图像转为文本)。模型:CTPN, EAST用于检测;CRNN, Attention OCR用于识别。端到端:FOTS, Mask TextSpotter。 |
输入: 包含文本的图像 |
|
用于文档数字化、车牌识别、场景文本理解等。 |
支持多种语言、字体、背景复杂。 |
图像中文本长度、字体、方向、语言 |
依赖文本检测和识别模型。 |
需要大量标注文本行图像数据。 |
评估字符准确率、单词准确率、端到端识别准确率。 |
OCR、文档分析 |
GPU: 检测和识别模型可分别或联合训练, 开销中等。 |
|
DW-FN-572 |
语音处理 |
语音识别 |
将语音信号转换为文本。传统:GMM-HMM。现代:端到端深度学习,如DeepSpeech(基于RNN+CTC), Listen, Attend and Spell(基于注意力), Transformer, Conformer。 |
输入: 语音波形或频谱特征 |
|
用于语音助手、字幕生成、语音搜索等。 |
需要处理不同口音、噪声、语速、方言等。 |
音频长度, 词汇表大小, 任务复杂度 |
依赖声学模型和语言模型训练。 |
需要大量语音-文本配对数据。端到端简化流程。 |
评估词错误率(WER)。 |
语音识别、自动语音识别 |
GPU: 训练需要大量数据和计算, 推理可实时。 |
|
DW-FN-573 |
语音处理 |
语音合成 |
将文本转换为自然流畅的语音。参数合成:统计参数合成(HMM)。波形合成:WaveNet, WaveRNN, WaveGlow(生成原始波形)。端到端:Tacotron, Tacotron2(文本->频谱->波形)。 |
输入: 文本 |
|
用于语音助手、有声书、导航提示等。 |
追求自然度、表现力、实时性。 |
文本长度, 语音风格, 语言 |
依赖文本到声学特征预测和波形生成模型。 |
需要高质量的文本-语音对齐数据。神经声码器大幅提升质量。 |
主观MOS(平均意见分)评价自然度, 客观指标如MCD。 |
语音合成、文本到语音 |
GPU: 神经声码器(如WaveNet)生成波形慢, 需要优化(如WaveRNN, Parallel WaveNet)。 |
|
DW-FN-574 |
语音处理 |
说话人识别 |
说话人验证:判断两段语音是否来自同一说话人。说话人辨认:从注册说话人中识别出当前说话人。模型:基于i-vector, 或深度学习(x-vector, d-vector)。 |
输入: 语音 |
|
用于身份认证、个性化服务、犯罪侦查等。 |
需处理短语音、跨信道、噪声等问题。 |
语音长度, 说话人数量 |
依赖说话人特征提取和度量学习。 |
需要大量说话人数据训练。 |
评估等错误率(EER)、最小检测代价函数(minDCF)。 |
说话人识别、生物识别 |
GPU: 训练需要大量说话人数据, 提取嵌入向量开销中等。 |
|
DW-FN-575 |
语音处理 |
语音情感识别 |
识别语音中蕴含的情感状态(如高兴、悲伤、愤怒、中性等)。方法:提取声学特征(如韵律、音质、频谱),使用分类器(SVM, DNN, RNN)进行分类。 |
输入: 语音 |
|
用于客服质量监控、心理健康评估、人机交互等。 |
情感定义和标注具有主观性。 |
语音长度, 情感类别数 |
依赖声学特征提取和情感分类模型。 |
需要标注情感的数据集,但标注成本高且不一致。 |
在标准数据集上评估分类准确率。 |
情感计算、语音处理 |
CPU/GPU: 特征提取和分类开销中等。 |
|
DW-FN-576 |
语音处理 |
语音增强 |
从带噪语音中恢复纯净语音。方法:谱减法,维纳滤波,基于深度学习的映射(如DNN, CNN, RNN学习带噪到纯净的频谱映射),时域方法(如Wave-U-Net)。 |
输入: 带噪语音 |
|
用于通信、助听器、语音识别前端处理。 |
需平衡噪声抑制和语音失真。 |
噪声类型和信噪比(SNR) |
依赖噪声估计或深度学习模型。 |
需要成对的带噪-纯净语音数据训练。 |
评估客观指标:PESQ, STOI, SNR改善,以及主观听力测试。 |
语音增强、信号处理 |
GPU: 深度学习模型训练开销大, 推理可实时。 |
|
DW-FN-577 |
强化学习 |
Q学习 |
基于值函数。Q表存储状态-动作值 |
输入: 环境 |
|
无模型,离策略。适用于离散状态和动作空间。 |
状态和动作空间需离散且较小,否则Q表太大。 |
状态空间大小|S|, 动作空间大小|A| |
依赖与环境的交互和Q值迭代更新。 |
是强化学习的基础算法。 |
在简单环境(如FrozenLake)中训练,观察累积奖励收敛。 |
强化学习、动态规划 |
CPU/内存: 内存存储Q表O(|S||A|), 适用于小空间。 |
|
DW-FN-578 |
强化学习 |
深度Q网络 |
用深度神经网络近似Q函数: |
输入: 环境 |
|
将Q学习扩展到高维状态空间(如图像)。是深度强化学习的里程碑。 |
需要大量交互数据,训练不稳定。 |
状态维度, 动作空间大小 |
依赖深度神经网络和Q学习更新。 |
需要技巧(如目标网络、经验回放)稳定训练。 |
在Atari游戏上训练,评估游戏得分。 |
深度强化学习、Q学习 |
GPU: 训练需要大量交互和神经网络训练, 样本效率低。 |
|
DW-FN-579 |
强化学习 |
策略梯度 |
直接优化参数化策略`π_θ(a |
s) |
s) Q^π(s,a)]`。使用蒙特卡洛采样估计。 |
输入: 环境 |
|
适用于连续动作空间。是策略优化方法的基础。 |
方差大,需要大量采样。 |
状态维度, 动作维度 |
依赖策略网络和蒙特卡洛采样。 |
经典算法REINFORCE(无基准线)。 |
在连续控制任务(如Pendulum)上训练。 |
|
DW-FN-580 |
强化学习 |
演员-评论家 |
结合值函数和策略梯度。演员(策略网络)选择动作,评论家(值函数网络 |
s) A(s,a)] |
输入: 环境 |
|
减少策略梯度的方差,提高学习稳定性。是许多先进算法的基础。 |
需要同时训练两个网络,调参更复杂。 |
同策略梯度, 加值函数近似误差 |
依赖策略网络和值函数网络的联合训练。 |
代表算法:A2C, A3C(异步)。 |
在连续控制基准上比较性能。 |
演员-评论家、强化学习 |
|
DW-FN-581 |
强化学习 |
近端策略优化 |
优化目标: |
s_t)/π_{θ_old}(a_t |
s_t)`。约束策略更新幅度,提高训练稳定性。 |
输入: 环境 |
|
易于实现,表现鲁棒,成为强化学习实践中的首选算法之一。 |
ε通常0.1~0.3。 |
同演员-评论家 |
依赖优势估计和 clipped surrogate objective。 |
是OpenAI的默认强化学习算法。 |
在MuJoCo连续控制任务上达到SOTA性能。 |
|
DW-FN-582 |
强化学习 |
深度确定性策略梯度 |
用于连续动作空间。演员网络输出确定性动作 |
{a=μ(s)} ∇θ μ(s)]`。使用目标网络和经验回放。 |
输入: 环境 |
|
将DQN扩展到连续动作空间。是深度强化学习处理连续控制的经典算法。 |
对超参数敏感,训练可能不稳定。 |
状态和动作维度 |
依赖确定性策略梯度和Q学习。 |
需要仔细调整超参数(如学习率、噪声)。 |
在连续控制任务(如MuJoCo)上训练。 |
深度强化学习、确定性策略梯度 |
|
DW-FN-583 |
强化学习 |
软演员-评论家 |
最大熵强化学习框架。优化目标:`J(π) = Σ_t E[(r(s_t,a_t) + α H(π(· |
s_t))] |
输入: 环境 |
|
鼓励探索,提高鲁棒 |
|
编号 |
类型 |
函数/算法类型 |
函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表 |
参数类型和参数列表 |
参数/变量/常量/标量/张量/矩阵/集合列表 |
数学表达式/物理模型/计算机模型/通信模型/关联描述 |
典型值/范围 (管控目标) |
核心关联参数 |
依赖关系 |
设计/软件开发/硬件制造/应用要求 |
测试/验证方法 |
关联学科/领域 |
资源需求 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
DW-FN-584 |
数据管理 |
数据清洗 |
检测和纠正(或移除)数据集中的不准确、不完整、不合理或重复的部分。包括:缺失值填充(均值、中位数、众数、插值、模型预测)、异常值处理(剔除、盖帽、替换)、格式标准化、重复记录删除等。 |
输入: 原始数据集 |
|
数据预处理的关键步骤,为后续分析提供高质量数据。通常基于业务规则、统计方法或机器学习模型自动/半自动执行。 |
清洗的严格程度(如异常值处理的阈值)需根据业务容忍度调整。 |
数据错误的类型和比例, 业务容忍度 |
依赖数据质量检测规则和清洗操作(如插值、替换)。 |
清洗过程应可记录、可审计, 便于追踪数据变化。 |
比较清洗前后数据的统计分布, 或抽样进行人工验证。 |
数据质量、数据预处理 |
CPU/内存: 取决于数据量和清洗规则的复杂度, 从简单替换到复杂模型预测不等。 |
|
DW-FN-585 |
数据管理 |
数据集成 |
将来自不同数据源(格式、模式、语义可能不同)的数据组合起来,提供一个统一的视图。包括:模式匹配、数据冲突解决(如从多个来源中选择最新或最可靠的值)、实体解析。 |
输入: 多个异构数据源 |
源数据表/文件, 全局模式定义, 数据冲突解决策略(如最新胜出、投票) |
解决“信息孤岛”问题。可能涉及ETL/ELT过程。核心挑战是处理模式异构性和数据不一致性。 |
源系统数量、数据量、变化频率。 |
源系统的数量和异构性, 数据更新频率 |
依赖模式映射、数据转换和合并操作。 |
需建立主数据或参考数据以保证一致性。增量集成是优化重点。 |
验证集成后数据的总行数、关键指标与各源系统汇总值的一致性。 |
数据整合、企业信息管理 |
计算/存储: 数据合并和冲突解决可能涉及大规模连接和比较, 开销大。 |
|
DW-FN-586 |
数据管理 |
数据变换 |
将数据从原始形式转换为更适合分析或建模的形式。包括:规范化(归一化、标准化)、聚合(求和、平均)、泛化(用更高层次概念替换,如年龄替换为年龄段)、特征构造(创建新特征)。 |
输入: 原始数据 |
|
旨在改善数据质量或适应特定算法的需求。是特征工程的核心部分。 |
变换方法需与下游任务(如算法假设)匹配。 |
数据的原始分布, 下游任务要求 |
依赖具体的变换函数(如标度缩放、聚合函数)。 |
变换应可逆或至少可解释, 便于回溯。 |
检查变换后数据的分布(如是否标准化为N(0,1)), 或验证聚合结果的正确性。 |
特征工程、数据预处理 |
CPU: 取决于变换复杂度, 从简单算术运算到复杂函数计算。 |
|
DW-FN-587 |
数据管理 |
数据规约 |
在保持数据完整性的前提下,减少数据量。维规约:如PCA、特征选择,减少特征数。数值规约:如用聚类代表点、回归模型、直方图、抽样来减少数据量。 |
输入: 大数据集 |
|
用于应对“维度灾难”, 降低存储和计算成本, 加速学习过程。 |
需权衡规约率与信息损失。通常通过重构误差或模型性能评估损失。 |
数据原始维度和规模, 可接受的信息损失 |
依赖规约算法(如PCA、聚类、抽样)。 |
规约后的数据/模型应能支持近似查询或分析。 |
在规约后的数据上运行下游任务, 与原始数据结果比较性能损失。 |
数据压缩、降维、抽样 |
CPU/内存: 规约过程本身可能有开销(如PCA计算), 但能大幅减少后续开销。 |
|
DW-FN-588 |
数据管理 |
数据离散化 |
将连续属性值划分为有限数量的区间(bin),并用区间标签(或整数编码)替代原始值。方法:等宽分箱、等频分箱、基于聚类分箱、基于信息增益分箱(如决策树)。 |
输入: 连续值列 |
|
简化数据, 减少噪声影响。某些算法(如决策树、贝叶斯网络)需要或更擅长处理离散数据。 |
箱数k的选择影响粒度, 常通过交叉验证确定。 |
连续值的分布, 箱数k |
依赖排序、分位数计算或聚类算法。 |
分箱边界应具有业务可解释性。 |
检查每个箱内的样本分布, 或评估离散化后特征在模型中的重要性。 |
数据预处理、特征工程 |
CPU: 需要排序或聚类, O(n log n) 或更高。 |
|
DW-FN-589 |
数据管理 |
数据采样 |
从总体数据集 |
输入: 总体数据集 |
|
用于数据探索、快速原型、或处理大规模数据(先采样再全量训练)。采样需保证样本对总体的代表性。 |
样本量 |
总体大小N, 总体分布, 样本量n |
依赖随机数生成器和(对分层采样)类别分布。 |
采样应可重复(设置随机种子)。加权采样允许样本重要性不同。 |
比较样本与总体的关键统计量(均值、方差、分布)的差异。 |
统计学、抽样调查 |
CPU/IO: 低, 主要开销是读取数据和生成随机索引。 |
|
DW-FN-590 |
数据管理 |
数据标注 |
为未标记数据(如图像、文本、音频)添加标签, 形成 |
输入: 未标记数据 |
|
是构建高质量训练集的关键, 通常成本高、耗时长。标注质量直接影响模型性能。 |
标注一致性(Inter-annotator agreement)是重要质量指标。 |
数据复杂度, 标注任务难度, 标注员水平 |
依赖人工或自动标注工具。 |
需设计清晰的标注指南和质量控制流程(如多人标注、仲裁)。 |
计算标注者间一致性(如Cohen‘s Kappa), 或在保留测试集上评估模型性能。 |
监督学习、人机交互 |
成本/时间: 人工标注成本高, 是机器学习项目的主要瓶颈之一。 |
|
DW-FN-591 |
数据管理 |
数据增强 |
通过对原始训练数据进行一系列随机变换,生成新的、人工的训练样本,从而扩大数据集。图像:旋转、翻转、裁剪、变色、加噪声。文本:同义词替换、随机插入/删除/交换、回译。 |
输入: 原始训练数据 |
|
增加数据多样性, 减轻过拟合, 提高模型泛化能力。尤其适用于数据稀缺场景。 |
增强变换应保持标签语义不变(如汽车旋转后仍是汽车)。 |
原始数据量, 任务类型, 增强强度 |
依赖数据域的特定变换操作。 |
增强策略需与任务相关, 避免引入无效或误导性样本。 |
比较使用数据增强前后, 模型在验证集/测试集上的性能提升。 |
计算机视觉、自然语言处理、正则化 |
CPU/内存: 运行时在线增强增加训练时间, 离线增强增加存储开销。 |
|
DW-FN-592 |
数据管理 |
数据版本控制 |
对数据集、数据处理代码及模型进行版本化管理, 类似Git对代码的管理。记录数据的历史状态, 支持回滚、比较和复现。工具:DVC, Git LFS, LakeFS。 |
输入: 数据文件/目录 |
数据存储(如对象存储), 元数据文件(.dvc), 版本哈希指针 |
确保实验可复现, 追踪数据沿袭, 协作时管理数据变更。核心是存储数据快照的指针, 而非直接存大文件于Git。 |
版本粒度:按commit, 按时间, 或按数据流水线阶段。 |
数据大小, 变更频率 |
依赖外部存储系统和版本控制工具集成。 |
需区分大文件存储(对象存储)和小元文件存储(Git仓库)。 |
检出特定版本的数据, 验证与历史记录一致。 |
数据治理、可复现性、DevOps |
存储: 存储多个版本的数据快照, 但有去重机制。 管理开销: 维护版本元数据。 |
|
DW-FN-593 |
数据管理 |
数据流水线 |
自动化、可重复的数据处理流程。通常包括Extract(从源抽取)、Transform(清洗、转换)、Load(加载到目标)三个核心阶段。现代变体:ELT, Reverse ETL。调度工具:Airflow, Dagster, Prefect。 |
输入: 源数据定义, 转换逻辑, 目标定义, 调度计划 |
源连接器, 转换任务DAG, 目标连接器, 调度器, 监控器 |
是数据基础设施的骨干, 确保数据从生产到消费的可靠、高效流动。支持增量处理、错误重试、监控告警。 |
流水线SLA(数据新鲜度、可用性)是关键运维指标。 |
数据量, 转换复杂度, 源/目标系统性能 |
依赖任务调度框架和各系统的连接器。 |
需设计幂等、容错、可监控的流水线。 |
端到端测试:注入测试数据, 验证完整流程输出符合预期。 |
数据工程、工作流调度 |
计算/调度资源: 运行流水线任务需要计算资源(如Spark集群), 调度器本身需要服务运行。 |
|
DW-FN-594 |
数据管理 |
数据编目 |
创建和维护企业数据资产的元数据目录。包含技术元数据(表结构、位置)、业务元数据(描述、所有者、术语)、操作元数据(血缘、使用情况)。提供搜索和发现功能。 |
输入: 来自各系统的元数据(自动扫描或手动注册) |
元数据扫描器/连接器, 元数据存储库, 搜索索引, 前端UI |
解决“数据找不到、看不懂、不敢用”的问题。是数据治理和数据文化的基础设施。 |
元数据覆盖率、准确性和新鲜度是关键成功因素。 |
数据资产数量, 元数据来源多样性 |
依赖与数据源系统的集成和元数据采集框架。 |
需要推动业务和技术团队共同维护元数据(如添加业务描述)。 |
搜索已知存在的数据资产, 验证能否快速找到并理解其含义。 |
元数据管理、数据治理 |
存储/计算: 存储元数据开销小, 但构建全企业级目录的集成和维护工作量大。 |
|
DW-FN-595 |
数据管理 |
数据虚拟化 |
提供一个抽象层,允许用户和应用程序通过统一接口(如SQL)查询和访问分布在多个异构数据源中的数据,而无需物理移动或复制数据。 |
输入: 用户查询 |
虚拟化服务器, 连接器(到各数据源), 查询优化器和执行引擎 |
实现逻辑数据集成, 提供实时数据访问。减少数据冗余和ETL延迟。但对源系统性能和网络有要求。 |
适用于需要实时联合查询、但数据不便移动的场景。 |
源系统的性能、网络延迟、查询复杂度 |
依赖对下推(pushdown)优化的支持, 以减少数据传输。 |
查询优化是关键, 需将操作尽可能下推到源系统执行。 |
执行一个跨多个异构数据源的联合查询, 验证结果正确性和性能。 |
数据集成、中间件 |
网络/源系统负载: 查询可能给源系统带来额外负载, 网络传输可能成为瓶颈。 |
|
DW-FN-596 |
数据管理 |
数据归档 |
将不再频繁访问但仍需保留(出于合规、审计或历史分析目的)的数据从主存储系统(如生产数据库)迁移到更低成本、更高延迟的存储系统(如磁带、冷对象存储)。 |
输入: 待归档数据 |
主存储系统, 归档存储系统, 归档策略(时间、访问模式) |
优化主存储成本和性能。归档数据通常仍可通过特定流程恢复访问。 |
归档策略需平衡合规要求、访问可能性和成本。 |
数据总量, 数据“冷”的程度 |
依赖数据迁移工具和归档存储管理系统。 |
需确保归档数据的可读性和长期完整性(格式过时问题)。 |
归档后, 尝试从归档存储恢复少量数据验证完整性。 |
信息生命周期管理、存储管理 |
存储: 降低主存储成本, 但增加归档存储成本和管理开销。 恢复时间: 访问归档数据延迟高。 |
|
DW-FN-597 |
数据管理 |
数据销毁 |
安全、永久地删除数据,使其无法通过常规手段恢复。方法:物理销毁(消磁、粉碎)、多次覆写、加密后删除密钥。遵循数据隐私法规(如GDPR“被遗忘权”)。 |
输入: 待销毁数据标识 |
存储介质, 销毁工具/软件, 审计日志 |
数据生命周期的终点。用于保护敏感信息, 满足合规要求。销毁需有审计跟踪。 |
销毁级别需匹配数据敏感度(如绝密数据需物理销毁)。 |
数据敏感级别, 存储介质类型 |
依赖安全销毁工具或服务。 |
需有正式的审批流程和完整的操作记录。 |
尝试使用数据恢复工具扫描存储介质, 验证数据已不可恢复。 |
数据安全、合规、信息安全 |
流程/审计: 管理流程和审计开销是关键, 实际销毁操作开销低。 |
|
DW-FN-598 |
数据管理 |
数据备份 |
创建数据在某个时间点的副本, 存储在独立的介质或位置, 用于在数据丢失、损坏时恢复。策略:完全备份、增量备份、差异备份。 |
输入: 源数据 |
源数据存储, 备份存储(磁盘、磁带、云), 备份软件 |
灾难恢复的基础。需定期测试恢复流程以确保备份有效。RPO(恢复点目标)和RTO(恢复时间目标)是关键指标。 |
备份频率和保留周期根据业务重要性制定。 |
数据变化率, 数据量, RPO/RTO要求 |
依赖备份软件和存储系统。 |
遵循3-2-1原则:至少3份副本,2种介质,1份异地。 |
定期执行恢复演练, 验证备份数据可成功恢复且完整。 |
灾难恢复、业务连续性 |
存储/网络/时间: 备份消耗存储空间、网络带宽和时间窗口。 |
|
DW-FN-599 |
数据管理 |
数据恢复 |
从备份副本中将数据还原到可用状态。包括:全盘恢复、文件级恢复、时间点恢复(PITR)。是备份的逆过程。 |
输入: 备份副本 |
备份介质, 恢复目标系统, 恢复软件/脚本 |
验证备份有效性的唯一方法。恢复时间和数据完整性是关键。 |
实际RTO和RPO应满足业务要求。 |
备份数据量, 恢复目标系统性能, 恢复方式(全量/部分) |
依赖备份格式和恢复工具。 |
恢复流程应文档化并定期演练。 |
恢复后, 验证关键业务功能可正常使用, 数据一致性通过检查。 |
灾难恢复、系统管理 |
时间/中断: 恢复过程可能导致服务中断, 时间是主要成本。 |
|
DW-FN-600 |
数据管理 |
数据加密 |
通过密码学算法将明文数据转换为密文, 以保护数据机密性。静态加密:对存储中的数据加密。传输中加密:对网络传输中的数据加密(如TLS/SSL)。算法:AES, RSA。 |
输入: 明文数据 |
|
数据安全的基础。密钥管理是关键。需权衡安全强度与性能开销。 |
密钥长度(如AES-256)和算法选择取决于安全要求。 |
数据敏感度, 性能要求, 合规标准 |
依赖加密算法库和密钥管理系统(KMS)。 |
应采用行业标准算法和实现。妥善管理密钥生命周期(生成、存储、轮换、销毁)。 |
加密后解密, 验证能无损恢复原始数据。对性能进行基准测试。 |
密码学、数据安全 |
CPU: 加密/解密计算开销, 对称加密快, 非对称加密慢。 管理: 密钥管理复杂度。 |
|
编号 |
类型 |
函数/算法类型 |
函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表 |
参数类型和参数列表 |
参数/变量/常量/标量/张量/矩阵/集合列表 |
数学表达式/物理模型/计算机模型/通信模型/关联描述 |
典型值/范围 (管控目标) |
核心关联参数 |
依赖关系 |
设计/软件开发/硬件制造/应用要求 |
测试/验证方法 |
关联学科/领域 |
资源需求 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
DW-FN-601 |
数据质量 |
数据漂移检测 (K-S检验) |
基于Kolmogorov-Smirnov双样本检验, 比较生产数据与训练数据(或历史基准数据)的分布差异。 KS统计量: |
输入: 生产数据样本 |
|
用于检测数据分布是否发生漂移。 可对单个特征或模型输入的整体分布进行检测。 适用于连续和有序离散变量。 |
通常设置显著性水平α(如0.05), 若p值<α, 则拒绝“分布相同”的原假设, 认为发生了漂移。 |
样本量, 特征的真实分布 |
依赖KS检验统计量的计算和p值查找/计算。 |
是模型监控和数据质量监控的关键组件。 对样本量敏感。 |
在已知分布相同和不同的模拟数据集上运行检验, 验证p值行为符合预期。 |
统计学、概念漂移 |
CPU: 中, 需要计算两个样本的ECDF并求最大距离, 复杂度O(n log n)。 |
|
DW-FN-602 |
模型管理 |
模型卡生成 |
自动或半自动生成模型的标准化文档(模型卡), 包含模型目的、架构、训练数据、性能指标、公平性评估、使用限制、维护计划等。 遵循Meta的Model Cards for Model Reporting框架。 |
输入: 模型元数据、训练配置、评估结果、数据集信息 |
模型ID, 版本, 创建者, 训练数据集描述, 评估指标结果, 公平性报告, 已知局限性 |
提高模型透明度、可追溯性和责任性。 是负责任AI和模型治理的重要实践。 可与模型注册表集成。 |
模型卡应随模型版本一起发布和更新。 |
元数据的完整性和准确性 |
依赖模型开发流水线中各环节的元数据捕获。 |
需要模板和工具支持, 鼓励开发者填写。 部分信息可自动从实验追踪系统中提取。 |
检查生成的模型卡是否包含所有必填字段, 信息是否准确。 |
可解释AI、模型治理、MLOps |
管理开销: 创建和维护模型卡需要额外工作, 但能提高信任度。 |
|
DW-FN-603 |
图计算 |
知识图谱嵌入 (TransE) |
将知识图谱中的实体和关系映射到连续向量空间。 TransE模型假设:如果三元组 |
输入: 知识图谱三元组集合 |
|
用于知识图谱补全、链接预测、实体分类等。 TransE是经典方法, 后续有TransH, TransR, RotatE等改进。 |
向量维度通常50-200。 训练轮数数百到数千。 |
实体和关系数量, 向量维度, 负采样策略 |
依赖负采样和基于距离的损失优化。 |
简单有效, 但对复杂关系(如1-N, N-1, N-N)建模能力有限。 |
在链接预测任务上评估MR(平均排名)、Hit@k等指标。 |
知识表示学习、图嵌入 |
CPU/GPU: 训练需要大量负采样和优化, 复杂度O(|S|* 负样本数)。 |
|
DW-FN-604 |
隐私计算 |
隐私保护记录连接 (Bloom Filter) |
双方(机构A和B)希望找到共同的记录(如病人), 但不直接暴露各自的敏感数据。 使用布隆过滤器(BF)对记录标识符(如姓名、生日哈希)进行编码和交换, 在编码后的空间内计算相似度, 找出可能匹配的记录对。 |
输入: 双方各自的记录集 |
|
一种近似、概率性的隐私保护连接方法。 存在假阳性, 但可通过对匹配对进行后续安全计算验证。 平衡了隐私、精度和效率。 |
BF参数 |
记录数量, 标识符的区分度, 隐私预算 |
依赖布隆过滤器构造和相似度计算(如Jaccard相似度)。 |
需处理编码碰撞和假阳性。 可与差分隐私结合增强保护。 |
在已知有部分重叠的记录集上运行, 验证能检测出重叠部分, 并评估假阳性率。 |
隐私保护、数据集成、安全多方计算 |
计算/通信: 主要开销是构建和传输BF, 以及计算集合相似度。 |
|
DW-FN-605 |
自动化机器学习 |
自动特征工程 (FeatureTools) |
基于深度特征合成(DFS)算法。 自动对多表关系型数据应用一组可扩展的转换算子(如聚合、转换), 生成高阶特征。 DFS通过叠加“基元”(primitives)来创建特征。 |
输入: 实体集 |
|
解决特征工程耗时问题。 自动探索数据中的潜在模式, 生成大量候选特征供后续选择。 |
|
表的数量和关系复杂度, 基元数量, |
依赖实体-关系模型和基元函数的定义与执行。 |
生成的特征需要筛选, 可能产生冗余或无意义特征。 可解释性需注意。 |
在标准预测任务上, 比较使用自动生成特征与专家构建特征的模型性能。 |
特征工程、AutoML |
CPU/内存: 高, 可能生成海量特征, 需要大量计算和存储。 |
|
DW-FN-606 |
资源/成本管理 |
碳感知查询调度 |
在调度数据分析或训练作业时, 考虑电网的碳排放强度(随时间、地域变化)。 目标:在满足SLO的前提下, 将计算任务调度到碳排放较低的时间段(如可再生能源充足时)或地域。 |
输入: 查询/作业, 碳排放强度预测数据, 作业的截止时间或延迟容忍度 |
作业元数据(计算量、截止时间), 碳强度时间序列 |
实现绿色计算, 降低数据中心的碳足迹。 是可持续计算和FinOps的结合。 |
需要权衡延迟和碳减排。 可设置碳预算或碳上限。 |
作业的紧急程度, 碳强度数据的准确性和粒度 |
依赖碳排放数据源和作业调度器的集成。 |
需要获取实时或预测的电网碳强度数据(如WattTime, Electricity Maps)。 |
模拟将作业从高碳时段移到低碳时段, 计算减少的碳排放量, 并评估对作业延迟的影响。 |
绿色计算、可持续性、调度 |
管理复杂度: 获取和集成碳数据, 修改调度策略。 对性能影响是延迟增加。 |
|
DW-FN-607 |
数据工程 |
数据契约测试 (Pact) |
在数据生产者与消费者之间, 针对数据契约(如Schema、数据质量规则)编写自动化测试。 消费者端生成契约(包含期望的请求/响应模式), 生产者端验证其实现是否符合契约。 用于防止破坏性变更。 |
输入: 数据契约定义(如Protobuf .proto文件, 或JSON Schema), 测试用例 |
契约文件, 生产者服务模拟(Provider), 消费者测试用例(Consumer Test), 契约中介(Broker) |
将消费者驱动的契约测试(CDC)理念应用于数据产品。 确保数据接口的兼容性, 是数据网格中数据产品间协作的关键实践。 |
集成到CI/CD流水线中, 在合并代码前运行。 |
契约的复杂度和变更频率 |
依赖契约测试框架(如Pact)和CI/CD系统。 |
需要文化转变, 鼓励消费者定义其期望, 生产者遵守契约。 |
修改生产者的Schema(如删除字段), 运行契约测试验证消费者测试会失败。 |
契约测试、API测试、数据网格 |
CI/CD开销: 增加测试套件的运行时间和维护成本, 但能防止线上故障。 |
|
DW-FN-608 |
向量检索 |
乘积量化 (Product Quantization) |
用于压缩高维向量并加速最近邻搜索。 将原始向量 |
输入: 向量数据集 |
|
大幅压缩向量(如128维浮点向量压缩为8-16字节), 并支持非对称距离计算(ADC), 是IVF-PQ等索引的核心组件。 |
|
向量维度 |
依赖子空间聚类和编码。 |
是工业级向量数据库(如Faiss)的标配算法。 |
比较PQ压缩前后的向量重建误差, 以及搜索召回率与速度的权衡。 |
向量压缩、近似最近邻搜索 |
CPU/内存: 构建码本需要运行m次k-means, 开销大。 压缩后存储和计算开销极低。 |
|
编号 |
类型 |
函数/算法类型 |
函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表 |
参数类型和参数列表 |
参数/变量/常量/标量/张量/矩阵/集合列表 |
数学表达式/物理模型/计算机模型/通信模型/关联描述 |
典型值/范围 (管控目标) |
核心关联参数 |
依赖关系 |
设计/软件开发/硬件制造/应用要求 |
测试/验证方法 |
关联学科/领域 |
资源需求 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
DW-FN-609 |
机器学习 |
大语言模型指令微调 |
在预训练大语言模型(LLM)基础上, 使用指令-输出配对数据 |
输入: 预训练LLM, 指令微调数据集 |
预训练模型参数 |
使通用LLM能够遵循人类指令, 完成特定任务(如问答、摘要、代码生成)。 是使模型“有用”、“无害”的关键步骤。 |
数据集规模通常数万到数十万。 需注意灾难性遗忘。 |
预训练模型规模, 指令数据质量和多样性 |
依赖大规模预训练模型和高质量指令数据。 |
需要精心设计指令和收集高质量响应(人工或AI生成)。 通常与RLHF结合。 |
在未见过的指令集上评估模型响应的相关性和有用性(人工或模型评估)。 |
自然语言处理、大语言模型 |
GPU内存/计算: 极高, 需要能加载和训练数十亿参数模型。 |
|
DW-FN-610 |
机器学习 |
大语言模型RLHF |
基于人类反馈的强化学习。 1. SFT: 指令微调。 2. 奖励模型训练: 训练一个奖励模型 |
输入: SFT模型, 人类偏好数据 |
SFT模型 |
将人类偏好(如 helpfulness, harmlessness)注入模型, 是ChatGPT、Claude等对话模型的核心技术。 |
需要大量高质量的人类偏好对比数据。 训练过程复杂不稳定。 |
偏好数据规模和质量, 奖励模型的准确性, PPO稳定性 |
依赖强化学习框架、奖励模型和策略梯度优化。 |
是当前实现AI对齐(AI Alignment)的主要方法。 工程实现挑战大。 |
通过人工评估或模型评估(如GPT-4作为裁判)比较RLHF前后模型输出的质量。 |
强化学习、AI对齐、大语言模型 |
GPU/计算: 极高, 需要多个模型(策略、价值、奖励)交互训练, 样本效率低。 |
|
DW-FN-611 |
机器学习 |
检索增强生成 |
为LLM增加外部知识检索能力。 对用户查询 |
输入: 用户查询 |
查询 |
解决LLM的事实幻觉和知识过时问题。 可溯源, 可更新知识。 用于开放域问答、对话等。 |
检索文档数量 |
查询复杂度, 知识库规模和质量, 检索精度 |
依赖检索系统(向量数据库)和LLM生成能力。 |
检索器和生成器可联合训练或分开训练。 是构建企业知识库问答的核心架构。 |
评估最终答案的准确性, 以及检索文档的相关性(如通过人工或nDCG)。 |
信息检索、大语言模型、开放域问答 |
检索开销: 检索需查询向量索引。 生成开销: LLM需处理更长上下文。 |
|
DW-FN-612 |
机器学习 |
模型合并 (Model Merging) |
将多个同架构、同任务的已训练模型参数进行合并, 得到一个单一的、性能稳健的模型。 方法: 1. 权重平均: |
输入: 多个模型参数 |
基模型参数 |
无需额外训练, 快速集成多个专家模型的能力。 可用于模型融合、多任务学习、消除任务间干扰。 |
要求模型架构完全一致。 合并系数需仔细选择(可验证集上调优)。 |
参与合并的模型数量和性能, 模型参数空间的对齐性 |
依赖模型参数的线性运算。 |
是模型重用和高效多任务学习的新兴方向。 简单有效。 |
在保留的验证集上评估合并后模型在各任务上的性能, 确保不灾难性遗忘。 |
模型集成、多任务学习、迁移学习 |
CPU/内存: 低, 仅为参数加权平均, 但需加载多个模型。 |
|
DW-FN-613 |
机器学习 |
稀疏专家混合模型 |
一种条件计算模型。 网络中包含多个“专家”子网络(前馈层)。 每个输入由门控网络路由到少数几个(如1-2个)专家进行处理, 其他专家处于非激活状态。 总参数量大, 但激活参数量小。 |
输入: 输入 |
输入 |
实现超大规模模型(如万亿参数)的高效训练和推理。 是Switch Transformer、GLaM等模型的核心。 |
专家数量可达数千。 负载均衡是关键挑战(需辅助损失)。 |
模型总参数量, 激活参数量, 专家数量 |
依赖门控路由和稀疏激活计算。 |
需要专门的系统支持(如Mesh-TensorFlow, DeepSpeed)来高效处理稀疏计算。 |
评估模型在目标任务上的性能, 并监控专家的负载均衡情况。 |
条件计算、大规模语言模型 |
计算/通信: 理论上更高效, 但稀疏计算和负载均衡对系统要求高。 |
|
DW-FN-614 |
机器学习 |
知识蒸馏 |
将一个大型、高性能的教师模型的知识“蒸馏”到一个更小的学生模型中。 学生模型不仅学习真实标签, 还学习教师模型的软化输出(soft labels)分布。 损失函数: |
输入: 教师模型 |
教师模型 |
用于模型压缩, 在保持相近性能的同时大幅减小模型尺寸和推理延迟。 也用于从集成模型提取知识。 |
温度 |
教师模型性能, 学生模型容量, 温度 |
依赖教师模型的推理和KL散度计算。 |
是无数据/少数据场景下压缩模型的有效方法。 可离线或在线进行。 |
在测试集上比较学生模型与教师模型的性能(精度、速度、大小)。 |
模型压缩、迁移学习 |
训练开销: 需要教师模型生成软化标签, 增加训练成本。 推理时学生模型快。 |
|
DW-FN-615 |
机器学习 |
持续学习/灾难性遗忘缓解 |
使模型能够连续学习一系列任务, 而不遗忘先前学到的知识。 方法: 1. 正则化: EWC(Elastic Weight Consolidation)通过对重要参数添加惩罚: |
输入: 模型 |
模型参数 |
模拟人类持续学习能力。 对终身学习AI至关重要。 灾难性遗忘是核心挑战。 |
需要估计参数对旧任务的重要性(如EWC)。 回放缓冲区大小是关键。 |
任务数量和差异性, 模型容量 |
依赖重要性估计和正则化损失计算。 |
是迈向更通用AI的关键一步。 目前尚无完美解决方案。 |
在新任务训练后, 评估模型在所有已学任务上的平均准确率。 |
持续学习、灾难性遗忘 |
内存/计算: 回放法需存储数据, 正则化法需计算和存储重要性矩阵。 |
|
DW-FN-616 |
机器学习 |
神经架构搜索 |
自动化设计神经网络架构。 搜索空间定义可能的操作(卷积、池化等)和连接。 搜索策略: 1. 强化学习。 2. 进化算法。 3. 可微分NAS(如DARTS): 在连续松弛的搜索空间上通过梯度下降联合优化架构权重 |
输入: 搜索空间 |
搜索空间超网络, 架构参数 |
解放人力, 可能发现超出人类直觉的高效架构。 但计算成本极高。 |
搜索空间的设计对结果影响巨大。 需在性能和搜索成本间权衡。 |
搜索空间大小, 性能评估成本(需训练子模型) |
依赖超网络训练和架构采样评估。 |
计算成本曾是主要瓶颈, 现在有更高效的方法(如权重共享、可微分)。 |
将搜索到的架构从头训练, 在独立测试集上验证其性能。 |
自动化机器学习、神经网络 |
GPU/计算: 极高, 早期RL/进化方法需训练成千上万个架构。 可微分NAS大幅降低, 但仍需大量算力。 |
|
DW-FN-617 |
系统与架构 |
数据编织 (Data Fabric) |
一种架构框架, 利用元数据资产在适当的时间、以适当的方式、将适当的数据提供给适当的人或系统。 通过知识图谱、主动元数据管理和AI/ML实现数据的自动化集成、治理和自助服务。 |
输入: 企业数据资产, 元数据, 策略 |
元数据图谱, 策略引擎, 自动化编排器, 统一的数据访问API |
是数据管理架构的演进。 强调通过主动元数据驱动自动化, 实现数据的无缝、安全和受治理的流动。 |
旨在解决数据孤岛、数据发现、数据信任问题。 是逻辑架构, 而非单一产品。 |
元数据的丰富度和质量, AI/ML能力的集成 |
依赖元数据管理、知识图谱、数据目录、数据虚拟化等技术。 |
需要企业级顶层设计和持续投入。 是Gartner推崇的数据管理趋势。 |
衡量数据发现时间、数据准备时间、数据质量事件解决时间等运营指标是否改善。 |
数据架构、元数据管理、企业架构 |
集成复杂度: 高, 需要整合多种技术和工具, 并建立统一的元数据层。 |
|
DW-FN-618 |
系统与架构 |
湖仓一体 (Lakehouse) 查询加速 (Photon) |
Databricks Photon: 用C++重写的、向量化的、LLVM编译的查询引擎, 专为湖仓一体架构设计。 直接读取Delta/Parquet格式, 实现亚秒级查询延迟和高并发。 |
输入: SQL查询, 存储在对象存储(如S3)中的Delta/Parquet表 |
查询计划, Photon执行引擎(向量化算子, 代码生成), 列式存储数据 |
解决传统数据湖查询性能慢的问题, 使湖仓一体能同时承担数据科学、BI和实时应用负载。 核心是高性能执行引擎。 |
兼容Apache Spark API, 用户无感切换。 对即席查询、仪表板交互提速明显。 |
数据规模, 查询复杂度, 并发数 |
依赖向量化执行引擎和底层存储格式(Delta/Parquet)的优化。 |
是商业公司(Databricks)的专有技术, 体现其湖仓一体产品的核心竞争力。 |
对比相同查询在Photon引擎和传统Spark SQL引擎上的执行时间。 |
查询引擎、数据湖、性能优化 |
CPU: 充分利用现代CPU的SIMD指令和缓存, 计算密集型。 |
|
DW-FN-619 |
系统与架构 |
Kubernetes 原生数据库 (K8s-Native DB) |
将数据库(如PostgreSQL, MySQL, MongoDB)以云原生方式部署和管理在Kubernetes上。 利用StatefulSets管理有状态Pod, Operators自动化管理任务(备份、扩缩容、升级)。 代表: Crunchy Data Postgres Operator, Percona Operator。 |
输入: 数据库定制资源定义(CRD)YAML文件 |
数据库容器镜像, 持久卷声明(PVC), 配置文件, Operator控制器 |
实现数据库的声明式部署、自动化运维和弹性伸缩。 与K8s生态(如服务发现、监控、网络策略)无缝集成。 |
适用于希望统一使用K8s管理所有工作负载(包括数据库)的团队。 对运维团队K8s技能要求高。 |
数据库类型和版本, 存储性能要求, 高可用配置 |
依赖Kubernetes API、相关Operator和CSI存储驱动。 |
需仔细设计存储、网络和备份策略。 并非所有数据库都适合容器化。 |
模拟节点故障, 验证数据库Pod能否自动迁移恢复; 执行扩缩容操作验证。 |
云原生、Kubernetes、数据库运维 |
运维复杂度: 从管理虚拟机上的数据库转变为管理K8s上的Operator和CRD, 范式转变。 |
|
DW-FN-620 |
可观测性 |
持续剖析 (生产环境) |
在低开销(通常<1% CPU)下, 持续对生产环境中的应用程序(包括数据库进程)进行性能剖析, 采集CPU、内存、I/O、锁等维度的性能数据, 生成火焰图等可视化报告, 用于性能优化和故障排查。 |
输入: 目标进程PID, 采样频率(如99Hz), 剖析类型 |
目标程序(需支持帧指针或调试符号), 采样器(如eBPF, perf, async-profiler), 聚合存储 |
将性能剖析从“事后离线”变为“持续在线”, 能够发现仅在生产环境中出现的性能瓶颈。 是DevOps和SRE的强大工具。 |
需确保采样开销可接受, 并注意安全性和隐私(可能采集到堆栈中的敏感信息)。 |
进程的复杂度和活跃度, 采样频率 |
依赖操作系统和硬件(如perf)提供的剖析支持。 |
需要应用程序编译时保留帧指针或调试符号, 以便生成有意义的堆栈信息。 |
在测试环境对已知有性能热点的代码开启剖析, 验证火焰图能正确显示热点函数。 |
性能分析、可观测性、系统剖析 |
CPU: 固定采样开销, 通常很低。 存储: 存储剖析数据。 |
|
DW-FN-621 |
可观测性 |
分布式跟踪的因果推断 |
在微服务分布式跟踪中, 不仅记录调用的时间线和跨度(Span), 还利用因果推断技术分析服务间延迟的因果关系。 例如, 判断服务A的延迟增加是否是导致服务B延迟增加的根本原因, 而非仅仅是相关性。 |
输入: 分布式跟踪数据(Span, 包含时间戳、服务名、父SpanID等) |
跟踪数据点, 因果发现算法(如PC算法、基于约束的方法), 服务依赖拓扑 |
增强传统分布式跟踪的根因定位能力。 从“发生了什么”到“为什么发生”, 加速故障排查。 |
需要足够多的跟踪样本以进行可靠的因果推断。 |
跟踪数据的完整性和采样率, 服务间交互的复杂性 |
依赖分布式跟踪系统和因果发现算法库。 |
是AIOps和可观测性领域的前沿探索。 将统计学与运维结合。 |
在模拟的故障注入场景(如人为增加某服务延迟)下, 验证因果推断能正确识别出根本原因服务。 |
因果推断、分布式追踪、根因分析 |
计算: 因果发现算法可能需要处理大量跟踪数据, 计算复杂度较高。 |
|
DW-FN-622 |
资源/成本管理 |
GPU 共享与弹性 (MIG, vGPU) |
NVIDIA MIG: 将一块物理GPU(如A100)分割成多个独立的GPU实例(如7个5GB实例), 每个实例有自己的内存、缓存和计算核心, 实现硬隔离。 vGPU: 基于虚拟化的GPU分片, 允许多个虚拟机共享一块物理GPU。 |
输入: 物理GPU设备, 分区配置(如MIG实例大小) |
物理GPU, MIG分区配置文件, 驱动程序, 容器运行时(如Docker with |
提高GPU利用率, 降低成本。 使小任务(如模型微调、推理)也能高效使用大算力卡。 实现更精细的资源管理和隔离。 |
MIG适用于多租户、多任务场景。 需GPU硬件支持(Ampere架构及以上)。 |
GPU型号, 工作负载的GPU内存和算力需求 |
依赖GPU硬件、驱动和容器/虚拟化平台的支持。 |
分区策略需根据工作负载特征设计。 分区后实例无法动态调整大小。 |
创建不同大小的MIG实例, 分别运行推理或训练任务, 验证其独立性和性能隔离性。 |
GPU虚拟化、资源隔离、云计算 |
管理开销: 配置和管理多个GPU实例。 物理GPU的总体利用率得到提升。 |
|
DW-FN-623 |
安全与合规 |
机密计算 (Confidential Computing) |
利用CPU安全飞地(如Intel SGX, AMD SEV-SNP, ARM CCA)或专用机密计算芯片, 在内存中创建一个受保护的执行环境(TEE)。 数据在TEE内解密、计算、再加密, 确保数据在使用过程中(而不仅仅是传输和存储时)也不被云服务商或其他进程窥探。 |
输入: 加密数据, 加密的应用程序(Enclave) |
CPU/芯片的TEE功能, 飞地镜像, 远程证明服务, 加密的数据通道 |
实现“使用中”数据的安全。 用于隐私保护机器学习、安全多方计算、保护知识产权代码等。 |
编程模型复杂(需将应用逻辑移植到飞地内), 飞地内存有限, 性能有开销。 |
数据敏感度, 应用程序的复杂度和内存需求 |
依赖支持TEE的硬件、驱动和软件开发工具包(SDK)。 |
是“零信任”架构和隐私计算的关键技术。 生态系统仍在发展中。 |
部署一个简单的SGX应用程序, 验证即使主机有root权限也无法读取飞地内的明文数据。 |
机密计算、硬件安全、隐私增强技术 |
CPU性能: 飞地内外切换和数据加解密有开销。 内存: 飞地内存(如SGX的EPC)大小受限。 |
|
DW-FN-624 |
安全与合规 |
同态加密 (近似算术) CKKS |
Cheon-Kim-Kim-Song (CKKS) 方案, 支持对复数(或实数)向量的近似算术(加法和乘法)。 允许在加密数据上直接进行机器学习推理等计算。 相比完全同态加密(FHE), CKKS效率更高, 但引入可控的误差。 |
输入: 加密的向量 |
明文向量 |
用于隐私保护的预测服务。 服务器在不解密用户数据的情况下进行模型推理, 返回加密结果。 保护用户数据和模型参数(可选)。 |
计算深度(乘法和旋转的次数)受限于密文噪声增长和模数链长度。 精度与效率需权衡。 |
计算复杂度, 所需的数值精度, 安全级别 |
依赖同态加密算法库(如Microsoft SEAL, OpenFHE)。 |
性能开销仍很大(比明文慢数千倍), 主要用于对延迟不敏感的高隐私场景。 |
用CKKS加密一批数据, 执行一系列同态操作后解密, 验证结果与明文计算结果的误差在可接受范围内。 |
同态加密、隐私保护机器学习 |
CPU: 极高, 多项式环上的运算非常耗时。 内存消耗也大。 |
|
DW-FN-625 |
数据工程 |
数据可观测性 (Data Observability) |
借鉴SRE对系统可观测性的理念, 应用于数据领域。 通过监控五个核心支柱来评估数据健康状况: 1. 新鲜度: 数据是否及时更新。 2. 分布: 数据值是否符合预期模式(范围、类型)。 3. 量: 数据量是否在预期范围内。 4. 模式: 数据结构(Schema)是否变化。 5. 沿袭: 数据的来源和转换是否清晰。 |
输入: 数据管道、存储的元数据和日志 |
元数据变更事件, 数据质量指标, 管道运行日志, 血缘信息 |
旨在主动发现和解决数据问题, 防止“坏数据”影响下游决策和应用。 是DataOps的核心实践。 |
需要定义各支柱的监控指标和阈值。 与数据质量监控紧密相关但更全面。 |
数据资产的数量和复杂度, 管道的规模和更新频率 |
依赖元数据管理、数据质量检测和监控告警系统。 |
需要专用工具(如Monte Carlo, Metaplane)或自建平台。 是数据团队的“监控仪表盘”。 |
模拟一次数据异常(如管道失败、Schema变更), 验证可观测性平台能及时检测并告警。 |
数据质量、DataOps、可观测性 |
系统开销: 持续收集和分析元数据、运行数据质量检查需要计算资源。 |
|
DW-FN-626 |
数据工程 |
反向ETL |
将数据仓库中经过清洗、建模后的数据, 同步回业务系统(如CRM, ERP, 营销自动化平台), 用于运营、营销和客户服务。 是Modern Data Stack的关键组成部分, 实现数据闭环。 |
输入: 数据仓库中的表/视图, 目标业务系统API |
源表(在Snowflake, BigQuery等), 目标系统连接器和配置, 同步频率 |
使业务团队能在其日常工具中直接使用分析团队产出的高质量数据, 激活数据价值。 区别于传统ETL(业务系统->数仓)。 |
同步通常为增量。 需处理目标系统的API限流和数据模型映射。 |
数据量, 目标系统API性能和限制, 同步延迟要求 |
依赖数据仓库的连接器和目标业务系统的API。 |
需要管理API凭证、处理失败重试、监控同步状态。 工具如Hightouch, Census。 |
在数据仓库中更新一条记录, 验证能通过反向ETL同步到目标系统(如Salesforce)。 |
数据集成、Modern Data Stack、运营分析 |
网络/API调用: 从数仓拉取数据并推送至业务系统, 产生网络流量和API调用开销。 |
|
DW-FN-627 |
数据工程 |
数据产品即服务 (Data as a Product) |
在数据网格架构中, 将数据视为独立的产品进行管理。 数据产品团队负责其端到端的生命周期, 包括: 1. 提供满足明确SLA的数据。 2. 提供易于发现的元数据和文档。 3. 提供易用的消费接口(如SQL视图、API)。 4. 保证数据质量和安全。 |
输入: 原始数据, 领域知识, 消费者需求 |
领域数据, 产品负责人, 数据产品平台(提供计算、存储、治理等基础能力) |
是数据网格的核心支柱。 旨在解决集中式数据平台的扩展性和敏捷性问题, 将责任下放到领域团队。 |
数据产品应有明确的负责人、路线图和SLA。 是长期资产, 而非项目副产品。 |
领域复杂度, 团队的数据工程能力, 企业文化和组织结构 |
依赖自助式数据平台、数据治理框架和组织变革。 |
不仅是技术变革, 更是组织和文化变革。 需要高层的支持和持续的投入。 |
评估一个数据产品是否容易被其他领域团队发现、理解、信任和使用。 |
数据网格、数据治理、产品管理 |
组织/管理开销: 初期需要建立新的角色、职责、流程和平台, 转型成本高。 |
|
DW-FN-628 |
系统与架构 |
WebAssembly 数据计算引擎 |
将数据计算引擎(如查询引擎、UDF运行时)编译为WebAssembly(Wasm)模块。 Wasm模块可在浏览器、边缘设备或服务器中安全、高效、跨平台地执行, 实现“计算跟随数据”或“计算下推”。 |
输入: 数据, Wasm格式的计算模块(如过滤、聚合函数) |
数据(可能序列化), Wasm字节码, Wasm运行时(如Wasmtime, WasmEdge) |
提供安全的沙箱环境, 避免UDF对主系统的威胁。 实现一次编写, 多处运行(浏览器、边缘、云)。 是计算下推的新载体。 |
性能接近原生代码(约70-80%)。 对系统资源(内存、CPU)访问有限制。 |
计算任务的复杂性, Wasm运行时的性能 |
依赖Wasm编译工具链和运行时。 |
适用于需要安全隔离和跨平台部署的轻量级计算场景。 数据库领域开始探索(如Snowflake Wasm UDF)。 |
编写一个简单的聚合函数, 分别编译为Wasm和原生代码, 在相同数据上运行比较性能和结果。 |
WebAssembly、边缘计算、沙箱技术 |
CPU: Wasm执行速度接近原生, 但仍有差距。 内存: Wasm内存与主机隔离, 需通过接口交换数据。 |
|
DW-FN-629 |
资源/成本管理 |
可持续AI (Green AI) |
在AI模型研发和部署的全生命周期中, 测量和优化其能源消耗和碳足迹。 包括: 选择高效的模型架构、使用混合精度训练、在可再生能源充足时训练、优化推理服务、选择碳效率高的云区域等。 |
输入: AI工作负载, 能源/碳强度数据 |
硬件配置(GPU型号、数量), 训练时长, 云区域, 电网碳强度 |
响应AI计算巨大的环境影响。 推动研究更高效的算法和系统, 促进负责任的AI发展。 |
可用工具(如CodeCarbon, ML CO2 Impact)估算碳排放。 目标是减少总排放, 而非仅追求精度。 |
计算规模, 硬件能效, 能源来源 |
依赖硬件功耗监控和碳强度数据源。 |
需要开发者、研究者和机构提高意识, 并将可持续性作为评估指标之一。 |
跟踪同一模型在不同优化策略(如架构搜索、蒸馏)下的精度-能耗帕累托前沿。 |
可持续计算、人工智能伦理、环境科学 |
管理/意识: 主要成本是改变实践和增加测量环节, 但长期看可降低能源成本和环境 impact。 |
|
DW-FN-630 |
数据科学 |
因果推断 (双重差分法) |
用于评估政策或处理效果的准实验方法。 比较处理组和对照组在政策实施前后结果 |
输入: 面板数据(个体 |
个体固定效应 |
在无法随机分组的观察性研究中, 估计因果效应。 广泛应用于经济学、社会学、政策评估。 |
需要至少两期面板数据。 核心假设是:若无处理, 处理组和对照组的变化趋势应平行。 |
数据的时间跨度, 处理组和对照组的可比性, 平行趋势假设 |
依赖面板数据回归模型。 |
需谨慎检验平行趋势假设, 并考虑可能的混淆因素。 |
进行安慰剂检验(将处理时间提前)或绘制事件研究图来检验平行趋势假设。 |
计量经济学、因果推断、政策评估 |
计算: 低, 为面板数据回归。 |
|
DW-FN-631 |
数据科学 |
因果发现 (PC算法) |
从观测数据中推断变量间的因果图结构。 PC算法(以Peter和Clark命名): 1. 从完全无向图开始。 2. 基于条件独立性测试逐步移除边(如果 |
输入: 观测数据集 |
变量集 |
无监督地探索数据中的潜在因果关系, 为后续因果效应估计提供假设。 是因果科学的基础工具。 |
假设无隐藏混杂、无反馈环、 faithfulness等。 输出是等价类, 而非唯一图。 |
变量数量, 样本量, 变量间关系的强度 |
依赖条件独立性测试和图操作。 |
变量顺序、样本量、测试方法影响结果。 计算复杂度随变量数指数增长。 |
在已知真实因果图的人工生成数据上运行算法, 比较输出与真实结构的相似度(如结构汉明距离)。 |
因果推断、图模型、贝叶斯网络 |
CPU: 高, 最坏情况需测试所有可能的条件集, 变量多时不可行。 可用并行优化。 |
|
DW-FN-632 |
图计算 |
图学习 (Graph Self-Supervised Learning) |
在图数据上进行无监督/自监督学习, 获取节点或图的表示。 方法: 1. 对比学习: 如GraphCL, 通过增强(边丢弃、特征掩码)生成正负样本对, 最大化正样本对的相似性。 2. 生成式学习: 如GraphMAE, 掩码节点特征并重构。 |
输入: 图 |
邻接矩阵 |
解决图数据标注成本高的问题。 利用图自身的结构信息进行预训练, 提升下游任务(如节点分类)性能。 |
图增强策略的设计是关键。 需要与图的性质(同配性等)匹配。 |
图规模, 特征维度, 增强策略的有效性 |
依赖图神经网络和对比/生成式学习框架。 |
是图表示学习的热点方向。 可迁移性是其价值所在。 |
在标准图数据集上, 使用自监督预训练模型初始化下游分类器, 与随机初始化比较性能提升。 |
自监督学习、图表示学习 |
GPU: 训练GNN和对比学习需要计算资源, 尤其在大图上。 |
|
DW-FN-633 |
时序分析 |
时序异常检测 (MERLIN) |
Meta的开源库MERLIN使用集合方法检测大规模指标中的异常。 结合了多种检测器(如S-H-ESD, 检测离群点; Prophet, 检测序列水平变化)的结果, 并通过随机森林分类器聚合, 输出异常概率和可解释的贡献度。 |
输入: 时间序列指标 |
时间序列 |
针对运维监控场景设计, 处理大规模(数百万序列)、高基数指标的自动化异常检测。 提供可解释性。 |
旨在降低误报率, 提高检测覆盖率。 默认参数在运维数据上表现良好。 |
序列长度, 季节性, 异常模式多样性 |
依赖多个底层异常检测算法和模型集成。 |
是工业级的解决方案, 集成了Meta的实战经验。 可扩展新的检测器。 |
在标注了异常点的时间序列数据集上评估精确率、召回率、F1分数。 |
时间序列分析、异常检测、AIOps |
CPU: 中高, 需要运行多个检测器和聚合模型, 但针对大规模优化。 |
|
DW-FN-634 |
时序分析 |
神经控制微分方程 |
用神经网络参数化动力系统的微分方程: |
输入: 初始状态 |
初始状态 |
连续时间深度学习的基石。 适用于不规则时间序列建模、生成模型(FFJORD)、物理信息神经网络。 参数量不随网络深度增加。 |
需要选择ODE求解器和容忍误差。 反向传播通过伴随方法, 内存复杂度O(1)。 |
动力系统的复杂度, 时间跨度和采样密度 |
依赖ODE求解器和自动微分。 |
是深度学习和微分方程的交叉领域。 可解释性更强(通过学习到的微分方程)。 |
在模拟的动力系统数据上训练NCDE, 预测未来状态, 并与真实值比较。 |
神经常微分方程、连续时间模型、科学计算 |
计算: ODE求解是迭代过程, 比前馈网络慢, 但内存高效。 |
|
DW-FN-635 |
机器学习 |
自动机器学习管道 (AutoML Pipeline) |
端到端自动化机器学习流程, 包括数据预处理、特征工程、模型选择、超参数调优、模型评估和部署。 将多个AutoML步骤串联, 形成可重复、可优化的完整工作流。 工具: Google Vertex AI Pipelines, Kubeflow Pipelines。 |
输入: 原始数据集 |
原始数据, 管道组件(算子), 搜索空间(特征组合、模型、超参数), 优化目标 |
降低ML应用门槛, 提高数据科学家效率, 保证流程的一致性和可复现性。 是MLOps的核心组成部分。 |
管道设计需考虑组件的可复用性和数据接口。 优化搜索空间可能巨大。 |
数据复杂度, 管道深度, 搜索空间大小 |
依赖任务编排框架、AutoML库和模型注册表。 |
需要权衡自动化程度与人类专家干预。 可解释性和可调试性是挑战。 |
在多个标准数据集上运行自动管道, 评估最终模型的性能以及管道构建的时间成本。 |
自动化机器学习、MLOps、工作流 |
计算资源: 高, 需要大量计算资源进行超参数搜索和模型训练。 |
|
DW-FN-636 |
数据治理 |
数据市场 (Data Marketplace) |
一个集中化的平台, 允许数据提供者发布、描述和销售其数据产品, 数据消费者发现、评估、订阅和使用这些数据。 包含数据目录、搜索、试用、计费、合同管理和交付等功能。 |
输入: 数据产品列表及其元数据、SLA、定价 |
数据产品列表, 供应商和消费者账户, 搜索和发现界面, 合同与计费引擎, 数据交付API |
促进数据货币化和数据资产的价值实现。 可以是内部的(跨部门共享), 也可以是外部的(面向公众或合作伙伴)。 |
需要解决数据定价、质量保证、合规性(如数据使用权)和隐私保护等复杂问题。 |
数据产品的数量和质量, 市场活跃度, 合规要求 |
依赖数据目录、访问控制和计费系统。 |
是数据中台或数据网格架构的最终价值体现形式之一。 需要强大的治理和运营。 |
模拟一个数据消费者从搜索、试用、订阅到获取数据的完整流程, 验证其顺畅性。 |
数据经济、数据治理、平台商业模式 |
平台开发/运营: 构建和维护市场的成本, 以及运营(如审核、支持)成本。 |
|
DW-FN-637 |
安全与合规 |
区块链数据溯源 |
将关键数据操作(如数据生成、授权访问、重大修改)的哈希指纹和元数据记录在区块链(如联盟链)上。 利用区块链的不可篡改和可追溯特性, 为数据提供可信的审计溯源。 |
输入: 数据操作事件 |
数据事件, 区块链网络节点, 智能合约(定义存证结构), 事件哈希 |
增强数据在多方协作中的可信度。 用于供应链溯源、电子存证、科研数据完整性保障等场景。 |
通常只存储数据的哈希和关键元数据, 而非原始数据本身(因成本、性能和隐私)。 |
数据操作的频率, 区块链的性能(TPS)和成本 |
依赖区块链网络和智能合约。 |
需要参与方对区块链网络达成共识。 查询溯源信息需通过区块链浏览器或API。 |
写入一个测试事件到区块链, 然后通过交易哈希查询验证其存在和内容一致性。 |
区块链、数据溯源、可信计算 |
区块链交易成本: 每次存证产生交易费用(Gas费)。 性能: 写入延迟和吞吐量受限于区块链。 |
|
DW-FN-638 |
数据科学 |
生物信息学序列比对 (BLAST) |
基本局部比对搜索工具。 用于在数据库中搜索与查询序列(核酸或蛋白质)相似的序列。 核心: 1. 生成查询序列的短单词(k-mer)列表。 2. 在数据库中扫描找到匹配单词的位置( seeding)。 3. 对匹配区域进行扩展和评分(使用替换矩阵, 如BLOSUM)。 4. 报告显著的匹配(E值评估)。 |
输入: 查询序列 |
查询序列, 数据库, 单词大小 |
是生物信息学的基石工具, 用于寻找同源序列、推断功能、进行物种分类等。 有大量变体和优化。 |
E值(期望值)越小, 匹配越显著。 通常E<0.05或更小视为显著。 |
查询序列长度, 数据库规模, 相似度阈值 |
依赖序列索引和动态规划(局部扩展)。 |
有成熟的软件包(NCBI BLAST+)和在线服务。 需理解其统计意义。 |
用已知的同源序列对运行BLAST, 验证能正确检索到并给出低的E值。 |
生物信息学、序列分析、动态规划 |
CPU/内存: 高, 特别是对大数据库。 需要建立索引加速。 |
|
DW-FN-639 |
数据科学 |
计算几何 (Delaunay三角剖分) |
对平面点集 |
输入: 平面点集 |
点集 |
用于有限元分析、地形建模、计算机图形学、网格生成等。 是许多空间分析的基础。 |
要求点不共线。 算法复杂度O(n log n)。 有增量算法、分治算法等。 |
点的数量 |
依赖几何谓词(点定位、圆测试)和数据结构(如DCEL)。 |
数值稳定性是关键(需处理浮点误差)。 有成熟库(如CGAL, scipy.spatial.Delaunay)。 |
检查生成的三角网格是否满足空圆特性, 以及是否覆盖了点的凸包。 |
计算几何、网格生成、空间分析 |
CPU: O(n log n), 对于大规模点集需要高效实现。 |
|
DW-FN-640 |
前沿探索 |
量子机器学习 (变分量子电路) |
将经典数据编码到量子比特状态(如角度编码), 通过参数化的量子电路(含旋转门、纠缠门)进行变换, 最后测量得到输出。 电路参数 |
输入: 经典数据 |
M |
ψ(θ)>` 作为模型预测 |
量子比特, 量子门(RX, RY, RZ, CNOT), 参数 |
探索量子计算在机器学习中的潜在优势(如处理高维Hilbert空间)。 目前处于早期, 在含噪声中等规模量子(NISQ)设备上运行。 |
电路深度受限于当前量子设备的相干时间。 需要错误缓解技术。 |
问题映射方式, 电路深度, 量子比特数和连通性 |
依赖量子计算模拟器或真实量子硬件, 以及经典优化器。 |
是量子-经典混合算法。 需要量子计算和机器学习的交叉知识。 |
在经典模拟器上运行VQC解决简单分类问题, 验证其可训练性。 |
|
DW-FN-641 |
前沿探索 |
神经辐射场 (NeRF) |
用于3D场景重建和新视角合成的深度学习模型。 用一个多层感知机(MLP)隐式地表示连续场景: |
输入: 多视角2D图像及其相机参数 |
3D坐标 |
生成高保真、视角一致的新视图。 是神经渲染领域的突破。 应用于视图合成、3D重建、SLAM等。 |
需要大量(数十到数百张)校准图像。 训练和渲染速度慢。 |
输入图像的数量和质量, 场景复杂度, MLP容量 |
依赖可微分体渲染和位置编码。 |
后续工作致力于加速训练和推理(如InstantNGP)。 是Metaverse的基础技术之一。 |
在已知相机姿态的合成场景(如Blender)上训练NeRF, 渲染新视角并与真实值比较PSNR/SSIM。 |
计算机视觉、计算机图形学、神经渲染 |
GPU/时间: 训练极慢(数小时到数天), 需要大量显存和高性能GPU。 推理也慢。 |
|
DW-FN-642 |
前沿探索 |
脉冲神经网络 |
模仿生物神经元脉冲发放行为的第三代神经网络。 神经元模型(如LIF)包含膜电位 |
输入: 脉冲序列(或编码后的脉冲) |
神经元膜电位 |
具有事件驱动、稀疏计算、低功耗的潜力。 适用于神经形态硬件。 应用于动态视觉传感器(DVS)数据处理、低功耗边缘AI。 |
时间维度是核心。 训练比传统ANN更具挑战性。 |
时间步长, 神经元模型复杂度, 脉冲编码方式 |
依赖脉冲神经元模拟和时序反向传播。 |
是类脑计算的研究方向。 编程模型和硬件生态不成熟。 |
在MNIST的脉冲编码版本上训练SNN进行分类, 评估准确率和模拟的能耗(脉冲数)。 |
类脑计算、神经形态工程、脉冲神经网络 |
计算范式: 理论上在专用硬件上能耗低。 在传统硬件上模拟效率低。 |
|
DW-FN-643 |
前沿探索 |
数字孪生仿真与优化 |
构建物理实体(如工厂、城市、人体)的虚拟映射(数字孪生), 并利用实时数据、仿真模型和AI进行状态监控、预测、假设分析和优化。 核心是仿真引擎(基于物理或数据驱动)和优化算法(如强化学习)的闭环。 |
输入: 物理实体的实时传感器数据 |
传感器数据流, 几何/物理模型, 数据同化算法, 仿真求解器, 优化器 |
用于产品设计、预测性维护、城市管理、医疗个性化等。 是实现工业4.0、智慧城市的关键。 |
仿真精度和实时性是关键挑战。 需要高保真模型和高效计算。 |
物理系统的复杂度, 数据质量和频率, 仿真的保真度要求 |
依赖多物理场仿真软件、实时数据流处理和AI/ML平台。 |
跨学科领域, 需要OT与IT的深度融合。 仍在发展中。 |
在数字孪生中模拟一个故障, 验证其能预测物理实体的相应变化; 或执行一个优化策略并在物理世界验证效果。 |
仿真科学、物联网、控制优化、工业工程 |
计算/数据: 高, 需要强大的算力运行复杂仿真, 并处理海量实时数据。 |
|
DW-FN-644 |
前沿探索 |
边缘AI模型蒸馏与部署 |
将云端大模型(教师)的知识蒸馏到适用于边缘设备的小模型(学生)中, 并利用边缘推理框架(如TensorFlow Lite, PyTorch Mobile, NVIDIA TensorRT)进行优化(量化、剪枝、编译)和部署。 实现低延迟、低功耗、隐私保护的本地推理。 |
输入: 云端教师模型 |
教师模型 |
使AI能力延伸到网络边缘, 适用于物联网、移动设备、自动驾驶等场景。 解决带宽、延迟、隐私和可靠性问题。 |
需权衡模型大小、精度和推理速度。 硬件感知的神经网络搜索是前沿。 |
边缘硬件规格, 任务精度要求, 功耗预算 |
依赖模型压缩工具、硬件厂商的SDK和边缘运行时。 |
需要针对特定硬件进行精细调优。 软硬件协同设计是关键。 |
在目标边缘设备上测量优化后模型的推理延迟、功耗和任务精度。 |
边缘计算、模型压缩、嵌入式AI |
开发/优化成本: 为不同硬件平台优化和部署模型需要专门知识。 边缘设备资源有限。 |
|
DW-FN-645 |
数据管理 |
数据编织主动元数据 |
在数据编织架构中, 元数据不仅是 passively collected, 而是 actively driving automation。 例如, 当检测到数据质量问题时, 自动触发告警并关联影响的下游资产; 当查询模式变化时, 自动建议索引或物化视图。 |
输入: 各种被动元数据(技术、业务、操作), AI/ML引擎 |
元数据图谱, 推理引擎, 策略引擎, 动作执行器 |
是数据编织实现价值的关键。 将元数据从“记录系统”转变为“参与系统”, 实现数据的自描述、自管理、自优化。 |
需要丰富的上下文(血缘、语义、使用情况)和智能来做出正确决策。 |
元数据的数量、质量和关联度, AI/ML模型的成熟度 |
依赖知识图谱、推理引擎和工作流自动化。 |
是数据管理的未来形态。 需要强大的元数据基础。 |
模拟一个常见数据问题(如Schema变更), 验证主动元数据系统能正确识别影响并触发通知或补救工作流。 |
元数据管理、人工智能、数据编织 |
系统复杂性: 构建和维护一个智能的、自动化的元数据驱动系统复杂度高。 |
|
DW-FN-646 |
系统与架构 |
存内计算 (In-Memory Computing) |
将计算单元嵌入到内存阵列中, 直接在存储数据的位置进行计算, 而非在CPU和内存间移动数据。 利用模拟或数字电路执行矩阵-向量乘法等操作, 适用于神经网络推理和图形处理。 |
输入: 输入数据向量 |
内存计算单元(如Memristor交叉阵列), 数模/模数转换器, 控制器 |
突破“内存墙”, 实现极高的能效和吞吐量, 特别适合AI推理。 是后冯·诺依曼架构的探索方向。 |
目前精度、可靠性和制造成本是主要挑战。 多用于边缘推理场景。 |
计算精度要求, 内存技术(ReRAM, PCM等), 阵列规模 |
依赖新型非易失性存储器件和混合信号电路设计。 |
是硬件层面的根本性创新。 仍处于研究和早期产品化阶段。 |
在模拟器或原型芯片上运行一个小的神经网络层, 测量其计算能效和准确性。 |
计算机体系结构、半导体、存算一体 |
硬件研发: 需要全新的芯片设计和制造工艺, 前期投入巨大。 |
|
DW-FN-647 |
系统与架构 |
分散式SQL查询引擎 (Trino) |
一个开源的分布式SQL查询引擎, 允许查询位于多个异构数据源(如HDFS, S3, RDBMS, NoSQL)中的数据, 而无需移动数据。 采用主从架构, 协调节点解析和优化查询, 工作节点并行处理数据。 |
输入: 跨多个数据源的SQL查询 |
协调器, 多个工作节点, 连接器(到各数据源), 查询执行计划 |
实现逻辑数据仓库。 提供交互式查询能力。 是数据湖查询的流行选择。 前身为PrestoSQL。 |
适用于即席查询和数据分析, 而非高并发TP。 对内存要求高。 |
查询复杂度, 数据源性能和网络, 集群规模 |
依赖连接器实现和各数据源的查询下推能力。 |
需要调优内存配置和连接器参数。 社区活跃, 连接器丰富。 |
执行一个跨Hive表和MySQL表的关联查询, 验证结果正确性和性能。 |
分布式计算、数据虚拟化、SQL引擎 |
内存/网络: 大量使用内存进行shuffle和聚合, 网络是跨节点通信瓶颈。 |
|
DW-FN-648 |
数据工程 |
流式变更数据捕获 (Debezium) |
一个开源的分布式平台, 将现有数据库的变更流(CDC)捕获为事件流。 连接器(如MySQL, PostgreSQL, MongoDB)读取数据库事务日志, 将变更(INSERT/UPDATE/DELETE)发布到Kafka主题, 供下游消费。 |
输入: 源数据库连接配置, Kafka集群 |
源数据库连接器, Kafka Connect框架, 模式注册表(可选), 变更事件结构 |
实现低延迟的数据集成和微服务间数据同步。 是事件驱动架构和CQRS模式的基础设施。 |
需要源数据库开启二进制日志或类似功能。 保证至少一次交付语义。 |
数据库变更频率, 网络稳定性, Kafka性能 |
依赖数据库日志解析器和Kafka Connect运行时。 |
需谨慎处理Schema变更、大事务和连接器故障恢复。 |
在源库执行DML操作, 验证Kafka中能收到相应的变更事件, 且数据一致。 |
变更数据捕获、事件流、数据复制 |
源库负载: 读取事务日志对源库有额外IO负载。 网络: 持续的变更流数据传输。 |
|
DW-FN-649 |
机器学习 |
联邦学习 (水平) |
多个数据持有方在本地训练模型, 只交换模型更新(如梯度、参数), 而不交换原始数据, 共同训练一个全局模型。 经典算法FedAvg: 服务器聚合本地模型参数: |
输入: 各参与方的本地数据集 |
参与方 |
解决数据孤岛和隐私保护下的联合建模问题。 适用于参与方数据特征空间相同、样本ID不同的场景(如不同医院的病人数据)。 |
需处理统计异构性(非IID数据)、通信效率、安全聚合等问题。 |
参与方数量, 数据异构程度, 通信轮数 |
依赖安全聚合协议和分布式优化。 |
需要中心协调方或对等网络。 谷歌的TensorFlow Federated是框架之一。 |
在模拟的非IID数据集上运行FedAvg, 比较与集中式训练模型的性能差距。 |
隐私保护机器学习、分布式优化 |
网络通信: 多轮模型参数传输, 是主要瓶颈。 计算: 各参与方本地训练开销。 |
|
DW-FN-650 |
机器学习 |
联邦学习 (垂直) |
多个数据持有方的数据特征不同, 但样本ID有部分重叠。 各方在重叠样本上协作训练模型, 而不暴露各自特征。 通过加密对齐样本ID后, 使用同态加密或安全多方计算等技术进行联合训练(如逻辑回归、决策树)。 |
输入: 各参与方的特征数据 |
对齐的样本ID子集, 各方特征, 标签, 安全计算协议(如Paillier) |
适用于跨行业联合建模(如银行+电商)。 比水平联邦更复杂, 需要样本对齐和安全计算。 |
样本对齐本身可能泄露隐私, 需隐私保护集合求交(PSI)。 计算和通信开销大。 |
重叠样本比例, 特征维度, 安全计算协议效率 |
依赖PSI、同态加密或安全多方计算库。 |
目前仍处于研究和小规模试验阶段。 工程实现复杂。 |
在模拟的垂直分区数据上, 运行一个安全的逻辑回归训练, 验证其精度与集中式训练相当。 |
隐私保护机器学习、安全多方计算 |
计算/通信: 极高, 安全计算协议带来数个数量级的开销。 |
|
DW-FN-651 |
数据科学 |
生存分析 (Cox比例风险模型) |
用于分析直到某个事件(如死亡、故障)发生的时间数据。 Cox模型: 风险函数 |
输入: 生存时间 |
生存时间 |
用于医学研究、可靠性工程、客户流失预测等。 处理右删失数据是其特点。 |
比例风险假设需检验。 风险比HR解释为协变量对事件风险的乘性效应。 |
样本量, 事件数, 协变量数量 |
依赖偏似然最大化(通常用Newton-Raphson)。 |
是生存分析的经典模型。 有扩展(如时变系数)。 |
用模拟的生存数据拟合Cox模型, 验证系数估计接近真实值, 并进行比例风险假设检验。 |
生存分析、生物统计学、可靠性工程 |
计算: 低, 为模型拟合。 |
|
DW-FN-652 |
数据科学 |
空间计量经济学 (空间自回归) |
考虑地理空间单元之间的相互依赖。 空间自回归模型: |
输入: 因变量 |
空间单元数据, 邻接或距离权重矩阵 |
用于房地产、环境、公共政策等涉及空间交互的研究。 忽略空间自相关会导致估计偏误。 |
权重矩阵 |
空间单元数量, 空间依赖的强度, 权重矩阵定义 |
依赖最大似然估计或广义矩估计。 |
是GIS和计量经济学的交叉。 有专门软件(如GeoDa, R的spdep)。 |
在已知存在空间自相关的人工数据上拟合SAR模型, 验证能正确估计出 |
空间计量、地理信息系统、经济学 |
计算: 中, 涉及权重矩阵运算和最大似然估计, 单元数多时计算量大。 |
|
DW-FN-653 |
数据工程 |
数据合约测试 (Great Expectations) |
使用Great Expectations等框架定义、记录和验证关于数据的期望。 在数据流水线中作为测试运行, 确保数据满足其“合约”(如非空、唯一、在特定范围内)。 支持自动生成数据质量文档。 |
输入: 数据批次 |
数据批次, 期望套件(Suite), 验证结果(Validation Result), 数据文档(Data Docs) |
将软件工程的测试实践引入数据工程。 实现数据质量的内建(shift-left)。 是数据可观测性的组成部分。 |
期望应具有业务意义。 可配置严格程度(如 |
数据变化频率, 规则数量和复杂度 |
依赖Great Expectations库和存储(如文件、数据库)来保存期望和结果。 |
需要团队文化接受“数据测试”。 集成到CI/CD和数据流水线中。 |
对已知质量好/坏的数据运行同一套期望, 验证能正确通过/失败。 |
数据质量、测试、DataOps |
运行时开销: 运行大量期望会增加流水线处理时间。 |
|
DW-FN-654 |
系统与架构 |
无服务器工作流 (AWS Step Functions) |
使用JSON格式的状态机语言定义一系列AWS服务(如Lambda, ECS, SNS)的协调逻辑。 服务器自动管理状态、错误处理、重试和可视化。 实现复杂业务逻辑的编排。 |
输入: 状态机定义(ASL), 初始输入 |
状态机(包含States, Choice, Parallel, Wait等状态), 执行ARN, 任务令牌(Task Token) |
简化微服务或无服务器函数间协调的开发和运维。 提供内置的可靠性、可观察性和可调试性。 |
适用于有状态、多步骤的异步流程。 定价基于状态转换次数。 |
工作流的步骤数和复杂度, 执行频率 |
依赖云服务商的工作流服务。 |
是事件驱动架构的强力粘合剂。 需遵循其状态机定义规范。 |
设计一个简单的订单处理工作流(如验证->付款->发货), 执行并检查每个步骤的状态。 |
无服务器计算、工作流编排、云原生 |
云成本: 按状态转换次数计费, 高频长流程可能成本高。 管理开销低。 |
|
DW-FN-655 |
系统与架构 |
服务网格 (Istio) |
为微服务架构提供透明的、语言无关的网络层基础设施。 通过注入Sidecar代理(Envoy)劫持微服务间流量, 实现流量管理(负载均衡、路由、金丝雀)、可观测性(指标、日志、追踪)和安全性(mTLS、鉴权)。 |
输入: 微服务部署, Istio控制平面配置 |
控制平面(Istiod), 数据平面(Envoy Sidecar), 自定义资源定义(如VirtualService, DestinationRule) |
解耦网络治理逻辑与业务逻辑。 是云原生微服务的事实标准中间件。 但增加复杂性和延迟。 |
适用于Kubernetes环境。 对延迟有额外开销(约数毫秒)。 |
服务数量, 网络策略复杂度 |
依赖Kubernetes和容器网络。 |
需要学习新的抽象和配置。 适用于中大型、对治理有要求的微服务集群。 |
配置一个金丝雀发布规则, 将部分流量导向新版本服务, 验证流量按预期分割。 |
微服务、服务网格、云原生 |
资源开销: 每个Pod增加一个Sidecar容器, 消耗额外CPU和内存。 网络延迟小幅增加。 |
|
DW-FN-656 |
安全与合规 |
零信任数据访问 (Zero Trust Data Access) |
在零信任安全模型下, 任何用户、设备或系统在访问数据前都必须经过严格的身份验证和授权, 且授权是动态的、基于上下文(如用户角色、设备状态、位置、时间)的。 默认不信任网络内部和外部的任何请求。 |
输入: 访问请求(身份、上下文), 数据资源, 策略引擎 |
身份提供商(IdP), 策略决策点(PDP), 策略管理点(PAP), 属性(用户、资源、环境) |
应对网络边界模糊化(如远程办公、云化)。 核心原则: 永不信任, 始终验证。 最小权限访问。 |
需要强大的身份管理和持续的信任评估。 是对传统边界安全模型的根本性改变。 |
用户和系统数量, 策略的粒度和复杂度 |
依赖统一的身份、策略管理和执行点(如代理、API网关)。 |
是系统工程和文化变革, 需分阶段实施。 是数据安全架构的演进方向。 |
模拟一个来自不常见位置/设备的访问请求, 验证系统会要求额外验证或直接拒绝。 |
零信任安全、身份与访问管理、数据安全 |
管理/集成复杂度: 高, 需要改造现有身份和访问控制系统, 并定义细粒度策略。 |
|
DW-FN-657 |
资源/成本管理 |
FinOps 云财务运营 |
一套将财务责任引入云可变支出模型的实践和文化, 使工程、财务和业务团队通过协作数据驱动决策来加速价值实现。 核心: 1. 告知(成本可视化和分摊)。 2. 优化(资源效率提升)。 3. 运营(持续优化流程)。 |
输入: 云账单和使用数据, 业务元数据(标签) |
云账单文件, 资源标签, 成本分配模型, 预算和预测工具, 优化工作流 |
旨在控制云成本的同时不牺牲创新速度。 是云计算时代的新型IT财务管理。 需要跨部门协作。 |
建立责任制(如让技术团队对其产生的云成本负责)是关键。 |
云支出的规模和复杂度, 标签覆盖率, 组织协作成熟度 |
依赖云成本管理工具(如CloudHealth, Cloudability)和流程。 |
需要高管支持和文化转变。 FinOps基金会提供了最佳实践框架。 |
跟踪单位成本(如每次查询成本、每个用户服务成本)的变化趋势, 并驱动优化。 |
云计算财务管理、IT财务管理、DevOps |
工具/流程: 需要投资工具和建立新的流程(如预算跟踪、优化工作坊)。 |
|
DW-FN-658 |
数据管理 |
数据网格数据产品自检 |
数据产品团队负责实现和运行自动化的数据产品自检(Self-serve Testing), 作为CI/CD的一部分。 包括: 模式测试、数据质量测试、沿袭验证、SLA监控等。 确保数据产品在上线或更新后持续满足契约。 |
输入: 数据产品代码/配置, 测试套件 |
数据产品代码库, 测试框架(如dbt test, Great Expectations), CI/CD流水线, 监控配置 |
将质量内建(Shift-Left)和运维责任(You Build It, You Run It)原则应用于数据产品。 是数据网格成功运营的保障。 |
自检应尽可能自动化, 并作为发布门禁。 失败应阻止部署并通知团队。 |
数据产品的复杂度, 测试覆盖的全面性 |
依赖团队的工程能力和自动化测试工具。 |
需要数据产品团队具备软件 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)