【信息科学与工程学】【数据科学】 第四十四篇 数据湖函数库01
数据湖函数库 (Data Lake Function Library)
|
编号 |
类型 |
函数/算法类型 |
函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表 |
参数类型和参数列表 |
参数/变量/常量/标量/张量/矩阵/集合列表 |
数学表达式/物理模型/计算机模型/通信模型/关联描述 |
典型值/范围 (管控目标) |
核心关联参数 |
依赖关系 |
设计/软件开发/硬件制造/应用要求 |
测试/验证方法 |
关联学科/领域 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
1 |
数据操作 |
流式摄取 |
1. 时间窗口划分: |
输入参数: |
变量: |
从连续数据流中,按固定时间窗口 |
|
|
依赖于消息队列(Kafka/Pulsar)、分布式文件系统(HDFS/S3)的客户端及连接库。 |
要求为容错设计,支持至少一次(exactly-once)语义。需监控背压(backpressure)。代码需提供检查点(checkpoint)机制。 |
1. 功能测试: 模拟数据流,验证输出文件的数量、内容、时间窗口切分正确性。 |
流计算、分布式系统、数据工程 |
|
2 |
数据质量 |
统计指标计算 |
1. 空值率: |
输入参数: |
变量: |
对数据集的指定列进行扫描,应用统计公式计算其质量指标。这是一个批处理统计模型,用于描述数据列的分布和完整性特征。 |
|
|
依赖数据处理框架(如Spark, Pandas)的核心统计函数。 |
函数需支持增量计算(适用于分区数据)。结果应结构化存储并可被监控系统采集。 |
1. 正确性测试: 对构造的已知分布数据集运行,验证计算结果与理论值一致。 |
统计学、数据分析、数据质量管控 |
|
3 |
数据查询 |
向量相似性搜索 |
1. 余弦相似度: |
输入参数: |
变量/集合: |
给定一个查询向量,在数据湖中预构建的向量索引中,快速找到 |
|
|
依赖专门的向量检索库(如FAISS, Milvus)。需要预计算并持久化向量索引文件。 |
要求索引支持增量更新。API需异步设计以防止阻塞。需清晰定义距离度量方式(如内积、L2距离)。 |
1. 准确性测试: 在小数据集上对比ANN结果与暴力KNN结果,计算召回率。 |
机器学习、信息检索、计算机图形学、高维空间几何 |
|
编号 |
类型 |
函数/算法类型 |
函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表 |
参数类型和参数列表 |
参数/变量/常量/标量/张量/矩阵/集合列表 |
数学表达式/物理模型/计算机模型/通信模型/关联描述 |
典型值/范围 (管控目标) |
核心关联参数 |
依赖关系 |
设计/软件开发/硬件制造/应用要求 |
测试/验证方法 |
关联学科/领域 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
4 |
数据转换 |
数据脱敏 (哈希) |
|
输入参数: |
变量: |
通过密码学哈希函数将敏感信息(如手机号、身份证号)转换为不可逆的固定长度字符串。是一种密码学模型,用于实现数据的匿名化。 |
哈希输出长度: SHA-256为64位十六进制字符串。管控目标: 相同的明文输入必须产生相同的哈希输出,碰撞概率极低。 |
|
依赖所选哈希算法库(如Java的MessageDigest,Python的hashlib)。 |
盐值需安全存储,不可与数据一同泄露。算法应具备抗碰撞性和抗原像性。 |
1. 确定性测试: 固定输入和盐值,验证输出恒定。 |
密码学、信息安全 |
|
5 |
数据转换 |
数据标准化 (Z-Score) |
|
输入参数: |
变量: |
将数据转换为均值为0、标准差为1的标准正态分布。是一种线性代数与统计模型,用于消除量纲影响,使不同特征具有可比性。 |
输出 |
|
依赖计算均值和标准差的统计函数。 |
通常需要在训练集上计算 |
1. 正确性测试: 对已知均值和方差的人工数据集进行转换,验证结果是否符合预期。 |
统计学、机器学习特征工程 |
|
6 |
数据转换 |
数据分区分桶 |
分区函数: |
输入参数: |
变量: |
将数据集根据某个键的哈希值或值范围,均匀地分布到N个不同的子目录(分区)或文件(桶)中。这是一种数据组织与路由模型,用于优化查询和存储。 |
|
|
依赖于底层文件系统路径组织和数据写入框架(如Spark的partitionBy, Hive的DISTRIBUTED BY)。 |
分区键的选择应具有较高的基数,以避免数据倾斜。分桶常用于提高JOIN和采样效率。 |
1. 均匀性测试: 写入后统计各分区/桶的数据量,计算方差。 |
数据库系统、分布式存储 |
|
7 |
数据操作 |
增量数据合并 (Merge) |
|
输入参数: |
集合/变量: |
将增量数据 |
增量数据 |
|
依赖支持ACID事务或原子重命名的表格式(如Delta Lake, Iceberg, Hudi)。 |
需要记录操作类型( |
1. 正确性测试: 构造包含增删改的增量集,验证合并后结果与手动计算结果一致。 |
数据库、事务处理、数据仓库 |
|
8 |
数据质量 |
重复值检测 |
对所有记录 |
输入参数: |
变量: |
通过比较记录的键字段集合是否完全相同来识别重复数据。这是一个精确匹配模型,核心是分组计数。 |
重复率管控目标: 业务主键重复率应为0。允许的重复时间窗口(如1秒内相同数据到达多次)可配置。 |
|
依赖数据处理引擎的 |
对非主键的重复检测(如逻辑重复),需定义更复杂的模糊匹配函数。 |
1. 功能测试: 在数据中插入已知的重复记录,验证能被正确识别和计数。 |
数据清洗、记录链接 |
|
9 |
数据查询 |
JSON路径解析 |
给定JSON字符串 |
输入参数: |
变量: |
根据类XPath的路径表达式,从嵌套的JSON结构中提取特定字段的值。这是一个树形结构遍历与查询模型。 |
路径表达式深度: 通常1-10层。管控目标: 对于格式错误的JSON或无效路径,应返回NULL而非报错。 |
|
依赖JSON解析库(如Jackson, Gson, rapidjson)。 |
函数应具备健壮性,处理路径不存在、数组越界等情况。支持返回标量、数组或对象。 |
1. 路径测试: 使用不同深度和复杂度的路径表达式,验证解析结果正确。 |
编译原理、数据结构(树) |
|
10 |
数据操作 |
数据采样 (随机采样) |
伯努利采样: 对每条记录 |
输入参数: |
变量: |
以固定的概率 |
|
|
依赖高质量的伪随机数生成器(PRNG)。 |
设定随机种子 |
1. 比例测试: 多次运行,统计实际采样行数/总行数,均值应接近 |
概率论、统计学、实验设计 |
|
11 |
数据质量 |
值域校验 |
校验函数: |
输入参数: |
变量: |
根据预定义的规则(如非空、数值范围、枚举值)校验单个数据值是否有效。这是一种基于规则的验证模型。 |
典型规则: 年龄[0, 150],性别∈{‘男’, ‘女’}。管控目标: 校验失败率(异常值比例)< 1%。 |
|
无特殊依赖,为基础逻辑判断。 |
规则应可配置,并支持组合(AND/OR)。错误应被记录到专门的质检报告表。 |
1. 规则测试: 构造符合和违反规则的数据,验证校验函数返回正确布尔值。 |
业务规则管理、数据治理 |
|
12 |
数据查询 |
模糊匹配 (Levenshtein距离) |
|
输入参数: |
变量: |
a |
|
计算将一个字符串转换为另一个字符串所需的最少单字符编辑(插入、删除、替换)次数。这是一种字符串度量模型,用于评估相似度。 |
距离范围: 0(完全相同)到 max(len(a), len(b))。管控目标: 在容错阈值内(如距离<=2)找到相似项。 |
|
依赖动态规划算法实现,或优化的C库(如python-Levenshtein)。 |
对于长文本,计算成本高,通常需结合其他方法(如Token化后Jaccard相似度)进行初筛。 |
|
13 |
数据转换 |
日期时间格式化与提取 |
解析: |
输入参数: |
变量: |
在字符串与标准化的日期时间对象之间进行转换,或从日期时间对象中提取特定组成部分(年、月、日、小时等)。这是一个时间解析与格式化模型。 |
常见格式: “%Y-%m-%d %H:%M:%S”。管控目标: 支持多种常见格式,对错误格式有优雅的容错处理(如返回NULL)。 |
|
依赖系统或编程语言的原生日期时间库。 |
需考虑时区转换问题。函数应线程安全。 |
1. 解析测试: 使用各种合法和非法的格式字符串进行解析,验证结果或异常。 |
时间序列处理、数据标准化 |
|
14 |
数据操作 |
数据压缩 (GZIP) |
应用DEFLATE压缩算法(LZ77 + 哈夫曼编码)的变体,无单一简洁数学方程,是熵编码和字典编码的组合。 |
输入参数: |
变量: |
通过查找并替换数据中的重复模式(LZ77),再对符号进行可变长编码(哈夫曼编码),以减少数据体积。这是一个无损数据压缩算法模型。 |
压缩等级: 1(最快,压缩率低)到 9(最慢,压缩率高)。典型压缩比: 文本3:1 到 10:1。管控目标: 压缩/解压速度与压缩比的平衡。 |
|
依赖zlib等压缩库。 |
适用于文本、JSON、CSV等重复性高的数据。对已压缩的二进制文件(如图片)效果甚微。 |
1. 无损测试: 压缩后再解压,与原始数据逐字节比较,必须完全相同。 |
信息论、数据压缩 |
|
15 |
数据转换 |
行转列 (PIVOT) |
对原始表 |
输入参数: |
变量/集合: |
将长格式数据转换为宽格式,将某一列的唯一值变为新表的多个列,并对相关数值进行聚合。这是一个数据重塑与聚合模型。 |
新产生的列数由 |
|
依赖数据处理引擎的透视表功能(如Pandas的pivot_table,Spark SQL的PIVOT)。 |
需注意 |
1. 正确性测试: 对小规模数据手动计算透视结果,与函数输出比对。 |
数据分析、在线分析处理(OLAP) |
|
16 |
数据质量 |
关联一致性校验 |
定义外键约束: 对于表A的字段 |
输入参数: |
变量/集合: |
验证不同数据表之间引用关系的完整性,确保子表中的外键值必须在父表的主键中存在(或为NULL)。这是一个关系数据库参照完整性模型。 |
管控目标: 外键违规记录数应为0。可设置阈值,如容忍<0.01%的临时不一致。 |
|
依赖于可执行表间JOIN或子查询的数据处理引擎。 |
在数据湖中,此类约束通常由应用逻辑保证,此函数用于事后稽核。 |
1. 完整性测试: 在子表中插入无效的外键值,验证函数能检测出。 |
关系数据库理论、数据建模 |
|
17 |
数据查询 |
空间距离计算 (Haversine公式) |
|
输入参数: |
变量: |
计算地球表面两点之间的大圆距离(最短球面距离)。这是一种球面三角学模型,精度高于平面欧氏距离。 |
输入经纬度范围: 纬度[-90, 90],经度[-180, 180]。R默认值: 6371.0 km。 |
|
依赖三角函数(sin, cos, atan2)。 |
输入需先转换为弧度制。对于近距离(<1km),可使用更简化的公式。 |
1. 验证测试: 计算已知两点间距离(如北京-上海),与公开距离数据对比,误差<1%。 |
地理信息系统(GIS)、球面几何 |
|
18 |
数据转换 |
缺失值填充 |
常用方法: |
输入参数: |
变量: |
用特定策略替换数据中的空值(NULL)。这是一种数据修补模型,旨在减少缺失值对分析的影响。 |
常用方法: |
|
依赖基础的统计计算函数(均值、中位数等)。 |
方法选择需结合数据特性和业务知识。前向/后向填充通常用于时间序列。 |
1. 方法测试: 在已知缺失模式的人工数据集上应用不同方法,检查填充值合理性。 |
统计学、数据清洗、时间序列分析 |
|
19 |
数据操作 |
数据加密 (AES) |
|
输入参数: |
变量: |
使用高级加密标准(AES)算法,在密钥控制下对数据进行混淆和扩散,使其不可读。这是一种对称密钥加密模型。 |
密钥长度: 128, 192, 256位。工作模式: CBC, GCM等。管控目标: 密文必须能通过对应的解密过程完全还原为明文。 |
|
依赖密码学库的AES实现(如OpenSSL, Java Cryptography Architecture)。 |
必须安全管理密钥。IV在CBC模式下需随机且无需保密,但同一密钥下不得重复使用。 |
1. 往返测试: 加密后立即解密,结果必须与原始明文完全相同。 |
密码学 |
|
20 |
数据转换 |
类别型特征编码 (One-Hot) |
对于有K个类别的特征,为第i个类别创建一个长度为K的向量 |
输入参数: |
变量: |
将离散的类别特征转换为一个仅有一个元素为1,其余为0的二进制向量。这是一种线性代数与机器学习特征工程模型。 |
类别数量K通常建议<100,以防止维度灾难。管控目标: 确保 |
|
无特殊依赖,为向量构造逻辑。 |
必须在训练集上确定 |
1. 完备性测试: 输入 |
机器学习、特征工程 |
|
21 |
数据质量 |
波动率检测 (同环比) |
环比: |
输入参数: |
标量: |
计算当前值相对于某个历史基期值(如上月、去年同期)的相对变化百分比,用于监控业务指标的异常波动。这是一个时间序列分析模型。 |
典型波动阈值: ±10% 或 ±2个标准差。管控目标: 对超出阈值的波动发出告警。 |
|
依赖时间序列数据的正确对齐(即同周期比较)。 |
需处理基期值为0或负数的边界情况。通常结合移动平均或标准差来设定动态阈值。 |
1. 计算测试: 输入明确的正负值,验证计算公式正确。 |
时间序列分析、业务监控 |
|
22 |
数据操作 |
数据归档与生命周期管理 |
策略函数: |
输入参数: |
变量: |
根据预定义的数据保留策略(如时间、访问频率),将冷数据从热存储层(如标准对象存储)迁移到成本更低的归档存储层。这是一个存储成本优化与生命周期管理模型。 |
|
|
依赖对象存储的生命周期策略接口(如S3 Lifecycle)或文件系统操作API。 |
迁移前需确认数据不再被高频访问。归档数据恢复可能需要数小时,需明确SLA。 |
1. 策略模拟测试: 在测试环境模拟文件老化过程,验证其能否在正确时间被归档。 |
存储系统、数据治理、成本优化 |
|
23 |
数据查询 |
分位数计算 (近似) |
使用T-Digest等近似算法:维护一组质心 |
输入参数: |
变量: |
在单次遍历中,以可控的内存和精度损失为条件,近似计算大规模数据流的分位数(如中位数、P99)。这是一种流式统计算法模型。 |
分位数 |
|
依赖T-Digest或GK算法等近似计算库。 |
适用于无法存储全量数据或对计算内存有严格限制的流式场景。结果有误差。 |
1. 精度测试: 对已知分布(如均匀分布)的数据集,比较近似分位数与精确分位数的差异。 |
流计算、近似算法、统计学 |
|
24 |
数据转换 |
数据序列化 (Avro) |
根据Avro Schema(JSON格式)定义的二进制格式,将内存中的数据结构编码为字节流。编码包括将字段名映射为字段ID,并采用紧凑的二进制表示。 |
输入参数: |
变量: |
将数据按照预定义的模式(Schema)编码为紧凑的二进制格式。这是一个基于模式的二进制序列化模型,强调模式演进和数据压缩。 |
Schema复杂度: 支持嵌套、联合、枚举等复杂类型。管控目标: 序列化/反序列化的速度,以及二进制数据的大小。 |
|
依赖Avro序列化库(如Apache Avro)。 |
Schema需与数据严格匹配。Schema可独立于数据存储,便于演进和数据读取。 |
1. 往返测试: 序列化后立即反序列化,结果应与原始数据完全一致。 |
数据序列化、模式管理 |
|
25 |
数据质量 |
数据血缘解析 |
从SQL脚本、ETL作业配置中解析出表、字段级别的依赖关系,形成有向无环图 |
输入参数: |
变量/集合: |
通过静态分析或运行时日志,追踪数据的来源、经过的转换处理、以及最终的去向。这是一种图论模型,用于描述数据的起源和演变。 |
解析深度: 字段级血缘比表级血缘更精细。管控目标: 关键业务字段的血缘覆盖率达100%。 |
|
依赖SQL解析器(如Calcite)、工作流引擎的元数据接口。 |
解析需覆盖从数据源到数据湖,再到数据应用的完整链路。需要统一标识符(如全限定表名)。 |
1. 准确性测试: 对已知依赖关系的简单SQL脚本进行解析,验证生成的图谱正确。 |
元数据管理、图论、数据治理 |
|
26 |
数据操作 |
数据一致性对比 (Diff) |
对比两个数据集 |
a.key = b.key and a.value ≠ b.value}` |
输入参数: |
变量/集合: |
基于键值比较两个数据集的差异,识别出增、删、改的记录。这是一个集合比较模型,常用于数据迁移验证或主备数据一致性检查。 |
差异容忍度: 通常要求完全一致(差异为0)。可接受的记录数量级偏差(如<0.001%)。 |
|
依赖数据框架的JOIN和集合运算功能。 |
对于海量数据,需采用分治或采样策略。对比结果应结构化存储以便排查。 |
1. 功能测试: 构造包含已知增删改的数据集A和B,验证函数能正确识别所有差异类型。 |
|
27 |
数据查询 |
模式匹配 (正则表达式) |
判断字符串 |
输入参数: |
变量: |
使用正则表达式引擎,检查字符串是否符合复杂的文本模式,并可提取匹配的子串。这是一种形式语言与自动机模型。 |
正则表达式复杂度需控制,避免灾难性回溯。管控目标: 匹配准确率和性能。 |
|
依赖编程语言内置的正则表达式引擎(如PCRE, RE2)。 |
对用户输入的正则表达式需做安全限制和超时控制,防止ReDoS攻击。 |
1. 模式测试: 使用各种合法和非法字符串测试模式匹配的正确性。 |
形式语言、文本处理 |
|
28 |
数据转换 |
数值离散化 (分箱) |
等宽分箱: |
输入参数: |
变量: |
将连续数值特征划分为有限个离散的区间(箱),用于简化模型或适应某些算法。这是一种非参数化数据转换模型。 |
箱数: 通常3-10个。管控目标: 等频分箱要求各箱数据量大致相等;等宽分箱要求边界清晰。 |
|
依赖排序和分位数计算函数。 |
分箱边界需从训练集计算,并保存以用于测试集。可处理异常值(如归入首尾箱)。 |
1. 等频测试: 验证等频分箱后,各箱记录数是否相等(或近似)。 |
统计学、特征工程 |
|
29 |
数据质量 |
数据时效性监控 |
计算数据延迟: |
输入参数: |
变量: |
通过比较数据中记录的时间戳与当前系统时间,计算数据的新鲜度或延迟。这是一个时间序列监控模型。 |
管控目标: 延迟阈值,如ODS层数据延迟<5分钟,DW层数据延迟<1小时。 |
|
依赖获取数据最新时间戳的查询能力。 |
时间戳字段需规范且包含时区信息。对于分区表,可分区监控。 |
1. 准确性测试: 在已知时间戳的数据集上运行,验证计算的延迟正确。 |
数据运维、监控告警 |
|
30 |
数据操作 |
数据版本快照 (Snapshot) |
创建表T在时间t的快照: |
输入参数: |
变量: |
在特定时间点创建数据表的一个完整、静态的副本或引用。这是一种数据版本控制模型,便于回溯、审计和实验。 |
快照保留策略: 保留最近7天每日快照,或保留重要里程碑版本。管控目标: 创建快照对线上查询性能影响<5%。 |
|
依赖支持时间旅行或快照功能的表格式(如Delta Lake, Iceberg)。 |
需评估存储成本。快照可被GC(垃圾回收),需有保留策略。 |
1. 一致性测试: 在创建快照后修改原表,验证快照数据不受影响。 |
数据版本控制、数据备份 |
|
31 |
数据查询 |
全文检索索引构建 (倒排索引) |
对文档集 |
t ∈ d}`,列表项通常包含文档ID和位置信息。 |
输入参数: |
变量/集合: |
将文档中的文本内容切分为词项(Token),建立从词项到出现该词项的文档列表的映射。这是一种信息检索核心模型,用于快速定位包含关键词的文档。 |
索引大小通常为原始文本的20%-50%。管控目标: 关键词查询响应时间<100ms。 |
|
依赖分词器(Tokenizer)和索引存储结构(如Lucene索引)。 |
需选择合适的分词器和停用词表。索引需定期更新以反映文档集变化。 |
1. 召回测试: 用一组查询词测试,验证所有包含该词的文档都被检索出来。 |
|
32 |
数据转换 |
数据格式转换 (Parquet写入) |
将内存中的结构化数据(如DataFrame)按列式存储格式(Parquet)编码并写入文件。涉及列块划分、数据页编码(如字典、RLE、Delta)、元数据写入等步骤。 |
输入参数: |
变量: |
将数据以列式、压缩的格式序列化到磁盘。这是一个列式存储与编码模型,优化读取性能和存储效率。 |
压缩算法: SNAPPY(速度与压缩比均衡), GZIP(高压缩比)。行组大小: 128MB。管控目标: 读取关键列的查询速度提升5-10倍。 |
|
依赖Parquet编码库(如Apache Parquet)。 |
列式存储对分析型查询(选择少量列)友好,对事务型操作(频繁更新行)不友好。 |
1. 正确性测试: 写入后读取,与原始数据比对,确保无损。 |
列式数据库、数据序列化 |
|
33 |
数据质量 |
业务规则校验 (自定义SQL) |
执行用户定义的SQL断言语句,如 |
输入参数: |
变量: |
通过执行灵活的SQL表达式来定义复杂的业务逻辑规则,并对数据质量进行断言。这是一种声明式规则模型。 |
规则复杂度: 从简单非空检查到多表关联校验。管控目标: 所有核心业务规则校验通过率100%。 |
|
依赖SQL执行引擎。 |
SQL应可配置和管理。需防止恶意SQL。校验失败应提供详细上下文信息。 |
1. 规则执行测试: 针对符合和违反规则的数据集运行SQL,验证返回预期结果。 |
SQL、业务逻辑、数据治理 |
|
34 |
数据操作 |
数据混洗 (Shuffle) |
根据分区键 |
输入参数: |
变量: |
在分布式计算中,根据键值将数据重新分布到不同的计算节点上,使得相同键的数据聚集在一起。这是一个分布式数据重分布模型,是GROUP BY和JOIN等操作的基础。 |
分区数 |
|
依赖分布式计算框架的Shuffle服务(如Spark的Shuffle Manager)。 |
Shuffle是分布式作业中最昂贵的阶段,应尽量减少传输数据量。可使用Salt技术缓解数据倾斜。 |
1. 正确性测试: 混洗后,验证相同键的数据确实聚集到了同一分区。 |
分布式计算、并行计算 |
|
35 |
数据查询 |
近似去重计数 (HyperLogLog) |
使用调和平均数估算基数 |
输入参数: |
变量: |
在极小内存空间内(几个KB),以可接受的误差率(如<2%)估计海量数据集中唯一值的数量。这是一种概率性数据结构与统计算法模型。 |
寄存器数量 |
|
依赖HyperLogLog算法实现。 |
适用于计数精确值不重要,但需要低内存消耗的场景。多个HLL sketch可合并。 |
1. 精度测试: 在已知精确基数的小数据集上运行,计算估计误差。 |
概率论、流算法、基数估计 |
|
36 |
数据转换 |
特征交叉 (多项式展开) |
对两个特征 |
输入参数: |
变量: |
将原始特征进行组合(如相乘),生成新的特征,以捕捉特征之间的交互作用。这是一种特征工程模型,常用于线性模型以增强表达能力。 |
阶数 |
|
依赖线性代数运算库。 |
生成的特征数量随原始特征数和阶数组合增长,需谨慎使用,或配合正则化。 |
1. 维度验证: 验证生成的特征数量符合组合公式 C(n+d, d) - 1。 |
机器学习、特征工程、多项式回归 |
|
37 |
数据质量 |
趋势性分析 (移动平均) |
简单移动平均: |
输入参数: |
变量: |
通过计算时间序列在滑动窗口内的平均值,平滑短期波动,揭示长期趋势。这是一种时间序列平滑模型。 |
窗口大小 |
|
依赖时间序列窗口函数。 |
窗口大小的选择是关键的:太小则噪声大,太大则对趋势变化反应迟钝。 |
1. 平滑效果测试: 对带有噪声的合成数据应用移动平均,观察平滑效果。 |
时间序列分析、信号处理 |
|
38 |
数据操作 |
数据标记 (打标签) |
基于规则引擎: |
输入参数: |
变量: |
根据预定义的业务规则,为数据记录自动分类或打上标签。这是一个基于规则的分类模型。 |
规则数量: 从几条到数百条。管控目标: 标签准确率和覆盖率。 |
|
依赖规则引擎或条件表达式求值器。 |
规则应有优先级或冲突解决策略。规则需易于管理和版本化。 |
1. 规则测试: 针对每条规则,构造满足和不满足条件的测试用例,验证标签是否正确。 |
规则引擎、业务逻辑、数据标注 |
|
39 |
数据查询 |
图遍历 (广度优先搜索-BFS) |
从起始节点 |
输入参数: |
变量/集合: |
从图中的一个顶点开始,逐层探索其相邻的顶点。这是一种图算法模型,用于查找连通分量、最短路径(无权)等。 |
最大深度 |
|
依赖图计算框架(如GraphX, NetworkX)或自定义的队列和邻接数据结构。 |
需标记已访问节点以防止重复访问和无限循环。对于大型图,需分布式计算。 |
1. 正确性测试: 在小规模已知图上手动模拟BFS,验证遍历顺序和结果正确。 |
图论、图计算、社交网络分析 |
|
40 |
数据转换 |
主键生成 (雪花算法) |
生成的ID为64位整数,结构为: |
输入参数: |
变量/位域: |
一种分布式ID生成算法,生成的ID大体按时间递增,且在分布式系统内基本唯一。这是一个分布式唯一ID生成模型。 |
各部分范围: 时间戳(毫秒)约69年,数据中心ID 5位,机器ID 5位,序列号12位(每毫秒4096个)。管控目标: 全局唯一,粗略有序。 |
|
依赖系统时钟,要求时钟不回拨。 |
机器ID和数据中心ID需在集群内唯一配置。时钟回拨会导致ID冲突,需有应对机制。 |
1. 唯一性测试: 在分布式环境下高并发生成大量ID,验证无冲突。 |
分布式系统、唯一标识符 |
|
41 |
数据质量 |
分布一致性检验 (KS检验) |
Kolmogorov-Smirnov统计量: |
输入参数: |
变量/函数: |
通过比较两个样本的经验分布函数之间的最大垂直距离,来检验它们是否来自同一分布。这是一种非参数统计假设检验模型。 |
样本大小 |
|
依赖统计计算库(如SciPy)中的KS检验实现。 |
对样本量敏感。只能用于连续分布。检验结果“不拒绝”不代表“接受”。 |
1. 检验力测试: 用已知来自同一分布和不同分布的合成数据测试,观察p值是否在预期方向变化。 |
数理统计、假设检验 |
|
42 |
数据操作 |
数据发布与订阅 (Pub/Sub) |
生产者将消息 |
输入参数 (发布): |
变量: |
一种异步通信模型,发送者(发布者)将消息发送到指定的主题,而不关心接收者;接收者(订阅者)订阅感兴趣的主题,接收并处理消息。这是一种消息传递模型。 |
消息大小: 通常<10MB。吞吐量: 目标>10k msg/s。端到端延迟: <100ms。管控目标: 消息至少被成功投递一次(at-least-once)。 |
|
依赖消息中间件(如Apache Kafka, Pulsar, RabbitMQ)的客户端。 |
需考虑消息顺序、持久化、重试、死信队列等机制。订阅者应实现幂等处理。 |
1. 功能测试: 发布消息后,验证所有订阅者都能收到。 |
消息队列、事件驱动架构、异步编程 |
|
43 |
数据查询 |
滑动窗口聚合 |
对时间序列 |
输入参数: |
变量/集合: |
在持续流动的数据流上,定义固定长度的窗口,并定期(滑动间隔)计算该窗口内数据的聚合值。这是一种流式窗口聚合模型。 |
窗口大小: 从几秒到几小时。滑动间隔 <= 窗口大小。管控目标: 低延迟产出聚合结果,状态管理开销可控。 |
|
依赖流处理引擎的窗口API(如Flink, Spark Structured Streaming)。 |
需明确窗口的触发和延迟数据处理策略(如允许延迟、侧输出)。 |
1. 准确性测试: 在有限流上模拟,手动计算窗口聚合结果,与系统输出比对。 |
流计算、复杂事件处理、时间序列分析 |
|
编号 |
类型 |
函数/算法类型 |
函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表 |
参数类型和参数列表 |
参数/变量/常量/标量/张量/矩阵/集合列表 |
数学表达式/物理模型/计算机模型/通信模型/关联描述 |
典型值/范围 (管控目标) |
核心关联参数 |
依赖关系 |
设计/软件开发/硬件制造/应用要求 |
测试/验证方法 |
关联学科/领域 |
对网络、PCIE总线、Serdes、IO部件、CPU、GPU、内存、SSD/NVME SSD/HDD盘的需求 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
44 |
数据操作 |
分布式排序 (Sort) |
局部排序: 每个计算节点对本地数据分片 |
输入参数: |
变量/集合: |
在大规模数据上,先在各计算节点内进行排序,再将所有节点的有序结果合并,得到全局有序结果。这是一种外部排序与归并模型。 |
数据规模: TB-PB级。管控目标: 排序时间与数据量成线性或准线性关系,无OOM错误。 |
|
依赖分布式计算框架的Shuffle机制和外部排序能力。 |
需根据数据量和内存合理设置分区数和溢出策略。内存不足时需能溢写到磁盘。 |
1. 正确性测试: 验证全局结果完全有序,且与全内存排序结果一致。 |
分布式计算、外部排序 |
网络: 全局Shuffle阶段产生大量跨节点数据交换,需要高带宽、低延迟网络。内存: 排序是内存密集型操作,需要大量内存容纳排序缓冲区。CPU: 排序算法(如Timsort)比较操作密集,需要较强单核/多核性能。SSD: 当内存不足时,外部排序依赖高速SSD作为临时存储介质。 |
|
45 |
数据查询 |
子字符串搜索 (Boyer-Moore) |
基于坏字符和好后缀启发式规则的匹配算法。预处理模式串,生成坏字符表 |
输入参数: |
变量: |
在文本中高效搜索模式串。通过预处理模式串,在匹配失败时能跳过多个字符,平均时间复杂度低于线性。这是一种字符串搜索算法模型。 |
文本长度 |
|
依赖算法核心逻辑实现,无需特殊库。 |
适用于模式串相对固定的场景。预处理模式串的开销在多次搜索同一模式时可分摊。 |
1. 功能测试: 在文本中搜索存在/不存在的模式,验证返回结果正确。 |
字符串算法、编译器 |
CPU: 纯算法逻辑,依赖CPU的整数和分支预测性能。内存: 需要将文本和模式串载入内存,对缓存敏感。网络/IO: 如果文本来自远程或磁盘,则需要高IO吞吐能力将数据快速加载到内存。 |
|
46 |
数据转换 |
数据脱敏 (格式保留加密-FPE) |
使用FF1或FF3算法,在有限字符集内进行可逆的、保持格式的加密。例如,对信用卡号加密后仍为16位数字。核心是使用分组密码和Feistel结构构造在自定义字符集上的可逆变换。 |
输入参数: |
变量: |
在保持数据原始格式(如长度、字符类型)不变的前提下进行加密。这是一种密码学模型,适用于需要维持数据外观的业务场景。 |
支持的字符集: 数字(0-9), 十六进制, 字母等。管控目标: 加密结果在字符集内均匀分布,且可逆。 |
|
依赖FPE算法库(如Mysto)。 |
需谨慎管理密钥。调整值 |
1. 格式保留测试: 验证加密后密文长度和字符集与明文相同。 |
密码学、数据安全 |
CPU: 加解密运算密集,依赖CPU的通用算力,部分实现可能利用AES-NI指令集加速。内存: 对内存需求中等,主要用于存储中间状态和查找表。 |
|
47 |
数据质量 |
异常点检测 (孤立森林-iForest) |
随机划分特征空间构建多棵“孤立树”(iTree)。路径长度 |
输入参数: |
变量: |
通过随机选择特征和划分值构建二叉树,异常点因特征值“怪异”而更容易被孤立(路径更短)。这是一种无监督异常检测模型。 |
|
|
依赖随机数生成器和树结构构建。 |
适用于连续型数值特征。对高维稀疏数据效果可能不佳。训练和预测速度较快。 |
1. 有效性测试: 在合成数据集(如一个聚类加几个离群点)上运行,验证离群点得分高。 |
机器学习、异常检测 |
CPU: 构建和遍历大量随机树是CPU密集型任务,依赖多核并行能力。内存: 需要存储所有树的结构和样本数据,内存消耗与 |
|
48 |
数据操作 |
数据广播 (Broadcast) |
将小数据集 |
输入参数: |
变量: |
在分布式计算中,将一个小数据集高效地分发到集群所有计算节点,避免在后续操作(如JOIN)中重复传输。这是一种集群通信优化模型。 |
数据集大小: 通常<100MB。管控目标: 广播延迟低,对Driver节点网络出口压力可控。 |
|
依赖分布式计算框架的广播机制(如TorrentBroadcast)。 |
被广播的数据应是只读的。数据大小需显著小于大表,否则会适得其反。 |
1. 正确性测试: 广播后,验证所有工作节点都能访问到完整且一致的数据。 |
分布式计算、网络通信 |
网络: 广播操作对Driver节点的网络上行带宽和集群内网络交换能力有较大压力。内存: 广播的数据会常驻在每个工作节点的内存中。CPU: 广播协议的处理(如分片、校验)消耗少量CPU。 |
|
49 |
数据查询 |
前缀和/累积和 (Scan) |
计算数组 |
输入参数: |
变量: |
计算序列从起始点到当前位置所有元素的和。这是一个并行前缀计算模型,是许多并行算法(如归约、排序)的基础原语。 |
数组长度 |
|
依赖并行编程框架(如CUDA, OpenMP)或特定算法实现。 |
在并行计算中,优化数据局部性和减少同步开销是关键。 |
1. 正确性测试: 对已知小数组手动计算前缀和,与函数输出比对。 |
并行计算、算法设计 |
CPU/GPU: 是典型的并行计算密集型任务,GPU的大规模并行核心能极大加速计算。内存带宽: 算法是内存访问密集型,对内存带宽(包括GPU显存带宽)有很高要求。PCIE: 如果数据在CPU内存中,GPU计算时需要通过PCIE总线传输数据,成为潜在瓶颈。 |
|
50 |
数据转换 |
数据分片 (Sharding) |
基于分片键 |
输入参数: |
变量: |
将大数据集水平划分为多个更小的、独立管理的子集(分片),分布到不同存储节点。这是一种数据水平分区与路由模型。 |
分片数 |
|
依赖于哈希函数和分片元数据管理服务。 |
分片键的选择至关重要,应具有高基数以避免热点。分片一旦建立,迁移成本高。 |
1. 均匀性测试: 插入大量数据后,统计各分片数据量,计算方差。 |
分布式数据库、负载均衡 |
网络: 跨分片查询或事务需要网络通信,对延迟敏感。SSD/HDD: 每个分片通常对应独立的存储设备或卷,需要均衡的IOPS和吞吐。CPU: 分片路由逻辑和跨分片聚合计算消耗CPU资源。 |
|
51 |
数据质量 |
记录链接/实体解析 (模糊匹配) |
通过计算记录对之间的相似度 |
输入参数: |
变量: |
识别和链接来自不同数据源的、指向同一现实世界实体的记录。这是一个记录去重与融合模型,核心是计算相似度和设定阈值。 |
相似度阈值: 根据业务调整,如0.8-0.9。管控目标: 在准确率和召回率之间取得平衡(高F1分数)。 |
|
依赖相似度计算函数和高效的记录对比较技术(如阻塞、索引)。 |
规则制定需要领域知识。大规模数据集两两比较成本高,需用“阻塞”技术减少候选对。 |
1. 精确率/召回率测试: 在已标注的数据集上运行,计算Precision, Recall, F1-Score。 |
数据清洗、自然语言处理、信息集成 |
CPU: 相似度计算(如编辑距离、Jaccard)非常消耗CPU资源。内存: 加载两个记录集到内存,并为索引和中间结果分配空间。网络: 如果数据源分布在不同节点,数据传输成为瓶颈。 |
|
52 |
数据操作 |
数据追加 (Append) |
将新数据块 |
输入参数: |
变量/集合: |
将新的数据记录添加到现有数据集的末尾。这是一种基本的数据写入模型,假设数据是有序到达或无需重排的。 |
追加数据大小 |
|
依赖存储系统的追加写API(如HDFS的append, 对象存储的Put)。 |
在分布式系统中,需处理并发追加的冲突。对于分析型表,追加后可能需要合并小文件。 |
1. 原子性测试: 在追加过程中模拟故障,验证数据完整性(无部分写入)。 |
文件系统、数据库事务 |
SSD/NVMe SSD: 追加操作是顺序写,是现代SSD/NVMe SSD的最优访问模式,能发挥极高吞吐和IOPS。网络: 如果从客户端远程写入,网络带宽和延迟是关键。CPU: 序列化、校验和计算消耗CPU。 |
|
53 |
数据查询 |
布隆过滤器 (Bloom Filter) |
使用 |
输入参数: |
变量: |
一种概率性数据结构,用于快速判断一个元素是否不在一个集合中。有极小的误判率(假阳性),但绝无漏判(假阴性)。这是一种空间效率型集合成员查询模型。 |
位数组大小 |
|
依赖一组高质量的哈希函数。 |
不支持元素删除(标准布隆过滤器)。需根据预估数据量 |
1. 假阳性率测试: 插入一组元素后,用另一组肯定不存在的元素测试,统计假阳性率是否符合理论值。 |
概率数据结构、缓存、数据库 |
内存: 核心需求是位数组 |
|
54 |
数据转换 |
时间窗口聚合 (Tumbling Window) |
将无界数据流按固定长度、不重叠的时间窗口划分: |
e.timestamp ∈ W_i})`。 |
输入参数: |
变量/集合: |
将连续数据流切分为固定大小的、不重叠的时间窗口,并对每个窗口内的所有数据进行聚合计算。这是一种流式处理中的基本窗口模型。 |
窗口大小 |
|
依赖流处理引擎的窗口API和水位线机制。 |
需处理迟到数据(通常丢弃或侧输出)。窗口边界对齐于时间戳0点。 |
1. 窗口对齐测试: 验证窗口是否严格按照定义的长度和不重叠原则划分。 |
流计算、时间序列分析 |
|
55 |
数据质量 |
频数分布 (直方图) |
统计数据集中每个唯一值 |
输入参数: |
变量/集合: |
描述数据集中各个值或值区间出现的频率。这是一种描述性统计模型,用于直观了解数据的分布情况。 |
箱数 |
|
无特殊依赖,为基础统计计算。 |
对于连续数据,等宽分箱可能因异常值导致分布失真,可考虑等频分箱。 |
1. 正确性测试: 对小数据集手工计算频数,与函数输出对比。 |
描述性统计学、数据探索 |
CPU: 统计计数操作,对CPU算力要求中等,但数据量巨大时成为瓶颈。内存: 需要内存存储唯一值到计数的映射,对于高基数列(如ID)可能消耗大量内存。网络/IO: 从存储中读取数据列。 |
|
56 |
数据操作 |
数据副本同步 (Replication) |
主从复制: 在主机 |
输入参数: |
变量: |
将数据从一个节点(主副本)复制到一个或多个其他节点(从副本),以提供数据冗余、高可用和读扩展。这是一种数据一致性复制模型。 |
副本数量: 通常1主N从,N=1~5。复制延迟(异步): 目标<1秒。管控目标: RPO(恢复点目标)和RTO(恢复时间目标)。 |
|
依赖日志传输机制(如WAL shipping, Binlog)和应用回放能力。 |
同步模式影响写入延迟。异步模式存在数据丢失风险。需处理网络分区和脑裂问题。 |
1. 一致性测试: 在主副本写入后,验证从副本在规定时间内达到一致状态(同步/异步)。 |
分布式系统、高可用、数据库 |
网络: 复制日志的持续传输是主要网络负载,对带宽和延迟有要求。SSD/NVMe SSD: 主副本的日志(WAL)写入需要低延迟、高耐久的存储。CPU: 从副本应用日志(回放)消耗CPU资源。 |
|
57 |
数据查询 |
公共表表达式 (CTE递归) |
递归CTE形式: |
输入参数: |
变量: |
通过递归引用自身,实现对层次结构数据(如树、图)的遍历查询,例如查找所有下属、计算路径等。这是一种SQL递归查询模型。 |
递归深度: 受数据库限制(如Oracle的MAX_RECURSION_LEVEL)。管控目标: 避免无限递归,结果集大小可控。 |
|
依赖支持递归CTE的SQL引擎(如PostgreSQL, SQL Server, 某些Hive版本)。 |
必须确保递归有明确的终止条件(如到达叶子节点、达到最大深度、结果不再变化)。 |
1. 正确性测试: 在已知的小型树结构上手动推导递归结果,与查询结果比对。 |
SQL、图查询、层次查询 |
CPU: 递归查询通常会导致大量迭代和连接操作,对CPU计算能力要求高。内存: 需要存储中间迭代结果,递归深度大时消耗内存。IO: 需要频繁读取基表和中间结果。 |
|
58 |
数据转换 |
数据归一化 (Min-Max) |
|
输入参数: |
变量: |
将数据线性缩放到一个固定的范围(通常是[0,1])。这是一种特征缩放模型,使不同量纲的特征具有可比性。 |
输出范围: [0, 1]。管控目标: 缩放后数据范围严格在[0,1]内。 |
|
依赖计算数组最小值和最大值的函数。 |
对异常值敏感(因为 |
1. 范围测试: 验证输出数组的所有值确实在[0,1]区间内。 |
特征工程、数据预处理 |
CPU: 简单的算术运算,计算量小,但数据量大时仍需要遍历整个数组,可向量化加速。内存: 需要存储原始数组和结果数组。 |
|
59 |
数据质量 |
记录计数验证 |
断言数据表或分区的记录数 |
输入参数: |
变量: |
验证数据处理的产出数量是否符合预期,是最基本的数据完整性检查。这是一种数据完整性断言模型。 |
容差 |
|
依赖数据存储系统的计数功能(通常是高效的元数据操作)。 |
对于海量表,全表COUNT可能代价高,可考虑基于分区或采样估算。 |
1. 功能测试: 在已知行数的表上运行,验证函数返回正确结果。 |
数据验证、ETL测试 |
CPU/IO: |
|
60 |
数据操作 |
数据备份与恢复 (快照) |
备份: 创建时间点 |
输入参数 (备份): |
变量: |
周期性地创建数据的完整或增量副本,并存放在独立介质,以便在数据丢失或损坏时恢复。这是一种数据保护与灾难恢复模型。 |
恢复点目标(RPO): 可接受的数据丢失时长,如15分钟。 |
|
依赖存储系统的快照技术、备份工具(如DistCp, Borg, Restic)或数据库的备份命令。 |
需制定备份策略(全量/增量频率)。定期进行恢复演练以验证备份有效性。 |
1. 完整性测试: 备份后,计算源和备份的校验和(如MD5),确保一致。 |
数据保护、存储管理 |
网络: 备份数据传输消耗大量网络带宽(尤其在跨数据中心备份时)。存储: 需要与源数据容量相当或更大的备份存储空间(HDD常用于备份)。IO: 备份过程是密集的读取(源)和写入(备份目标)操作。CPU: 压缩、去重、加密等操作消耗CPU。 |
|
61 |
数据查询 |
近似查询 (采样聚合) |
对数据集 |
输入参数: |
变量: |
通过对数据采样而非处理全量数据,快速得到聚合结果的近似值和可能的误差范围。这是一种近似查询处理模型,以精度换速度。 |
采样率: 0.1% - 5%。管控目标: 在可接受的误差(如±1%)和置信水平(如95%)下,大幅提升查询速度。 |
|
依赖随机采样函数和统计推断(计算置信区间)。 |
适用于可加性聚合(如sum, count, avg)。对于非可加性聚合(如median, distinct count)需特殊处理。样本需具有代表性。 |
1. 准确性测试: 在不同采样率下,比较近似结果与全量结果的偏差,验证偏差在理论误差范围内。 |
抽样调查、统计推断 |
CPU/IO: 极大地减少了需要处理的数据量,从而显著降低CPU计算和IO读取压力。内存: 只需加载样本数据,内存消耗大幅降低。网络: 在分布式系统中,采样减少了Shuffle数据量,降低了网络负载。 |
|
62 |
数据转换 |
主成分分析 (PCA) |
1. 中心化数据: |
输入参数: |
变量/矩阵: |
通过线性变换将原始高维特征映射到低维正交特征(主成分),这些主成分能保留数据中最大方差的方向。这是一种线性降维与特征提取模型。 |
保留成分数 |
|
依赖线性代数库(如SVD分解)。 |
数据通常需要先标准化。适用于特征间存在线性相关性的场景。 |
1. 方差解释测试: 绘制解释方差图,验证前k个主成分的累计解释方差达到目标。 |
线性代数、多元统计、机器学习 |
CPU: 协方差矩阵计算和特征值分解是计算密集型操作,复杂度约为O(n_features^2 * n_samples)或更高,需要强大CPU或多核并行。内存: 需要存储数据矩阵和协方差矩阵,内存消耗大。GPU: 大规模PCA计算可通过GPU(如cuSOLVER)极大加速。 |
|
63 |
数据质量 |
时间序列平稳性检验 (ADF) |
增广迪基-富勒检验。检验回归方程: |
输入参数: |
变量: |
检验时间序列是否具有单位根(即是否是非平稳的)。若拒绝原假设(p值小于显著性水平,如0.05),则认为序列是平稳的。这是一种统计假设检验模型。 |
滞后阶数 |
|
依赖统计计算库中的ADF检验实现(如statsmodels)。 |
是许多时间序列模型(如ARIMA)的前提条件。需注意检验的势(检出能力)。 |
1. 平稳序列测试: 对一个已知的平稳序列(如白噪声)做检验,应能拒绝原假设(p值小)。 |
时间序列分析、计量经济学 |
CPU: 涉及回归计算和统计检验,是CPU密集型任务,但单次计算量不大。内存: 需将时间序列数据加载到内存。 |
|
64 |
数据操作 |
数据标记删除 (Soft Delete) |
不物理删除记录,而是更新记录中的标记字段 |
输入参数: |
变量: |
通过逻辑标记而非物理移除来实现“删除”操作,保留数据的历史轨迹,便于数据恢复和审计。这是一种数据生命周期管理模型。 |
删除标记字段: |
|
依赖数据表的更新操作和查询时的过滤条件。 |
需在所有查询中一致地过滤已删除数据,可通过视图实现。长期来看需要物理清理(硬删除)策略。 |
1. 功能测试: 执行软删除后,验证记录在默认查询中不可见,但通过特定查询(包含 |
数据建模、数据治理 |
CPU/IO: UPDATE操作比DELETE操作消耗略多,但避免了大规模数据物理移动。存储: 数据未实际删除,占用存储空间随时间增长,需要定期归档或物理清理。索引: 需要在删除标记字段上建立索引以保持查询性能。 |
|
65 |
数据查询 |
地理围栏判断 (点-in-多边形) |
使用射线法:从点 |
输入参数: |
变量/集合: |
判断一个地理坐标点是否位于一个多边形区域内。这是计算几何中的基本算法,应用于LBS、地理围栏等场景。 |
多边形顶点数: 几十到几万个。管控目标: 计算准确,能处理点位于边界、凹多边形、自相交多边形等特殊情况。 |
|
依赖几何计算库(如JTS, GEOS)或手动实现射线法。 |
需考虑球面(大圆)与平面几何的差异,对于大范围多边形应使用球面几何库。 |
1. 基本测试: 构造简单多边形(如矩形、三角形),测试内部、外部、边界上的点。 |
计算几何、地理信息系统 (GIS) |
CPU: 射线法需要遍历多边形所有边进行计算,是CPU密集型操作,顶点越多越耗时。内存: 需要存储多边形顶点坐标。GPU: 对于大规模点与多边形的判断(如数亿点对一个多边形),可用GPU并行加速。 |
|
66 |
数据转换 |
数据格式转换 (CSV解析) |
按行读取文本,根据分隔符(如逗号)将每行分割为字段,处理转义字符(如引号内的逗号不分割)。 |
输入参数: |
变量: |
将逗号分隔值(CSV)格式的文本解析为结构化的行和列数据。这是一种文本解析与数据反序列化模型。 |
分隔符: 常见为逗号(,)、制表符(\t)。引号字符: 常见为双引号(")。管控目标: 正确解析包含换行符、引号、分隔符的复杂字段。 |
|
依赖CSV解析库(如Python的 |
需处理编码问题(如UTF-8 BOM)。对于大文件,应流式读取而非全部载入内存。 |
1. 格式兼容性测试: 解析各种边缘情况的CSV(如字段含分隔符、引号、换行符)。 |
数据交换、文本处理 |
CPU: 字符串分割和解析是CPU密集型操作,尤其对于大文件。内存: 流式解析内存占用小;全量加载到内存(如Pandas)则占用大。IO: 读取CSV文件是顺序读操作,受磁盘/网络IO速度限制。 |
|
67 |
数据质量 |
数据画像 (Profile) |
综合计算数据集的多种统计量,包括:行数、列数、空值率、唯一值数、最小值、最大值、均值、中位数、众数、标准差、数据分布直方图等。 |
输入参数: |
变量: |
对数据进行全面的探索性分析,生成包含数据概览、质量问题和统计特征的报告。这是一种自动化数据探索与描述性统计模型。 |
输出内容: 包含前述所有统计量。管控目标: 报告生成自动化,能快速识别数据潜在问题(如缺失、异常分布)。 |
|
依赖多种统计计算函数和数据可视化组件。 |
应支持结构化输出,便于集成到自动化流水线。对于大数据集,可采用采样分析。 |
1. 完整性测试: 验证报告是否包含所有预设的统计维度。 |
数据探索、描述性统计 |
CPU: 计算多种统计量(如分位数、唯一值计数)是CPU密集型任务。内存: 需要将数据加载到内存进行计算。IO: 从存储中读取全量或采样数据。网络: 在分布式环境下,部分聚合需要网络通信。 |
|
68 |
数据操作 |
数据订阅与发布 (CDC) |
捕获源数据库的变更日志(如MySQL的binlog, PostgreSQL的WAL),解析为增量数据流 |
输入参数: |
变量: |
通过读取数据库的事务日志,低延迟地捕获数据表的每一行变化,并将其转化为可消费的事件流。这是一种变更数据捕获模型。 |
捕获延迟: 目标<1秒。事件顺序: 保证与源库提交顺序一致。管控目标: 不丢失数据,支持断点续传。 |
|
依赖源数据库的日志访问接口和解析库(如Debezium, Canal)。 |
需处理Schema变更。需管理读取位置(offset),确保至少一次语义。 |
1. 完整性测试: 在源库执行一系列增删改操作,验证CDC流能捕获所有变更且顺序正确。 |
数据库、数据集成、流处理 |
网络: 从源数据库持续读取日志(binlog)产生网络流量。IO: 源数据库的日志写入(WAL)需要低延迟、高耐久的存储(如NVMe SSD)。CPU: 解析二进制日志是计算密集型任务。内存: 需要缓冲区来缓存日志事件。 |
|
69 |
数据查询 |
最近邻搜索 (KD-Tree) |
构建: 递归地选择方差最大的维度作为分割维度,以中位数作为分割点,构建二叉树。查询: 从根节点开始,递归向下搜索,同时维护一个优先队列保存当前最近的k个点,并利用超球面边界剪枝。 |
输入参数: |
变量: |
一种用于k维空间中快速查找最近邻的数据结构和算法。通过空间划分剪枝了大量不必要的距离计算。这是一种空间索引与搜索模型。 |
数据维度 |
|
依赖KD树数据结构的构建和查询实现。 |
对于高维数据,KD树的效率会下降(“维度灾难”)。数据更新(插入/删除)成本较高。 |
1. 正确性测试: 与小规模数据上的暴力kNN结果对比,验证返回的k个最近邻一致。 |
计算几何、机器学习、图像检索 |
CPU: 查询时涉及大量的距离计算和比较操作,是CPU密集型。内存: 需要将KD-Tree索引结构和数据点加载到内存,内存消耗与数据量和维度成正比。缓存: 内存访问模式对缓存敏感,树结构影响大。 |
|
70 |
数据转换 |
数据增强 (图像-旋转) |
对图像 |
输入参数: |
变量/矩阵: |
通过对训练图像进行几何变换(旋转),生成新的训练样本,增加数据多样性,提高模型泛化能力。这是一种计算机视觉中的数据增强技术。 |
旋转角度: 常用范围[-30°, 30°]。管控目标: 增强后的图像应保持标签语义不变(如数字“6”旋转过大可能变成“9”)。 |
|
依赖图像处理库(如OpenCV, PIL)的几何变换和插值函数。 |
需根据任务选择合适的增强幅度。对于分类任务,标签通常不变;对于检测任务,边界框也需相应变换。 |
1. 视觉检查: 人工查看增强后的图像,确认变换合理且未引入严重伪影。 |
计算机视觉、深度学习、数据增强 |
CPU/GPU: 图像旋转和插值计算,可以高度并行化,非常适合GPU加速。内存: 需要存储原始图像和增强后的图像,批次处理时内存消耗翻倍。显存: 在GPU上进行数据增强时消耗显存。 |
|
71 |
数据质量 |
跨表一致性校验 (聚合核对) |
对比不同粒度或不同加工路径下的同一指标是否一致。例如,验证明细表交易金额总和 |
输入参数: |
变量: |
从不同数据源或不同聚合粒度计算同一业务指标,验证其结果是否在可接受的误差范围内一致。这是一种数据一致性审计模型。 |
容差 |
|
依赖SQL执行引擎和聚合计算能力。 |
常用于数据仓库中ODS、DWD、DWS、ADS各层之间,或不同系统之间的数据对账。 |
1. 功能测试: 构造已知存在/不存在差异的数据,验证校验函数能正确判断。 |
数据仓库、数据治理、财务审计 |
CPU: 执行两个(可能是复杂的)聚合查询,是CPU密集型操作。IO: 需要读取两个表的数据,可能涉及全表扫描或索引扫描,IO压力大。网络: 如果表位于不同集群或存储,网络传输成为瓶颈。 |
|
72 |
数据操作 |
数据重分区 (Repartition) |
根据新的分区键 |
输入参数: |
变量: |
改变数据集在分布式集群中分区的方式和数量,以优化后续操作的性能(如避免Shuffle、平衡负载)。这是一种数据布局优化操作。 |
新的分区数 |
|
依赖分布式计算框架的repartition或coalesce操作。 |
重分区会触发全量Shuffle,代价高昂,应谨慎使用。减少分区数(coalesce)可能无需全量Shuffle。 |
1. 分布测试: 重分区后,统计各分区记录数,验证分布是否均匀(或符合预期)。 |
分布式计算、性能调优 |
网络: 重分区通常意味着全量Shuffle,产生巨大的网络数据传输,是网络密集型操作。磁盘IO: Shuffle过程中会产生大量的中间落盘数据。CPU: 计算新的分区ID和序列化/反序列化数据。 |
|
73 |
数据查询 |
条件聚合 (CASE WHEN + GROUP BY) |
在聚合函数中使用条件表达式:例如, |
输入参数: |
变量: |
在分组聚合时,根据条件对不同的行应用不同的计算逻辑(如条件求和、条件计数)。这是SQL条件逻辑与聚合的组合模型。 |
条件复杂度: 可支持多层嵌套CASE WHEN。管控目标: 表达式求值正确,聚合逻辑符合业务需求。 |
|
依赖SQL引擎对条件聚合表达式的解析和执行能力。 |
是SQL中强大的分析工具,可替代多次查询UNION ALL,通常更高效。 |
1. 逻辑正确性测试: 用简单数据手动计算条件聚合结果,与SQL查询结果比对。 |
SQL、数据分析 |
CPU: 需要对每条记录进行条件判断,然后进行聚合计算,是CPU密集型操作。内存: 分组聚合需要在内存中维护每个组的中间状态。IO: 需要读取全表或索引数据。 |
|
74 |
数据转换 |
数据加密 (同态加密-加法) |
使用支持加法同态的加密算法(如Paillier),满足 |
输入参数: |
变量: |
允许在加密数据上直接进行计算(此处为加法),解密结果与在明文上计算相同。这是一种隐私计算密码学模型。 |
支持的明文空间: 大整数。管控目标: 同态性质成立,加密强度满足安全要求(如2048位密钥)。 |
|
依赖同态加密库(如Paillier, SEAL)。 |
计算开销远大于明文计算。目前主要支持有限次加法和乘法。用于安全多方计算等场景。 |
1. 同态性验证: 加密两个数,在密文上操作后解密,验证结果等于明文直接相加。 |
密码学、隐私计算、安全 |
CPU: 同态加密运算涉及大数模幂运算,计算复杂度极高,是极度CPU密集型的操作。内存: 密文大小相比明文膨胀严重(如2048位密钥下,一个整数密文可能为几KB),内存消耗大。网络: 在多方计算中,密文传输增加网络负载。 |
|
75 |
数据质量 |
模式演化 (Schema Evolution) |
在读取数据时,将旧数据模式 |
输入参数: |
变量: |
在数据模式(如字段名、类型、顺序)发生变化后,仍然能够读取和兼容旧格式数据的能力。这是一种数据向后兼容性管理模型。 |
演化操作: 新增列(后向兼容)、删除列(前向兼容)、类型提升(如int到long)。管控目标: 模式变更平滑,不影响下游消费者读取历史数据。 |
|
依赖支持模式演化的数据格式(如Avro, Parquet, Delta Lake)及其SDK。 |
需明确演化策略并通知下游。不兼容的变更(如重命名、类型缩小)需要数据迁移。 |
1. 兼容性读取测试: 用新模式读取旧数据文件,验证能成功解析且新增列有默认值。 |
数据建模、数据序列化、版本控制 |
CPU: 模式适配、类型转换和默认值填充需要额外的CPU计算。内存: 可能需要在内存中同时持有新旧两种数据结构表示。IO: 通常不增加额外的IO开销,是读取时进行的计算。 |
|
76 |
数据操作 |
数据湖表删除 (软删除/硬删除) |
软删除: 更新表元数据,标记为已删除,数据文件可能被异步清理。硬删除: 立即删除表的数据文件和元数据。 |
输入参数: |
变量: |
从数据湖目录中移除一个表。软删除可恢复,硬删除立即释放存储空间。这是一种数据生命周期终结操作。 |
删除模式选择: 生产环境通常先软删除,确认无误后再硬删除或设置保留期后自动硬删除。管控目标: 删除操作原子性,硬删除后数据不可恢复。 |
|
依赖数据湖表格式(如Hive Metastore, Iceberg, Delta Lake)的删除API。 |
硬删除前需二次确认。对于分区表,可删除指定分区。 |
1. 软删除测试: 执行软删除后,验证表在查询中不可见,但元数据或底层文件仍存在。 |
数据治理、存储管理 |
IO: 硬删除涉及大量文件删除操作,对元数据服务器和存储系统造成IO压力。网络: 删除指令和确认信息的网络传输。CPU: 删除操作本身计算量小,但文件系统元数据操作消耗CPU。存储: 硬删除后立即释放存储空间。 |
|
77 |
数据查询 |
会话窗口划分 (Session Window) |
将数据流按事件时间划分为会话,同一会话内的事件间隔小于 |
输入参数: |
变量: |
一种基于数据流中事件的不活动间隙来动态划分窗口的方式,用于分析用户会话行为。这是一种动态数据流窗口模型。 |
会话间隙 |
|
依赖流处理引擎的会话窗口支持和水位线机制。 |
需处理迟到事件对会话划分的影响(如导致会话合并)。 |
1. 逻辑测试: 构造具有清晰会话边界的事件序列,验证划分出的会话符合预期。 |
流计算、用户行为分析 |
内存: 需要为每个活跃会话维护状态(如开始时间、最后活动时间),会话多时消耗大内存。CPU: 需要为每个事件计算时间差并判断所属会话,是CPU密集型。网络: 在分布式流处理中,相同会话的事件需路由到同一处理节点,可能产生网络流量。 |
|
78 |
数据转换 |
主键生成 (UUID v4) |
生成一个128位的随机UUID,格式为8-4-4-4-12的十六进制数字,其中特定位表示版本(4)和变体。大部分位由密码学安全的随机数生成器产生。 |
输入参数: |
变量: |
生成一个全球唯一标识符,不依赖中心化注册或协调。版本4基于随机数生成。这是一种去中心化唯一标识符生成模型。 |
格式: |
无 |
依赖密码学安全的伪随机数生成器(CSPRNG)。 |
无需网络请求,本地生成。UUID无序,用作数据库主键可能导致索引碎片。 |
1. 唯一性测试: 高并发生成大量(如10亿个)UUID,验证无重复。 |
分布式系统、唯一标识符 |
CPU: 生成密码学安全的随机数消耗CPU资源。网络: 无网络需求。内存: 几乎无消耗。 |
|
79 |
数据质量 |
值依赖关系校验 (函数依赖) |
验证数据集中是否满足特定的函数依赖关系,例如“部门编号 -> 部门名称”。即对于任意两条记录 |
输入参数: |
变量/集合: |
检查数据是否满足业务规则定义的函数依赖,即一个或一组列的值是否能唯一决定另一个列的值。这是一种数据完整性约束模型。 |
依赖复杂度: 从单列决定单列,到多列联合决定多列。管控目标: 对于关键的函数依赖(如外键隐含的依赖),应100%满足。 |
|
依赖数据处理引擎的GROUP BY和聚合功能。 |
通常用于检查维度表的属性是否一致。违反可能意味着数据录入错误或数据来源不一致。 |
1. 正确性测试: 构造满足和不满足函数依赖的数据集,验证函数能正确判断。 |
数据库理论、数据质量 |
CPU: 需要进行GROUP BY和聚合操作,比较决定因子相同的组内依赖列的唯一值数量,是CPU密集型操作。内存: GROUP BY操作需要内存存储中间聚合状态。IO: 需要全表扫描或读取相关列的索引。 |
|
80 |
数据操作 |
数据湖表优化 (小文件合并) |
识别表分区下的小文件(如<128MB),将其合并为更大尺寸的文件。 |
输入参数: |
变量: |
将众多小尺寸数据文件合并为数量更少、尺寸更大的文件,以提升查询性能(减少元数据开销和IO次数)和存储管理效率。这是一种存储优化操作。 |
小文件阈值: 通常为HDFS块大小(128MB)的分数,如32MB。目标文件大小: 128MB或256MB。管控目标: 减少文件数量,提高读取吞吐量。 |
|
依赖分布式计算引擎(如Spark)的读取和写入能力,以及表格式的元数据操作。 |
合并操作会重写数据 |
|
编号 |
类型 |
函数/算法类型 |
函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表 |
参数类型和参数列表 |
参数/变量/常量/标量/张量/矩阵/集合列表 |
数学表达式/物理模型/计算机模型/通信模型/关联描述 |
典型值/范围 (管控目标) |
核心关联参数 |
依赖关系 |
设计/软件开发/硬件制造/应用要求 |
测试/验证方法 |
关联学科/领域 |
对网络、PCIE总线、Serdes、IO部件、CPU、GPU、内存、SSD/NVME SSD/HDD盘的需求 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
84 |
数据操作 |
流式双流连接 (Stream-StREAM Join) |
将两个流A和B的事件按连接键 |
a ∈ A, b ∈ B, a.key = b.key, |
a.ts - b.ts |
<= W }`。状态中维护两个流各自的窗口数据。 |
输入参数: |
变量/集合: |
在连续的数据流上,将两个流中在相近时间到达且具有相同键的事件进行关联。这是一个流式状态管理与关联模型。 |
窗口大小 |
|
依赖流处理引擎的状态后端(如RocksDB)和窗口机制。 |
需处理迟到数据和状态清理(TTL)。连接条件可包含时间约束外的其他谓词。 |
|
85 |
数据查询 |
向量相似性搜索 (乘积量化-PQ) |
将高维向量空间分解为多个子空间的笛卡尔积。对每个子空间进行聚类得到码本。向量用其各子空间最近簇中心的ID组合(码)表示。搜索时通过查表计算近似距离。 |
输入参数: |
变量/矩阵: |
一种压缩高维向量并加速距离计算的方法,通过量化大幅减少内存占用和计算量,适用于十亿级别向量的检索。这是一种近似最近邻搜索的量化模型。 |
子空间数 |
|
依赖乘积量化索引构建和搜索库(如FAISS的一部分)。 |
需离线训练码本。编码和搜索过程损失一定精度,常与倒排索引(IVF)结合使用。 |
1. 召回率测试: 对比PQ搜索与精确KNN的召回率(Recall@K)。 |
机器学习、信息检索、有损压缩 |
内存: PQ极大压缩了向量数据,内存消耗远小于原始向量,适合海量向量驻留内存。CPU: 搜索时的距离计算转化为查表加法,对CPU算力要求适中,但访存模式对缓存友好。GPU: 可被GPU高度并行化加速。 |
|
86 |
数据转换 |
时间戳截断 (Date Trunc) |
将时间戳 |
输入参数: |
变量: |
将一个精确的时间戳转换为它所处的更大时间周期的起始时刻。这是一种时间序列下采样与分组模型的基础操作。 |
常用单位: ‘hour’, ‘day’, ‘week’, ‘month’, ‘quarter’, ‘year’。管控目标: 转换结果准确,时区处理正确。 |
|
依赖日期时间库的截断功能。 |
需明确输入时间戳的时区,或转换为UTC后操作。 |
1. 正确性测试: 对已知时间戳手动计算不同单位的截断结果,与函数输出比对。 |
时间序列分析、数据聚合 |
CPU: 简单的日期计算,消耗极少CPU资源。内存: 无特殊需求。 |
|
87 |
数据质量 |
数据新鲜度监控 (分区时间监控) |
监控分区表最新分区的数据时间 |
输入参数: |
变量: |
检查数据湖分区表的最新分区是否已生成且包含最新日期的数据,是ETL作业完成性的基础监控。这是一种基于分区的数据就绪性监控模型。 |
预期模式: 通常为当前日期( |
|
依赖数据湖元数据服务(如Hive Metastore)查询分区列表。 |
需考虑分区格式(如 |
1. 功能测试: 在测试表上创建/删除分区,验证监控函数能正确识别最新分区和延迟。 |
数据运维、监控 |
网络/IO: 查询元数据服务(如Metastore)产生少量网络和IO。CPU: 计算延迟和比较,消耗极少。 |
|
88 |
数据操作 |
数据湖表克隆 (Zero-Copy Clone) |
创建目标表 |
输入参数: |
变量: |
快速创建一个新表,与源表共享底层数据文件,但拥有独立的元数据(如表名、权限)。这是一种数据快速复制与实验隔离模型。 |
克隆速度: 应在秒级完成。管控目标: 克隆后对任一表的写入操作应互不影响(写时复制)。 |
|
依赖支持零拷贝克隆的表格式(如Iceberg, Delta Lake的 |
用于创建实验分支、快速备份当前状态。对克隆表的修改可能触发写时复制(COW),产生新文件。 |
1. 功能测试: 创建克隆后,验证两表查询结果一致。修改克隆表数据,验证源表不受影响。 |
数据版本、数据治理 |
存储: 克隆瞬间不占用额外存储空间,真正实现了“零拷贝”。网络/IO: 仅操作元数据,速度快,负载低。CPU: 少量元数据操作。 |
|
89 |
数据查询 |
数组聚合 (Array_Agg) |
将分组内某个字段的所有值收集到一个数组中: |
输入参数: |
变量/集合: |
将分组内的多行数据转换为一行,其中某个字段的值以数组形式呈现。这是一种行转列(多值)的聚合模型。 |
数组大小: 受组内行数限制,可能很大。管控目标: 数组元素顺序符合 |
|
依赖SQL引擎的数组聚合函数支持。 |
结果数组可能包含重复值。需注意处理数组过大导致的内存或序列化问题。 |
1. 正确性测试: 对小数据集手动分组并列出值,与函数输出的数组比对。 |
SQL、数据分析 |
内存: 需要在内存中为每个组构建并存储数组,当组数量多或组内数据量大时消耗显著内存。CPU: 分组、排序(如果指定)、构建数组消耗CPU。IO: 需要读取相关列的数据。 |
|
90 |
数据转换 |
数据脱敏 (动态掩码) |
在查询时根据访问策略动态遮盖数据。例如,对手机号 |
输入参数: |
变量: |
根据访问者的身份和权限,在数据被读取的瞬间应用不同的脱敏规则,返回部分隐藏的结果。这是一种动态数据安全策略模型。 |
掩码规则: 可针对不同类型数据预定义。管控目标: 脱敏实时完成,对查询性能影响<5%。 |
|
依赖策略引擎和字符串处理函数。 |
需与权限系统(如RBAC)集成。策略应可配置。通常通过视图、代理或查询重写实现。 |
1. 策略应用测试: 使用不同用户上下文查询,验证返回的脱敏值符合对应策略。 |
数据安全、访问控制 |
CPU: 对查询结果集的每条记录应用字符串掩码规则,增加CPU开销,与结果集大小成正比。内存: 无显著额外消耗。网络/IO: 无额外消耗。 |
|
91 |
数据质量 |
趋势预测 (ARIMA) |
ARIMA(p,d,q)模型: |
输入参数: |
变量: |
利用历史时间序列的自相关性和移动平均特性,对未来的值进行预测。这是一种经典的时间序列预测模型。 |
阶数(p,d,q): 通过ACF/PACF图或网格搜索确定,如(1,1,1)。预测步长: 短期预测(如未来7天)。管控目标: 预测误差(如MAPE)低于阈值。 |
|
依赖时间序列分析库(如statsmodels中的ARIMA)。 |
要求序列经过差分后平稳(d阶)。模型参数估计计算量较大。 |
1. 历史拟合测试: 在训练集上拟合,计算拟合误差。 |
时间序列分析、预测 |
CPU: 模型参数估计(如最大似然估计)是迭代计算过程,CPU密集型,特别是序列长、阶数高时。内存: 需要存储历史序列和中间计算矩阵。 |
|
92 |
数据操作 |
数据过期清理 (TTL) |
根据数据的生存时间(TTL)策略,自动删除过期数据。 |
输入参数: |
变量: |
自动移除超过指定保留期限的旧数据,以释放存储空间并满足合规要求。这是一种自动化数据生命周期管理模型。 |
TTL时长: 根据业务和法规设定,如日志保留30天,交易数据保留7年。管控目标: 定期自动执行,清理过程不影响线上查询。 |
|
依赖计划任务调度和删除操作。在支持TTL的存储系统(如Cassandra)中是内置功能。 |
清理操作最好在业务低峰期进行。对于分区表,可直接删除过期分区,效率极高。 |
1. 策略测试: 插入带有过去时间戳的数据,运行清理作业后验证其被删除,未过期数据保留。 |
数据治理、存储管理 |
IO: 删除操作涉及大量文件或记录的元数据和数据块的更新/删除,对存储系统造成IO压力,尤其是HDD。CPU: 扫描和判断记录是否过期消耗CPU。网络: 在分布式存储中,删除指令需要传播。 |
|
93 |
数据查询 |
公共表表达式 (CTE-非递归) |
|
输入参数: |
变量: |
在单个SQL语句中定义命名的临时结果集,供后续的查询(主查询或其他CTE)引用。这是一种查询结构化与模块化模型。 |
CTE数量: 可定义多个,形成依赖链。管控目标: 提高复杂SQL的可读性和可维护性,部分数据库可对CTE进行物化优化。 |
|
依赖支持CTE的SQL引擎。 |
非递归CTE通常被视为内联视图,但有些优化器可对其物化。有助于分解复杂逻辑。 |
1. 等价性测试: 将使用CTE的查询重写为不使用CTE的嵌套子查询形式,验证两者结果一致。 |
SQL、查询优化 |
CPU/内存/IO: CTE通常被优化器内联展开,其资源消耗本质上等同于其等价的不使用CTE的SQL语句。某些数据库的 |
|
94 |
数据转换 |
数据格式转换 (ORC写入) |
采用优化的行列式文件格式。按行组组织,组内按列存储,使用轻量级索引、类型感知编码(如整数游程编码、字符串字典编码)和压缩(如Zlib)。 |
输入参数: |
变量: |
一种高效的列式存储文件格式,针对Hive读写进行了大量优化,支持谓词下推和高效的压缩。这是一种列式存储与编码模型。 |
条带大小 |
|
依赖ORC编码库(如Apache ORC)。 |
与Hive生态集成极佳。支持复杂的嵌套数据类型(如struct, list, map)。 |
1. 正确性测试: 写入后读取,与原始数据比对。 |
列式数据库、数据序列化 |
CPU: 列式编码(如字典编码、游程编码)和压缩消耗CPU,但提升压缩比。IO: 顺序读写,对磁盘/网络吞吐敏感。内存: 写入时需要缓冲区构建条带。 |
|
95 |
数据质量 |
数据沿袭可视化 |
将数据血缘关系图 |
输入参数: |
变量/集合: |
以图形化的方式展示数据的来源、转换和消费关系,帮助理解数据流、影响分析和根因追溯。这是一种图可视化模型。 |
图规模: 可支持数千节点和边的流畅渲染。管控目标: 布局清晰,可交互(如缩放、高亮、下钻)。 |
|
依赖图可视化库(如D3.js, G6, Cytoscape.js)和布局算法。 |
需处理大规模图的视觉降噪(如聚合、折叠)。支持上游和下游追溯。 |
1. 渲染正确性测试: 验证可视化图中的节点和边与输入的血缘图数据一致。 |
数据可视化、图论、人机交互 |
CPU/GPU: 图形布局计算(如力导向)在前端是计算密集型,依赖浏览器JavaScript引擎或WebGL(GPU加速)。内存: 大规模图数据在浏览器内存中占用较大。网络: 血缘图数据从服务器传输到前端。 |
|
96 |
数据操作 |
数据湖表回滚 (Time Travel) |
将表的状态回退到历史某个时间点 |
输入参数: |
变量: |
利用数据湖表格式的原子版本控制能力,将表的元数据和数据文件恢复到过去的某个一致状态。这是一种数据错误操作恢复模型。 |
可回滚范围: 取决于历史版本保留策略(如保留最近30天)。管控目标: 回滚操作原子、快速,回滚后状态准确。 |
|
依赖支持时间旅行和版本回滚的表格式(如Delta Lake, Iceberg)。 |
回滚是危险操作,应有权限控制。回滚后, |
1. 正确性测试: 在表上做一系列变更,然后回滚到中间某个点,验证表的数据和模式与该历史时刻完全一致。 |
数据版本控制、数据恢复 |
IO/网络: 回滚主要是元数据操作(更新当前版本指针),速度极快,对IO和网络压力小。存储: 不删除物理文件,仅改变元数据引用,不释放存储空间。 |
|
97 |
数据查询 |
集合运算 (交集/并集/差集) |
交集: `A ∩ B = {x |
x ∈ A and x ∈ B} |
x ∈ A or x ∈ B} |
x ∈ A and x ∉ B}` |
输入参数: |
变量/集合: |
对两个数据集进行标准的集合论运算。要求两个数据集具有相同的结构(列数和类型兼容)。这是一种集合代数模型。 |
数据规模: 可支持大规模数据集。 |
|
依赖数据处理引擎的集合操作实现(通常基于Shuffle和去重)。 |
|
|
98 |
数据转换 |
数据分箱 (基于分位数) |
根据数据的实际分布划分箱,使每个箱内的数据量大致相等。首先计算分位数点 |
输入参数: |
变量: |
将连续数值特征划分为多个区间,使得每个区间包含大致相同数量的数据点。这是一种无监督离散化模型,能更好地处理偏态分布。 |
箱数 |
|
依赖分位数计算函数。 |
对边界值(如恰好等于分位数点)的处理需一致(如归入左箱或右箱)。 |
1. 等频性测试: 分箱后统计各箱数据量,验证是否大致相等。 |
统计学、特征工程 |
CPU: 计算分位数需要对数据进行排序或使用近似算法,是CPU密集型操作。内存: 需要存储整个数组以计算分位数。 |
|
99 |
数据质量 |
字段长度校验 |
校验字符串字段的长度是否在指定范围内: |
输入参数: |
变量: |
验证字符串类型字段的字符数是否符合业务定义的长度约束。这是一种简单但重要的数据规则校验模型。 |
典型范围: 用户名3-20字符,身份证号18字符,手机号11字符。管控目标: 违反长度约束的记录比例低于阈值(如0.01%)。 |
|
无特殊依赖,为基础字符串操作。 |
需明确长度计算基于字符数还是字节数(对于多字节编码)。 |
1. 功能测试: 输入不同长度的字符串,验证校验结果正确。 |
数据验证、业务规则 |
CPU: 计算字符串长度是轻量级操作,但数据量巨大时累加消耗可观。内存/IO: 无特殊需求。 |
|
100 |
数据操作 |
数据湖表统计信息收集 |
通过扫描表数据,计算并存储统计信息,如行数、列的最小值/最大值/空值数/不同值数/平均长度等。 |
输入参数: |
变量: |
为优化器收集和更新表的统计信息,使其能生成更高效查询计划(如选择正确的JOIN顺序,估算结果集大小)。这是一种查询优化准备模型。 |
收集粒度: 可全表收集,或仅收集变更的分区。管控目标: 统计信息准确,收集作业不影响线上业务。 |
|
依赖SQL引擎的统计信息收集命令和底层数据扫描能力。 |
应在数据发生重大变更后运行。统计信息本身也需存储和管理。 |
1. 准确性测试: 在小表上手动计算统计量,与系统收集的结果比对。 |
数据库、查询优化 |
CPU/IO: 收集统计信息需要对表或分区进行全表扫描,是CPU和IO密集型操作,类似于一次查询。网络: 在分布式系统中,扫描数据可能产生Shuffle。存储: 统计信息需要额外存储空间,但很小。 |
|
101 |
数据查询 |
模型推理 (ONNX Runtime) |
加载预训练的ONNX模型 |
输入参数: |
变量/张量: |
在数据湖环境中,利用标准化的模型格式和运行时,对数据进行批量或实时的机器学习模型推理。这是一种模型即服务(MaaS)的部署与执行模型。 |
模型大小: 从几MB到几百MB。输入批大小: 影响吞吐和延迟。管控目标: 推理延迟(P99)和吞吐量满足业务要求。 |
|
依赖ONNX Runtime库及其可能的执行提供程序(如CPU, CUDA, TensorRT)。 |
输入数据需预处理为模型要求的格式。模型版本需管理。 |
1. 正确性测试: 用已知输入输出测试用例验证推理结果与原始训练框架一致(在误差范围内)。 |
机器学习、模型部署 |
CPU/GPU: 推理计算密集,GPU(特别是带TensorCore的)能极大加速。内存: 需要加载模型权重和计算图到内存/显存。PCIE: 如果使用GPU,数据从CPU内存通过PCIE总线传输到GPU显存,带宽是关键。SSD: 快速加载模型文件。 |
|
102 |
数据转换 |
数据打散 (Shuffle) |
随机重新排列数据集中的记录顺序,使得任何原有顺序模式被破坏。可通过为每条记录分配随机键然后按该键排序实现。 |
输入参数: |
变量: |
将数据集中的记录随机化,常用于机器学习中打乱训练数据顺序,以防止批次偏差。这是一种随机化数据顺序模型。 |
随机性质量: 使用高质量的伪随机数生成器。管控目标: 打乱后顺序应近似均匀随机,可复现(如果提供 |
|
依赖随机数生成器和排序操作。 |
全量数据的精确打乱(通过排序)代价很高,通常使用近似打乱(如洗牌算法)或批内打乱。 |
1. 随机性检验: 对打乱后的序列进行随机性检验(如游程检验)。 |
机器学习、随机算法 |
网络/IO: 全量打乱通常意味着全量Shuffle,产生巨大的网络数据传输和磁盘IO。CPU: 为每条记录生成随机数并进行排序比较,消耗CPU。内存: 排序操作可能需要大量内存。 |
|
103 |
数据质量 |
唯一性约束校验 |
检查指定列或列组合的值在数据集内是否唯一。 |
输入参数: |
变量/集合: |
验证数据集中是否存在重复的主键或业务键,确保实体标识的唯一性。这是一种数据实体完整性校验模型。 |
键字段: 通常是一个或多个列的组合。管控目标: 业务主键必须100%唯一。 |
|
依赖数据处理引擎的 |
对于逻辑主键,需在业务上明确其组成。 |
1. 功能测试: 在包含重复键和不重复键的数据集上运行,验证函数判断正确。 |
数据建模、数据完整性 |
CPU/内存: |
|
104 |
数据操作 |
数据湖表授权 (GRANT/REVOKE) |
授予或撤销用户/角色对数据湖表(或库、列)的特定权限(如SELECT, INSERT, ALL)。更新权限元数据存储。 |
输入参数: |
变量: |
管理用户和角色对数据湖中数据的访问权限,实现最小权限原则。这是一种基于角色的访问控制模型。 |
权限类型: SELECT, INSERT, UPDATE, DELETE, ALL, CREATE等。管控目标: 权限变更即时生效,授权信息安全存储。 |
|
依赖数据湖的元数据服务和权限管理模块(如Ranger, Sentry, Lake Formation)。 |
权限应支持继承(如库级权限继承到表)。变更应有审计日志。 |
1. 功能测试: 授予权限后,使用相应用户身份尝试访问,验证成功;撤销后,验证访问被拒绝。 |
数据安全、访问控制 |
网络/IO: 权限操作主要是与元数据/权限服务器的交互,产生少量网络和IO。CPU: 权限验证在查询时进行,增加少量开销。 |
|
105 |
数据查询 |
地理空间关系判断 (ST_Within) |
判断几何体 |
输入参数: |
变量: |
判断一个地理空间要素是否被另一个要素完全包含。这是GIS空间关系运算的核心谓词之一。 |
几何体复杂度: 由顶点数决定。管控目标: 计算结果符合OGC标准,能处理复杂多边形和带洞多边形。 |
|
依赖空间计算库(如GEOS, JTS)。 |
几何体需是有效的(如多边形不自交)。通常需要空间索引加速。 |
1. 基本关系测试: 构造明显包含/不包含的几何体对,验证函数判断正确。 |
地理信息系统 (GIS)、计算几何 |
CPU: 空间关系计算涉及复杂的几何算法,是CPU密集型操作,几何体越复杂消耗越大。内存: 需要存储几何对象的坐标数据。GPU: 大规模空间关系批量计算可被GPU加速。 |
|
106 |
数据转换 |
嵌套数据扁平化 (Flatten) |
将嵌套结构(如数组、结构体)的列展开为多行或多列。例如,将数组列 |
输入参数: |
变量/集合: |
将复杂的嵌套数据类型转换为规整的二维表格式,便于传统工具进行分析。这是一种数据规范化模型。 |
嵌套深度: 可支持多级嵌套。管控目标: 扁平化后数据完整,不丢失信息。 |
|
依赖数据处理引擎对复杂数据类型的操作支持(如Spark的 |
数组展开会导致行数倍增,需注意数据膨胀。结构体展开会增加列数。 |
1. 完整性测试: 扁平化后,验证原始嵌套数据中的所有信息都已正确映射到新行/新列。 |
数据建模、半结构化数据处理 |
CPU: 遍历和复制嵌套数据消耗CPU。内存: 数组展开(explode)可能导致中间数据量急剧膨胀,内存压力大。网络/IO: 如果数据膨胀严重,后续处理阶段的网络和IO压力同步增加。 |
|
107 |
数据质量 |
数据对比报告生成 |
系统性地对比两个数据集(如新老版本、不同环境)的差异,并生成结构化报告,包括:总行数差异、各列统计量差异、样本差异记录等。 |
输入参数: |
变量: |
自动化、全面地分析两个数据版本的差异,定位变化的具体位置和内容,用于发布验证、回归测试等。这是一种数据变更分析模型。 |
报告详略程度: 可配置。管控目标: 报告清晰、准确,能快速定位问题。 |
|
依赖数据对比(Diff)函数和报告生成库。 |
对于大规模数据,可采样对比或仅对比关键指标。报告应可读性强,并可机器解析。 |
1. 报告完整性测试: 构造已知差异的数据集,验证报告包含了所有差异类型(增、删、改)和详细信息。 |
数据测试、变更管理 |
CPU/IO/网络: 生成报告的核心是执行一次完整的数据对比(见函数26),其硬件需求与之相同,是CPU、IO和网络密集型操作。额外消耗用于生成报告文档。 |
|
108 |
数据操作 |
数据湖表刷新元数据 (MSCK REPAIR) |
检查数据湖存储目录下的分区目录,并将其添加到表的元数据中。 |
输入参数: |
变量: |
当通过文件系统操作(如直接HDFS put)在表目录下添加了新的分区文件夹后,通过此命令让元数据服务感知到新分区。这是一种元数据与存储同步操作。 |
新增分区数: 可能很多。管控目标: 快速将存储中的分区与元数据同步。 |
|
依赖元数据服务(如Hive Metastore)和底层文件系统(如HDFS)的列表操作。 |
通常用于外部表。对于托管表,应通过 |
1. 功能测试: 直接在存储路径下创建新的分区目录,运行该命令后验证分区在 |
元数据管理、Hive |
IO/网络: 需要递归列出表存储路径下的所有子目录,与文件系统交互,产生IO和网络流量(如果存储是远程的)。CPU: 处理目录列表和更新元数据。 |
|
109 |
数据查询 |
滚动累计 (Rolling Sum) |
计算时间序列 |
输入参数: |
变量: |
计算从当前行向前回溯固定行数(窗口)内所有值的和。这是一种时间序列窗口聚合模型,用于分析近期趋势。 |
窗口大小 |
|
依赖支持行数范围窗口的窗口函数。 |
需指定明确的时间排序列。对于时间间隔不均匀的数据,可能更适用基于时间的范围窗口。 |
1. 正确性测试: 对小型序列手动计算滚动和,与函数输出比对。 |
时间序列分析、SQL窗口函数 |
CPU: 窗口函数计算通常需要在内存中维护滑动窗口的状态,是CPU和内存访问密集型。内存: 需要存储窗口内的数据。IO: 需要读取时间序列数据。 |
|
110 |
数据转换 |
数据类型转换 (Cast) |
将值 |
输入参数: |
变量: |
改变数据值的数据类型,例如将字符串“123”转换为整数123,或将日期字符串转换为日期类型。这是一种基础数据形态转换模型。 |
常见转换: 字符串<->数值,字符串<->日期时间,数值类型之间转换。管控目标: 转换成功率高,对于失败有明确处理(如报错、置NULL)。 |
|
依赖编程语言或SQL引擎的类型转换功能。 |
需处理转换失败的情况(如将“abc”转为整数)。字符串到日期时间转换需指定格式或自适应。 |
1. 成功转换测试: 测试各种合法的类型转换组合,验证结果正确。 |
编程语言、SQL、数据清洗 |
CPU: 类型解析和转换计算消耗CPU,特别是字符串到数字/日期的解析。内存: 无特殊需求。 |
|
111 |
数据质量 |
离群值检测 (Z-Score) |
计算每个数据点的Z分数: |
z |
> threshold |
输入参数: |
变量/标量: |
基于数据点偏离均值的标准差倍数来识别离群值。这是一种基于统计分布的离群值检测模型。 |
典型阈值: 2, 2.5, 3(对应约95%, 99%, 99.7%的置信区间)。管控目标: 能有效识别出显著偏离主体的点。 |
|
依赖均值和标准差的计算。 |
对非正态分布数据可能产生误判。对均值 |
1. 敏感性测试: 在数据中插入已知的极端值,验证其Z分数超标并被标记。 |
|
112 |
数据操作 |
数据湖表合并 (Merge) - ACID事务 |
在支持ACID的表上执行UPSERT操作。条件更新、插入新行、删除匹配行。 |
输入参数: |
变量/集合: |
在一个原子操作中,根据源表的数据,对目标表执行复杂的更新、插入和删除组合。这是一种SQL标准的行级变更操作模型。 |
操作复杂度: 支持多重WHEN子句。管控目标: 操作原子性,并发安全,性能可接受。 |
|
依赖支持ACID和MERGE语法的数据湖表格式(如Delta Lake, Hudi)。 |
是CDC、渐变维(SCD)等场景的核心操作。需注意冲突解决和性能优化(如小文件合并)。 |
1. 功能测试: 构造各种匹配场景,验证UPDATE, INSERT, DELETE操作被正确执行。 |
数据库、事务处理、数据仓库 |
IO: MERGE操作需要读取源表,并可能重写目标表的大量数据文件,是IO密集型操作。CPU: 连接计算和行级条件判断消耗CPU。网络: 如果源表和目标表分布在不同节点,需要数据传输。 |
|
113 |
数据查询 |
分组排序取Top-N |
在每组内按某个指标排序,取出前N条记录。 |
输入参数: |
变量: |
一个常见的分析模式,例如找出每个部门薪资最高的前3名员工,或每个类别销量最高的前10商品。这是一种分组排序与筛选模型。 |
N值: 通常较小,如1, 3, 10。管控目标: 结果正确,每组最多返回N行。 |
|
依赖窗口函数(ROW_NUMBER, RANK)的支持。 |
需处理并列情况(使用RANK还是ROW_NUMBER)。 |
1. 正确性测试: 对小数据手动分组排序,验证函数返回每组前N条记录正确。 |
SQL、数据分析 |
CPU/内存: 窗口函数需要在内存中为每个组进行排序,是CPU和内存密集型操作,组数量多时尤为明显。IO: 需要读取全表数据。网络: 在分布式系统中,需要按 |
|
114 |
数据转换 |
数据编码 (Base64) |
将二进制数据 |
输入参数: |
变量: |
将二进制数据编码为仅由可安全传输的ASCII字符组成的字符串,常用于在文本协议(如JSON, XML)中嵌入二进制数据。这是一种二进制到文本的编码模型。 |
输出长度: 编码后数据大小约为原始的4/3倍。管控目标: 编码/解码过程无损,符合RFC 4648标准。 |
|
依赖Base64编码库(通常语言标准库内置)。 |
常用于在数据湖中存储或传输序列化对象、图片的二进制表示。 |
1. 往返测试: 编码后立即解码,结果必须与原始二进制数据完全相同。 |
数据编码、网络传输 |
CPU: Base64编码/解码是纯CPU计算,涉及位操作和查表,可向量化加速。内存: 需要存储原始二进制和编码后字符串(约大33%)。网络: 编码后数据体积增大,增加网络传输开销。 |
|
115 |
数据质量 |
数据标准术语校验 |
检查数据字段的值是否符合预定义的标准代码集或术语表。 |
输入参数: |
变量/集合: |
确保数据中使用的分类、代码、描述等与企业的标准数据字典一致,促进数据的一致性。这是一种数据治理与标准化模型。 |
标准术语集大小: 从几十到上万个。管控目标: 关键字段(如地区、产品分类)的标准符合率达100%。 |
|
依赖查找表(标准术语表)和JOIN或集合成员查询。 |
标准术语表本身需被维护和版本化。对于新出现的值,应有申请和审核流程。 |
1. 校验测试: 使用标准和非标准术语作为输入,验证函数返回正确结果。 |
数据治理、主数据管理 |
CPU: 集合成员查询(如IN子查询)或JOIN操作消耗CPU。内存: 标准术语表通常较小,可缓存到内存加速。IO/网络: 需要读取标准术语表。 |
|
116 |
数据操作 |
数据湖表位置变更 (ALTER TABLE LOCATION) |
更改表的存储位置路径,而不移动数据。通常用于外部表,将表指向另一个已存在数据的目录。 |
输入参数: |
变量: |
修改表元数据中指向底层数据的根路径。这是一种表元数据管理操作,常用于数据迁移或环境切换的前置步骤。 |
新路径: 必须是一个有效的目录。管控目标: 变更后查询能正确访问新位置的数据。 |
|
依赖数据湖元数据服务的ALTER TABLE功能。 |
操作本身不移动数据,需确保新路径下数据文件的格式和结构与表定义兼容。 |
1. 功能测试: 变更位置后,执行 |
元数据管理、数据迁移 |
网络/IO: 仅是元数据更新操作,对元数据服务器产生少量IO。变更后,后续查询将从新位置读取数据,因此新的存储路径的IO性能直接影响查询。 |
|
117 |
数据查询 |
相关性计算 (Pearson) |
计算两个变量序列 |
输入参数: |
变量/序列: |
衡量两个连续变量之间的线性相关程度和方向。这是一种经典的双变量相关分析模型。 |
序列长度: 应>2。结果范围: -1(完全负相关)到 1(完全正相关)。管控目标: 计算结果准确,能处理含有NaN的情况。 |
|
依赖基础统计计算(均值、方差、协方差)。 |
要求数据大致呈二元正态分布。对异常值敏感。只能检测线性关系。 |
1. 已知关系测试: 用完全正相关、负相关、不相关的合成数据测试,验证r值接近1、-1、0。 |
统计学、数据分析 |
CPU: 需要计算均值、方差、协方差,涉及多轮遍历和浮点运算,是CPU密集型,可向量化。内存: 需要同时加载两个序列。 |
|
118 |
数据转换 |
数据脱敏 (K-匿名化) |
对数据集进行泛化和抑制处理,使得在准标识符(QI)集合上,每条记录至少与数据集中其他k-1条记录不可区分。即对于任意QI组合,其分组大小 ≥ k。 |
输入参数: |
变量/集合: |
一种隐私保护模型,通过降低数据的精度(如将年龄从具体值泛化为范围,将邮编后几位抹去),使得单条记录无法被唯一识别。 |
k值: 通常为3, 5, 10等。准标识符: 如(年龄, 邮编, 性别)。管控目标: 输出数据集满足k-匿名,且信息损失在可接受范围内。 |
|
依赖K-匿名化算法实现(如DataFly, Incognito)。 |
需要在隐私保护水平和数据可用性之间权衡。可能需要对数据进行多轮泛化。 |
1. k-匿名性验证: 对输出数据按准标识符分组,验证每组记录数>=k。 |
隐私计算、数据脱敏 |
CPU/内存: 算法需要多次遍历和分组数据,寻找最优泛化方案,是计算和内存密集型,尤其当QI列多和数据量大时。IO: 需要读写数据集。 |
|
119 |
数据质量 |
环比增长率计算 |
计算相邻周期(如本月 vs 上月)的增长率。 |
输入参数: |
变量/标量: |
衡量指标在连续时间周期内的变化速度,反映短期趋势。这是一种基础的业务波动性分析模型。 |
典型周期: 月环比、周环比、日环比。管控目标: 计算准确,能处理边界值(如上期值为0、负值)。 |
|
无特殊依赖,为基础算术运算。 |
增长率可能为负(下降)。需结合业务理解判断增长率的合理性。 |
1. 计算测试: 输入正、负、零值,验证计算公式正确,特别测试除数为0的情况(应返回INF或NULL)。 |
业务分析、时间序列 |
CPU: 简单算术运算,消耗极少。 |
|
120 |
数据操作 |
数据湖表创建 (CTAS) |
根据查询结果创建新表。 |
输入参数: |
变量: |
将查询的输出物化为一个持久化的表。这是一种数据物化与结果持久化模型。 |
结果集大小: 可支持从零到PB级。管控目标: 创建成功,表结构和数据符合SELECT查询定义。 |
|
依赖SQL引擎的CTAS功能和底层存储系统的写入能力。 |
常用于中间结果存储、数据脱敏副本创建、数据归档。 |
1. 数据一致性测试: 查询新表,验证数据与源查询结果一致。 |
SQL、数据管理 |
IO: 需要读取源表数据并写入新表,是IO密集型操作,写入目标存储(SSD/HDD)的性能是关键。CPU: 执行查询语句可能涉及复杂计算。网络: 在分布式环境中,数据可能需要跨节点传输(Shuffle)后写入。 |
|
121 |
数据查询 |
存在性检查 (EXISTS) |
检查子查询是否返回至少一行记录。 |
输入参数: |
变量: |
SQL中的一种条件运算符,用于测试子查询返回的行是否存在。这是一种基于存在性的过滤模型。 |
子查询复杂度: 可简单可复杂。管控目标: 逻辑正确,性能可接受(尤其对于相关子查询)。 |
|
依赖SQL引擎对EXISTS子句的优化和执行。 |
相关子查询可能对每行外部记录执行一次,需注意性能。通常可改写为JOIN。 |
1. 逻辑测试: 构造数据使得子查询有结果和无结果,验证EXISTS返回正确的布尔值。 |
SQL、查询优化 |
CPU/IO: EXISTS子句的执行计划因优化器而异。对于相关子查询,可能演变成Nested Loop,导致外部表每行都要执行一次子查询,CPU和IO消耗可能很大。优化器常尝试将其转换为JOIN。 |
|
122 |
数据转换 |
数据脱敏 (可逆-对称加密) |
使用对称加密算法(如AES)加密数据,持有密钥者可解密还原。 |
输入参数 (加密): |
变量: |
用同一把密钥对数据进行加密和解密,在保护数据机密性的同时,允许授权方访问原始数据。这是一种对称密钥密码学模型。 |
密钥长度: 128, 192, 256位。工作模式: 如CBC, GCM(提供完整性)。管控目标: 加解密过程正确,密钥安全管理。 |
|
依赖对称加密算法库(如OpenSSL)。 |
必须确保密钥的安全存储和分发。密文通常比明文稍长(填充和IV)。 |
1. 往返测试: 加密后立即用相同密钥解密,结果必须与原始明文完全相同。 |
密码学、数据安全 |
CPU: AES加密/解密是计算密集型操作,现代CPU的AES-NI指令集能极大加速。内存: 需要存储明文、密文和密钥材料。 |
|
123 |
数据质量 |
记录级时间序校验 |
检查同一实体记录的时间戳是否单调递增(或非递减)。例如,对于用户 |
输入参数: |
变量: |
验证与同一业务实体相关的多条记录,其发生时间是否符合逻辑顺序(如状态变更记录、交易记录)。这是一种数据逻辑一致性校验模型。 |
时间精度: 到秒或毫秒。管控目标: 核心业务流水的记录时间序必须100%正确。 |
|
依赖窗口函数(LAG)或自连接。 |
|
编号 |
类型 |
函数/算法类型 |
函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表 |
参数类型和参数列表 |
参数/变量/常量/标量/张量/矩阵/集合列表 |
数学表达式/物理模型/计算机模型/通信模型/关联描述 |
典型值/范围 (管控目标) |
核心关联参数 |
依赖关系 |
设计/软件开发/硬件制造/应用要求 |
测试/验证方法 |
关联学科/领域 |
对网络、PCIE总线、Serdes、IO部件、CPU、GPU、内存、SSD/NVME SSD/HDD盘的需求 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
124 |
数据转换 |
数值缩放 (MaxAbs) |
|
输入参数: |
变量: |
将数据缩放至[-1, 1]区间,保留零中心化。适用于已有零中心意义或稀疏数据。这是一种特征缩放模型。 |
输出范围: [-1, 1]。管控目标: 缩放后数据范围正确。 |
|
依赖计算最大值绝对值的函数。 |
对异常值敏感。 |
1. 范围测试: 验证输出值在[-1,1]内。 |
特征工程、数据预处理 |
CPU: 简单算术运算,可向量化加速。内存: 需存储原数组和结果。 |
|
125 |
数据查询 |
分层抽样 (Stratified Sampling) |
按分层变量 |
输入参数: |
变量/集合: |
在保证各子群体(层)都有代表的基础上进行抽样,使样本结构更接近总体。这是一种概率抽样模型。 |
层数: 不宜过多(如<20)。管控目标: 样本在各层的分布与总体一致。 |
|
依赖分组操作和随机采样函数。 |
需确保每层有足够样本量。 |
1. 层分布测试: 验证样本中每层的比例与总体近似。 |
统计学、调查抽样 |
CPU: 分组并分别采样,消耗CPU。内存: 需存储分组信息和采样状态。IO: 需读取全表数据。 |
|
126 |
数据质量 |
数据对比 (Checksum) |
计算数据集的数据校验和,如对整个表或特定列计算MD5、SHA256等哈希值。 |
输入参数: |
变量: |
通过计算数据的密码学哈希值,快速、高概率地检测数据是否发生变化。这是一种数据完整性快速验证模型。 |
哈希算法: MD5, SHA256。管控目标: 相同数据必须产生相同校验和。 |
|
依赖哈希算法库。 |
通常用于验证数据迁移或传输后的完整性。 |
1. 确定性测试: 相同数据多次计算,校验和必须一致。 |
数据完整性、密码学 |
CPU: 计算哈希是CPU密集型操作。内存: 需将数据序列化后送入哈希函数。IO: 需读取全量数据。 |
|
127 |
数据操作 |
数据湖表重命名 |
修改表的名称。 |
输入参数: |
变量: |
更改数据湖中表的标识符(名称),而不影响底层数据。这是一种元数据管理操作。 |
名称规范: 符合命名规范。管控目标: 重命名原子性。 |
|
依赖数据湖元数据服务的ALTER TABLE功能。 |
重命名后,原有的权限设置等应保持不变。 |
1. 功能测试: 重命名后,验证能用新名称查询,旧名称不可用。 |
元数据管理 |
网络/IO: 仅是元数据更新操作,对元数据服务器产生少量IO。 |
|
128 |
数据查询 |
移动窗口最大值 (Rolling Max) |
计算时间序列 |
输入参数: |
变量: |
计算从当前行向前回溯固定行数(窗口)内所有值的最大值。这是一种时间序列窗口聚合模型。 |
窗口大小 |
|
依赖支持行数范围窗口的窗口函数。 |
需指定排序列。 |
1. 正确性测试: 对小型序列手动计算滚动最大值,与函数输出比对。 |
时间序列分析、SQL窗口函数 |
CPU/内存: 窗口函数计算,需要维护窗口状态,CPU和内存访问密集型。IO: 读取时间序列数据。 |
|
129 |
数据转换 |
数据脱敏 (替换) |
用预定义的伪造值或掩码替换真实数据。例如,将姓名替换为“张*”,邮箱替换为“xxx@xxx.com”。 |
输入参数: |
变量: |
用无意义的假数据替换真实敏感数据,破坏数据的可识别性但保持格式。这是一种静态数据脱敏模型。 |
替换规则: 可配置。管控目标: 脱敏后数据不可还原,但保持格式。 |
|
依赖字符串操作和映射表。 |
替换规则需覆盖所有可能值。 |
1. 脱敏效果测试: 验证脱敏后数据无法关联到真实个体。 |
数据安全、数据脱敏 |
CPU: 字符串替换或映射查找,消耗CPU。内存: 如果使用映射表,需存储映射关系。 |
|
130 |
数据质量 |
连续性校验 (Gap检测) |
检测序列(如时间序列、ID序列)中的间断。对于排序后的序列 |
输入参数: |
变量: |
检查一个本应连续递增的序列是否存在缺失值或跳号。这是一种序列完整性校验模型。 |
序列类型: 整数ID、连续日期等。管控目标: 关键业务序列应连续无间断。 |
|
依赖排序和相邻元素差分计算。 |
需明确序列应连续的业务规则。 |
1. 功能测试: 构造有间断和无间断的序列,验证函数能正确检测。 |
数据完整性、序列分析 |
CPU: 需要计算差分并比较,是CPU密集型,可向量化。内存: 需要存储序列。 |
|
131 |
数据操作 |
数据湖表添加列 |
向现有表添加新列。 |
输入参数: |
变量: |
扩展表的结构,增加新的字段。这是一种模式演化操作,通常向后兼容。 |
新列定义: 符合数据类型规范。管控目标: 添加成功,已有数据中该列值为NULL或默认值。 |
|
依赖数据湖元数据服务的ALTER TABLE功能。 |
添加的列通常允许为NULL,或指定默认值。 |
1. 功能测试: 添加列后,描述表结构验证列已添加,查询验证新列值符合预期。 |
模式演化、数据建模 |
网络/IO: 仅是元数据更新操作,对元数据服务器产生少量IO。 |
|
132 |
数据查询 |
条件计数 (COUNTIF) |
计算满足特定条件的记录数。 |
|
编号 |
类型 |
函数/算法类型 |
函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表 |
参数类型和参数列表 |
参数/变量/常量/标量/张量/矩阵/集合列表 |
数学表达式/物理模型/计算机模型/通信模型/关联描述 |
典型值/范围 (管控目标) |
核心关联参数 |
依赖关系 |
设计/软件开发/硬件制造/应用要求 |
测试/验证方法 |
关联学科/领域 |
对网络、PCIE总线、Serdes、IO部件、CPU、GPU、内存、SSD/NVME SSD/HDD盘的需求 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
124 |
数据转换 |
数值缩放 (MaxAbs) |
|
输入参数: |
变量: |
将数据缩放至[-1, 1]区间,保留零中心化。适用于已有零中心意义或稀疏数据。这是一种特征缩放模型。 |
输出范围: [-1, 1]。管控目标: 缩放后数据范围正确。 |
|
依赖计算最大值绝对值的函数。 |
对异常值敏感。 |
1. 范围测试: 验证输出值在[-1,1]内。 |
特征工程、数据预处理 |
CPU: 简单算术运算,可向量化加速。内存: 需存储原数组和结果。 |
|
125 |
数据查询 |
分层抽样 (Stratified Sampling) |
按分层变量 |
输入参数: |
变量/集合: |
在保证各子群体(层)都有代表的基础上进行抽样,使样本结构更接近总体。这是一种概率抽样模型。 |
层数: 不宜过多(如<20)。管控目标: 样本在各层的分布与总体一致。 |
|
依赖分组操作和随机采样函数。 |
需确保每层有足够样本量。 |
1. 层分布测试: 验证样本中每层的比例与总体近似。 |
统计学、调查抽样 |
CPU: 分组并分别采样,消耗CPU。内存: 需存储分组信息和采样状态。IO: 需读取全表数据。 |
|
126 |
数据质量 |
数据对比 (Checksum) |
计算数据集的数据校验和,如对整个表或特定列计算MD5、SHA256等哈希值。 |
输入参数: |
变量: |
通过计算数据的密码学哈希值,快速、高概率地检测数据是否发生变化。这是一种数据完整性快速验证模型。 |
哈希算法: MD5, SHA256。管控目标: 相同数据必须产生相同校验和。 |
|
依赖哈希算法库。 |
通常用于验证数据迁移或传输后的完整性。 |
1. 确定性测试: 相同数据多次计算,校验和必须一致。 |
数据完整性、密码学 |
CPU: 计算哈希是CPU密集型操作。内存: 需将数据序列化后送入哈希函数。IO: 需读取全量数据。 |
|
127 |
数据操作 |
数据湖表重命名 |
修改表的名称。 |
输入参数: |
变量: |
更改数据湖中表的标识符(名称),而不影响底层数据。这是一种元数据管理操作。 |
名称规范: 符合命名规范。管控目标: 重命名原子性。 |
|
依赖数据湖元数据服务的ALTER TABLE功能。 |
重命名后,原有的权限设置等应保持不变。 |
1. 功能测试: 重命名后,验证能用新名称查询,旧名称不可用。 |
元数据管理 |
网络/IO: 仅是元数据更新操作,对元数据服务器产生少量IO。 |
|
128 |
数据查询 |
移动窗口最大值 (Rolling Max) |
计算时间序列 |
输入参数: |
变量: |
计算从当前行向前回溯固定行数(窗口)内所有值的最大值。这是一种时间序列窗口聚合模型。 |
窗口大小 |
|
依赖支持行数范围窗口的窗口函数。 |
需指定排序列。 |
1. 正确性测试: 对小型序列手动计算滚动最大值,与函数输出比对。 |
时间序列分析、SQL窗口函数 |
CPU/内存: 窗口函数计算,需要维护窗口状态,CPU和内存访问密集型。IO: 读取时间序列数据。 |
|
129 |
数据转换 |
数据脱敏 (替换) |
用预定义的伪造值或掩码替换真实数据。例如,将姓名替换为“张*”,邮箱替换为“xxx@xxx.com”。 |
输入参数: |
变量: |
用无意义的假数据替换真实敏感数据,破坏数据的可识别性但保持格式。这是一种静态数据脱敏模型。 |
替换规则: 可配置。管控目标: 脱敏后数据不可还原,但保持格式。 |
|
依赖字符串操作和映射表。 |
替换规则需覆盖所有可能值。 |
1. 脱敏效果测试: 验证脱敏后数据无法关联到真实个体。 |
数据安全、数据脱敏 |
CPU: 字符串替换或映射查找,消耗CPU。内存: 如果使用映射表,需存储映射关系。 |
|
130 |
数据质量 |
连续性校验 (Gap检测) |
检测序列(如时间序列、ID序列)中的间断。对于排序后的序列 |
输入参数: |
变量: |
检查一个本应连续递增的序列是否存在缺失值或跳号。这是一种序列完整性校验模型。 |
序列类型: 整数ID、连续日期等。管控目标: 关键业务序列应连续无间断。 |
|
依赖排序和相邻元素差分计算。 |
需明确序列应连续的业务规则。 |
1. 功能测试: 构造有间断和无间断的序列,验证函数能正确检测。 |
数据完整性、序列分析 |
CPU: 需要计算差分并比较,是CPU密集型,可向量化。内存: 需要存储序列。 |
|
131 |
数据操作 |
数据湖表添加列 |
向现有表添加新列。 |
输入参数: |
变量: |
扩展表的结构,增加新的字段。这是一种模式演化操作,通常向后兼容。 |
新列定义: 符合数据类型规范。管控目标: 添加成功,已有数据中该列值为NULL或默认值。 |
|
依赖数据湖元数据服务的ALTER TABLE功能。 |
添加的列通常允许为NULL,或指定默认值。 |
1. 功能测试: 添加列后,描述表结构验证列已添加,查询验证新列值符合预期。 |
模式演化、数据建模 |
网络/IO: 仅是元数据更新操作,对元数据服务器产生少量IO。 |
|
132 |
数据查询 |
条件计数 (COUNTIF) |
计算满足特定条件的记录数。 |
输入参数: |
变量: |
对数据集进行条件过滤后的计数。这是一种带条件的聚合模型。 |
条件复杂度: 可简单可复杂。管控目标: 计数结果准确。 |
|
依赖条件表达式求值和计数功能。 |
是数据分析中非常常见的操作。 |
1. 正确性测试: 手动计算小数据集满足条件的记录数,与函数输出比对。 |
SQL、数据分析 |
CPU: 需要对每条记录进行条件判断,是CPU密集型。IO: 需要扫描数据。 |
|
133 |
数据转换 |
数据分箱 (基于聚类) |
使用聚类算法(如K-Means)对数值特征进行分箱,使得同一箱内数据相似度高,不同箱间差异大。箱边界由簇中心决定。 |
输入参数: |
变量: |
基于数据自身的分布密度进行离散化,能更好地捕捉数据的内在结构。这是一种无监督离散化模型。 |
箱数 |
|
依赖聚类算法(如K-Means)实现。 |
聚类结果受初始中心点影响,可多次运行取优。 |
1. 轮廓系数测试: 计算分箱后数据的轮廓系数,评估分箱质量。 |
机器学习、特征工程 |
CPU: K-Means聚类是迭代算法,CPU密集型,数据量大时更甚。内存: 需要存储数据和迭代中的中间结果。 |
|
134 |
数据质量 |
记录级校验和 |
为每条记录计算一个校验和(如对几个关键字段计算哈希),用于快速检测单条记录是否被篡改。 |
输入参数: |
变量: |
为单条记录生成唯一“指纹”,用于数据完整性校验和变更检测。这是一种细粒度数据完整性模型。 |
哈希算法: CRC32, MD5(速度较快)。参与字段: 应选择能唯一标识记录业务状态的字段。 |
|
依赖哈希算法和字段提取。 |
校验和可作为附加列存储,以便后续比对。 |
1. 唯一性测试: 用不同记录测试,校验和应高概率不同。 |
数据完整性、变更检测 |
CPU: 为每条记录计算哈希,是CPU密集型,总量大时消耗显著。内存: 需提取记录字段。 |
|
135 |
数据操作 |
数据湖表删除列 |
从现有表中删除列。 |
输入参数: |
变量: |
从表结构中移除不再需要的字段。这是一种模式演化操作,通常需要前向兼容性支持或数据重写。 |
被删列: 通常不允许是分区键。管控目标: 删除成功,后续查询和写入不再涉及该列。 |
|
依赖数据湖元数据服务的ALTER TABLE功能,可能涉及数据重写。 |
对于Parquet/ORC等列式格式,物理数据可能并未立即删除,只是在元数据中标记。 |
1. 功能测试: 删除列后,描述表结构验证列已消失,查询中引用该列应报错。 |
模式演化、数据建模 |
网络/IO: 主要是元数据操作。如果表格式不支持无损删列(需要重写数据),则会触发昂贵的IO操作,重写数据文件。 |
|
136 |
数据查询 |
分页查询 (Pagination) |
从结果集中取出指定页码和页大小的数据。 |
输入参数: |
变量: |
将大型查询结果分批返回给客户端,避免一次性传输过多数据。这是一种结果集分片传输模型。 |
页大小 |
|
依赖数据库/SQL引擎对 |
深分页( |
1. 正确性测试: 验证返回的数据确实是第N页,且数量正确。 |
数据库、Web开发 |
IO/CPU: |
|
137 |
数据转换 |
数据标准化 (Robust Scaling) |
使用中位数和四分位距进行标准化: |
输入参数: |
变量: |
基于分位数的标准化方法,对异常值不敏感。这是一种稳健的特征缩放模型。 |
输出范围: 无固定范围,但大部分数据在[-3, 3]附近。管控目标: 转换后数据更稳健。 |
|
依赖计算中位数和分位数的函数。 |
适用于包含异常值的数据。 |
1. 稳健性测试: 在数据中引入极端异常值,观察标准化结果是否被过度影响(与Z-Score对比)。 |
统计学、特征工程 |
CPU: 计算中位数和分位数需要排序或选择算法,是CPU密集型。内存: 需要存储整个数组。 |
|
138 |
数据质量 |
空值占比监控 |
计算数据集中一个或多个列的空值(NULL)比例。 |
输入参数: |
变量: |
监控数据缺失情况,是数据质量的基础指标。这是一种数据完备性监控模型。 |
管控阈值: 根据业务重要性设定,如核心字段<1%,一般字段<5%。 |
|
依赖计数和空值判断功能。 |
通常作为每日监控任务运行。 |
1. 准确性测试: 在已知空值数量的数据集上运行,验证计算结果正确。 |
数据质量、数据监控 |
CPU/IO: 需要扫描相关列并判断是否为空,是CPU和IO密集型,尤其当列多、数据量大时。 |
|
139 |
数据操作 |
数据湖表交换分区 |
将外部数据目录(分区)快速加载到表中,通常通过元数据操作实现。 |
输入参数: |
变量: |
将已存在于存储中的一批数据文件快速“挂载”为表的一个分区,实现数据快速入库。这是一种高性能数据加载模型。 |
外部路径: 必须包含与表结构兼容的数据文件。管控目标: 交换操作快速,原子性。 |
|
依赖数据湖表格式的分区交换功能。 |
常用于将ETL产出目录快速“发布”为可用分区。 |
1. 功能测试: 执行交换后,查询该分区验证数据正确可读。 |
数据入库、性能优化 |
网络/IO: 主要是元数据操作,极快。但要求 |
|
140 |
数据查询 |
字符串拼接 (Concat) |
将多个字符串连接成一个字符串。 |
输入参数: |
变量: |
基础字符串操作,用于组合字段、生成键值等。 |
字符串数量: 可变。管控目标: 拼接结果正确,处理NULL值(通常忽略或转为空串)。 |
|
依赖字符串处理库。 |
需明确各输入为NULL时的行为。 |
1. 功能测试: 拼接已知字符串,验证结果。 |
字符串处理 |
CPU: 内存拷贝操作,字符串总长度越大,消耗CPU和内存越多。 |
|
141 |
数据转换 |
数据编码 (Label Encoding) |
将类别标签映射为整数。建立映射 |
输入参数: |
变量: |
将无序的类别特征转换为有序的整数,供某些机器学习算法使用。这是一种序数编码模型。 |
编码范围: 从0或1开始的连续整数。管控目标: 映射关系一致且可复现。 |
|
依赖映射查找。 |
编码后的整数大小关系无实际意义。必须在训练集上确定映射并保存。 |
1. 一致性测试: 相同输入必须产生相同输出。 |
机器学习、特征工程 |
CPU: 主要是查表操作,开销小。内存: 需要存储映射表。 |
|
142 |
数据质量 |
数据分布对比 (KL散度) |
计算两个概率分布P和Q的Kullback–Leibler散度: |
输入参数: |
变量: |
度量两个概率分布之间的差异(非对称)。可用于比较数据集的字段分布变化。这是一种信息论差异度量模型。 |
输入: 需为有效的概率分布(和=1)。管控目标: 当P=Q时,D_KL=0。 |
|
依赖对数和概率计算。 |
KL散度非对称且不满足三角不等式。需处理 |
1. 边界测试: 当P和Q完全相同时,结果应为0。 |
信息论、统计学 |
CPU: 涉及对数和除法运算,是CPU密集型。内存: 需存储两个分布向量。 |
|
143 |
数据操作 |
数据湖表注释修改 |
为表或列添加或修改注释信息。 |
输入参数: |
变量: |
维护数据资产的业务含义和描述信息,提升可理解性和可维护性。这是一种数据资产管理操作。 |
注释长度: 通常有限制。管控目标: 注释信息可持久化存储和查询。 |
|
依赖数据湖元数据服务的注释修改功能。 |
注释是元数据的重要组成部分。 |
1. 功能测试: 修改注释后,通过 |
元数据管理、数据治理 |
网络/IO: 仅是元数据更新操作,对元数据服务器产生少量IO。 |
|
144 |
数据查询 |
条件求和 (SUMIF) |
对满足特定条件的记录进行求和。 |
输入参数: |
变量: |
带条件的聚合求和,是业务分析中的常见操作。这是一种带条件的聚合模型。 |
条件复杂度: 可简单可复杂。管控目标: 求和结果准确。 |
|
依赖条件表达式求值和求和功能。 |
是 |
1. 正确性测试: 手动计算小数据集满足条件的数值和,与函数输出比对。 |
SQL、数据分析 |
CPU: 需要对每条记录进行条件判断和选择性累加,是CPU密集型。IO: 需要扫描相关列。 |
|
145 |
数据转换 |
数据平滑 (指数加权移动平均-EWMA) |
|
输入参数: |
变量: |
给予近期观测值更高权重,对时间序列进行平滑,反应近期趋势。这是一种时间序列平滑模型。 |
平滑因子 |
|
依赖迭代计算或向量化实现。 |
需指定初始值 |
1. 趋势保持测试: 对带有趋势的合成序列应用EWMA,观察平滑效果。 |
时间序列分析、信号处理 |
CPU: 迭代计算,CPU密集型,可向量化优化。内存: 需要存储序列和平滑结果。 |
|
146 |
数据质量 |
记录级变更检测 |
比较同一记录的两个版本(新旧),识别出具体哪些字段发生了变化。 |
输入参数: |
变量: |
精细化的数据变更分析,用于审计、增量同步等场景。这是一种记录级差异分析模型。 |
比较字段: 可选择全部或部分字段。管控目标: 准确识别所有变更的字段。 |
|
依赖字段级别的值比较。 |
需处理NULL值的比较( |
1. 功能测试: 构造包含不同变更情况(无变化、部分字段变、全变)的记录对,验证检测结果正确。 |
数据变更、审计 |
CPU: 需要对每个字段进行值比较,记录数和字段数多时消耗CPU。内存: 需同时持有新旧记录。 |
|
147 |
数据操作 |
数据湖表刷新 (REFRESH) |
使元数据缓存失效并重新加载表的最新元数据,特别是当底层数据文件被直接修改时。 |
输入参数: |
变量: |
强制查询引擎重新获取表的元数据(如分区列表、统计信息),确保元数据与存储一致。这是一种元数据缓存同步操作。 |
刷新频率: 在直接修改底层文件后执行。管控目标: 刷新后查询能感知到最新数据状态。 |
|
依赖查询引擎的元数据缓存管理功能。 |
对于频繁变更的外部表可能需要定期刷新。 |
1. 功能测试: 直接向表目录添加新文件,刷新前查询可能看不到,刷新后应能看到。 |
元数据管理、查询优化 |
网络/IO: 与元数据服务器交互,重新获取元数据,产生少量网络和IO。 |
|
148 |
数据查询 |
数组包含判断 (Array_Contains) |
判断数组中是否包含某个特定元素。 |
输入参数: |
变量/集合: |
对数组类型字段进行成员关系查询。这是一种集合成员查询模型。 |
数组大小: 可大可小。管控目标: 判断准确,可处理NULL元素。 |
|
依赖数组遍历或索引(如果有序)。 |
需明确元素比较规则(如区分大小写)。 |
1. 功能测试: 在包含和不包含目标元素的数组上测试,验证结果正确。 |
数据结构、数组操作 |
CPU: 需要遍历数组元素进行比较,是CPU密集型,数组越大开销越大。内存: 需加载数组。 |
|
149 |
数据转换 |
数据分桶 (基于哈希) |
对记录计算哈希值,并根据哈希值模 |
输入参数: |
变量: |
一种随机但确定性的数据分片方法,旨在均匀分布数据。这是一种数据分布模型。 |
桶数 |
|
依赖哈希函数。 |
常用于负载均衡、抽样、Shuffle等场景。 |
1. 均匀性测试: 分配大量记录后,统计各桶记录数,计算方差。 |
分布式计算、哈希 |
CPU: 计算哈希值,消耗CPU。内存: 无显著消耗。 |
|
150 |
数据质量 |
值格式校验 (正则表达式) |
使用正则表达式校验字符串字段的格式是否符合规范。 |
输入参数: |
变量: |
验证数据是否符合预定义的文本模式,如身份证号、邮箱、电话号码格式。这是一种基于模式的数据校验模型。 |
正则复杂度: 应避免过于复杂导致性能问题。管控目标: 准确识别格式错误。 |
|
依赖正则表达式引擎。 |
正则表达式需精心设计以覆盖所有合法情况并排除非法情况。 |
1. 格式覆盖测试: 使用合法和非法的测试用例验证正则表达式正确性。 |
数据验证、正则表达式 |
CPU: 正则表达式匹配是CPU密集型操作,复杂正则可能导致灾难性回溯。内存: 引擎内部状态消耗内存。 |
|
151 |
数据操作 |
数据湖表设置属性 |
设置或修改表的属性(表属性)。 |
输入参数: |
变量: |
为表添加自定义元数据,用于存储业务标签、ETL作业信息、保留策略等。这是一种扩展元数据管理操作。 |
属性: 键值对,通常是字符串。管控目标: 属性可持久化存储和查询。 |
|
依赖数据湖元数据服务的表属性管理功能。 |
属性可用于驱动自动化流程(如根据 |
1. 功能测试: 设置属性后,通过 |
元数据管理、数据治理 |
网络/IO: 仅是元数据更新操作,对元数据服务器产生少量IO。 |
|
152 |
数据查询 |
日期差计算 (DATEDIFF) |
计算两个日期之间的天数差。 |
输入参数: |
变量: |
基础日期计算,用于分析时间间隔。这是一种时间间隔计算模型。 |
输入: 合法的日期。输出: 可以是正数、负数或零。管控目标: 计算准确,考虑日期边界。 |
|
依赖日期时间库的差值计算。 |
需明确包含或不包含起始/结束日期。 |
1. 正确性测试: 用已知日期对验证计算结果。 |
日期时间计算 |
CPU: 简单日期运算,消耗极少。 |
|
153 |
数据转换 |
数据填充 (向前/向后填充) |
用序列中前面或后面的有效值填充空值。前向填充: |
输入参数: |
变量: |
适用于时间序列或其他有序数据,利用数据的自相关性进行填充。这是一种序列数据修补模型。 |
常用方法: |
|
依赖序列遍历和状态维护。 |
通常用于时间序列。连续的缺失值可能被传播。 |
1. 逻辑测试: 在已知缺失模式的人工序列上应用,验证填充值正确。 |
时间序列分析、数据清洗 |
CPU: 需要遍历序列并记录有效值,CPU开销中等。内存: 需存储序列。 |
|
154 |
数据质量 |
数据量波动监控 |
监控表或分区的数据量(行数)相对于历史基线(如过去7天均值)的波动。 |
输入参数: |
变量: |
检测数据产出量的异常增加或减少,可能预示ETL作业问题或业务异常。这是一种数据量监控模型。 |
基线窗口: 7天, 30天。波动阈值: ±10%, ±20%。管控目标: 及时发现数据量异常。 |
|
依赖历史数据量统计查询。 |
需排除周期性波动(如周末效应)。 |
1. 计算测试: 用历史数据计算基线和波动率,验证公式正确。 |
数据运维、监控 |
IO/网络: 需要查询历史数据量的统计信息,产生少量IO。CPU: 简单计算。 |
|
155 |
数据操作 |
数据湖表修复 (修复元数据) |
修复表的元数据不一致问题,如重新收集统计信息、修复分区信息等。 |
输入参数: |
变量: |
诊断并修复数据湖表元数据的常见问题,确保查询优化器和访问层能正确工作。这是一种元数据维护操作。 |
修复类型: 根据具体问题选择。管控目标: 修复后表可正常查询,性能恢复。 |
|
依赖数据湖的特定修复命令或工具。 |
通常在遇到查询错误或性能下降时使用。 |
1. 问题场景测试: 模拟元数据损坏(如删除分区元数据但保留文件),执行修复后验证表功能恢复。 |
元数据管理、数据运维 |
网络/IO: 需要与元数据服务器和存储系统交互,扫描文件或分区,可能产生较大IO和网络流量(如果存储是远程的)。CPU: 处理修复逻辑。 |
|
156 |
数据查询 |
字符串分割 (Split) |
按指定分隔符将字符串分割为子字符串数组。 |
输入参数: |
变量: |
基础字符串操作,用于解析结构化文本。 |
分隔符: 可以是单个字符或字符串。管控目标: 分割结果正确,处理边界情况(如连续分隔符)。 |
|
依赖字符串分割函数。 |
需明确空字符串和NULL的处理。 |
1. 功能测试: 用不同分隔符和字符串测试分割结果。 |
字符串处理 |
CPU: 字符串遍历和拷贝,CPU密集型,字符串越长开销越大。内存: 需存储原字符串和结果数组。 |
|
157 |
数据转换 |
数据嵌入 (词向量平均) |
对文本分词后,查询每个词的预训练词向量,然后对所有词向量取平均得到文本的向量表示。 |
输入参数: |
变量/矩阵: |
一种简单的文本向量化方法,将文本表示为固定维度的稠密向量。这是一种自然语言处理中的特征提取模型。 |
词向量维度: 如50, 100, 300。管控目标: 生成的向量能一定程度上表征文本语义。 |
|
依赖分词器和预训练的词向量文件/服务。 |
对未登录词(OOV)需有处理策略(如忽略或用零向量)。 |
1. 相似度测试: 计算相似文本的向量余弦相似度,应高于不相关文本。 |
自然语言处理、特征工程 |
CPU: 分词和向量查找、平均计算,CPU密集型,文本长时更甚。内存: 需要加载大型词向量模型到内存(可能数百MB到数GB)。GPU: 可加速大规模批处理。 |
|
158 |
数据质量 |
记录顺序校验 |
检查数据集中记录是否按某个键(如时间戳、自增ID)严格递增(或递减)排列。 |
输入参数: |
变量: |
验证数据是否已按预期顺序排列,常见于需要有序处理的数据流。这是一种数据顺序性校验模型。 |
排序键: 通常是时间戳或序列号。管控目标: 数据应满足处理所需的顺序要求。 |
|
依赖序列遍历和比较。 |
用于确保流处理或批处理的前提条件。 |
1. 功能测试: 用有序和无序的数据集测试,验证函数判断正确。 |
数据完整性、排序 |
CPU: 需要遍历并比较相邻元素,是CPU密集型,可向量化。内存: 需要顺序访问数据。 |
|
159 |
数据操作 |
数据湖表解冻 (从归档恢复) |
将归档存储(如Glacier, Deep Archive)中的数据恢复到标准存储层,以便查询访问。 |
输入参数: |
变量: |
将冷数据从归档存储取回,通常需要数小时到数天,用于满足偶发的历史数据查询需求。这是一种冷数据访问模型。 |
恢复时间: 根据归档深度和数据量,从分钟到数小时不等。管控目标: 恢复作业可跟踪,恢复后数据可正常访问。 |
|
依赖对象存储的恢复API(如S3 Restore)。 |
需明确恢复成本和数据访问的SLA。恢复的数据可能有过期时间。 |
1. 功能测试: 对已归档的表发起恢复请求,验证一段时间后数据可查询。 |
存储管理、数据归档 |
网络: 恢复过程可能涉及从归档存储到标准存储的大量数据传输,消耗网络带宽。IO: 目标标准存储的写入IO。存储: 在恢复期间和保留期内,数据占用标准存储空间,成本增加。 |
|
160 |
数据查询 |
集合成员检查 (IN) |
检查一个值是否存在于一个值列表中。 |
输入参数: |
变量/集合: |
SQL中的基本运算符,用于过滤。这是一种集合成员资格检查模型。 |
列表大小: 可支持非常大(如子查询)。管控目标: 逻辑正确,性能优化(如对列表构建哈希表)。 |
|
依赖SQL引擎的IN运算符优化。 |
对于常量大列表,可能不如JOIN高效。 |
1. 功能测试: 验证值在列表内/外时返回正确结果。 |
SQL |
CPU/内存: 如果值列表很大,优化器可能将其物化为内存中的哈希集合,消耗CPU和内存。IO: 如果 |
|
161 |
数据转换 |
数据增强 (图像-裁剪) |
从图像 |
输入参数: |
变量/矩阵: |
通过对训练图像进行随机裁剪,生成新的训练样本,增加模型对物体位置变化的鲁棒性。这是一种计算机视觉中的数据增强技术。 |
裁剪尺寸: 通常小于原图尺寸。管控目标: 裁剪区域应包含有效物体信息。 |
|
依赖随机数生成和图像切片操作。 |
可结合中心裁剪、随机裁剪等多种策略。 |
1. 尺寸验证: 验证输出图像尺寸符合指定大小。 |
计算机视觉、深度学习、数据增强 |
CPU/GPU: 图像裁剪和内存拷贝操作,可并行化,适合GPU加速。内存/显存: 需要存储原始图像和裁剪后的图像。 |
|
162 |
数据质量 |
跨源数据对比 (Key-Value对比) |
基于关键字段对比两个不同数据源(如数据库和数据湖)中相同实体的属性值是否一致。 |
输入参数: |
变量/集合: |
验证不同系统间数据的一致性,常见于系统迁移或主备同步验证。这是一种系统间数据一致性审计模型。 |
数据量: 可能很大。管控目标: 核心业务数据跨源一致性100%。 |
|
依赖两个数据源的连接和查询能力,以及数据对比逻辑。 |
需处理两边记录不对称(一边有一边无)的情况。 |
1. 功能测试: 构造已知一致的差异数据,验证函数能准确报告。 |
数据集成、数据一致性 |
网络: 从两个数据源抽取数据,网络带宽和延迟是关键瓶颈,尤其当数据源远程时。CPU/IO: 执行两边查询并进行JOIN和比较,消耗CPU和IO。 |
|
163 |
数据操作 |
数据湖表设置存储格式 |
更改表的底层存储文件格式(如从TextFile改为Parquet)。通常需要重写数据。 |
输入参数: |
变量: |
改变表数据的物理存储格式,以优化查询性能或存储效率。这是一种存储格式转换操作。 |
目标格式: Parquet, ORC, Avro等。管控目标: 转换成功,转换后数据可正确查询,性能提升。 |
|
依赖数据湖的 |
此操作通常代价高昂(全表重写),应谨慎执行。 |
1. 功能测试: 转换后,执行查询验证数据正确性。 |
存储管理、性能优化 |
IO: 需要读取原格式数据并写入新格式数据,是IO密集型操作,对存储吞吐要求高。CPU: 数据格式编解码消耗CPU。网络: 在分布式环境中,数据可能需要Shuffle后重新写入。存储: 转换期间需要额外存储空间存放新文件,转换完成后清理旧文件。 |
|
编号 |
类型 |
函数/算法类型 |
函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表 |
参数类型和参数列表 |
参数/变量/常量/标量/张量/矩阵/集合列表 |
数学表达式/物理模型/计算机模型/通信模型/关联描述 |
典型值/范围 (管控目标) |
核心关联参数 |
依赖关系 |
设计/软件开发/硬件制造/应用要求 |
测试/验证方法 |
关联学科/领域 |
对网络、PCIE总线、Serdes、IO部件、CPU、GPU、内存、SSD/NVME SSD/HDD盘的需求 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
164 |
数据转换 |
多项式特征生成 (Polynomial Features) |
对特征向量 |
输入参数: |
变量/向量: |
通过构造原始特征的幂次项和交互项,将线性模型转化为非线性模型,增强模型表达能力。这是一种特征工程扩展模型。 |
阶数 |
|
依赖组合数学和向量运算。 |
生成的特征可能高度相关,需注意多重共线性。适用于线性模型增加非线性能力。 |
1. 维度验证: 验证生成的特征数量符合组合公式。 |
机器学习、特征工程、多项式回归 |
CPU: 组合计算和幂运算,CPU密集型,特征维度和阶数越高消耗越大。内存: 生成的特征向量维度可能远高于原始特征,内存消耗剧增。 |
|
165 |
数据查询 |
N-gram生成与分析 |
从文本中提取连续的N个词项(或字符)序列。 |
输入参数: |
变量/列表: |
一种文本分析方法,用于捕捉词序信息,常用于语言模型、文本分类和关键词提取。这是一种自然语言处理中的序列模型。 |
N值: 1 (unigram), 2 (bigram), 3 (trigram)。管控目标: 能正确处理文本边界,生成正确的N-gram序列。 |
|
依赖分词器(对于词N-gram)和滑动窗口算法。 |
可用于分析短语频率或构建语言模型。 |
1. 正确性测试: 对已知文本手动提取N-gram,与函数输出比对。 |
自然语言处理、文本挖掘 |
CPU: 分词和滑动窗口生成N-gram是CPU密集型,文本越长开销越大。内存: 需要存储分词结果和N-gram列表,可能很大。 |
|
166 |
数据质量 |
孤立森林 (Isolation Forest) 异常检测 |
通过随机选择特征和划分值构建孤立树(iTree),异常点因特征值“怪异”而更容易被孤立(路径更短)。异常分数 |
输入参数: |
变量: |
一种高效的无监督异常检测算法,特别适用于高维数据。通过随机划分隔离异常点。这是一种集成学习异常检测模型。 |
|
|
依赖随机数生成器和树结构构建。 |
对局部异常和全局异常都有效。训练和预测速度较快。 |
1. 有效性测试: 在合成数据集(包含离群点)上运行,验证离群点得分高。 |
机器学习、异常检测 |
CPU: 构建和遍历大量随机树,CPU密集型,依赖多核并行。内存: 需要存储所有树的结构和样本数据,内存消耗与 |
|
167 |
数据操作 |
数据湖表零停机迁移 (Live Migration) |
在保持对源表持续读写的同时,将数据逐步迁移到新表或新存储。通常结合双写、增量同步和流量切换。 |
输入参数: |
变量: |
一种保证业务连续性的数据迁移方案,最小化对应用的影响。这是一种在线数据迁移模型。 |
迁移数据量: TB-PB级。允许停机时间: 0(目标)。管控目标: 迁移过程数据零丢失,业务感知影响最小。 |
|
依赖CDC工具、双写客户端、数据对比校验工具。 |
方案复杂,需精心设计步骤、验证和回滚计划。 |
1. 一致性测试: 在迁移各阶段对比源和目标数据,确保一致。 |
数据迁移、高可用、系统架构 |
网络: 增量数据同步产生持续的网络流量。IO: 双写操作使写入IOPS和吞吐量近乎翻倍,对存储压力大。CPU: 双写客户端、CDC捕获和对比校验消耗额外CPU。 |
|
168 |
数据查询 |
地理空间最近邻查询 (KNN on Geometry) |
在空间索引(如R-Tree)辅助下,查找距离给定几何体 |
输入参数: |
变量/集合: |
在空间数据中查找最近的对象,例如“查找最近的5个加油站”。这是一种空间搜索与计算几何模型。 |
几何体数量: 可支持海量(依赖索引)。k值: 通常较小(1-100)。管控目标: 查询响应快,结果准确。 |
|
依赖空间计算库(如GEOS, JTS)和空间索引。 |
距离计算可能基于欧氏距离或球面距离。空间索引是性能关键。 |
1. 正确性测试: 在小数据集上暴力计算KNN,与索引查询结果比对。 |
地理信息系统 (GIS)、计算几何 |
CPU: 距离计算(特别是复杂几何体)是CPU密集型。内存: 空间索引(如R-Tree)需加载到内存以实现高效查询。IO: 需要读取几何体数据。 |
|
169 |
数据转换 |
数据漂移检测 (PSI - 群体稳定性指标) |
比较两个时间段(或两个群体)的特征分布差异。 |
输入参数: |
变量: |
衡量特征分布在两个群体间的差异,常用于监控机器学习模型输入特征的稳定性。这是一种分布变化量化模型。 |
PSI阈值: <0.1 稳定;0.1-0.25 轻微漂移;>0.25 显著漂移。管控目标: 核心特征PSI值低于警报阈值。 |
|
依赖分箱和占比计算,以及PSI公式。 |
需在相同分箱规则下计算。对分箱敏感。 |
1. 计算测试: 用已知分布手动计算PSI,验证函数结果正确。 |
机器学习运维 (MLOps)、模型监控 |
CPU: 需要计算两个分布的分箱占比并进行对数运算,CPU开销中等。内存: 需要存储两个分布的分箱数据。 |
|
170 |
数据质量 |
非空约束校验 |
检查指定列的值是否全部为非空(NOT NULL)。 |
输入参数: |
变量: |
最基本的数据完整性约束之一,确保关键字段必有值。这是一种数据完备性约束模型。 |
适用字段: 主键、外键、关键业务属性。管控目标: 非空约束字段的违反记录数必须为0。 |
|
依赖空值判断和计数功能。 |
通常在数据建模时定义。 |
1. 功能测试: 在包含和不包含NULL值的数据集上运行,验证函数判断正确。 |
数据建模、数据完整性 |
CPU/IO: 需要扫描该列并判断是否为空,是CPU和IO密集型。 |
|
171 |
数据操作 |
数据湖表版本清理 (VACUUM) |
根据保留策略,删除不再被任何快照或版本引用的旧数据文件,以释放存储空间。 |
输入参数: |
变量: |
清理数据湖表中因更新、删除、优化等操作产生的孤儿文件(不再被当前版本引用的文件)。这是一种存储空间回收操作。 |
保留时长: 通常7天,以防止正在进行的长时间查询仍需要旧文件。管控目标: 安全地释放空间,不影响时间旅行查询。 |
|
依赖支持ACID和垃圾回收的表格式(如Delta Lake, Iceberg)。 |
需谨慎设置保留策略,避免误删正在使用的文件。通常由定时任务执行。 |
1. 安全性测试: 执行VACUUM后,验证保留期内的历史版本仍可通过时间旅行查询。 |
存储管理、数据湖治理 |
IO: 需要扫描元数据以确定可删除的文件,然后执行大量文件删除操作,对元数据服务器和对象存储造成IO压力。网络: 删除指令的网络传输。存储: 直接释放对象存储空间。 |
|
172 |
数据查询 |
条件平均值 (AVGIF) |
计算满足特定条件的记录在某个数值列上的平均值。 |
输入参数: |
变量: |
带条件的聚合求平均值。这是一种带条件的聚合模型。 |
条件复杂度: 可简单可复杂。管控目标: 计算结果准确,处理除数为0(无满足条件的记录)的情况。 |
|
依赖条件表达式求值、求和与计数功能。 |
是 |
1. 正确性测试: 手动计算小数据集满足条件的数值平均值,与函数输出比对。 |
SQL、数据分析 |
CPU: 需要对每条记录进行条件判断和选择性累加,是CPU密集型。IO: 需要扫描相关列。 |
|
173 |
数据转换 |
数据规范化 (L2范数) |
对向量 |
x |
_2 |
x |
_2 = sqrt(Σ x_i^2)`。 |
输入参数: |
变量/向量: |
||||
|
174 |
数据质量 |
记录级业务规则校验 (自定义逻辑) |
通过用户提供的自定义函数(UDF)对单条记录进行复杂的业务逻辑校验,返回是否通过及原因。 |
输入参数: |
变量: |
提供最大灵活性,允许用户编写任意复杂的业务逻辑来校验数据。这是一种可编程数据校验模型。 |
规则复杂度: 任意,由UDF定义。管控目标: UDF执行正确,性能可接受。 |
|
依赖UDF执行引擎。 |
UDF需精心编写,避免副作用和性能瓶颈。支持多种编程语言。 |
1. UDF功能测试: 针对UDF本身进行单元测试。 |
业务规则、数据质量、UDF |
CPU: UDF的执行完全取决于其内部逻辑,可能是任意CPU密集型的。内存: UDF可能消耗大量内存。IO: UDF可能进行外部调用(如访问数据库),引入IO和网络延迟。 |
|
175 |
数据操作 |
数据湖表同步 (Schema Sync) |
将源表的结构(Schema)同步到目标表,确保两者一致。可处理列的增加、删除、类型变更。 |
输入参数: |
变量: |
自动化管理多环境(如开发、测试、生产)间表结构的一致性。这是一种模式管理与同步模型。 |
同步粒度: 可到列级别。管控目标: 同步后目标表模式与源表一致。 |
|
依赖模式比较和ALTER TABLE操作。 |
需谨慎处理破坏性变更(如删列、改类型)。通常结合CI/CD使用。 |
1. 模式对比测试: 验证函数能准确识别出模式差异(列名、类型、顺序等)。 |
数据建模、CI/CD、DevOps |
网络/IO: 主要是元数据查询和修改操作,负载较低。如果同步涉及重写数据(如类型不兼容变更),则触发高IO操作。 |
|
176 |
数据查询 |
近似中位数计算 (P^2算法) |
一种流式算法,通过维护5个标记点(q0最小, q1, q2中位数, q3, q4最大)及其所需位置,在数据流过时动态调整这些标记点来估计分位数。 |
输入参数: |
变量: |
在单次遍历中,以恒定内存计算数据流的中位数(或其他分位数)的近似值。这是一种流式统计算法模型。 |
分位数 |
|
依赖P^2算法实现。 |
适用于无法存储全量数据的流式场景。结果有误差,但内存占用极小。 |
1. 精度测试: 对已知分布的数据流,比较P^2估计值与真实中位数的差异。 |
流计算、近似算法、统计学 |
CPU: 算法需要对每个数据点更新标记点位置,是CPU密集型,但每个点处理开销恒定。内存: 内存消耗极低且恒定,仅存储几个标记点。 |
|
177 |
数据转换 |
数据脱敏 (局部遮掩) |
对字符串的中间部分进行遮掩,只显示首尾字符。例如,身份证号显示前6后4。 |
输入参数: |
变量: |
一种常见的脱敏显示方式,在隐藏核心信息的同时保留部分格式用于识别。这是一种静态数据脱敏模型。 |
保留长度: 根据数据类型设定,如手机号保留前3后4。管控目标: 脱敏后无法还原,但格式可辨识。 |
|
依赖字符串切片和拼接。 |
需处理字符串长度不足的情况。 |
1. 格式测试: 验证输出字符串长度和遮掩部分符合预期。 |
数据安全、数据脱敏 |
CPU: 字符串操作,开销小。内存: 需存储原字符串和结果。 |
|
178 |
数据质量 |
数据关联性分析 (互信息) |
计算两个离散变量X和Y的互信息: |
输入参数: |
变量/分布: |
一种基于信息论的相关性度量,能捕获线性和非线性的关系,且适用于离散变量。这是一种变量关系度量模型。 |
变量类型: 离散变量。结果范围: ≥0,0表示独立。管控目标: 计算准确,能反映变量间依赖程度。 |
|
依赖联合分布和边缘分布的计算,以及对数运算。 |
需对连续变量进行离散化(分箱)后才能计算。 |
1. 独立性测试: 用两个独立生成的随机序列测试,MI应接近0。 |
信息论、统计学、特征选择 |
CPU: 需要计算联合分布和边缘分布,涉及对数和除法,CPU密集型,尤其当变量基数高时。内存: 需要存储联合概率分布表,可能很大(基数1 * 基数2)。 |
|
179 |
数据操作 |
数据湖表冻结 (冻结写入) |
将表设置为只读状态,禁止任何新的写入、更新或删除操作,通常用于数据归档或法律保留。 |
输入参数: |
变量: |
保护数据不被意外修改,确保数据的静态性和可审计性。这是一种数据保护与合规性操作。 |
冻结状态: 布尔值。管控目标: 冻结后写入尝试应被明确拒绝。 |
|
依赖数据湖表格式的 |
冻结前需确保无活跃写入作业。解冻需相应操作。 |
1. 功能测试: 冻结后尝试写入数据,验证操作被拒绝并返回明确错误。 |
数据治理、合规 |
网络/IO: 仅是元数据属性更新操作,负载低。 |
|
180 |
数据查询 |
数组去重 (Array_Distinct) |
移除数组中的重复元素,返回一个元素唯一的新数组。 |
输入参数: |
变量/集合: |
对数组类型的字段进行去重操作。这是一种集合唯一性操作模型。 |
输出顺序: 可能不保持原序(取决于实现)。管控目标: 结果数组中无重复元素。 |
|
依赖集合(Set)数据结构或排序去重算法。 |
需明确是否保持原数组顺序。 |
1. 功能测试: 输入包含重复元素的数组,验证输出数组元素唯一。 |
数据结构、数组操作 |
CPU: 去重需要比较数组内所有元素,是O(n^2)或O(n log n)操作,CPU密集型,数组越大开销越大。内存: 需要存储原数组和用于去重的中间集合。 |
|
181 |
数据转换 |
时序数据差分 |
计算时间序列 |
输入参数: |
变量: |
通过计算相邻观测值之间的差异来消除时间序列中的趋势或季节性。这是一种时间序列平稳化转换模型。 |
差分阶数: 1或2。管控目标: 差分后序列均值平稳(围绕0波动)。 |
|
依赖滞后值(shift)计算。 |
差分会减少序列长度。过度差分可能导致信息损失。 |
1. 平稳性测试: 对非平稳序列进行差分,用ADF检验验证其变得平稳。 |
时间序列分析 |
CPU: 简单的向量减法,可向量化加速,CPU开销小。内存: 需要存储原序列和结果序列。 |
|
182 |
数据质量 |
记录级时效性校验 |
检查记录的时间戳 |
输入参数: |
变量: |
确保数据记录的时间符合业务逻辑,防止未来时间或远古时间的数据污染。这是一种数据逻辑合理性校验模型。 |
时间范围: 由业务定义,如 |
|
依赖时间比较。 |
需考虑时区。容忍延迟用于处理轻微的系统时钟不同步或处理延迟。 |
1. 功能测试: 用界内、界外的时间戳测试,验证函数判断正确。 |
数据质量、业务规则 |
CPU: 简单的时间比较,开销极小。 |
|
183 |
数据操作 |
数据湖表关联视图创建 |
基于一个或多个数据湖表创建逻辑视图。 |
输入参数: |
变量: |
创建数据的虚拟表,简化复杂查询,实现逻辑数据抽象和权限控制。这是一种数据虚拟化与封装模型。 |
查询复杂度: 任意有效的SELECT语句。管控目标: 视图创建成功,查询视图结果正确。 |
|
依赖SQL引擎的CREATE VIEW功能。 |
视图是只读的(通常)。可基于视图再创建视图。 |
1. 功能测试: 创建视图后,查询视图验证结果与直接执行定义查询一致。 |
SQL、数据建模、数据安全 |
网络/IO: 仅是元数据创建操作,负载低。后续查询视图时,其硬件需求等同于执行其定义查询语句,可能涉及底层表的IO、CPU、网络等。 |
|
184 |
数据查询 |
字符串相似度 (Jaccard相似度) |
将两个字符串视为词项(Token)的集合A和B,计算Jaccard相似度: |
输入参数: |
变量/集合: |
基于集合重叠度的相似度度量,适用于比较文档、短文本的相似性。这是一种文本相似度度量模型。 |
分词方式: 影响结果。范围: 0(无重叠)到1(完全相同)。管控目标: 能有效区分相似和不同的文本。 |
|
依赖分词器和集合运算(交集、并集)。 |
对词序不敏感。可用于去重或聚类。 |
1. 边界测试: 完全相同和完全不同的字符串,相似度应为1和0。 |
自然语言处理、信息检索 |
CPU: 分词、构建集合、计算交集和并集,CPU密集型,尤其文本长时。内存: 需要存储两个词项集合。 |
|
185 |
数据转换 |
数据分箱 (基于决策树) |
使用决策树(如CART)以目标变量为指导,对数值特征进行分箱,使得箱内的目标变量纯度最高(如基尼指数最小化)。 |
输入参数: |
变量: |
一种有监督的离散化方法,分箱结果能最大化特征与目标变量的预测能力。这是一种有监督特征离散化模型。 |
最大箱数 |
|
依赖决策树算法实现(如CART)。 |
需有监督标签。可能过拟合,需适当剪枝。 |
1. 信息值提升测试: 比较分箱前后的特征信息值(IV)或WOE。 |
机器学习、特征工程、决策树 |
CPU: 训练决策树是CPU密集型,特征和目标数据量越大越耗时。内存: 需要存储特征和目标数据,以及树结构。 |
|
186 |
数据质量 |
数据量同比监控 |
比较当前时间段的数据量 |
输入参数: |
变量/标量: |
消除季节性影响,从年周期角度分析数据量的增长趋势。这是一种长期业务趋势分析模型。 |
同比周期: 通常为年。管控目标: 增长率符合业务预期,异常波动可告警。 |
|
依赖历史数据查询和时间对齐。 |
需确保对比周期一致(如都是自然年、财年)。 |
1. 计算测试: 验证计算公式正确。 |
业务分析、时间序列 |
IO/网络: 需要查询历史同期数据,产生IO。CPU: 简单计算。 |
|
187 |
数据操作 |
数据湖表备份 (逻辑备份) |
将表的数据和结构以逻辑格式(如SQL INSERT语句、CSV文件)导出到备份存储。 |
输入参数: |
变量: |
创建数据的逻辑副本,可用于跨系统迁移、数据归档或特定恢复场景。这是一种逻辑数据备份模型。 |
备份格式: 根据目标系统选择。备份大小: 与表数据量成正比。管控目标: 备份文件完整,可恢复。 |
|
依赖数据导出工具和写入备份存储的能力。 |
逻辑备份通常比物理备份慢,但更灵活。需考虑导出过程中的一致性。 |
1. 完整性测试: 备份完成后,验证备份文件数量、大小和checksum。 |
数据备份、数据迁移 |
IO: 读取源表数据是主要IO负载。网络: 将备份文件写入备份存储(可能在远程)消耗网络带宽。CPU: 数据序列化为逻辑格式(如生成SQL)消耗CPU。存储: 需要额外的备份存储空间。 |
|
188 |
数据查询 |
数组长度获取 |
获取数组类型字段的元素个数。 |
输入参数: |
变量: |
基础数组操作,用于分析或过滤。 |
返回值: 非负整数。管控目标: 计算准确,对NULL数组返回NULL或0。 |
|
依赖数组长度属性或计数函数。 |
简单直接。 |
1. 功能测试: 用已知长度的数组测试,验证返回正确。 |
数据结构、数组操作 |
CPU: 通常为O(1)操作,开销极小。内存: 无额外消耗。 |
|
189 |
数据转换 |
数据编码 (Frequency Encoding) |
用类别在数据集中出现的频率(或计数)来替换类别标签。 |
输入参数: |
变量: |
将类别信息转换为数值,同时保留了类别的分布信息。这是一种基于统计的特征编码模型。 |
编码值范围: 频率在(0,1],计数为正整数。管控目标: 映射关系基于训练集统计,保持一致。 |
|
依赖频率映射查找。 |
对未见过的类别需处理(如用全局平均频率或特殊值)。 |
1. 一致性测试: 相同输入必须产生相同输出。 |
机器学习、特征工程 |
CPU: 主要是查表操作,开销小。内存: 需要存储频率映射表。 |
|
190 |
数据质量 |
字段格式统一 (Trim) |
去除字符串字段首尾的空白字符(空格、制表符、换行符)。 |
输入参数: |
变量: |
基础数据清洗操作,消除因输入不规范导致的数据不一致。这是一种数据标准化模型。 |
处理字符: 通常包括空格、\t, \n, \r。管控目标: 去除无效空白,保留中间空格。 |
|
依赖字符串trim函数。 |
有时也需处理中间的多余空格。 |
1. 功能测试: 输入带首尾空格的字符串,验证输出已去除。 |
数据清洗、字符串处理 |
CPU: 字符串遍历,开销小。内存: 需存储原字符串和结果。 |
|
191 |
数据操作 |
数据湖表视图删除 |
删除已创建的视图。 |
输入参数: |
变量: |
清理不再需要的逻辑视图。这是一种元数据清理操作。 |
级联删除: 通常不级联,但需检查是否有其他对象依赖此视图。管控目标: 删除成功,不影响基表。 |
|
依赖SQL引擎的DROP VIEW功能。 |
删除前应检查依赖关系。 |
1. 功能测试: 删除视图后,验证该视图不可查询。 |
元数据管理、SQL |
网络/IO: 仅是元数据删除操作,对元数据服务器产生少量IO。 |
|
192 |
数据查询 |
条件最小值 (MINIF) |
计算满足特定条件的记录在某个数值列上的最小值。 |
输入参数: |
变量: |
带条件的聚合求最小值。这是一种带条件的聚合模型。 |
条件复杂度: 可简单可复杂。管控目标: 计算结果准确,处理无满足条件记录的情况。 |
|
依赖条件表达式求值和最小值查找功能。 |
是条件聚合家族的一员。 |
1. 正确性测试: 手动计算小数据集满足条件的数值最小值,与函数输出比对。 |
SQL、数据分析 |
CPU: 需要对每条记录进行条件判断和选择性比较,是CPU密集型。IO: 需要扫描相关列。 |
|
193 |
数据转换 |
数据分箱 (基于信息值-最优分箱) |
通过最大化分箱后的信息值(IV)或证据权重(WOE)来进行分箱,通常使用合并算法,递归地合并相邻箱直到满足停止条件(如卡方检验、IV变化)。 |
输入参数: |
变量: |
在信用评分等领域常用的有监督分箱方法,旨在使分箱后的特征对目标有最强的预测能力和单调性。这是一种有监督最优离散化模型。 |
最大箱数 |
|
依赖IV/WOE计算和合并算法(如ChiMerge, Best-KS)。 |
需要二分类目标。分箱结果应具有业务可解释性。 |
1. IV提升测试: 验证分箱后IV值较粗分箱有提升。 |
风险管理、信用评分、特征工程 |
CPU: 合并算法需要多次迭代计算统计量(如卡方),是CPU密集型。内存: 需要存储特征和目标数据,以及中间分箱状态。 |
|
194 |
数据质量 |
数据类型一致性校验 |
检查数据集中某列的实际值与声明的数据类型是否兼容。例如,数值列是否包含非数字字符。 |
输入参数: |
变量: |
确保数据符合模式定义,是数据基础质量的重要一环。这是一种模式符合性校验模型。 |
目标类型: 整数、浮点数、日期、布尔值等。管控目标: 类型不一致的记录比例低于阈值(如0.01%)。 |
|
依赖类型转换或解析函数,并捕获转换错误。 |
对于字符串列,可检查是否符合特定模式(如日期格式)。 |
1. 功能测试: 构造类型兼容和不兼容的数据,验证函数能正确识别。 |
数据验证、模式管理 |
CPU: 需要对每个值进行类型转换尝试或模式匹配,是CPU密集型。IO: 需要扫描该列数据。 |
|
195 |
数据操作 |
数据湖表统计信息删除 |
删除为表收集的统计信息,以便重新收集或解决统计信息错误导致的问题。 |
输入参数: |
变量: |
清理旧的或错误的统计信息。这是一种统计信息管理操作。 |
删除范围: 可指定表或分区。管控目标: 统计信息被清除,后续查询优化器将使用默认估算。 |
|
依赖SQL引擎的统计信息删除命令。 |
通常在重新收集统计信息前执行,或作为问题排查步骤。 |
1. 功能测试: 删除后,通过系统表查询验证统计信息已消失。 |
查询优化、数据库管理 |
网络/IO: 主要是与元数据/统计信息服务器的交互,负载低。 |
|
196 |
数据查询 |
字符串反转 (Reverse) |
将字符串的字符顺序反转。 |
输入参数: |
变量: |
基础字符串操作,有时用于数据清洗或特定算法。 |
输出长度: 与输入相同。管控目标: 反转结果正确。 |
|
依赖字符串反转函数。 |
简单直接。 |
1. 功能测试: 用已知字符串测试反转结果。 |
字符串处理 |
CPU: 需要遍历并反转字符串,开销与字符串长度成正比。内存: 需存储原字符串和结果。 |
|
197 |
数据转换 |
数据降维 (t-SNE) |
一种非线性降维方法,用于高维数据可视化。其目标是使在高维空间相似的数据点在低维映射中也相似。通过优化KL散度损失函数实现。 |
输入参数: |
变量/矩阵: |
特别擅长在二维或三维空间中展示高维数据的聚类结构。这是一种流形学习与可视化模型。 |
目标维度: 2 或 3。困惑度 |
|
依赖t-SNE算法实现(如scikit-learn)。 |
计算成本高,难以解释低维坐标的具体含义。结果受初始化和参数影响。 |
1. 可视化检查: 对带标签的数据降维后绘图,观察同类点是否聚集。 |
机器学习、数据可视化、流形学习 |
CPU: t-SNE优化过程计算复杂度高,非常CPU密集型,数据量大时极慢。内存: 需要计算和存储成对相似度矩阵,内存消耗为O(N^2),限制其数据规模。GPU: 有GPU加速实现(如CUML)可大幅提升速度。 |
|
198 |
数据质量 |
记录级逻辑删除状态校验 |
检查标记为“已删除”的记录,其删除时间 |
输入参数: |
变量: |
确保软删除记录的数据在业务逻辑上是自洽的。这是一种数据逻辑一致性校验模型。 |
规则: 如 |
|
依赖字段提取和逻辑表达式求值。 |
规则需根据具体业务制定。 |
1. 规则测试: 构造符合和违反规则的测试记录,验证函数判断正确。 |
数据建模、业务规则 |
CPU: 简单的字段比较和逻辑判断,开销小。 |
|
199 |
数据操作 |
数据湖表存储格式探测 |
自动探测存储路径下数据文件的格式(如Parquet, ORC, Avro, CSV)及其Schema。 |
输入参数: |
变量: |
用于处理未知来源的数据文件,自动识别其类型和结构,便于后续加载。这是一种数据发现与模式推断模型。 |
支持格式: 常见列式、行式存储格式。置信度: 基于文件扩展名、魔数、内容解析。管控目标: 探测准确率高。 |
|
依赖各种文件格式的解析器,用于读取文件头部元数据。 |
对于复杂嵌套结构,推断的Schema可能不完整。 |
1. 格式识别测试: 用各种格式的文件测试,验证能正确识别。 |
数据发现、模式推断 |
IO: 需要读取文件的头部或部分数据以进行探测,产生IO。CPU: 调用不同格式的解析器尝试解析,消耗CPU。 |
|
200 |
数据查询 |
条件最大值 (MAXIF) |
计算满足特定条件的记录在某个数值列上的最大值。 |
输入参数: |
变量: |
带条件的聚合求最大值。这是一种带条件的聚合模型。 |
条件复杂度: 可简单可复杂。管控目标: 计算结果准确,处理无满足条件记录的情况。 |
|
依赖条件表达式求值和最大值查找功能。 |
是条件聚合家族的一员。 |
1. 正确性测试: 手动计算小数据集满足条件的数值最大值,与函数输出比对。 |
SQL、数据分析 |
CPU: 需要对每条记录进行条件判断和选择性比较,是CPU密集型。IO: 需要扫描相关列。 |
|
201 |
数据转换 |
数据脱敏 (一致性替换) |
在整个数据集范围内,相同的原始值始终被替换为相同的脱敏值,保持跨记录、跨表的关联一致性。 |
输入参数: |
变量: |
在保护隐私的同时,保持数据中基于该字段的关联关系(如JOIN)依然有效。这是一种保持关联的脱敏模型。 |
算法: 使用带盐的确定性哈希函数(如HMAC-SHA256)。管控目标: 相同输入必产生相同输出,且不可逆。 |
|
依赖确定性哈希函数。 |
盐值 |
1. 一致性测试: 用相同值多次调用,验证输出一致。 |
数据安全、隐私计算 |
CPU: 计算哈希,CPU密集型。内存: 无显著消耗。 |
|
202 |
数据质量 |
数据血缘影响分析 |
给定一个数据资产(如表、字段),分析其下游依赖,评估当其发生变更或故障时,会影响哪些下游数据产品、报表或应用。通过血缘图 |
输入参数: |
变量/集合: |
用于变更影响评估、故障根因分析和数据产品下线评估。这是一种基于图论的影响传播分析模型。 |
分析深度: 可限制最大层数。管控目标: 分析结果准确,无遗漏关键下游。 |
|
依赖完整的字段级数据血缘图谱。 |
血缘的准确性和完整性直接影响分析结果。 |
1. 准确性测试: 在已知血缘的小型数据集上手动推导影响范围,与工具输出比对。 |
数据治理、影响分析、图论 |
CPU/内存: 在血缘图上进行图遍历(如BFS),消耗CPU和内存,血缘图越大越复杂,消耗越大。网络/IO: 需要从血缘元数据存储中加载图谱数据。 |
|
203 |
数据操作 |
数据湖表存储层级设置 |
设置表或分区的存储层级(Storage Tier),如热(Hot)、冷(Cool)、归档(Archive),以优化存储成本。 |
输入参数: |
变量: |
根据数据访问频率和性能要求,将数据存放在不同成本的存储介质上,实现成本优化。这是一种存储成本分层管理操作。 |
存储层级: 由底层对象存储支持(如Azure Hot/Cool/Archive, S3 Standard/IA/Glacier)。管控目标: 层级设置成功,后续数据访问符合该层级的SLA和成本。 |
|
依赖数据湖表格式与底层对象存储生命周期的集成。 |
更改层级可能导致后续查询延迟增加或恢复成本。 |
1. 功能测试: 设置层级后,通过存储系统控制台或API验证属性已生效。 |
存储管理、成本优化 |
网络/IO: 主要是元数据属性更新操作。但存储层级的改变会影响后续数据访问的IO性能(如从归档层读取需要恢复,延迟高)和成本。 |
|
编号 |
类型 |
函数/算法类型 |
函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表 |
参数类型和参数列表 |
参数/变量/常量/标量/张量/矩阵/集合列表 |
数学表达式/物理模型/计算机模型/通信模型/关联描述 |
典型值/范围 (管控目标) |
核心关联参数 |
依赖关系 |
设计/软件开发/硬件制造/应用要求 |
测试/验证方法 |
关联学科/领域 |
对网络、PCIE总线、Serdes、IO部件、CPU、GPU、内存、SSD/NVME SSD/HDD盘的需求 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
204 |
数据操作 |
复杂事件处理 (CEP) 模式匹配 |
在事件流上定义模式 |
输入参数: |
变量/集合: |
在连续事件流中检测预定义的复杂模式(如欺诈行为、系统故障链)。这是一种事件流模式检测模型。 |
模式复杂度: 可支持多事件、否定、循环等。时间窗口: 秒到分钟级。管控目标: 低延迟检测,模式匹配准确。 |
|
依赖复杂事件处理引擎(如Flink CEP, Esper)。 |
模式定义语言需强大且易用。需高效管理部分匹配的状态。 |
1. 模式测试: 构造符合和不符合模式的事件序列,验证能正确检测。 |
复杂事件处理、流计算 |
内存: 需要为每个活跃的部分模式匹配维护状态,模式复杂且并发高时消耗大内存。CPU: 事件模式匹配逻辑(状态转移)消耗CPU。网络: 事件流摄入和结果输出产生网络流量。 |
|
205 |
数据查询 |
向量相似性搜索 (基于量化的倒排IVF-PQ) |
1. 倒排索引(IVF):通过聚类(如K-Means)将向量划分为 |
输入参数: |
变量/数据结构: |
工业界最常用的大规模向量检索方案,结合倒排索引的快速筛选和PQ的压缩与快速计算,在精度和速度间取得平衡。这是一种混合近似最近邻搜索模型。 |
|
|
依赖FAISS等向量检索库的IVFPQ索引实现。 |
需离线训练粗量化器和PQ码本。索引需定期更新(重建或增量)。 |
1. 召回率-性能曲线: 调整 |
信息检索、机器学习、高维索引 |
内存: 索引需常驻内存,包括聚类中心、PQ码本和压缩后的向量数据,内存消耗与数据量成正比但经PQ压缩。CPU: 距离计算转化为查表和加法,可高度并行。GPU: IVFPQ是GPU加速向量检索的典型场景,利用数千核心并行计算,性能提升数十倍。 |
|
206 |
数据转换 |
数据令牌化 (Tokenization for LLM) |
使用预训练词表(如BPE, WordPiece, SentencePiece)将文本分割为子词(Subword)或词元(Token)。例如BPE算法迭代合并最高频的字节对。 |
输入参数: |
变量/列表: |
大型语言模型(LLM)预处理的关键步骤,将文本转化为模型可理解的数字ID序列。这是一种自然语言预处理模型。 |
词表大小: 数万到数十万(如CLIP 49408, LLaMA 32000)。输出长度: 受模型最大上下文长度限制。管控目标: 分词结果与模型训练时一致,支持多种语言。 |
|
依赖分词算法实现和预训练词表文件。 |
需与下游LLM模型使用的分词器完全一致。需处理截断和填充。 |
1. 往返测试: 将文本分词后再解码回文本,应尽可能还原(子词分词可能无法完全还原)。 |
自然语言处理、大语言模型 |
CPU: 字符串匹配和查找操作,CPU密集型,尤其长文本。可并行化。内存: 需要加载大型词表到内存。GPU: 在GPU端进行批量分词可加速(如NVIDIA的FasterTransformer)。 |
|
207 |
数据质量 |
数据新鲜度SLA监控 |
定义并监控数据产出的SLA(服务水平协议),如表T的分区 |
输入参数: |
变量: |
以业务契约的形式管理数据产出时效,是数据运维的核心。这是一种基于SLA的数据就绪性监控模型。 |
SLA定义: 如“每日分区在08:00前就绪”。允许宽限期: 如5分钟。管控目标: SLA达成率 > 99.9%。 |
|
依赖分区就绪性检测功能和时间计算。 |
SLA需与业务方共同制定。需建立清晰的预警和升级机制。 |
1. 计算测试: 模拟不同就绪时间,验证SLA状态和延迟计算正确。 |
数据运维、SLA管理 |
网络/IO: 检测分区就绪需要查询元数据,产生少量网络/IO。核心是对监控系统本身的可靠性和及时性要求高。 |
|
208 |
数据操作 |
数据湖表时间旅行查询 (Time Travel) |
查询表在历史某个时间点 |
输入参数: |
变量: |
利用数据湖表格式的多版本特性,查询过去任意时刻的数据状态,用于审计、调试和回滚分析。这是一种数据时间旅行查询模型。 |
可查询范围: 取决于版本保留策略(如7天、30天)。管控目标: 查询结果准确反映历史状态,性能可接受。 |
|
依赖支持时间旅行查询的表格式(如Delta Lake, Iceberg)。 |
需管理历史版本保留策略以控制存储成本。 |
1. 正确性测试: 在已知时间点写入数据,之后查询该时间点,验证结果与当时一致。 |
数据版本、审计、数据分析 |
IO: 时间旅行查询可能需要读取旧版本的数据文件,这些文件可能已不在缓存中,或位于冷存储层,因此IO延迟可能高于查询当前数据。网络: 如果旧文件存储在远端/归档层,需网络传输。 |
|
209 |
数据查询 |
地理热力图生成 (Kernel Density Estimation) |
对点数据集 |
输入参数: |
变量/函数: |
将离散的点数据转化为连续的密度表面,可视化点的聚集区域。这是一种空间平滑与可视化模型。 |
带宽 |
|
依赖空间核密度估计算法实现(如scikit-learn, GDAL)。 |
计算量随点数和网格分辨率呈平方增长,可能需要优化或近似算法。 |
1. 可视化检查: 生成热力图,人工判断是否合理反映了点密度。 |
地理信息系统 (GIS)、空间统计、数据可视化 |
CPU: 核密度计算需要对每个网格点计算与所有数据点的核函数值,复杂度O(点数网格数),极度CPU密集型。GPU: 非常适合GPU并行加速,每个网格点计算可独立并行。内存*: 需要存储点集和生成的密度矩阵。 |
|
210 |
数据转换 |
模型特征重要性评估 (SHAP) |
基于博弈论的Shapley值,解释单个预测中每个特征的贡献。 |
输入参数: |
变量/集合: |
提供模型预测的局部可解释性,指出对于单个样本,每个特征是如何影响最终预测值的。这是一种模型可解释性算法。 |
背景数据大小: 通常几十到几百个样本。计算近似: 对于特征多的模型,需使用近似算法(如KernelSHAP, TreeSHAP)。管控目标: SHAP值之和应等于预测值减去平均预测。 |
|
依赖SHAP算法库(如shap)。 |
计算精确Shapley值是指数级的,需使用模型特化的高效算法(如TreeSHAP用于树模型)。 |
1. 加和一致性测试: 验证 |
机器学习、可解释AI (XAI)、博弈论 |
CPU: SHAP值计算,特别是精确计算或使用KernelSHAP时,计算复杂度高,是CPU密集型。内存: 需要存储背景数据和中间计算结果。对于TreeSHAP,内存消耗与树深度和背景数据量有关。 |
|
211 |
数据质量 |
数据血缘完整性校验 |
检查数据加工流水线中,从原始数据源到最终消费层的完整链路是否都有血缘信息记录,识别出血缘断点。 |
输入参数: |
变量/图: |
确保数据治理的基础——血缘信息的完备性,是进行影响分析、根因追溯的前提。这是一种元数据质量校验模型。 |
校验粒度: 表级、字段级。管控目标: 核心业务流水线的血缘完整率达到100%。 |
|
依赖流水线元数据和血缘图谱的查询接口。 |
需明确定义“核心流水线”。血缘采集工具需覆盖所有数据处理组件(ETL、SQL、代码)。 |
1. 覆盖测试: 在已知的完整流水线上运行校验,应报告完整。 |
数据治理、元数据管理 |
网络/IO: 需要从元数据仓库查询流水线和血缘信息,产生网络和IO。CPU: 图结构的比对和遍历,消耗CPU,但数据量通常不大。 |
|
212 |
数据操作 |
数据湖缓存预热 (Cache Warming) |
根据预测的查询模式,主动将热点表或分区的数据加载到计算引擎(如Spark, Presto)的分布式缓存或本地SSD缓存中。 |
输入参数: |
变量: |
通过预先加载数据,避免用户查询时的“冷启动”延迟,提升查询性能的稳定性。这是一种查询性能优化操作。 |
预热策略: 基于历史访问模式、定时(如每日凌晨)、事件触发。缓存大小: 需监控防止挤占其他资源。管控目标: 预热后相关查询的P99延迟显著降低。 |
|
依赖计算引擎的缓存API和分布式文件系统客户端。 |
需精准预测热点数据,避免无效预热浪费资源。缓存一致性需考虑(数据更新时缓存失效)。 |
1. 性能提升测试: 对比预热前后,对目标数据查询的首次和平均响应时间。 |
性能优化、缓存系统 |
网络: 预热过程需要从远程存储(如S3)读取数据到计算节点,消耗大量网络带宽。 |
|
213 |
数据查询 |
流式Top-N (滑动窗口) |
在滑动窗口 |
输入参数: |
变量/数据结构: |
实时统计流数据中的热点项,如热搜词、热门商品。这是一种流式频繁项挖掘模型。 |
窗口大小: 如最近1小时。N值: 如10, 20。管控目标: 结果近似准确(允许误差),低延迟更新。 |
|
依赖流处理引擎的窗口机制和近似Top-N算法实现。 |
精确计算需要维护所有元素的计数,内存消耗大。近似算法以精度换空间。 |
1. 准确性测试: 在有限流上对比近似算法结果与精确排序结果,评估误差。 |
流计算、数据挖掘 |
内存: 近似算法(如SpaceSaving)需要固定大小的内存(O(N))来维护候选列表,内存消耗可控。 |
|
214 |
数据转换 |
数据增强 (Mixup) |
对两个样本 |
输入参数: |
变量/向量: |
一种在特征和标签空间同时进行插值的正则化技术,鼓励模型在训练样本之间线性行为,提高泛化能力。这是一种计算机视觉/深度学习中的数据增强与正则化模型。 |
|
|
依赖随机数生成和向量运算。 |
主要用于分类任务。对标签平滑也有贡献。 |
1. 数值验证: 验证混合后的特征和标签是原始样本的凸组合。 |
深度学习、正则化、数据增强 |
CPU/GPU: 主要是向量线性运算,可高度并行化,非常适合GPU加速,是计算密集型。 |
|
215 |
数据质量 |
数据沿袭可信度评估 |
为血缘图中的边(转换关系)赋予可信度分数,基于证据如:转换逻辑的确定性、血缘采集方法的可靠性、历史校验的准确率。 |
输入参数: |
变量: |
认识到血缘信息可能不精确,通过量化其可信度,帮助用户更明智地使用血缘进行分析。这是一种元数据质量量化模型。 |
可信度分级: 如高(>0.8)、中(0.5-0.8)、低(<0.5)。管控目标: 核心转换关系的可信度应尽可能高。 |
|
依赖多种元数据和证据的采集与融合能力。 |
证据可包括:SQL解析的确定性、ETL作业日志、数据对比校验结果。 |
1. 合理性评估: 由领域专家评估可信度分数是否合理反映其对该血缘关系的信心。 |
数据治理、不确定性管理 |
网络/IO: 需要从多个元数据源和日志系统收集证据,产生额外的网络和IO开销。 |
|
216 |
数据操作 |
数据湖表存储压缩 (重压缩) |
使用更高压缩比的算法(如ZSTD替换SNAPPY)或更优化的字典重新压缩表中的数据文件,以节省存储空间。 |
输入参数: |
变量: |
在不改变数据逻辑内容的前提下,通过升级压缩算法减少物理存储占用,降低存储成本。这是一种存储成本优化操作。 |
新压缩算法: ZSTD, Brotli, LZ4_HC。预期压缩率提升: 10%-30%。管控目标: 压缩过程不影响线上查询,压缩后数据可正确读取。 |
|
依赖数据湖表格式的 |
重压缩是CPU和IO密集型操作,应在业务低峰期进行。需权衡压缩率与解压速度。 |
1. 无损验证: 重压缩后,抽样查询验证数据正确性。 |
存储管理、数据压缩 |
CPU: 数据解压和重压缩是极度CPU密集型的操作,特别是使用ZSTD等高压缩比算法时。 |
|
217 |
数据查询 |
语义搜索 (基于Embedding) |
将查询文本 |
输入参数: |
变量/向量: |
超越关键词匹配,理解查询和文档的语义,找到含义相近的文档。这是一种基于表示学习的检索模型。 |
嵌入模型: 如BERT, Sentence-BERT, OpenAI embeddings。向量维度: 384, 768等。管控目标: 返回结果在语义上与查询相关。 |
|
依赖文本嵌入模型和向量相似性搜索基础设施(如函数205)。 |
嵌入模型的质量是关键。通常需要预计算文档的嵌入向量并建立索引。 |
1. 相关性评估: 人工或通过测试集评估返回文档的语义相关性。 |
自然语言处理、信息检索、语义搜索 |
CPU/GPU: 文本编码(特别是Transformer模型)是计算密集型,GPU能极大加速。 |
|
218 |
数据转换 |
数据漂移缓解 (重要性加权) |
检测到训练集和测试集(或线上数据)分布漂移后,为训练样本重新分配权重 |
输入参数: |
变量/分布: |
通过对训练样本进行加权,使模型在发生分布漂移的测试数据上表现更好。这是一种领域自适应技术。 |
加权算法: 需稳定,避免极端权重。管控目标: 加权后,模型在测试集上的性能(如AUC)得到提升。 |
|
依赖密度比估计算法实现。 |
适用于协变量漂移(特征分布变化,但条件分布P(y|x)相对稳定)。 |
1. 权重合理性检查: 检查权重分布,避免出现极大或极小的权重。 |
机器学习、领域自适应 |
CPU: 密度比估计(如RuLSIF)涉及核函数计算和优化,是CPU密集型。 |
|
219 |
数据质量 |
跨表聚合一致性校验 (星型模型) |
在星型模型中,验证事实表 |
输入参数: |
变量/集合: |
验证数据仓库星型模型中,通过不同维度路径计算同一指标的一致性,确保数据加工正确。这是一种多维数据一致性审计模型。 |
校验路径: 常见的2-3条关键业务路径。容忍误差: 通常为0(因浮点数计算可能导致微小差异)。管控目标: 核心业务指标多路径计算结果必须一致。 |
|
依赖SQL执行引擎,能够执行复杂的多表关联和聚合。 |
是数据仓库质量保障的核心环节。通常作为例行任务运行。 |
1. 功能测试: 构造一个已知一致的小型星型模型,验证校验通过。 |
数据仓库、维度建模、数据质量 |
CPU/IO: 需要执行多条复杂的、涉及大表关联和聚合的SQL查询,是CPU和IO密集型操作,消耗大量资源。 |
|
220 |
数据操作 |
数据湖表元数据导出/导入 |
将表的元数据(Schema, 分区信息, 属性等)导出为文件(如JSON, DDL),并可以导入到另一个环境或集群。 |
输入参数 (导出): |
变量: |
用于表结构的迁移、克隆、环境同步或备份。这是一种元数据迁移与同步操作。 |
导出格式: 应包含重建表所需的所有信息。管控目标: 导出/导入过程原子,导入后表元数据与导出时一致。 |
|
依赖数据湖元数据服务的导出/导入接口,或通过直接查询元数据存储实现。 |
导入时需处理目标表已存在、存储路径映射等问题。通常不包含数据本身。 |
1. 往返测试: 导出表A的元数据,然后导入为表B,验证表B的元数据与表A一致。 |
元数据管理、数据迁移 |
网络/IO: 主要是与元数据服务器的交互和元数据文件的读写,负载较低。 |
|
221 |
数据查询 |
数组聚合 (字符串拼接) |
将分组内某个字符串字段的所有值用指定的分隔符连接成一个字符串。 |
输入参数: |
变量/集合: |
将分组内的多行字符串合并为一行,常用于生成逗号分隔的标签列表、路径等。这是一种行转列(字符串)的聚合模型。 |
分隔符: 逗号、分号、竖线等。结果字符串长度: 可能很长,需注意数据库限制。管控目标: 拼接顺序正确,处理NULL值(通常忽略)。 |
|
依赖SQL引擎的字符串聚合函数(如 |
结果字符串可能超过数据库单字段长度限制。 |
1. 正确性测试: 对小数据集手动分组并拼接字符串,与函数输出比对。 |
SQL、字符串处理 |
CPU/内存: 需要在内存中为每个组构建并连接字符串,消耗CPU和内存,尤其当组内数据量大、字符串长时。 |
|
222 |
数据转换 |
异常值处理 (盖帽法 Winsorization) |
将超出指定分位数(如1%和99%)的极端值替换为该分位数值。 |
输入参数: |
变量: |
一种稳健的异常值处理方法,不直接删除数据,而是将极端值限制在合理范围内。这是一种数据平滑与稳健处理模型。 |
分位数选择: 常用1%-99%或5%-95%。管控目标: 处理后的数据分布更集中,减少了极端值的影响。 |
|
依赖分位数计算函数。 |
盖帽法会改变数据的分布,需结合业务判断。 |
1. 边界测试: 验证处理后所有数据都在[L, U]区间内。 |
统计学、数据清洗 |
CPU: 需要计算分位数(需排序或选择算法)和遍历数组进行替换,CPU密集型,可向量化。 |
|
223 |
数据质量 |
数据价值密度评估 |
评估数据集的价值浓度,例如计算非空字段比例、唯一值比例、信息熵等指标的综合得分。 |
输入参数: |
变量: |
从信息含量、完整性、独特性等维度量化数据集的价值,用于数据资产管理和优先级排序。这是一种数据资产价值评估模型。 |
评估指标: 可自定义组合。得分范围: 可归一化到[0,1]。管控目标: 得分能相对客观地反映数据的可利用价值。 |
|
依赖多种数据质量指标的计算函数。 |
权重的设定需要结合业务场景。可用于指导数据治理资源的投入。 |
1. 人工验证: 由数据资产管理员评估得分是否与主观判断相符。 |
数据治理、数据资产管理 |
CPU/IO: 需要计算多个数据质量指标,其硬件需求是这些指标计算需求的总和,通常是CPU和IO密集型。 |
|
224 |
数据操作 |
数据湖表存储加密 (客户端加密) |
在数据写入数据湖存储前,在客户端使用密钥进行加密;读取时在客户端解密。加密可作用于文件级别或行列级别。 |
输入参数 (写入): |
变量: |
在客户端侧提供端到端加密,确保数据在传输和静态存储时(即使存储服务提供商不可信)的机密性。这是一种客户端增强的数据安全模型。 |
加密算法: AES-256-GCM。密钥管理: 需集成KMS(密钥管理系统)。管控目标: 加解密过程对应用透明,性能开销可接受。 |
|
依赖加密算法库和KMS客户端。 |
密钥管理是关键。需考虑加密后数据是否仍支持压缩、谓词下推等优化。 |
1. 安全性测试: 验证加密后的数据在存储中不可读。 |
数据安全、密码学 |
CPU: 加解密是CPU密集型操作,现代CPU的AES-NI指令集可加速。 |
|
225 |
数据查询 |
路径查询 (图数据库) |
在图 |
输入参数: |
变量/图: |
查询图结构中顶点间的连接关系,用于社交网络、知识图谱、供应链分析等。这是一种图查询与遍历模型。 |
图规模: 可支持数十亿顶点和边(依赖图数据库)。路径长度: 通常查询较短路径(如3-6度)。管控目标: 查询响应快,能处理复杂的模式约束。 |
|
依赖图数据库(如Neo4j, TigerGraph)或图计算框架的查询接口。 |
需建立合适的图索引以加速查询。 |
1. 正确性测试: 在小图上手动推导路径,与查询结果比对。 |
图数据库、图论、社交网络分析 |
内存: 图数据(邻接表、属性)需要加载到内存以实现毫秒级查询,对内存容量要求高。 |
|
226 |
数据转换 |
模型蒸馏 (Knowledge Distillation) |
将大型、复杂的教师模型 |
输入参数: |
变量/模型: |
获得一个体积小、推理快但性能接近大模型的小模型,便于部署在资源受限的环境。这是一种模型压缩与迁移学习技术。 |
温度 |
|
依赖深度学习框架和教师模型。 |
需要未标注或已标注数据。学生模型结构需精心设计。 |
1. 性能对比测试: 对比学生模型与教师模型在测试集上的准确率等指标。 |
机器学习、模型压缩、深度学习 |
GPU: 蒸馏训练过程涉及前向传播(教师和学生)和反向传播(学生),是计算密集型,强烈依赖GPU进行训练加速。 |
|
227 |
数据质量 |
记录级版本比对 (Diff) |
比较同一记录在两个不同版本(如昨天和今天)之间的所有字段变化,生成详细的变更日志。 |
输入参数: |
变量: |
细粒度的数据变更追踪,用于审计、数据同步冲突检测和渐变维(SCD)管理。这是一种记录级变更追踪模型。 |
比对字段: 通常为所有业务字段。管控目标: 准确识别所有发生变化的字段及其值。 |
|
依赖字段级别的值比较。 |
需处理NULL值的比较语义。可忽略某些字段(如更新时间戳)。 |
1. 功能测试: 构造包含增、改、无变化的字段组合,验证变更日志正确。 |
数据变更、审计、SCD |
CPU: 需要对记录的每个字段进行值比较,记录数和字段数多时消耗CPU。 |
|
228 |
数据操作 |
数据湖表存储格式转换 (Transmute) |
将表的存储格式从一种转换为另一种(如CSV -> Parquet),同时可能重新分区、排序、压缩。 |
输入参数: |
变量: |
综合性的存储优化操作,旨在提升查询性能、降低存储成本。这是一种存储格式与布局优化操作。 |
目标格式: Parquet, ORC。分区/排序: 根据典型查询模式设计。管控目标: 转换后查询性能显著提升,存储占用优化。 |
|
依赖数据重写作业(如Spark)和相应格式的编解码器。 |
转换代价高,需充分评估收益。新布局应适配多数查询,而非单一查询。 |
1. 数据正确性测试: 转换后抽样查询验证数据一致。 |
存储管理、性能优化 |
CPU: 数据读取、解码、可能的转换、编码、压缩,是极度CPU密集型。 |
|
229 |
数据查询 |
流式去重 (精确去重) |
在无界数据流上,基于某个键(如用户ID、请求ID)精确去重,通常通过维护一个存储(如RocksDB状态后端)来记录已出现的键。 |
输入参数: |
变量/集合: |
在流处理中移除重复记录,例如确保同一订单不会因重试而被处理多次。这是一种流式状态管理模型。 |
状态TTL: 根据业务设定,如1小时、1天。管控目标: 在TTL内精确去重,状态管理开销可控。 |
|
依赖流处理引擎的状态后端(如RocksDB)和TTL功能。 |
精确去重需要存储所有已见键,状态可能无限增长,必须设置TTL。 |
1. 功能测试: 在流中发送重复键记录,验证只有第一条被输出。 |
流计算、数据清洗 |
内存/SSD: 状态后端(如RocksDB)将活跃键存内存,非活跃键溢写到SSD。键的基数高时,对SSD的IOPS和容量有较高要求。 |
|
230 |
数据转换 |
数据增强 (随机擦除 - Cutout/Random Erasing) |
在图像中随机选择一个矩形区域,并将其像素值设置为0(或随机值)。 |
输入参数: |
变量/矩阵: |
一种正则化技术,强迫模型不过度依赖图像的局部特征,提高泛化能力。这是一种计算机视觉中的数据增强技术。 |
擦除面积比例: 如(0.02, 0.4)。宽高比范围: 如(0.3, 3.3)。管控目标: 增强后的图像仍包含可识别的主体。 |
|
依赖随机数生成和图像区域操作。 |
常用于图像分类和目标检测任务。 |
1. 视觉检查: 人工查看增强后的图像,确认擦除区域随机且合理。 |
计算机视觉、深度学习、数据增强 |
CPU/GPU: 图像区域置零操作,可高度并行化,适合GPU加速。 |
|
231 |
数据质量 |
数据安全分级 |
根据数据的敏感程度(如公开、内部、秘密、绝密)和应用的数据安全政策,为数据资产(表、字段)打上安全等级标签。 |
输入参数: |
变量: |
实现数据分类分级管理,是实施差异化安全管控(如加密、脱敏、访问控制)的基础。这是一种数据安全治理模型。 |
安全等级: 通常3-5级。策略: 可基于规则(如字段名、数据类型匹配)或基于内容(如使用ML模型识别敏感信息)。管控目标: 分级准确,覆盖所有数据资产。 |
|
依赖规则引擎或敏感信息识别模型。 |
分级需定期复审和更新。标签需持久化存储并与权限系统集成。 |
1. 准确性测试: 由安全专家评估自动分级结果是否符合预期。 |
数据安全、数据治理 |
CPU: 如果使用基于内容的ML模型进行分级,则推理过程是CPU/GPU密集型。如果使用规则,则开销小。 |
|
232 |
数据操作 |
数据湖表存储成本分析 |
分析表的存储成本,包括原始数据大小、索引大小、副本数、存储层级分布,并估算月度成本。 |
输入参数: |
变量: |
量化数据资产的存储开销,为成本优化(如归档、压缩、清理)提供决策依据。这是一种存储成本分析模型。 |
定价模型: 根据云服务商或本地存储成本设定。分析粒度: 表级、分区级。管控目标: 成本报告准确,能识别出“成本大户”。 |
|
依赖文件系统清单工具(如 |
需考虑存储类型(标准、低频、归档)、请求次数、数据取回费用等综合成本。 |
1. 准确性验证: 手动计算一个小表的成本,与工具输出比对。 |
成本优化、云财务管理 (FinOps) |
网络/IO: 获取大规模表的详细存储清单(文件大小、位置)可能需要对存储系统进行列表操作,产生显著的IO和网络流量(如果存储是远程的)。 |
|
233 |
数据查询 |
条件连接 (Conditional JOIN) |
在连接条件中不仅包含等值匹配,还包含其他复杂的谓词条件。 |
输入参数: |
变量/集合: |
扩展了等值连接的能力,支持更灵活的关联逻辑。这是一种广义的连接操作模型。 |
条件复杂度: 可包含比较运算符、范围、函数等。管控目标: 连接逻辑正确,性能可接受(非等值连接可能无法使用某些优化)。 |
|
依赖SQL引擎对复杂连接条件的支持。 |
非等值连接(如 |
1. 逻辑正确性测试: 构造小数据,手动推导连接结果,与查询结果比对。 |
SQL、查询优化 |
CPU/IO/网络: 非等值连接通常无法使用基于哈希的高效连接算法,可能需要嵌套循环或排序合并连接,计算和IO复杂度更高,可能产生更多中间数据网络传输。 |
|
234 |
数据转换 |
数据重采样 (时间序列) |
将时间序列从一种频率转换为另一种频率(如将分钟数据聚合为小时数据,或将日数据插值为小时数据)。聚合: |
输入参数: |
变量: |
改变时间序列的观测频率,以适应不同分析或模型的需求。这是一种时间序列频率转换模型。 |
目标频率: 高于原频为升采样(可能需要插值),低于为降采样(聚合)。方法选择: 根据业务意义(如交易量用sum,价格用mean)。管控目标: 重采样后数据逻辑正确,信息损失可控。 |
|
依赖时间序列重采样库(如Pandas的 |
需处理时间序列索引的时区和缺失值。 |
1. 聚合正确性测试: 对降采样,手动计算聚合值进行验证。 |
时间序列分析、金融分析 |
CPU: 重采样涉及时间窗口的遍历和聚合/插值计算,CPU密集型,序列长时更甚。 |
|
235 |
数据质量 |
模型性能监控与漂移 (模型性能衰减) |
监控部署模型在生产环境中的性能指标(如准确率、AUC、F1),当指标持续低于阈值或显著下降时发出警报。 |
输入参数: |
变量/标量: |
确保线上模型持续有效,及时发现因数据漂移或概念漂移导致的模型性能衰减。这是一种机器学习模型运维 (MLOps) 监控模型。 |
监控频率: 天级或实时。基线: 模型验证集性能或上线初期性能。阈值: 相对下降5%或10%。管控目标: 及时发现性能衰减,触发模型重训练流程。 |
|
依赖模型服务日志、真实标签收集和指标计算库。 |
真实标签的获取可能有延迟。需结合数据漂移检测进行根因分析。 |
1. 指标计算测试: 用已知预测和标签验证性能指标计算正确。 |
机器学习运维 (MLOps)、模型监控 |
网络/IO: 需要收集模型预测日志和真实标签,可能涉及跨系统数据传输。 |
|
236 |
数据操作 |
数据湖表数据抽样 (TABLESAMPLE) |
对表进行快速、近似的随机抽样,通常基于数据块(Block)或系统行号,避免全表扫描。 |
输入参数: |
变量: |
快速获取表的近似样本,用于数据探索、预览或快速测试,性能远高于 |
抽样方法: BERNOULLI(行级别随机,扫描全表但跳过行)、SYSTEM(块级别随机,更快但不一定均匀)。比例: 0.1% - 10%。管控目标: 采样速度极快,样本具有代表性。 |
|
依赖数据库/SQL引擎的 |
SYSTEM采样在数据有序存储时可能有偏差。 |
1. 速度测试: 对比 |
SQL、数据分析、数据探索 |
IO: |
|
237 |
数据查询 |
地理空间叠加分析 (Overlay) |
对两个空间图层(如多边形集合)进行叠加操作,如求交(Intersection)、求并(Union)、擦除(Erase)。基于计算几何算法(如Vatti clipping algorithm)。 |
输入参数: |
变量/集合: |
GIS核心分析功能,用于分析地理要素的空间关系,如计算用地类型的面积。这是一种空间关系与计算几何模型。 |
几何复杂度: 由顶点数决定。操作类型: 多种布尔运算。管控目标: 计算结果几何体有效,符合OGC标准。 |
|
依赖空间计算库(如GEOS, JTS)的叠加分析功能。 |
计算复杂度高,尤其对复杂多边形。通常需要空间索引加速。 |
1. 正确性测试: 用简单几何体(如两个矩形)手动计算叠加结果,与函数输出比对。 |
地理信息系统 (GIS)、计算几何 |
CPU: 叠加分析算法(如多边形裁剪)非常复杂,是极度CPU密集型操作,几何体越复杂消耗越大。 |
|
238 |
数据转换 |
特征哈希 (Hashing Trick) |
将分类特征(字符串)通过哈希函数映射到固定大小的特征空间(如 |
输入参数: |
变量: |
一种处理高基数分类特征的方法,无需维护特征到索引的映射表,节省内存,但存在哈希冲突。这是一种空间效率型特征编码模型。 |
特征空间大小: 通常为2的幂,如2^18到2^24。冲突概率: 与空间大小和特征数量有关。管控目标: 冲突率在可接受范围内,模型性能影响小。 |
|
依赖哈希函数。 |
适用于词汇表动态变化或极大的场景。冲突会降低特征区分度。 |
1. 分布测试: 验证哈希后的索引在特征空间内大致均匀分布。 |
机器学习、特征工程 |
CPU: 计算哈希值,开销小。 |
|
239 |
数据质量 |
记录级存活时间校验 (TTL校验) |
检查记录是否已超过其业务定义的存活时间(TTL)。例如,验证临时会话数据在超过TTL后已被清理。 |
输入参数: |
变量: |
确保数据生命周期管理策略(如自动清理)被正确执行,防止过期数据残存。这是一种数据生命周期合规性校验模型。 |
TTL时长: 由业务决定,如会话数据30分钟,日志数据30天。管控目标: 过期记录的数量应为0(或低于阈值)。 |
|
依赖时间计算和比较。 |
通常作为审计任务运行,检查应被清理的数据是否仍存在。 |
1. 功能测试: 用已过期和未过期的记录测试,验证判断正确。 |
数据治理、数据生命周期 |
CPU/IO: 需要扫描表并计算时间差,是CPU和IO密集型,尤其当表很大时。 |
|
240 |
数据操作 |
数据湖表跨区域复制 (Cross-Region Replication) |
将表的数据和元数据异步复制到另一个地理区域,用于灾备或降低跨区域访问延迟。 |
输入参数: |
变量: |
实现数据的地理冗余,满足合规性、灾备和全球化业务需求。这是一种数据地理分布与容灾模型。 |
目标区域: 另一个云区域或数据中心。复制延迟: 分钟到小时级(取决于数据量和网络)。管控目标: 复制最终一致,RPO(恢复点目标)可度量。 |
|
依赖底层对象存储的跨区域复制功能(如S3 Cross-Region Replication)或专用复制工具。 |
需考虑网络成本和数据一致性(最终一致)。需在目标区域创建对应的元数据。 |
1. 功能测试: 发起复制后,在目标区域验证表和数据可访问。 |
数据灾备、高可用、全球化 |
网络: 跨区域数据传输消耗大量网络带宽,是主要成本和技术瓶颈,对跨区域网络专线的带宽和稳定性要求极高。 |
|
241 |
数据查询 |
流式窗口连接 (Windowed JOIN) |
将两个流A和B的事件按连接键 |
|
编号 |
类型 |
函数/算法类型 |
函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表 |
参数类型和参数列表 |
参数/变量/常量/标量/张量/矩阵/集合列表 |
数学表达式/物理模型/计算机模型/通信模型/关联描述 |
典型值/范围 (管控目标) |
核心关联参数 |
依赖关系 |
设计/软件开发/硬件制造/应用要求 |
测试/验证方法 |
关联学科/领域 |
对网络、PCIE总线、Serdes、IO部件、CPU、GPU、内存、SSD/NVME SSD/HDD盘的需求 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
242 |
数据操作 |
流式聚合状态快照 (State Snapshot) |
定期将流处理作业的中间状态(如聚合器的累加值、窗口内容)持久化到外部存储(如RocksDB Checkpoint, 远程文件系统)。 |
输入参数: |
变量: |
为实现有状态流处理作业的容错(Fault Tolerance),定期保存一致性检查点,使作业能从故障中恢复而无数据丢失或重复。这是一种流式容错模型。 |
快照间隔: 通常数秒到数分钟。快照大小: 与状态大小成正比。管控目标: 快照对数据处理延迟影响<5%,恢复时间目标(RTO)分钟级。 |
|
依赖流处理引擎的状态后端和快照机制(如Flink Checkpointing)。 |
快照需保证全局一致性(所有算子同一时刻状态)。存储需高可用。 |
1. 恢复测试: 触发快照后,模拟TaskManager故障,验证作业能从最新快照恢复并继续产出正确结果。 |
流计算、容错、分布式系统 |
网络/IO: 将状态快照同步写入远程持久化存储(如HDFS, S3),消耗网络带宽和存储IOPS。 |
|
243 |
数据查询 |
多模态检索 (CLIP图文跨模态) |
使用CLIP等多模态模型,将图像和文本映射到同一向量空间。图像检索文本: |
输入参数: |
变量/向量: |
实现图像和文本之间的相互检索,例如“用文字搜图”或“用图搜文”。这是一种跨模态表示学习检索模型。 |
模型: CLIP, ALBEF等。向量维度: 如512, 768。管控目标: 返回结果跨模态语义相关。 |
|
依赖多模态编码模型和向量检索基础设施。 |
需预计算目标库中所有项的嵌入向量并建立索引。模型质量是关键。 |
1. 相关性评估: 人工评估返回的图文对是否语义匹配。 |
多模态学习、计算机视觉、自然语言处理 |
GPU: 图像和文本的编码(特别是Vision Transformer)极度依赖GPU加速。 |
|
244 |
数据转换 |
时间序列分解 (STL) |
使用STL (Seasonal-Trend decomposition using Loess) 将时间序列 |
输入参数: |
变量/序列: |
将时间序列拆解为趋势、周期性和随机波动,便于单独分析和预测。这是一种时间序列信号分解模型。 |
季节周期: 需明确,如日周期(24)、周周期(168)。平滑参数: 控制分量的平滑程度。管控目标: 分解后残差近似白噪声,季节和趋势项可解释。 |
|
依赖时间序列分解库(如statsmodels的 |
对数据长度有要求(通常至少两个完整周期)。 |
1. 可加性验证: 验证 |
时间序列分析、信号处理 |
CPU: STL涉及多次迭代的局部加权回归,计算复杂度高,是CPU密集型,序列长时更甚。 |
|
245 |
数据质量 |
数据谱系追溯 (Provenance Tracking) |
在数据加工过程中,记录每条输出数据的精确来源,包括使用了哪些输入数据、经过了哪些处理步骤、参数是什么。形成细粒度的、可追溯的数据谱系图。 |
输入参数: |
变量/集合: |
比传统血缘更精细,记录到数据单元级别,用于调试、合规性证明和信任评估。这是一种细粒度数据溯源模型。 |
追溯粒度: 记录级或字段级。信息量: 包括完整处理上下文。管控目标: 谱系信息完整、准确、可查询。 |
|
依赖在数据处理流水线中嵌入式谱系收集框架。 |
收集开销可能较大,需权衡。谱系信息本身需被管理和存储。 |
1. 完整性测试: 对已知处理过程产生的数据,查询其谱系,验证包含了所有关键步骤和输入。 |
数据溯源、可信计算、数据治理 |
网络/IO: 谱系信息的收集和存储产生额外的网络和IO开销,谱系数据量可能很大。 |
|
246 |
数据操作 |
数据湖表存储索引构建 (布隆过滤器索引) |
为表的某个(些)列创建布隆过滤器索引文件,加速等值查询和点查。 |
输入参数: |
变量: |
一种轻量级二级索引,在读取时能快速跳过肯定不包含目标值的数据文件,减少IO。这是一种轻量级数据跳读索引模型。 |
适用列: 高基数、常用于等值过滤的列。误判率: 如0.01。管控目标: 索引能有效过滤文件,对写入性能影响小。 |
|
依赖数据湖表格式的布隆过滤器索引支持(如Parquet, ORC内置)。 |
对范围查询无效。需定期随数据更新而重建或合并。 |
1. 过滤效果测试: 执行带索引列等值过滤的查询,验证执行计划使用了索引进行文件跳读。 |
数据库索引、查询优化 |
CPU: 构建索引时需要为每个值计算多个哈希函数,消耗CPU。 |
|
247 |
数据查询 |
流式异常检测 (Twitter ADVec) |
基于移动窗口统计(均值、标准差)实时检测流数据点的异常。常用3-sigma原则:若 |
输入参数: |
变量/序列: |
对连续到达的数值流进行实时异常评分和报警。这是一种流式统计过程控制模型。 |
窗口大小: 如最近1000个点。阈值: 常用2.5或3。管控目标: 低延迟检测,可配置灵敏度和误报率。 |
|
依赖流处理引擎的窗口聚合功能。 |
对突发和渐进式异常都有效。需处理窗口初始化和边界。 |
1. 检测延迟测试: 注入一个异常点,测量从点到报警的时间差。 |
流计算、异常检测、过程控制 |
内存: 需要维护滑动窗口内的数据或统计量,消耗内存,窗口越大消耗越多。 |
|
248 |
数据转换 |
数据增强 (风格迁移 - Style Transfer) |
将图像 |
输入参数: |
变量/矩阵: |
生成具有艺术风格的新图像,可用于数据增强、创意设计。这是一种计算机视觉中的图像生成与风格化模型。 |
迭代次数: 通常数百次。权重比( |
|
依赖预训练的VGG等网络和优化算法(如L-BFGS)。 |
计算成本高,通常离线进行。有多种快速前向网络实现可用于实时风格迁移。 |
1. 视觉效果评估: 人工评估生成图像的内容保留度和风格化程度。 |
计算机视觉、深度学习、风格迁移 |
GPU: 风格迁移涉及深度网络的前向和反向传播,是极度计算密集型,强烈依赖高性能GPU。 |
|
249 |
数据质量 |
模型输入特征监控 (特征缺失/偏移) |
监控模型服务接收到的在线请求特征,检查是否有特征缺失、类型错误,以及其分布是否与训练集一致(通过PSI等)。 |
输入参数: |
变量/向量: |
确保线上推理请求的特征质量,防止“垃圾进,垃圾出”,是模型监控的第一道防线。这是一种模型输入验证与监控模型。 |
检查项: 非空、类型、范围、分布漂移(PSI)。报警阈值: 可配置。管控目标: 及时发现特征异常,阻断低质量推理请求。 |
|
依赖特征解析、校验规则和分布比较函数。 |
需在线实时或准实时执行,延迟需低。基线分布需定期更新。 |
1. 功能测试: 构造合法和非法的特征请求,验证监控能正确识别。 |
机器学习运维 (MLOps)、数据质量 |
CPU: 特征校验和分布比较(如计算PSI)增加CPU开销,需优化以保证低延迟。 |
|
250 |
数据操作 |
数据湖表存储分层 (Tiered Storage) |
根据数据的访问热度(如最近访问时间、频率),自动将数据文件在不同性能/成本的存储层(如内存、NVMe SSD、SATA SSD、HDD)间迁移。 |
输入参数: |
变量: |
动态优化存储性能和成本,将热数据放在高速存储,冷数据移至廉价存储。这是一种智能存储分层管理模型。 |
热度度量: 访问频率、最近访问时间。迁移阈值: 可配置。迁移粒度: 文件或块级别。管控目标: 提高热点数据访问速度,降低总体存储成本。 |
|
依赖文件系统或对象存储的分层功能,或外部数据管理工具。 |
迁移策略需避免“颠簸”。需考虑迁移本身的开销。 |
1. 策略模拟测试: 用历史访问日志模拟分层策略,验证热数据被正确提升。 |
存储管理、缓存、性能优化 |
网络/IO: 数据在存储层间迁移产生大量的数据复制IO和网络传输(如果跨节点)。 |
|
251 |
数据查询 |
子图匹配 (Subgraph Isomorphism) |
给定查询图 |
输入参数: |
变量/图: |
图数据库和社交网络分析中的核心查询,用于查找特定模式,如“查找三角形关系”。这是一种图模式匹配模型。 |
查询图大小: 通常较小(几个节点)。目标图规模: 可极大。算法: Ullmann, VF2等。管控目标: 匹配结果正确,在可接受时间内返回。 |
|
依赖图同构算法实现(如NetworkX的 |
子图同构是NP完全问题,对稍大的查询图计算代价极高。 |
1. 正确性测试: 在小型图上手动验证匹配结果。 |
图论、图数据库、模式识别 |
CPU: 子图同构是NP完全问题,回溯搜索算法极度CPU密集型,查询图和目标图越大越耗时。 |
|
252 |
数据转换 |
特征选择 (基于树模型的重要性) |
使用树模型(如随机森林、XGBoost)训练后,根据特征在树中的分裂贡献度(如基尼不纯度减少、信息增益)来评估特征重要性,选择重要性高的特征。 |
输入参数: |
变量/矩阵: |
一种基于模型的特征选择方法,能够捕捉非线性关系和交互作用。这是一种有监督特征选择模型。 |
树模型参数: 需调整以防止过拟合。 |
|
依赖树模型训练库和特征重要性计算功能。 |
重要性分数受模型参数和训练数据影响。 |
1. 稳定性测试: 在不同数据子集上训练,观察特征重要性排序是否稳定。 |
机器学习、特征选择 |
CPU: 训练树模型(特别是随机森林、XGBoost)是CPU密集型,特征维数高时更甚。 |
|
253 |
数据质量 |
数据共享策略合规性校验 |
检查数据共享(如提供给第三方)是否遵循了预定义的策略,包括数据脱敏、使用期限、用途限制等。 |
输入参数: |
变量: |
自动化执行数据治理策略,确保数据共享行为符合法规(如GDPR)和内部规定。这是一种数据安全与合规性策略执行模型。 |
策略规则: 可基于属性、标签、角色等。校验点: 数据分类、脱敏要求、使用目的、接收方资质。管控目标: 确保所有共享行为合规。 |
|
依赖策略引擎(如Rego, XACML)和策略规则库。 |
策略需可配置、可审计。决策过程需记录。 |
1. 策略测试: 构造符合和违反策略的共享请求,验证引擎决策正确。 |
数据安全、合规、策略管理 |
网络/IO: 与策略服务器交互产生网络延迟。策略和请求的解析消耗少量CPU。核心是对策略服务器的高可用要求。 |
|
254 |
数据操作 |
数据湖表数据水印 (Data Watermarking) |
在数据中嵌入不可见或难以移除的标识信息(水印),用于追踪数据泄露、证明所有权。例如,对数值型数据微调最低有效位。 |
输入参数: |
变量: |
一种数字版权管理(DRM)技术,用于保护敏感数据资产。这是一种数据安全与溯源技术。 |
水印容量: 可嵌入的比特数。鲁棒性: 抵抗常见数据处理操作(如采样、聚合)的能力。不可感知性: 对数据可用性影响小。管控目标: 水印可被可靠提取,对数据分析影响可接受。 |
|
依赖数字水印算法实现(空间域、频率域)。 |
需权衡水印强度、容量和对数据的影响。提取水印需要密钥。 |
1. 可提取性测试: 嵌入后,从含水印数据中提取水印,验证与原始水印一致。 |
数据安全、数字水印 |
CPU: 水印嵌入和提取算法(如DCT变换、LSB替换)消耗CPU。 |
|
255 |
数据查询 |
流式会话化 (Sessionization) |
将用户事件流按用户标识 |
输入参数: |
变量: |
将连续的用户行为流切割为有意义的会话单元,是用户行为分析的基础。这是一种流式用户行为分析模型。 |
间隙阈值 |
|
依赖流处理引擎的状态管理和时间处理能力。 |
需处理迟到事件对会话划分的影响。 |
1. 逻辑测试: 构造具有清晰会话边界的事件序列,验证划分正确。 |
流计算、用户行为分析 |
内存: 需要为每个活跃用户维护上次活动时间戳,用户量大时消耗内存。 |
|
256 |
数据转换 |
模型稀疏化训练 (L1正则化/剪枝) |
在训练过程中通过L1正则化或剪枝技术,使模型权重趋近于0,从而获得稀疏模型,减少模型大小和推理计算量。L1损失: |
输入参数: |
变量/张量: |
获得体积小、推理快的模型,便于在资源受限的设备上部署。这是一种模型压缩与加速技术。 |
稀疏度: 50%-95%。性能保持: 稀疏后模型精度下降应<1%。管控目标: 在目标稀疏度下,模型精度损失最小。 |
|
依赖支持稀疏训练的深度学习框架(如PyTorch, TensorFlow)。 |
稀疏训练通常需要更多迭代。剪枝后可能需要微调以恢复精度。 |
1. 稀疏度验证: 验证输出模型的稀疏度达到目标。 |
机器学习、模型压缩、深度学习 |
GPU: 稀疏训练过程本身计算密集,依赖GPU。稀疏模型推理时,如果硬件/库支持稀疏计算,可降低计算量和内存带宽需求,但可能依赖专用指令集或硬件(如NVIDIA的稀疏张量核心)。 |
|
257 |
数据质量 |
数据产品服务水平目标 (SLO) 监控 |
为数据产品(如API、报表)定义服务水平目标(SLO),如可用性>99.9%,新鲜度<5分钟,正确性>99.99%,并持续监控达标情况。 |
输入参数: |
变量: |
以产品化思维管理数据服务,明确承诺并监控其达成情况,驱动数据团队以终端用户为中心进行改进。这是一种数据产品运营与服务质量模型。 |
SLO定义: 如“过去30天,API成功率>99.95%”。误差预算: 允许的失败时间。管控目标: SLO达成率符合预期,误差预算消耗可控。 |
|
依赖丰富的监控指标采集和SLO计算框架。 |
SLO需与内部客户共同制定。需建立基于误差预算的警报和复盘机制。 |
1. 计算测试: 模拟一段时间内的指标数据,验证SLO计算和状态判断正确。 |
数据产品管理、SRE (站点可靠性工程) |
网络/IO: 需要从各监控系统(API网关、作业调度、数据质量)拉取指标,产生网络流量。 |
|
258 |
数据操作 |
数据湖表存储加密 (服务端加密 - SSE) |
在数据写入存储服务(如S3)时,由服务端使用由服务管理、客户管理或KMS管理的密钥进行加密。读取时由服务端自动解密。 |
输入参数 (写入): |
变量: |
利用云存储服务提供的内置加密功能,透明地保护静态数据,简化客户端加密的复杂性。这是一种服务端托管的静态数据加密模型。 |
加密类型: SSE-S3 (AWS管理), SSE-KMS (客户通过KMS管理)。管控目标: 数据在存储中加密,访问控制与密钥管理策略正确配置。 |
|
依赖对象存储服务端的加密功能和KMS服务。 |
密钥管理是安全关键。SSE-S3适合一般需求,SSE-KMS提供更细粒度的控制和审计。 |
1. 加密验证: 通过存储控制台或API验证对象已启用加密。 |
数据安全、云安全 |
CPU: 加解密操作由云服务商硬件加速,对用户透明,无额外CPU开销。 |
|
259 |
数据查询 |
基于规则的分类 (规则引擎) |
使用预定义的规则集对记录进行分类。规则形式通常为 |
输入参数: |
变量: |
一种可解释、易维护的分类方法,适用于业务规则明确、逻辑复杂的场景。这是一种基于符号逻辑的分类模型。 |
规则数量: 几十到上千条。规则复杂度: 条件可包含逻辑运算符、比较、函数。管控目标: 分类结果符合业务预期,规则无冲突或冲突解决明确。 |
|
依赖规则引擎(如Drools, Easy Rules)或自定义的条件求值器。 |
规则需易于管理和版本控制。规则集可能随时间膨胀,需定期梳理。 |
1. 规则覆盖测试: 用测试用例验证每条规则都能被触发并产生正确分类。 |
规则引擎、专家系统、业务逻辑 |
CPU: 需要对每条记录顺序或并行地评估多个规则条件,是CPU密集型,规则多、条件复杂时更甚。 |
|
260 |
数据转换 |
数据归一化 (小数定标标准化) |
通过移动数据的小数点位置进行归一化。 |
输入参数: |
变量: |
一种简单的归一化方法,通过除以10的幂次将数据缩放到[-1,1)区间。这是一种特征缩放模型。 |
输出范围: [-1, 1)。管控目标: 缩放后数据绝对值小于1。 |
|
依赖计算最大值绝对值和以10为底的对数。 |
计算简单,但可能不是最优缩放。 |
1. 范围测试: 验证输出值在(-1,1)内。 |
特征工程、数据预处理 |
CPU: 简单算术运算,开销极小。内存: 需存储原数组和结果。 |
|
261 |
数据质量 |
数据血缘采集 (运行时日志分析) |
通过分析ETL作业、SQL查询、应用程序的运行时日志,自动提取数据转换和依赖关系,补充或验证静态分析得到的数据血缘。 |
输入参数: |
变量: |
一种动态血缘采集方法,能捕获通过配置化工具难以跟踪的依赖(如代码中的动态SQL)。这是一种动态数据血缘发现模型。 |
日志源: Spark, Flink, 自定义应用日志。解析精度: 取决于日志详细度和解析规则。管控目标: 提取的血缘准确,能关联到具体的作业运行实例。 |
|
依赖日志收集、解析(如正则、GROK)和关联分析能力。 |
日志需标准化输出关键信息(如输入表、输出表)。关联不同作业的日志以形成完整链路。 |
1. 提取准确性测试: 对已知作业的手动分析结果与工具提取结果比对。 |
数据治理、日志分析、可观测性 |
网络/IO: 需要收集和传输各计算节点的运行时日志,产生网络流量和集中存储的IO。 |
|
262 |
数据操作 |
数据湖表存储生命周期自动化 (基于策略) |
根据预定义的策略(如创建时间、最后访问时间、数据分类标签),自动执行数据生命周期操作,如归档、删除、转换存储层级。 |
输入参数: |
变量: |
实现数据生命周期的自动化管理,减少人工操作,确保合规性和成本优化。这是一种自动化数据治理操作。 |
策略条件: 基于时间、大小、标签、访问模式。执行动作: 移动、删除、转换。调度频率: 每日或每周。管控目标: 策略执行准确,有审批和回滚机制。 |
|
依赖策略引擎、元数据查询和存储操作API。 |
策略执行前应有模拟或审批流程。需处理操作失败和并发冲突。 |
1. 策略模拟测试: 在测试环境运行策略,验证计划的操作符合预期。 |
数据治理、存储管理、自动化 |
网络/IO: 根据策略执行数据迁移、删除等操作,产生相应的网络和IO负载。 |
|
263 |
数据查询 |
流式百分位数 (T-Digest流式计算) |
在数据流上使用T-Digest算法实时计算近似的百分位数(如P95, P99)。维护一组质心,通过缩放函数控制质心规模。 |
输入参数: |
变量: |
实时监控流数据的分布指标,如接口响应时间的P99延迟。这是一种流式分位数统计算法模型。 |
压缩参数 |
|
依赖T-Digest流式算法实现。 |
适用于监控和告警场景。结果有误差但内存占用小。 |
1. 精度测试: 在有限流结束后,对比T-Digest结果与全量数据排序结果的差异。 |
流计算、监控、近似算法 |
内存: T-Digest需要维护一定数量的质心,内存消耗恒定且较小(通常几KB到几十KB)。 |
|
264 |
数据转换 |
数据增强 (随机噪声注入) |
向数据(如图像像素、数值特征)添加随机噪声。对于图像: |
输入参数: |
变量: |
一种简单的正则化方法,通过向训练数据添加轻微扰动,提高模型的鲁棒性。这是一种数据增强与正则化技术。 |
噪声水平: 需控制,以不破坏数据语义为界。高斯噪声σ: 如0.01 * 像素值范围。管控目标: 增强后数据仍可识别,模型泛化能力提升。 |
|
依赖随机数生成器和逐元素加法。 |
广泛应用于图像、语音、时间序列数据增强。 |
1. 视觉/数值检查: 验证添加噪声后的数据符合预期(如肉眼可见轻微噪声)。 |
深度学习、数据增强、正则化 |
CPU/GPU: 噪声生成和加法操作,可高度并行化,适合GPU加速。 |
|
265 |
数据质量 |
数据可观测性 (Data Observability) |
通过监控数据资产的五大支柱(新鲜度、分布、体积、模式、血缘),并结合指标、日志、追踪,实现对数据健康状态的全面、实时的可观测性。 |
输入参数: |
变量: |
借鉴软件系统的可观测性理念,构建对数据系统内部状态的理解能力,以便快速发现和诊断问题。这是一种系统性数据健康状态监控模型。 |
支柱: 新鲜度、分布、体积、模式、血缘。评分: 可聚合为单一健康分。管控目标: 实现数据问题的早期发现、快速定位和影响评估。 |
|
依赖多种数据监控工具和指标的集成与关联分析能力。 |
需要统一的数据资产目录和监控平台。 |
1. 问题检测测试: 模拟数据延迟、分布异常等问题,验证可观测性平台能告警并定位。 |
数据可观测性、数据运维 |
网络/IO: 需要从各个数据源和监控代理收集海量指标、日志、追踪数据,对网络和集中存储IO压力巨大。 |
|
266 |
数据操作 |
数据湖表存储压缩字典优化 |
为使用字典编码的列式存储文件(如Parquet, ORC)重新生成或优化字典,提高压缩率和查询性能。 |
输入参数: |
变量: |
对于字典编码友好的列(低基数),通过重建字典移除不再使用的值或优化字典排序,提升编码效率。这是一种列式存储编码优化操作。 |
适用列: 字符串、枚举、低基数整数列。优化频率: 在数据值集合发生较大变化后进行。管控目标: 压缩率提升,解码速度不减。 |
|
依赖数据重写作业和列式编码器的字典管理功能。 |
字典优化通常伴随数据重写,代价高。 |
1. 压缩比测试: 比较优化前后文件大小。 |
存储管理、数据压缩 |
CPU: 需要扫描列数据以构建最优字典,并重新编码,CPU密集型。 |
|
267 |
数据查询 |
基于内容的图像检索 (CBIR) |
提取图像的特征(如SIFT, SURF传统特征或CNN深层特征),构建特征索引。对于查询图像,计算其特征与库中图像特征的相似度(如欧氏距离),返回最相似的图像。 |
输入参数: |
变量/向量: |
利用图像视觉内容进行检索,是计算机视觉经典任务。这是一种内容驱动的图像检索模型。 |
特征类型: 传统局部特征或CNN全局特征。索引规模: 百万到亿级。管控目标: 返回结果视觉相似。 |
|
依赖特征提取算法和向量检索基础设施。 |
特征提取和索引构建是离线关键步骤。 |
1. 检索精度测试: 在标注数据集上计算mAP等指标。 |
计算机视觉、图像检索 |
CPU/GPU: 特征提取(特别是CNN)依赖GPU加速。 |
|
268 |
数据转换 |
模型量化训练 (Quantization-Aware Training) |
在模型训练的前向和反向传播中模拟量化效应(权重和激活值被离散化到低精度,如INT8),使模型适应量化后的误差,从而在部署时使用低精度模型而精度损失最小。 |
输入参数: |
变量/张量: |
获得可直接部署的低精度(INT8)模型,大幅减少模型大小、内存占用和推理延迟,且精度接近全精度模型。这是一种模型压缩与加速技术。 |
量化位数: 8位是主流。精度目标: 与全精度模型相比,精度下降<1%。管控目标: 量化后的模型在目标硬件上能高效推理。 |
|
支持QAT的深度学习框架(如TensorFlow的 |
训练过程比标准训练更复杂和耗时。需目标硬件推理库支持该量化格式。 |
1. 精度验证: 对比QAT模型与全精度模型在测试集上的精度差异。 |
机器学习、模型压缩、深度学习 |
GPU: QAT训练过程计算密集,依赖GPU。量化模型在支持低精度计算的硬件(如GPU TensorCore, CPU AVX-512 VNNI)上推理时,能发挥显著加速和能效优势。 |
|
269 |
数据质量 |
数据变更影响预分析 (Impact Prediction) |
在计划对数据资产(如模式变更、数据更新)执行操作前,基于血缘关系和历史信息,预测该变更可能影响的下游范围、作业失败风险、用户咨询量等。 |
输入参数: |
变量/图: |
变被动响应为主动预防,在变更实施前评估风险,辅助决策。这是一种基于数据驱动的变更风险管理模型。 |
预测维度: 影响广度、深度、风险概率。数据源: 血缘、作业日志、变更管理记录。管控目标: 预测结果能有效指导变更评审和沟通。 |
|
依赖血缘、变更管理和监控数据的整合分析。 |
预测模型可基于规则或简单机器学习。需持续迭代优化。 |
1. 回溯验证: 用历史真实变更验证预测工具的准确性。 |
变更管理、风险管理、数据治理 |
网络/IO: 需要查询血缘、历史事件等多源数据,产生网络和IO。 |
|
270 |
数据操作 |
数据湖表存储跨云迁移 |
将数据湖表的数据和元数据从一个云服务商(如AWS S3)迁移到另一个(如Azure Data Lake Storage)。涉及数据传输、格式转换、元数据适配。 |
输入参数: |
变量: |
实现多云或云迁移战略,避免供应商锁定,优化成本和性能。这是一种跨云数据迁移模型。 |
数据量: TB-PB级。迁移窗口: 可能很长。管控目标: 迁移后数据一致,业务切换平滑,成本可控。 |
|
依赖云间数据传输服务(如AWS DataSync, Azure Data Factory)、格式兼容性和元数据转换工具。 |
需处理云服务差异(如权限模型、元数据服务)。网络出口成本是主要考量。 |
1. 一致性校验: 迁移完成后,在两端抽样校验数据一致性。 |
数据迁移、多云架构 |
网络: 跨云数据传输是主要瓶颈和成本中心,极度依赖高带宽、稳定的云间直连或专线。 |
|
271 |
数据查询 |
流式关联规则挖掘 (Streaming Association Rules) |
在流式交易数据上实时挖掘频繁项集和关联规则(如A->B)。使用算法如LossyCounting估算项集频率。 |
输入参数: |
变量/集合: |
实时发现商品之间的关联关系,用于动态推荐、实时促销。这是一种流式数据挖掘模型。 |
窗口大小: 如最近1小时交易。近似算法参数: 控制内存和精度。管控目标: 规则反映近期关联模式,更新及时。 |
|
依赖流处理引擎和近似频繁项集挖掘算法。 |
精确挖掘需要维护所有项集组合,内存不可行,必须用近似算法。 |
1. 规则合理性测试: 人工检查挖掘出的规则是否符合业务直觉。 |
流计算、数据挖掘、关联规则 |
内存: 近似算法(如LossyCounting)需要维护候选项集及其计数,内存消耗与不同商品数和算法参数有关,但可控。 |
|
272 |
数据转换 |
数据增强 (CutMix) |
结合了Cutout和Mixup的思想:从图像A裁剪一个区域,用图像B的对应区域填充,同时标签按区域面积比例混合。 |
输入参数: |
变量/矩阵: |
一种强大的图像数据增强方法,鼓励模型从局部识别物体,并提高定位能力和鲁棒性。这是一种计算机视觉中的数据增强与正则化技术。 |
裁剪区域: 随机矩形。标签混合: 软标签。管控目标: 增强图像视觉上合理,能提升模型性能。 |
|
依赖随机数生成、图像裁剪、粘贴和混合操作。 |
主要用于图像分类。 |
1. 视觉检查: 查看生成的图像是否自然。 |
计算机视觉、深度学习、数据增强 |
GPU: 图像裁剪、掩码生成、混合操作可高度并行化,非常适合GPU加速。 |
|
273 |
数据质量 |
数据效用评估 (基于下游任务) |
通过将数据集用于特定下游任务(如训练一个预测模型、生成一份报表)的性能表现,来量化评估该数据集的质量和价值。 |
输入参数: |
变量: |
以终为始,从数据消费方的实际使用效果出发,评估数据的价值。这是一种面向应用的数据质量评估模型。 |
下游任务: 应具有代表性。评估指标: 与业务目标对齐。管控目标: 效用分数能反映数据对业务的支持程度。 |
|
依赖下游任务执行环境和评估框架。 |
评估成本可能较高。需选择关键下游任务。 |
1. 相关性测试: 验证效用分数与数据质量问题的存在负相关(如数据损坏导致分数下降)。 |
数据质量、数据价值、机器学习 |
硬件需求等同于所选择的下游任务。例如,如果下游任务是训练一个机器学习模型,则需要相应的CPU/GPU、内存、存储资源。评估本身增加了额外的计算开销。 |
|
274 |
数据操作 |
数据湖表存储权限审计 |
定期扫描数据湖中所有表(或关键表)的存储层(如S3桶)权限设置,检查是否存在过于宽松的访问控制列表(ACL)或策略,并生成风险报告。 |
输入参数: |
变量: |
确保数据存储层的安全配置符合安全最佳实践,防止因配置错误导致的数据泄露。这是一种存储安全合规性审计操作。 |
审计频率: 每周或每月。检查项: 公开读写、跨账号访问、加密状态等。管控目标: 识别并修复所有高风险权限配置。 |
|
依赖云存储的权限查询API和策略分析引擎。 |
审计需有适当权限。发现的问题需有跟踪整改流程。 |
1. 漏洞检测测试: 故意设置一个公开可读的桶,验证审计工具能发现。 |
数据安全、合规审计 |
网络/IO: 需要调用大量存储API来获取权限配置,可能受API速率限制,产生网络和计算开销。 |
|
275 |
数据查询 |
路径查找 (最短路径 - Dijkstra) |
在带权有向图 |
输入参数: |
变量/图: |
图论经典算法,应用于网络路由、地图导航、社交关系分析等。这是一种图最短路径计算模型。 |
图规模: 可支持百万顶点(需优化)。权重: 需非负。管控目标: 计算准确,在可接受时间内返回结果。 |
|
依赖图算法库(如NetworkX, Boost Graph Library)或图数据库。 |
对于大规模图,可使用A*等启发式算法加速。 |
1. 正确性测试: 在小图上手动计算最短路径,与算法结果比对。 |
图论、路径规划 |
CPU: Dijkstra算法复杂度O(|E|+ |V|log|V|),是CPU密集型,图越大越耗时。 |
|
276 |
数据转换 |
在线学习 (Online Learning) |
模型随着新数据样本的到达而逐步更新,每次更新只使用一个或一小批样本,而非全量数据重新训练。 |
输入参数: |
变量/向量: |
使模型能适应数据分布的快速变化,适用于数据流或资源受限的场景。这是一种增量式机器学习模型。 |
学习率: 需谨慎设置。更新频率: 每样本或每批次。管控目标: 模型能跟踪概念漂移,保持预测性能稳定。 |
|
依赖在线学习算法(如SGD, FTRL)实现。 |
需监控模型性能,防止因噪声样本或漂移而退化。 |
1. 概念漂移适应测试: 模拟数据分布变化,验证模型能通过在线学习调整适应。 |
机器学习、在线学习 |
CPU: 每次更新涉及梯度计算和参数更新,计算量远小于全量训练,但对延迟敏感,需要持续可用的CPU资源。 |
|
277 |
数据质量 |
数据合约测试 (Data Contract Testing) |
在数据生产方和消费方之间定义“数据合约”(包括Schema、新鲜度、质量指标等),并通过自动化测试验证生产方提供的数据是否符合合约。 |
输入参数: |
变量: |
建立数据提供方和消费方之间的明确期望和自动化验证,减少集成故障。这是一种契约驱动的数据质量保障模型。 |
合约内容: Schema、数据类型、值域、延迟SLA、完整性约束。测试执行: 可集成到CI/CD流水线。管控目标: 阻止破坏合约的数据变更上线。 |
|
依赖合约定义语言和测试执行框架。 |
合约需双方协商一致。测试失败应阻断部署并通知双方。 |
1. 合约违反测试: 修改数据使其违反合约,验证测试能失败并给出明确信息。 |
数据工程、测试、契约测试 |
网络/IO: 需要访问测试数据,可能涉及跨系统数据拉取。 |
|
278 |
数据操作 |
数据湖表存储数据完整性校验 (端到端) |
在数据写入时计算并存储数据块的校验和(如CRC32),在读取时重新计算并比对,确保数据在存储和传输过程中没有发生静默损坏。 |
输入参数 (写入): |
变量: |
防御底层存储介质故障、网络传输错误等导致的静默数据损坏,是数据高可用的最后一道防线。这是一种端到端数据完整性保护模型。 |
校验算法: CRC32C, xxHash(快速)。存储位置: 可与数据一起存储,或存在元数据中。管控目标: 能检测出任何位损坏,误检率极低。 |
|
依赖校验和算法和存储系统的自定义元数据支持。 |
校验和本身也需被保护(如存储多副本)。 |
1. 损坏检测测试: 模拟数据块中某个位翻转,验证读取时能被检测到并报错。 |
数据完整性、存储系统 |
CPU: 计算校验和增加额外的CPU开销,但现代CPU有CRC32指令集加速,开销可控。 |
|
279 |
数据查询 |
流式模式发现 (Motif Discovery) |
在时间序列流中,实时发现重复出现的、有意义的子序列(模式)。常用基于矩阵轮廓(Matrix Profile)的流式算法。 |
输入参数: |
|
编号 |
类型 |
函数/算法类型 |
函数/算法/算子的数学方程式建模 / 子函数的数学方程式列表 |
参数类型和参数列表 |
参数/变量/常量/标量/张量/矩阵/集合列表 |
数学表达式/物理模型/计算机模型/通信模型/关联描述 |
典型值/范围 (管控目标) |
核心关联参数 |
依赖关系 |
设计/软件开发/硬件制造/应用要求 |
测试/验证方法 |
关联学科/领域 |
对网络、PCIE总线、Serdes、IO部件、CPU、GPU、内存、SSD/NVME SSD/HDD盘的需求 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
279 |
数据查询 |
流式模式发现 (Motif Discovery) |
在时间序列流中,实时发现重复出现的、有意义的子序列(模式)。常用基于矩阵轮廓(Matrix Profile)的流式算法。 |
输入参数: |
变量/序列: |
实时检测时间序列中的重复模式,用于异常检测、行为分析等。这是一种流式时间序列模式挖掘模型。 |
子序列长度 |
|
依赖流式矩阵轮廓算法(如STAMP, STOMP的流式版本)。 |
计算复杂度较高,需优化。 |
1. 模式准确性测试: 在合成数据(已知模式)上运行,验证能发现预期模式。 |
流计算、时间序列分析、模式识别 |
内存: 需要维护最近窗口的数据和矩阵轮廓,内存消耗与窗口大小和子序列长度有关。 |
|
280 |
数据转换 |
特征交叉 (基于Field-aware Factorization Machines) |
在特征交叉中,每个特征属于一个场(Field),特征交互时使用特定的嵌入向量。 |
输入参数: |
变量/矩阵: |
一种改进的因子分解机,考虑特征所属的场,能更好处理类别特征交叉,常用于点击率预测。这是一种特征交叉与推荐模型。 |
隐向量维度 |
|
依赖FFM模型实现。 |
参数量较大,需要足够的数据。 |
1. 模型性能测试: 在推荐/广告数据集上训练FFM,评估AUC等指标。 |
机器学习、推荐系统 |
CPU/GPU: 训练时计算交叉项涉及大量内积运算,可并行化,GPU可加速。推理时也需要计算交叉项,对CPU有压力。 |
|
281 |
数据质量 |
数据版本差异对比 (Schema Diff) |
比较两个版本的数据模式(Schema)之间的差异,包括新增、删除、修改的列,以及类型变更。 |
输入参数: |
变量: |
用于模式演化的审查和沟通,确保下游系统能适应模式变更。这是一种模式变更分析模型。 |
变更类型: 增、删、改(类型、可空性、注释)。管控目标: 准确识别所有差异,支持嵌套结构。 |
|
依赖模式解析和比较工具。 |
需处理复杂嵌套数据类型。 |
1. 功能测试: 构造已知差异的模式,验证工具能正确报告。 |
模式演化、数据建模 |
CPU: 模式解析和比较,开销小。 |
|
282 |
数据操作 |
数据湖表存储压缩 (列重排) |
根据查询模式和数据相关性,重新排列列式存储文件中列的顺序,以提高压缩率和查询性能(列裁剪时能跳过更多列)。 |
输入参数: |
变量: |
优化列式存储文件的物理布局,将经常一起查询的列放在相近位置,提升缓存局部性。这是一种存储布局优化操作。 |
列顺序: 根据查询的列访问模式决定。管控目标: 重排后对典型查询的性能有提升,压缩率可能改善。 |
|
依赖数据重写作业。 |
重排需要重写数据,代价高。需基于工作负载分析。 |
1. 性能测试: 对比重排前后,典型查询的IO读取量和耗时。 |
存储管理、查询优化 |
IO: 需要读取原数据并按新顺序写入,顺序读写,对存储吞吐要求高。 |
|
283 |
数据查询 |
基于位置的联合查询 (Spatial Join) |
将两个空间数据集(如点集和多边形集)基于空间关系(相交、包含、距离内)进行连接。 |
输入参数: |
变量/集合: |
GIS中的核心操作,如将点数据关联到所在行政区划。这是一种空间关系连接模型。 |
数据集大小: 可能都很大。空间索引: 必需。管控目标: 连接结果正确,性能可接受。 |
|
依赖空间计算库和空间连接算法(如基于R-Tree的嵌套循环、分区连接)。 |
计算复杂度高,需优化。 |
1. 正确性测试: 用小数据手工验证连接结果。 |
地理信息系统 (GIS)、空间数据库 |
CPU: 空间谓词计算(如相交判断)是CPU密集型,几何复杂时更甚。 |
|
284 |
数据转换 |
数据脱敏 (差分隐私) |
在查询结果或数据发布中添加满足差分隐私的噪声,使得单个个体的信息无法被推断,但整体统计信息仍可用。例如,拉普拉斯机制: |
输入参数: |
变量/分布: |
一种严格的隐私保护模型,可证明即使攻击者拥有除目标个体外的所有信息,也无法推断目标个体信息。这是一种隐私增强技术模型。 |
隐私预算ε: 越小越隐私,但噪声越大。灵敏度Δf: 根据查询函数确定。管控目标: 输出满足(ε,0)-差分隐私,噪声大小可控。 |
|
依赖差分隐私噪声生成库。 |
需仔细计算查询的全局灵敏度。组合多个查询需分配隐私预算。 |
1. 隐私性证明: 验证噪声生成机制符合差分隐私定义。 |
隐私计算、差分隐私 |
CPU: 生成随机噪声,开销小。 |
|
285 |
数据质量 |
数据沿袭可视化 (交互式探索) |
提供交互式界面,允许用户通过点击、拖拽、缩放等方式探索数据血缘图,支持下钻到字段级、查看转换逻辑、筛选特定路径等。 |
输入参数: |
变量/图: |
通过丰富的交互提升血缘数据的可探索性和用户体验,帮助用户快速理解数据流。这是一种交互式数据可视化模型。 |
交互功能: 缩放、平移、高亮、下钻、路径高亮、搜索。响应时间: 用户操作后渲染更新应<100ms。管控目标: 界面流畅,交互直观。 |
|
依赖前端图形库(如D3.js, G6)的交互能力。 |
需处理大规模图的性能优化(如虚拟渲染)。 |
1. 交互功能测试: 逐一测试所有交互功能是否正常工作。 |
数据可视化、人机交互 |
CPU/GPU: 前端图形渲染和交互计算,依赖浏览器JavaScript引擎和可能的WebGL GPU加速。 |
|
286 |
数据操作 |
数据湖表存储数据去重 (Deduplication) |
识别并删除表中重复的记录(基于所有列或指定键列),保留一份。 |
输入参数: |
变量/集合: |
清理数据中的重复项,保证数据唯一性。这是一种数据重复清理操作。 |
重复定义: 基于业务键。数据量: 可能很大。管控目标: 准确识别重复,删除后数据唯一,可回滚。 |
|
依赖SQL的窗口函数或自连接,以及删除操作。 |
需注意执行性能,大表可能需分批次。建议先备份。 |
1. 准确性测试: 用已知重复数据验证去重后记录唯一。 |
数据清洗、数据质量 |
CPU/IO/网络: 去重需要按键分组或排序,涉及Shuffle和大量数据比较,是CPU、IO和网络密集型操作。可能需要中间存储。 |
|
287 |
数据查询 |
流式数据归档 (到冷存储) |
将流处理结果或经过时间窗口聚合后的数据,自动写入到冷存储(如S3 Glacier)进行长期归档。 |
输入参数: |
变量: |
自动将历史数据移至低成本存储,满足合规和长期保存需求。这是一种流式数据生命周期管理模型。 |
触发条件: 时间(如每天)、大小(如128MB)。存储层级: Glacier, Deep Archive。管控目标: 归档过程可靠,数据可检索。 |
|
依赖流处理引擎的Sink连接器和冷存储写入SDK。 |
需考虑归档存储的检索成本和延迟。 |
1. 可靠性测试: 验证数据能成功写入归档存储,无丢失。 |
流计算、存储管理、数据归档 |
网络: 将数据写入归档存储,通常跨网络,带宽和延迟可能较高(尤其是归档存储位于不同区域时)。 |
|
288 |
数据转换 |
模型解释 (LIME - 局部可解释模型) |
对单个预测,在样本附近采样生成扰动数据,用简单可解释模型(如线性模型)拟合复杂模型在该局部区域的决策边界,从而解释特征重要性。 |
输入参数: |
变量: |
提供模型预测的局部、事后解释,适用于任何黑盒模型。这是一种模型可解释性算法。 |
采样数量: 通常几百到几千。简单模型: 线性回归、决策树。管控目标: 解释结果稳定,符合局部预测逻辑。 |
|
依赖LIME算法实现。 |
解释结果可能因随机采样而略有波动。 |
1. 稳定性测试: 多次运行对同一样本的解释,权重应大致稳定。 |
机器学习、可解释AI (XAI) |
CPU: 需要生成扰动样本、调用黑盒模型预测多次、训练简单模型,计算量大,是CPU密集型。如果黑盒模型预测慢,则更甚。 |
|
289 |
数据质量 |
数据血统完整性校验 (闭环验证) |
通过实际执行数据转换步骤(如重新运行ETL作业),将输出与现有数据对比,验证血缘关系中记录的转换逻辑是否正确,实现血缘的闭环验证。 |
输入参数: |
变量: |
主动验证血缘关系的正确性,确保血缘信息真实可靠。这是一种血缘质量主动验证模型。 |
验证范围: 抽样关键转换步骤。执行环境: 需隔离,避免影响生产。管控目标: 验证通过率100%,发现不一致能告警。 |
|
依赖转换逻辑的执行引擎和数据对比工具。 |
验证可能消耗资源,需合理安排。 |
1. 正确血缘测试: 对已知正确的转换进行验证,应通过。 |
数据治理、测试、数据血缘 |
硬件需求等同于重新执行该转换作业,需要相应的计算和存储资源。如果转换复杂,则可能消耗大量CPU、内存、IO。 |
|
290 |
数据操作 |
数据湖表存储加密 (列级加密) |
对表中指定的敏感列进行加密,其他列保持明文。加密密钥可基于列、行或表级别管理。 |
输入参数: |
变量: |
提供更细粒度的加密,在保持查询性能的同时保护核心敏感字段。这是一种细粒度数据加密模型。 |
加密列: 如身份证号、手机号。加密算法: AES-256-GCM。密钥管理: 集成KMS。管控目标: 加密后查询需解密,对性能影响可控。 |
|
依赖支持列级加密的数据湖格式或代理加密层。 |
需权衡安全性和查询性能。加密列无法用于某些操作(如索引)。 |
1. 安全测试: 验证加密列在存储中为密文。 |
数据安全、加密 |
CPU: 加解密计算增加CPU开销,与敏感列的数据量成正比。 |
|
291 |
数据查询 |
基于行为的用户分群 (聚类) |
使用聚类算法(如K-Means, DBSCAN)对用户行为特征(如购买频率、活跃度、页面浏览次数)进行聚类,将用户划分为具有相似行为的群组。 |
输入参数: |
变量/矩阵: |
无监督地将用户分组,用于个性化营销、产品优化等。这是一种无监督用户细分模型。 |
聚类算法: K-Means, DBSCAN, 谱聚类。特征选择: 需标准化。簇数: 根据业务解释性确定。管控目标: 簇内相似度高,簇间差异大。 |
|
依赖聚类算法库(如scikit-learn)。 |
聚类结果需业务解读。 |
1. 轮廓系数评估: 计算轮廓系数评估聚类质量。 |
机器学习、用户分析、聚类 |
CPU: 聚类算法(如K-Means)是迭代计算,CPU密集型,用户数和特征数多时更甚。 |
|
292 |
数据转换 |
数据增强 (随机旋转、裁剪、翻转组合) |
组合多种图像增强技术(如随机旋转、随机裁剪、水平翻转),以一定概率依次应用于图像,生成更多样化的增强图像。 |
输入参数: |
变量: |
通过组合多种基础增强,大幅增加数据多样性,提高模型鲁棒性。这是一种组合式数据增强技术。 |
操作: 旋转、裁剪、翻转、颜色抖动等。概率: 每个操作以一定概率应用。管控目标: 增强图像多样且合理。 |
|
依赖多种图像增强操作的库(如imgaug, albumentations)。 |
需调整增强强度,避免过度失真。 |
1. 视觉检查: 查看增强结果是否自然。 |
计算机视觉、深度学习、数据增强 |
GPU: 图像增强操作可并行化,适合GPU加速,特别是在批量处理时。 |
|
293 |
数据质量 |
数据价值衰减监控 |
监控数据价值随时间衰减的情况,例如新闻数据、股价数据,其价值随时间的推移而降低。定义衰减函数 |
输入参数: |
变量: |
量化数据资产的时效性价值,为数据归档、删除决策提供依据。这是一种数据价值时间衰减模型。 |
衰减率: 根据数据类型设定,如新闻λ高,历史交易λ低。管控目标: 价值评估辅助生命周期决策。 |
|
依赖时间计算和指数衰减模型。 |
衰减模型需结合业务特点。 |
1. 模型合理性测试: 业务专家评估价值衰减曲线是否符合实际。 |
数据资产管理、数据治理 |
CPU: 简单计算,开销小。 |
|
294 |
数据操作 |
数据湖表存储数据合并 (Coalesce) |
将表目录下的多个小文件合并为较少的大文件,以减少元数据开销和提升读取效率。 |
输入参数: |
变量: |
优化小文件问题,提高HDFS等文件系统的效率。这是一种小文件合并优化操作。 |
小文件阈值: 如<128MB。目标文件大小: 如256MB。管控目标: 减少文件数量,不改变数据逻辑。 |
|
依赖文件合并命令(如 |
合并可能改变数据局部性。 |
1. 文件数测试: 验证合并后文件数量减少。 |
存储管理、性能优化 |
IO: 读取多个小文件并写入大文件,顺序读写,IO密集型。 |
|
295 |
数据查询 |
流式数据抽样 (蓄水池抽样 - Reservoir Sampling) |
从无限流中随机抽取k个样本,使得每个样本被选中的概率相同。蓄水池算法维护一个大小为k的蓄水池,对于第i个元素,以k/i的概率替换蓄水池中的一个随机元素。 |
输入参数: |
变量/数组: |
在无法预知流长度的情况下,等概率抽样。这是一种流式随机抽样算法。 |
样本大小k: 根据需求设定。管控目标: 每个元素被选入样本的概率相等。 |
|
依赖蓄水池抽样算法实现。 |
算法只需单遍扫描,内存固定。 |
1. 等概率测试: 模拟流,统计每个位置元素被选中的频率,应大致相等。 |
流计算、抽样 |
内存: 需要维护一个大小为k的蓄水池,内存消耗固定且小。 |
|
296 |
数据转换 |
模型部署 (A/B测试路由) |
将线上流量按一定比例(如50%/50%)路由到不同版本的模型(A和B),收集性能数据,以评估新模型(B)相对于旧模型(A)的效果。 |
输入参数: |
变量: |
在线评估模型效果的标准方法,用于模型迭代和发布决策。这是一种在线模型评估与发布模型。 |
分流比例: 可动态调整。评估指标: 业务指标(如点击率、转化率)。管控目标: 分流均匀,数据收集准确。 |
|
依赖模型服务框架的流量路由功能。 |
需确保两组流量在其他条件上无偏。 |
1. 分流均匀性测试: 验证流量按比例分配。 |
机器学习运维 (MLOps)、A/B测试 |
CPU/GPU: 需要同时加载两个模型,推理计算资源消耗可能翻倍(取决于分流比例)。 |
|
297 |
数据质量 |
数据血缘影响范围可视化 (热力图) |
基于血缘图,计算每个数据资产(如表)的被依赖程度(入度)或影响范围(出度),并以热力图形式在地图上展示,直观显示核心数据资产。 |
输入参数: |
变量/图: |
识别数据生态中的关键节点,帮助治理资源聚焦。这是一种数据资产重要性可视化模型。 |
中心性指标: 入度、出度、PageRank。可视化形式: 节点大小/颜色表示重要性。管控目标: 热力图清晰展示核心资产。 |
|
依赖图中心性计算和可视化库。 |
需合理定义重要性指标。 |
1. 指标计算测试: 手动验证核心资产分数高。 |
数据可视化、图论、数据治理 |
CPU: 计算图中心性指标(如PageRank)需要迭代计算,CPU密集型,大规模图耗时。 |
|
298 |
数据操作 |
数据湖表存储数据校验 (Parquet/ORC文件校验) |
检查数据湖中Parquet或ORC文件的元数据和数据页是否损坏,是否符合格式规范。 |
输入参数: |
变量: |
定期检查存储文件的完整性,防止因硬件故障或软件bug导致的文件损坏。这是一种文件格式完整性校验操作。 |
检查深度: 可只检查元数据,或深度检查数据页。管控目标: 及时发现损坏文件,触发修复。 |
|
依赖文件格式的校验工具(如parquet-tools)。 |
深度校验可能耗时。 |
1. 损坏检测测试: 用损坏的文件测试工具能报错。 |
数据完整性、存储系统 |
IO: 需要读取文件进行解析,产生IO。 |
|
299 |
数据查询 |
基于上下文的推荐 (Contextual Bandit) |
在推荐系统中,根据用户上下文(特征)和物品特征,实时选择可能获得最高奖励(如点击)的物品,同时通过探索-利用权衡来学习。常用算法LinUCB: |
输入参数: |
变量/向量: |
一种平衡短期收益和长期学习的在线推荐算法。这是一种在线学习与推荐模型。 |
探索参数α: 控制探索程度。更新频率: 实时或准实时。管控目标: 长期累计奖励最大化。 |
|
依赖上下文赌博机算法实现(如LinUCB)。 |
需实时更新模型参数。 |
1. 离线模拟测试: 用历史日志模拟,评估算法累积奖励。 |
机器学习、推荐系统、在线学习 |
CPU: 在线推理时需要计算每个候选物品的分数,涉及向量和矩阵运算,CPU密集型,候选多时更甚。模型更新(矩阵求逆)也消耗CPU。 |
|
300 |
数据转换 |
数据脱敏 (同态加密-乘法) |
使用支持乘法同态的加密算法(如ElGamal, Paillier仅加法),满足 |
输入参数: |
变量: |
允许在加密数据上执行乘法,扩展了同态加密的计算能力。这是一种隐私计算密码学模型。 |
算法: ElGamal(乘法同态)。管控目标: 同态性质成立,安全性满足要求。 |
|
依赖支持乘法同态的加密库。 |
计算开销大。通常与加法同态结合实现任意计算。 |
1. 同态性验证: 加密两个数,在密文上操作后解密,验证结果等于明文相乘。 |
密码学、隐私计算 |
CPU: 同态乘法涉及大数模幂运算,计算复杂度极高,极度CPU密集型。 |
|
301 |
数据质量 |
数据变更追踪 (Change Data Capture - 增量流) |
捕获源数据库的增量变更(INSERT, UPDATE, DELETE),并作为事件流发布,用于实时同步、缓存更新等。 |
输入参数: |
变量: |
实时获取数据变化,是实现微服务数据同步、实时数仓的基础。这是一种增量数据捕获模型。 |
捕获延迟: 目标<1秒。事件格式: Debezium格式、Canal格式。管控目标: 不丢失数据,支持断点续传。 |
|
依赖CDC工具(如Debezium, Canal)或数据库日志读取API。 |
需处理Schema变更。 |
1. 完整性测试: 在源库执行一系列操作,验证CDC流能捕获所有变更。 |
数据集成、变更数据捕获 |
网络: 持续读取数据库日志产生网络流量。 |
|
302 |
数据操作 |
数据湖表存储数据分层 (基于访问频率) |
根据数据被访问的频率(如最近N天被查询的次数),自动将数据划分为热、温、冷层,并可能迁移存储介质。 |
输入参数: |
变量: |
智能地将不同热度的数据存放在不同性能/成本的存储上,优化成本与性能。这是一种基于访问模式的数据分层模型。 |
统计窗口: 如最近30天。频率阈值: 可配置。分层动作: 自动或建议。管控目标: 热数据访问快,总体成本低。 |
|
依赖访问日志分析和存储分层API。 |
迁移需考虑数据一致性。 |
1. 策略测试: 用历史访问日志模拟,验证分层建议合理。 |
存储管理、性能优化 |
网络/IO: 数据迁移产生网络和IO负载。 |
|
303 |
数据查询 |
图节点中心性计算 (PageRank) |
计算有向图中每个节点的重要性分数,基于“被重要节点指向的节点也重要”的递归思想。 |
输入参数: |
变量/图: |
用于网页排名、社交网络影响力分析等。这是一种图节点重要性度量模型。 |
阻尼因子d: 0.85。迭代次数: 通常10-20次。管控目标: 分数收敛,能区分节点重要性。 |
|
依赖图计算框架(如GraphX, NetworkX)的PageRank实现。 |
需处理悬挂节点(出度为0)。 |
1. 收敛性测试: 验证算法在指定迭代内收敛。 |
图论、搜索引擎、社交网络分析 |
CPU: PageRank是迭代算法,需要多次遍历边,CPU密集型,图规模大时耗时。 |
|
304 |
数据转换 |
数据标准化 (Batch Normalization) |
对神经网络中每一层的输入进行标准化,使其均值为0,方差为1。 |
输入参数: |
变量/张量: |
加速深度神经网络训练,缓解梯度消失/爆炸,有一定的正则化效果。这是一种深度学习中的归一化技术。 |
批次大小: 影响μ和σ的估计。ε: 如1e-5。训练/推理模式: 推理时使用移动平均的μ和σ。管控目标: 稳定训练,加速收敛。 |
|
依赖深度学习框架的BatchNorm层实现。 |
训练和推理行为不同。 |
1. 训练稳定性测试: 对比使用BN和不使用BN的训练曲线。 |
深度学习、神经网络 |
GPU: BN层的计算可高度并行化,非常适合GPU加速,是训练深度网络的标配。 |
|
305 |
数据质量 |
数据血缘采集 (基于SQL解析) |
解析SQL脚本,通过语法分析提取出表、字段之间的依赖关系,生成数据血缘。 |
输入参数: |
变量: |
静态分析SQL代码,获取血缘信息,适用于数据仓库的ETL开发。这是一种静态代码分析血缘采集模型。 |
支持的SQL方言: Hive, Spark SQL, Presto等。解析精度: 字段级、表级。管控目标: 解析准确,支持复杂嵌套查询。 |
|
依赖SQL解析器(如Calcite, ANTLR grammar)。 |
对动态SQL支持有限。 |
1. 准确性测试: 用已知依赖的SQL测试解析结果。 |
数据血缘、SQL解析 |
CPU: SQL解析和语法树遍历消耗CPU,SQL复杂时更甚。 |
|
306 |
数据操作 |
数据湖表存储数据备份 (增量备份) |
仅备份自上次备份以来发生变化的数据文件(基于文件修改时间或表版本),减少备份数据量和时间。 |
输入参数: |
变量: |
高效的数据保护策略,缩短备份窗口,减少存储开销。这是一种增量数据备份模型。 |
增量检测: 基于文件修改时间、表版本号。备份周期: 每日。管控目标: 备份完整,可恢复至任意备份点。 |
|
依赖文件系统清单工具和增量备份工具。 |
需维护备份链。恢复时需要合并多个增量备份。 |
1. 完整性测试: 模拟数据变更后执行增量备份,验证变更文件被备份。 |
数据备份、灾难恢复 |
网络/IO: 仅传输变化的数据文件,网络和IO负载较全量备份小。 |
|
307 |
数据查询 |
流式数据过滤 (基于规则引擎) |
使用规则引擎对数据流进行实时过滤,规则可动态更新。例如,过滤出交易金额大于10000或用户黑名单中的事件。 |
输入参数: |
变量: |
实时筛选出感兴趣的事件,用于监控、风控等。这是一种流式事件过滤模型。 |
规则复杂度: 可支持多条件组合。更新方式: 热更新。管控目标: 过滤准确,低延迟。 |
|
依赖流处理引擎和嵌入式规则引擎(如Drools, Aviator)。 |
规则需避免歧义。 |
1. 规则测试: 构造满足/不满足规则的事件,验证过滤正确。 |
流计算、规则引擎 |
CPU: 对每个事件应用规则判断,CPU密集型,规则复杂时更甚。 |
|
308 |
数据转换 |
模型集成 (Stacking) |
训练多个基学习器,然后将它们的预测结果作为新的特征,训练一个元学习器来组合这些预测。 |
输入参数: |
变量/矩阵: |
通过组合多个模型,通常能获得比单一模型更好的泛化性能。这是一种模型集成学习技术。 |
基学习器多样性: 重要。元学习器: 通常为简单模型(如线性回归)。管控目标: 集成模型性能优于最佳基学习器。 |
|
依赖多个机器学习模型训练和预测框架。 |
需防止信息泄露(训练元学习器时需用交叉验证产生基学习器的预测)。 |
1. 性能测试: 对比 stacking 与单个基学习器的性能。 |
机器学习、集成学习 |
CPU/GPU: 需要训练多个基学习器和一个元学习器,计算开销大,是集成学习中最耗资源的方法之一。 |
|
309 |
数据质量 |
数据一致性校验 (基于业务规则) |
根据业务规则校验数据的一致性,例如,订单总额应等于各商品金额之和加运费。 |
输入参数: |
变量: |
确保数据在业务逻辑上是自洽的。这是一种业务逻辑一致性校验模型。 |
规则复杂度: 可涉及算术、逻辑运算。管控目标: 核心业务规则校验通过率100%。 |
|
依赖表达式求值引擎。 |
规则需与业务专家共同制定。 |
1. 规则测试: 用符合和违反规则的记录测试。 |
数据质量、业务规则 |
CPU: 表达式求值,开销取决于规则复杂度。 |
|
310 |
数据操作 |
数据湖表存储数据压缩 (列裁剪) |
删除表中未使用的列,减少存储空间和IO。 |
输入参数: |
变量: |
清理无用数据,降低存储成本。这是一种存储空间回收操作。 |
列确认: 确保该列确实不再被使用。管控目标: 删除后不影响现有查询,释放存储空间。 |
|
依赖ALTER TABLE DROP COLUMN功能,可能涉及数据重写。 |
删除前需检查依赖。 |
1. 功能测试: 删除后验证列消失,查询不涉及该列仍正常。 |
存储管理、数据建模 |
IO/网络: 如果表格式不支持无损删列(需要重写数据),则触发高IO操作。否则仅为元数据操作。 |
|
311 |
数据查询 |
基于密度的聚类 (DBSCAN) |
基于密度的空间聚类算法,将高密度区域划分为簇,并可在噪声数据中发现任意形状的簇。核心概念:邻域半径ε,最小点数MinPts。 |
输入参数: |
变量/集合: |
适用于发现任意形状的簇,且能识别噪声点。这是一种无监督聚类模型。 |
ε和MinPts: 需要根据数据分布调整。管控目标: 聚类结果符合视觉/业务划分,噪声点合理。 |
|
依赖DBSCAN算法实现(如scikit-learn)。 |
对参数敏感,高维数据可能效果差。 |
1. 聚类效果评估: 在合成数据集上测试,验证能发现任意形状簇。 |
机器学习、聚类 |
CPU: DBSCAN需要计算点之间的距离,构建邻域图,复杂度O(n^2)或使用空间索引优化,CPU密集型。 |
|
312 |
数据转换 |
数据脱敏 (k-匿名化 泛化) |
对准标识符进行泛化,如将年龄“23”泛化为“[20,30)”,将邮编“100101”泛化为“1001**”,使得每条记录在准标识符上与至少k-1条其他记录相同。 |
输入参数: |
变量/集合: |
通过降低数据精度实现隐私保护,是数据发布常用技术。这是一种隐私保护数据发布模型。 |
泛化层次: 需预先定义(如年龄: 具体值 -> 5岁区间 -> 10岁区间)。信息损失: 需权衡。管控目标: 输出满足k-匿名,且信息损失最小。 |
|
依赖k-匿名化算法(如DataFly, Incognito)。 |
需结合抑制(完全删除某些记录)以达到k-匿名。 |
1. k-匿名验证: 验证输出数据满足k-匿名。 |
隐私计算、数据脱敏 |
CPU: 寻找满足k-匿名的泛化方案是NP-hard,启发式算法消耗CPU。 |
|
313 |
数据质量 |
数据血缘影响时效性分析 |
分析当上游数据发生延迟时,对下游数据产出的影响时间,帮助评估SLA和设置监控预警阈值。 |
输入参数: |
变量: |
量化延迟传递,用于根因分析和预警升级。这是一种基于血缘的延迟影响分析模型。 |
处理时间: 可基于历史运行统计。管控目标: 准确估算下游延迟,辅助决策。 |
|
依赖血缘关系和作业运行历史数据。 |
处理时间可能有波动。 |
1. 估算准确性测试: 用历史延迟事件验证估算公式。 |
数据运维、影响分析 |
CPU: 简单计算,开销小。 |
|
314 |
数据操作 |
数据湖表存储加密密钥轮换 |
定期更改用于加密表数据的密钥,并将现有数据重新加密(rewrap)为新密钥,以符合安全策略。 |
输入参数: |
变量: |
减少密钥泄露风险,是密钥生命周期管理的重要环节。这是一种加密密钥管理操作。 |
轮换周期: 如90天。重加密方式: 在线或离线。管控目标: 轮换过程安全,数据可访问,性能影响可控。 |
|
依赖KMS的密钥轮换功能和数据重加密能力。 |
需确保旧密钥仍可解密以便重加密。 |
1. 安全性测试: 验证轮换后旧密钥无法访问数据。 |
数据安全、密钥管理 |
CPU: 重加密数据需要解密再加密,CPU密集型。 |
|
315 |
数据查询 |
流式数据窗口聚合 (会话窗口) |
将数据流按会话窗口(Session Window)进行聚合,会话由事件间的间隙(gap)定义。同一会话内的事件进行聚合(如计数、求和)。 |
输入参数: |
变量/集合: |
分析用户会话行为,如会话时长、会话内事件数。这是一种流式会话窗口聚合模型。 |
间隙阈值: 如5分钟。管控目标: 会话划分正确,聚合结果准确。 |
|
依赖流处理引擎的会话窗口支持。 |
需处理迟到事件。 |
1. 逻辑测试: 构造明确会话的事件流,验证聚合结果。 |
流计算、用户行为分析 |
内存: 为每个活跃会话维护状态,会话多时消耗内存。 |
|
316 |
数据转换 |
数据降维 (UMAP) |
一种基于流形学习的非线性降维方法,假设数据均匀分布在高维空间中,通过优化低维表示以保持数据间的局部和全局结构。 |
输入参数: |
变量/矩阵: |
常用于可视化,能保留数据的局部和全局结构,计算效率通常优于t-SNE。这是一种流形学习降维模型。 |
目标维度: 2或3用于可视化。邻居数: 通常5-50。管控目标: 低维表示能反映高维结构。 |
|
依赖UMAP算法实现(如umap-learn)。 |
可用于聚类和可视化。 |
1. 可视化检查: 对带标签数据降维后绘图,观察类别分离情况。 |
机器学习、数据可视化、流形学习 |
CPU: UMAP优化过程计算复杂度较高,但通常比t-SNE快,仍是CPU密集型。 |
|
317 |
数据质量 |
数据血缘采集 (基于数据流编排) |
从数据流编排工具(如Apache Airflow, Dagster)的DAG定义中提取任务间的依赖关系,并结合任务脚本解析,生成数据血缘。 |
输入参数: |
变量: |
利用编排工具已有的依赖关系,补充任务执行顺序和血缘。这是一种基于编排的血缘采集模型。 |
采集粒度: 任务级、表级。集成深度: 需解析任务内SQL/代码。管控目标: 准确反映任务依赖和数据流。 |
|
依赖编排工具的元数据API和任务解析器。 |
需打通编排工具与数据目录。 |
1. 依赖准确性测试: 对比提取的依赖与DAG定义一致。 |
数据血缘、任务编排 |
网络/IO: 与编排工具元数据存储交互。 |
|
318 |
数据操作 |
数据湖表存储数据生命周期策略应用 |
根据预定义的策略(如保留7天,然后归档),自动对表或分区执行生命周期操作(如删除、归档)。 |
输入参数: |
变量: |
自动化数据生命周期管理,减少人工操作,确保合规。这是一种自动化数据治理操作。 |
策略: 基于时间、数据分类。动作: 删除、归档、移动。执行频率: 每日。管控目标: 策略执行准确,有审计日志。 |
|
依赖策略引擎和存储操作API。 |
需有审批和回滚机制。 |
1. 策略执行测试: 在测试表上应用策略,验证动作正确执行。 |
数据治理、存储管理 |
网络/IO: 执行删除、移动等操作产生IO和网络流量。 |
|
319 |
数据查询 |
基于图的推荐 (Personalized PageRank) |
在用户-物品二分图上运行个性化PageRank,从特定用户节点出发,计算到达各物品节点的概率,作为推荐分数。 |
输入参数: |
变量/图: |
利用图结构进行推荐,适用于社交推荐、商品推荐等。这是一种基于图模型的推荐算法。 |
阻尼因子: 0.85。个性化: 从用户节点启动随机游走。管控目标: 推荐结果相关,分数可排序。 |
|
依赖图计算框架的个性化PageRank实现。 |
需要构建用户-物品交互图。 |
1. 离线评估: 在历史数据上计算评估指标(如命中率)。 |
推荐系统、图计算 |
CPU: 个性化PageRank需要迭代计算,CPU密集型,图大时更甚。为每个用户单独计算开销大,可预计算或近似。 |
|
320 |
数据转换 |
数据脱敏 (格式保留哈希) |
使用格式保留加密(FPE)或哈希函数,将数据映射为相同格式的伪随机值,保持长度和字符集。 |
输入参数: |
变量: |
在脱敏的同时保持数据格式,便于测试系统验证格式约束。这是一种格式保留脱敏模型。 |
算法: FF1, FF3或自定义哈希。格式: 如信用卡号、手机号。管控目标: 脱敏后格式相同,不可逆。 |
|
依赖格式保留哈希算法库。 |
需处理不同长度的输入。 |
1. 格式测试: 验证输出符合指定格式。 |
数据安全、数据脱敏 |
CPU: 格式保留哈希计算,消耗CPU。 |
|
321 |
数据质量 |
数据血缘可视化 (子图提取) |
根据用户选择的焦点节点(如表、字段),从全局血缘图中提取相关的子图(如上溯N层、下溯M层),进行可视化展示。 |
输入参数: |
变量/图: |
聚焦于用户关心的数据链路,避免全局图过于复杂。这是一种聚焦式血缘可视化模型。 |
深度: 通常3-5层。提取算法: 基于BFS。管控目标: 子图能清晰展示焦点节点的上下文。 |
|
依赖图遍历算法和可视化库。 |
需处理环形依赖。 |
1. 完整性测试: 验证子图包含了指定深度的所有相关节点。 |
数据可视化、图论 |
CPU: 图遍历(BFS)消耗CPU,但子图通常较小,开销不大。 |
|
322 |
数据操作 |
数据湖表存储数据修复 (损坏文件替换) |
检测到损坏的数据文件后,从备份或其他副本中恢复该文件,替换损坏文件,以修复数据。 |
输入参数: |
变量: |
自动修复存储层数据损坏,提高数据耐久性。这是一种数据损坏修复操作。 |
检测机制: 定期校验或读取时校验。备份源: 异地备份、跨区域复制。管控目标: 修复后数据一致,对业务影响小。 |
|
依赖文件校验工具和备份恢复工具。 |
需确保备份文件是完好的。 |
1. 修复测试: 模拟文件损坏,触发自动修复,验证文件被替换且数据正确。 |
数据完整性、存储系统 |
网络: 从备份源复制文件消耗网络带宽。 |
|
323 |
数据查询 |
流式数据排序 (有限窗口) |
在滑动窗口或滚动窗口内的流数据上,实时维护数据的排序顺序,支持Top-N查询。 |
输入参数: |
变量/数据结构: |
实时获取窗口内的有序数据,用于监控、排行榜等。这是一种流式排序模型。 |
窗口大小: 如最近1小时。排序键: 数值或时间戳。管控目标: 排序结果实时更新,延迟低。 |
|
依赖流处理引擎的窗口机制和有序状态数据结构。 |
精确排序开销大,可能需近似。 |
1. 正确性测试: 对比窗口内数据离线排序结果。 |
流计算、排序 |
内存: 需要存储窗口内所有数据以进行排序,内存消耗与窗口大小成正比。 |
|
324 |
数据转换 |
模型解释 (SHAP 全局解释) |
基于SHAP值,计算整个数据集上每个特征的平均绝对SHAP值,或绘制特征值与SHAP值的依赖图,来理解特征的全局重要性及影响方向。`global_shap = average( |
shap_values |
)`。 |
输入参数: |
SHAP |
) |
变量/矩阵: |
从全局角度理解模型依赖哪些特征,以及特征如何影响预测。这是一种模型全局可解释性方法。 |
背景数据大小: 可采样。解释数据: 可全量或采样。管控目标: 重要性排序稳定,依赖图合理。 |
|
依赖SHAP算法库的全局解释功能。 |
-
数据质量 - 数据血缘版本对比 (Lineage Version Diff)
函数/算法类型: 比较两个时间点的血缘图快照,识别出血缘关系的变化(新增、删除、变化的边)。
数学方程式建模: diff = compare_graphs(G_t1, G_t2)
参数:
-
lineage_snapshot_t1, lineage_snapshot_t2: 两个时间点的血缘图
输出:
-
lineage_diff_report: 血缘变化报告(新增边、删除边、变化详情)
变量: 两个有向图G1, G2
描述: 追踪血缘关系的演变,用于审计和影响分析。这是一种血缘演化分析模型。
典型值/范围: 比较间隔: 每日、每周。管控目标: 及时识别血缘关系的变化,评估影响。
核心关联参数: lineage_snapshot_t1, lineage_snapshot_t2
依赖关系: 图比较算法
设计/要求: 需存储历史血缘快照。
测试: 1. 变化检测测试: 模拟增加/删除血缘边,验证能检测。2. 性能测试: 大规模图比较的耗时。
关联学科: 数据治理、图论
硬件需求: CPU: 图比较需要遍历边,复杂度O(|E1|+|E2|)。内存: 需要同时加载两个图。
-
-
数据操作 - 数据湖表存储加密 (基于属性的加密 - ABE)
函数/算法类型: 使用基于属性的加密,数据用属性集合加密,只有满足访问策略的用户才能解密。ciphertext = ABE_Encrypt(data, access_policy, public_key)。
参数:
-
plain_data: 明文数据
-
access_policy: 访问策略(如"(部门=销售 AND 地区=华东) OR 角色=经理")
-
public_key: 系统公钥
输出:
-
encrypted_data: 密文
变量: 数据,访问策略树,公钥
描述: 实现细粒度的、基于属性的访问控制,适用于数据共享场景。这是一种基于属性的加密模型。
典型值/范围: 策略复杂度: 支持与、或、阈值门限。管控目标: 只有满足属性的用户才能解密。
核心关联参数: plain_data, access_policy
依赖关系: 基于属性的加密算法库(如CP-ABE)
设计/要求: 需集成属性管理系统和密钥发行机构。
测试: 1. 策略执行测试: 用不同属性集的用户解密,验证只有满足策略的能成功。2. 性能测试: 加密/解密耗时。
关联学科: 数据安全、密码学
硬件需求: CPU: 基于属性的加密涉及双线性对运算,计算复杂度高。内存: 无特殊需求。
-
-
数据查询 - 流式数据去重 (基于BloomFilter的近似去重)
函数/算法类型: 使用布隆过滤器在流上进行近似去重,判断元素是否已出现过。is_duplicate = BloomFilter.mightContain(element); if not, BloomFilter.put(element)。
参数:
-
data_stream: 数据流
-
expected_num_items: 预期元素数量
-
false_positive_rate: 期望的误判率
输出:
-
distinct_stream: 去重后的流(只输出首次出现的元素)
变量: 布隆过滤器,哈希函数
描述: 以可容忍的误判率为代价,在有限内存下实现流式去重。这是一种近似流式去重模型。
典型值/范围: 预期元素数: 百万到亿级。误判率: 如0.01。管控目标: 内存占用恒定,去重准确率符合预期。
核心关联参数: expected_num_items, false_positive_rate
依赖关系: 布隆过滤器实现
设计/要求: 需处理布隆过滤器的持久化和恢复。
测试: 1. 误判率测试: 用大量数据测试实际误判率。2. 内存测试: 验证内存占用恒定。3. 性能测试: 吞吐量。
关联学科: 流计算、概率数据结构
硬件需求: 内存: 布隆过滤器内存占用与预期元素数和误判率有关,但恒定。CPU: 多次哈希计算,开销中等。
-
-
数据转换 - 数据增强 (对抗训练 - Adversarial Training)
函数/算法类型: 在训练过程中,对输入数据添加对抗性扰动,使得模型对其更加鲁棒。扰动方向为损失函数上升方向。adv_x = x + ε * sign(∇_x L(θ, x, y))。
参数:
-
model: 待训练的模型
-
training_data: 训练数据
-
epsilon: 扰动强度
输出:
-
robust_model: 对抗训练后的模型
变量: 模型参数θ,输入x,标签y,扰动η
描述: 提高模型对对抗样本的鲁棒性,增强安全性。这是一种对抗性防御技术。
典型值/范围: 扰动强度ε: 小值,如0.01。攻击步数: 单步或多步。管控目标: 模型在干净数据和对抗样本上性能均好。
核心关联参数: training_data, epsilon
依赖关系: 深度学习框架,对抗攻击生成方法(如FGSM, PGD)
设计/要求: 训练时间会显著增加。
测试: 1. 鲁棒性测试: 用对抗攻击方法测试模型鲁棒性提升。2. 干净数据性能: 验证在干净测试集上性能不降太多。
关联学科: 深度学习、对抗机器学习
硬件需求: GPU: 对抗训练需要计算梯度并生成对抗样本,计算量加倍,强烈依赖GPU。内存/显存: 需要存储对抗样本。
-
-
数据质量 - 数据血缘完整性校验 (基于数据发现)
函数/算法类型: 通过扫描数据湖存储,发现未在血缘图中注册的数据资产(表、文件),并与已知血缘进行比对,找出遗漏的资产。orphan_assets = discover_assets(storage_path) - assets_in_lineage(lineage_graph)。
参数:
-
storage_root: 存储根路径
-
lineage_graph: 已知血缘图
输出:
-
orphan_assets: 未注册的资产列表
-
missing_lineage: 可能缺失的血缘关系
变量: 存储文件列表,血缘资产集合
描述: 主动发现数据湖中的“暗数据”,补充血缘覆盖。这是一种主动数据资产发现模型。
典型值/范围: 扫描深度: 全量或增量。资产类型: 表、文件、目录。管控目标: 减少未管理的数据资产。
核心关联参数: storage_root, lineage_graph
依赖关系: 存储清单工具,数据发现引擎
设计/要求: 需定期执行,并有人工审核流程。
测试: 1. 发现测试: 在存储中创建新表,验证能被发现。2. 比对测试: 验证工具能正确识别已注册和未注册资产。
关联学科: 数据治理、元数据管理
硬件需求: 网络/IO: 扫描存储路径产生大量列表操作,IO和网络开销大。CPU: 文件路径模式匹配。
-
-
数据操作 - 数据湖表存储数据归档 (到对象存储)
函数/算法类型: 将表中满足条件(如时间早于某个日期)的数据移动到对象存储(如S3)的归档存储层级,并从当前表中删除引用。archive_data = move_to_archive(table, condition, archive_path)。
参数:
-
table_name: 表名
-
archive_condition: 归档条件(如dt<'2022-01-01')
-
archive_path: 归档目标路径
输出:
-
archive_report: 归档报告(归档数据量、位置)
变量: 表的分区或数据文件
描述: 将冷数据移至低成本存储,减少主存储成本。这是一种数据冷热分层存储操作。
典型值/范围: 归档条件: 基于时间,如3年前。存储层级: S3 Glacier, Deep Archive。管控目标: 归档后查询需特殊处理,成本降低。
核心关联参数: table_name, archive_condition
依赖关系: 数据移动工具,对象存储生命周期策略
设计/要求: 需确保归档数据可恢复,并更新表元数据(如外部表)。
测试: 1. 完整性测试: 验证归档数据在目标位置存在且可读。2. 查询测试: 验证归档后对历史数据的查询需恢复流程。3. 成本验证: 存储成本变化。
关联学科: 存储管理、成本优化
硬件需求: 网络: 数据移动到归档存储消耗网络带宽。IO: 读取原数据,写入归档存储。存储: 归档存储成本低。
-
-
数据查询 - 基于图的社区发现 (Louvain算法)
函数/算法类型: 一种用于检测图中社区结构的层次聚类算法,通过优化模块度来不断合并节点社区。community = louvain_community_detection(graph)。
参数:
-
graph: 无向图(可带权)
输出:
-
communities: 每个节点所属的社区标签
-
modularity: 最终模块度
变量: 图G,节点社区分配,模块度Q
描述: 发现图中的社区(簇)结构,用于社交网络、生物网络分析。这是一种图社区发现模型。
典型值/范围: 图规模: 可支持百万节点。管控目标: 社区结构清晰,模块度高。
核心关联参数: graph
依赖关系: 社区发现算法库(如python-louvain)
设计/要求: 算法迭代,可能收敛到局部最优。
测试: 1. 社区质量: 在已知社区结构的数据集上测试。2. 性能测试: 大规模图上的运行时间。
关联学科: 图论、社交网络分析
硬件需求: CPU: Louvain算法需要多次遍历边,CPU密集型。内存: 存储图结构和中间社区信息。
-
-
数据转换 - 数据脱敏 (数据合成 - 生成对抗网络 GAN)
函数/算法类型: 使用生成对抗网络(GAN)学习原始数据的分布,并生成与原始数据统计特性相似但不包含真实个体的合成数据。synthetic_data = GAN_generator(noise)。
参数:
-
real_data: 真实数据集
-
gan_model: GAN模型(生成器和判别器)
输出:
-
synthetic_data: 合成数据集
变量: 真实数据分布,生成器G,判别器D
描述: 生成高质量的合成数据,用于数据分享、模型训练,同时保护隐私。这是一种基于深度学习的隐私保护数据生成模型。
典型值/范围: 数据规模: 需足够训练GAN。生成质量: 评估与真实数据的相似度和可用性。管控目标: 合成数据与真实数据分布接近,且无法还原个体信息。
核心关联参数: real_data, gan_model
依赖关系: 深度学习框架,GAN实现
设计/要求: 训练GAN需要技巧,可能模式崩溃。
测试: 1. 相似度测试: 比较合成数据与真实数据的统计分布。2. 隐私测试: 尝试从合成数据推断原始数据。3. 效用测试: 在合成数据上训练模型,评估性能。
关联学科: 隐私计算、深度学习
硬件需求: GPU: GAN训练极度依赖GPU,计算密集型。显存: 需要存储生成器和判别器模型及中间激活。
-
-
数据质量 - 数据血缘采集 (基于数据沿袭标准 - OpenLineage)
函数/算法类型: 遵循OpenLineage等开放标准,从支持该标准的各种数据处理工具(Spark, Airflow, dbt等)中收集血缘事件,构建统一的血缘图。lineage_events = collect_openlineage_events(jobs)。
参数:
-
data_platforms: 支持OpenLineage的数据处理平台列表
输出:
-
lineage_events: 收集到的标准化血缘事件
变量: 标准化事件格式(job, dataset, run)
描述: 通过行业标准实现跨工具的血缘自动收集,提高互操作性。这是一种基于开放标准的数据血缘采集模型。
典型值/范围: 支持工具: 越多越好。事件粒度: 运行级别、数据集级别。管控目标: 自动收集,事件完整。
核心关联参数: data_platforms
依赖关系: 各数据处理工具的OpenLineage集成
设计/要求: 需部署OpenLineage收集服务器。
测试: 1. 事件收集测试: 运行作业,验证事件被收集。2. 完整性测试: 验证事件包含所需信息。3. 延迟测试: 事件收集延迟。
关联学科: 数据治理、标准化
硬件需求: 网络: 事件从各工具发送到收集服务器,产生网络流量。存储: 存储事件数据。
-
-
数据操作 - 数据湖表存储数据压缩 (重平衡)
函数/算法类型: 重新分布表中数据,使得各分区或各文件的数据量更加均衡,避免数据倾斜。rebalance_table = redistribute_data(table, partition_columns)。
参数:
-
table_name: 表名
-
partition_columns: 分区列(用于重平衡)
输出:
-
rebalance_report: 重平衡报告(数据移动量,均衡度改善)
变量: 表的数据分布
描述: 解决数据倾斜问题,提升查询并行度和性能。这是一种数据分布优化操作。
典型值/范围: 倾斜阈值: 如最大分区/最小分区 > 10。管控目标: 重平衡后各分区数据量大致均衡。
核心关联参数: table_name, partition_columns
依赖关系: 数据重分布作业(如Spark的repartition)
设计/要求: 重平衡会触发Shuffle,代价高。
测试: 1. 均衡度测试: 比较重平衡前后各分区数据量的方差。2. 性能测试: 重平衡后查询性能提升。3. 数据正确性: 验证数据无丢失。
关联学科: 性能优化、分布式计算
硬件需求: 网络: 重平衡涉及大量数据Shuffle,网络流量大。IO: 读写数据文件。CPU: 数据序列化/反序列化。
-
-
数据查询 - 流式数据关联 (基于时间的双流连接 - Interval Join)
函数/算法类型: 连接两个流A和B,连接条件为A.key = B.key 且 A.timestamp ∈ [B.timestamp - lower, B.timestamp + upper]。joined = streamA.intervalJoin(streamB, lower, upper)。
参数:
-
stream_a, stream_b: 两个输入流
-
join_key: 连接键
-
lower_bound, upper_bound: 时间间隔下界和上界
输出:
-
joined_stream: 连接结果流
变量: 事件时间戳,时间区间
描述: 连接在特定时间窗口内发生的两个流的事件。这是一种基于时间范围的流连接模型。
典型值/范围: 时间区间: 秒到分钟级。管控目标: 连接准确,延迟低。
核心关联参数: join_key, lower_bound, upper_bound
依赖关系: 流处理引擎的interval join支持
设计/要求: 需处理乱序事件。
测试: 1. 正确性测试: 构造在时间窗口内/外的事件,验证连接结果。2. 性能测试: 高吞吐下的处理能力。
关联学科: 流计算、时序数据
硬件需求: 内存: 需要为每个键维护时间区间内的事件状态。CPU: 时间比较和状态管理。网络: 相同键事件需路由到同一节点。
-
-
数据转换 - 模型微调 (Fine-tuning)
函数/算法类型: 在预训练模型(如BERT, ResNet)的基础上,使用特定领域的数据继续训练,使模型适应新任务。θ_finetuned = train(θ_pretrained, domain_data, task_specific_head)。
参数:
-
pretrained_model: 预训练模型
-
domain_data: 领域特定数据
-
task_specific_head: 任务特定输出层
输出:
-
fine_tuned_model: 微调后的模型
变量: 预训练模型参数,领域数据,任务损失
描述: 迁移学习的一种,利用大规模预训练模型的知识,快速适应小规模领域数据。这是一种迁移学习技术。
典型值/范围: 微调层: 全部层或最后几层。学习率: 较小。管控目标: 在新任务上快速达到高性能。
核心关联参数: pretrained_model, domain_data
依赖关系: 预训练模型,领域数据,任务头
设计/要求: 需防止过拟合(小数据集)。
测试: 1. 性能测试: 在领域测试集上评估效果。2. 过拟合测试: 监控验证集性能。3. 对比测试: 与从头训练对比。
关联学科: 迁移学习、深度学习
硬件需求: GPU: 微调训练计算密集,依赖GPU。显存: 需要加载预训练模型和领域数据。
-
-
数据质量 - 数据血缘可视化 (3D 可视化)
函数/算法类型: 将数据血缘图在三维空间中渲染,利用深度维度展示更多信息(如时间维度、数据量维度)。render_3d_lineage(lineage_graph, layout_3d)。
参数:
-
lineage_graph: 血缘图数据
-
layout_algorithm: 3D布局算法(如力导向的3D版本)
输出:
-
3d_visualization: 3D可视化场景
变量: 3D节点位置,边,相机视角
描述: 在复杂血缘关系中提供更丰富的视觉线索,帮助理解。这是一种三维数据可视化模型。
典型值/范围: 布局算法: 3D force atlas。交互: 旋转、缩放。管控目标: 视觉清晰,不眩晕。
核心关联参数: lineage_graph
依赖关系: 3D图形库(如Three.js, WebGL)
设计/要求: 对浏览器性能要求高。
测试: 1. 渲染测试: 验证3D场景能正确渲染。2. 交互测试: 测试旋转、缩放等交互流畅。3. 性能测试: 大规模图的3D渲染性能。
关联学科: 数据可视化、计算机图形学
硬件需求: GPU: 3D渲染依赖GPU加速。内存: 3D图数据占用较大。网络: 加载3D库和模型数据。
-
-
数据操作 - 数据湖表存储数据合并 (Merge) 冲突解决
函数/算法类型: 在合并(Merge)操作中,当源表和目标表有相同键时,解决更新冲突的策略(如保留最新、保留最大、自定义规则)。resolved_row = resolve_conflict(target_row, source_row, resolution_strategy)。
参数:
-
target_row, source_row: 目标行和源行
-
resolution_strategy: 冲突解决策略
输出:
-
resolved_row: 解决冲突后的行
变量: 两行数据,冲突字段
描述: 定义在数据合并时如何处理冲突,确保数据一致性。这是一种数据合并冲突解决模型。
典型值/范围: 策略: 时间戳最新、值最大、应用自定义逻辑。管控目标: 冲突解决符合业务规则。
核心关联参数: target_row, source_row, resolution_strategy
依赖关系: 冲突解决逻辑实现
设计/要求: 策略需明确,可配置。
测试: 1. 策略测试: 用不同冲突数据测试策略执行正确。2. 性能测试: 冲突解决对合并性能的影响。
关联学科: 数据集成、冲突解决
硬件需求: CPU: 解决逻辑执行开销小。
-
-
数据查询 - 基于图的路径查询 (所有最短路径)
函数/算法类型: 查询图中两个节点之间的所有最短路径(长度相同)。all_shortest_paths = bfs_all_shortest_paths(graph, source, target)。
参数:
-
graph: 图
-
source_node: 源节点
-
target_node: 目标节点
输出:
-
all_shortest_paths: 所有最短路径列表
变量: 图,BFS队列,前驱列表
描述: 找出所有长度最短的路径,用于网络分析、备选路径规划。这是一种图路径查询模型。
典型值/范围: 路径长度: 通常较短。管控目标: 结果完整,无遗漏。
核心关联参数: graph, source_node, target_node
依赖关系: 图算法库(如NetworkX的all_shortest_paths)
设计/要求: 路径数量可能指数增长,需限制。
测试: 1. 正确性测试: 小图上手动验证。2. 性能测试: 节点数增多时的查询时间。
关联学科: 图论、路径规划
硬件需求: CPU: BFS遍历,复杂度O(V+E)。内存: 存储前驱关系,可能较大。
-
-
数据转换 - 数据脱敏 (同态加密-全同态)
函数/算法类型: 支持任意次数加法和乘法的同态加密,可在密文上执行任意计算。Encrypt(f(x)) = f(Encrypt(x))。
参数:
-
plain_data: 明文数据
-
computation: 要在密文上执行的计算函数
输出:
-
encrypted_result: 计算结果的密文
变量: 明文数据,计算函数,同态加密方案
描述: 隐私计算的终极目标,但当前计算开销极大。这是一种全同态加密模型。
典型值/范围: 方案: BFV, BGV, CKKS。计算深度: 有限。管控目标: 同态性质成立,安全性满足。
核心关联参数: plain_data, computation
依赖关系: 全同态加密库(如SEAL, PALISADE)
设计/要求: 性能是主要瓶颈,适用于简单计算。
测试: 1. 同态性验证: 加密后执行计算,解密结果与明文计算一致。2. 性能基准: 计算耗时和通信开销。
关联学科: 密码学、隐私计算
硬件需求: CPU: 全同态加密计算极度复杂,CPU密集型,性能比明文慢多个数量级。内存: 密文膨胀严重。
-
-
数据质量 - 数据血缘影响分析 (模拟故障)
函数/算法类型: 模拟某个数据资产(如表)发生故障(如数据损坏、延迟),通过血缘图分析受影响的下游资产和作业,并估算影响范围和恢复时间。impact_simulation = simulate_failure(failed_asset, lineage_graph)。
参数:
-
failed_asset: 模拟故障的资产
-
failure_type: 故障类型(数据损坏、延迟)
-
lineage_graph: 血缘图
输出:
-
impact_report: 影响报告(受影响资产列表、作业列表、恢复建议)
变量: 故障点,血缘图,作业调度信息
描述: 通过模拟进行灾难恢复演练,评估系统韧性。这是一种基于模拟的影响分析模型。
典型值/范围: 故障类型: 多种。模拟深度: 全部下游。管控目标: 准确评估影响,辅助应急预案制定。
核心关联参数: failed_asset, failure_type
依赖关系: 血缘图,作业运行元数据
设计/要求: 需结合作业调度和SLA信息。
测试: 1. 模拟准确性: 与历史故障事件对比。2. 性能测试: 模拟分析的速度。
关联学科: 灾难恢复、数据治理
硬件需求: CPU: 图遍历和影响传播模拟,消耗CPU。内存: 加载血缘和作业元数据。
-
-
数据操作 - 数据湖表存储加密 (国密算法)
函数/算法类型: 使用国家密码管理局认可的国产密码算法(如SM2, SM3, SM4)对数据进行加密。ciphertext = SM4_Encrypt(data, key)。
参数:
-
plain_data: 明文数据
-
sm4_key: SM4密钥
输出:
-
encrypted_data: 密文
变量: 数据,国密算法
描述: 满足国家信息安全等级保护要求,使用国产密码算法。这是一种符合国密标准的数据加密模型。
典型值/范围: 算法: SM4(对称),SM2(非对称)。密钥长度: 128位。管控目标: 符合国密标准,通过相关检测。
核心关联参数: plain_data, sm4_key
依赖关系: 国密算法库
设计/要求: 需使用 certified 的国密硬件或软件库。
测试: 1. 标准符合性测试: 通过国密检测。2. 性能测试: 加密解密速度。
关联学科: 数据安全、密码学
硬件需求: CPU: 国密算法计算,可能有专用指令加速。内存: 无特殊。
-
-
数据查询 - 流式数据统计 (直方图)
函数/算法类型: 在流数据上实时维护值的分布直方图,用于监控数据分布变化。histogram = update_histogram(stream, value_field, bins)。
参数:
-
data_stream: 数据流
-
value_field: 数值字段
-
bins: 直方图分箱定义
输出:
-
current_histogram: 当前直方图(各桶计数)
变量: 流数据值,直方图桶数组
描述: 实时监控数据分布,用于检测数据漂移。这是一种流式分布统计模型。
典型值/范围: 分箱数: 10-20。更新频率: 实时。管控目标: 直方图反映近期分布,更新延迟低。
核心关联参数: data_stream, value_field, bins
依赖关系: 流处理引擎的聚合状态
设计/要求: 需处理动态范围(自适应分箱)。
测试: 1. 准确性测试: 对比流式直方图与批处理直方图。2. 实时性测试: 分布变化时直方图更新速度。
关联学科: 流计算、监控
硬件需求: 内存: 维护直方图桶状态,内存小。CPU: 更新桶计数,开销小。
-
-
数据转换 - 数据增强 (时序数据 - 时间扭曲)
函数/算法类型: 对时间序列应用轻微的时间扭曲(加速或减速),生成新的时间序列,用于增强序列数据。warped_series = time_warp(series, warp_factor)。
参数:
-
time_series: 时间序列
-
warp_factor: 扭曲因子(如0.9~1.1)
输出:
-
warped_series: 扭曲后的时间序列
变量: 原始序列,扭曲函数
描述: 增加时间序列数据的多样性,提高模型鲁棒性。这是一种时间序列数据增强技术。
典型值/范围: 扭曲因子: 接近1的小扰动。管控目标: 增强后序列保持基本形态,但时间轴有变化。
核心关联参数: time_series, warp_factor
依赖关系: 时间序列插值算法
设计/要求: 需保持序列长度不变。
测试: 1. 视觉检查: 绘制扭曲前后序列。2. 模型效果: 使用增强数据训练,验证模型鲁棒性提升。
关联学科: 时间序列分析、数据增强
硬件需求: CPU: 插值计算,可向量化。内存: 存储序列。
-
-
数据质量 - 数据血缘采集 (基于数据目录)
函数/算法类型: 从数据目录(Data Catalog)中已注册的元数据(如表描述、列描述、ETL作业描述)中提取和推断血缘关系。lineage = infer_from_catalog_metadata(catalog_metadata)。
参数:
-
catalog_metadata: 数据目录中的元数据
输出:
-
inferred_lineage: 推断出的血缘关系
变量: 元数据项,关联规则
描述: 利用数据目录中已存在的业务和技术元数据,补充血缘信息。这是一种基于元数据推断的血缘采集模型。
典型值/范围: 元数据质量: 高。推断规则: 基于命名规范、注释等。管控目标: 推断准确率较高。
核心关联参数: catalog_metadata
依赖关系: 数据目录API,自然语言处理(可选)
设计/要求: 元数据需规范填写。
测试: 1. 推断准确性: 与真实血缘比对。2. 覆盖测试: 测试对不同元数据模式的适应。
关联学科: 元数据管理、数据治理
硬件需求: CPU: 元数据分析和规则匹配,开销中等。网络/IO: 查询数据目录。
-
-
数据操作 - 数据湖表存储数据迁移 (跨账号)
函数/算法类型: 将表的数据和元数据从一个云账户迁移到另一个云账户,通常用于数据共享或账户整理。migrate_table_across_accounts(source_table, target_account, target_path)。
参数:
-
source_table: 源账户中的表
-
target_account: 目标账户信息
-
target_path: 目标存储路径
输出:
-
migration_report: 迁移报告
变量: 源数据文件,目标账户凭证
描述: 实现跨云账户的数据迁移,满足数据共享、合规性等需求。这是一种跨账户数据迁移模型。
典型值/范围: 账户关系: 同一云服务商不同账户。权限: 需妥善配置。管控目标: 迁移后目标账户可访问,权限正确。
核心关联参数: source_table, target_account
依赖关系: 跨账户数据复制工具,权限配置
设计/要求: 需处理网络隔离和权限。
测试: 1. 功能测试: 迁移后验证目标表可查询。2. 权限测试: 验证目标账户权限正确。3. 完整性测试: 数据一致性校验。
关联学科: 数据迁移、云安全
硬件需求: 网络: 跨账户数据传输,可能跨区域,网络带宽是关键。IO: 读写数据。存储: 目标账户存储成本。
-
-
数据查询 - 基于图的节点相似度 (SimRank)
函数/算法类型: 计算图中节点之间的相似度,基于“如果两个节点被相似节点指向,则它们相似”的递归思想。similarity(a,b) = (C / (|I(a)| |I(b)|)) * Σ{i∈I(a)} Σ{j∈I(b)} similarity(i,j),其中I(a)是a的入邻节点。
参数:
-
graph: 有向图
-
decay_factor: 衰减因子C
-
max_iterations: 最大迭代次数
输出:
-
similarity_matrix: 节点对相似度矩阵
变量: 图,相似度矩阵S
描述: 用于衡量图中节点的结构相似性,可用于推荐、链接预测。这是一种图节点相似度模型。
典型值/范围: 衰减因子C: (0,1)。管控目标: 相似度收敛,能捕捉结构相似性。
核心关联参数: graph, decay_factor
依赖关系: SimRank算法实现
设计/要求: 计算复杂度高,通常需近似。
测试: 1. 合理性测试: 人工检查结构相似节点对得分高。2. 性能测试: 运行时间和内存消耗。
关联学科: 图论、推荐系统
硬件需求: CPU: SimRank迭代计算,复杂度O(n^4)或优化后O(n^3),极度CPU密集型。内存: 存储相似度矩阵O(n^2)。
-
-
数据转换 - 模型蒸馏 (响应式蒸馏)
函数/算法类型: 在蒸馏过程中,学生模型不仅学习教师模型的软标签,还学习教师模型中间层的特征表示(特征蒸馏)。loss = α * L_soft + β * L_feat。
参数:
-
teacher_model: 教师模型
-
student_model: 学生模型
-
training_data: 训练数据
-
alpha, beta: 损失权重
输出:
-
distilled_student_model: 蒸馏后的学生模型
变量: 教师模型中间激活,学生模型中间激活
描述: 利用教师模型的中间表示指导学生模型训练,通常能获得更好的学生模型。这是一种深度知识蒸馏技术。
典型值/范围: 中间层: 通常选择教师网络中间某几层。管控目标: 学生模型性能更接近教师。
核心关联参数: teacher_model, student_model, alpha, beta
依赖关系: 深度学习框架,特征提取
设计/要求: 需对齐教师和学生模型的中间层维度(可能需适配层)。
测试: 1. 性能测试: 对比响应式蒸馏与普通蒸馏的效果。2. 消融实验: 验证特征蒸馏项的作用。
关联学科: 机器学习、模型压缩
硬件需求: GPU: 需要前向传播获取中间激活,训练计算密集。显存: 存储中间激活。
-
-
数据质量 - 数据血缘可视化 (动画演示)
函数/算法类型: 以动画形式展示数据从源到目标的流动过程,帮助理解数据加工流程。animate_lineage(lineage_graph, data_flow_animation)。
参数:
-
lineage_graph: 血缘图
-
animation_speed: 动画速度
输出:
-
animation_video: 生成的动画视频
变量: 节点和边的出现、高亮、流动效果
描述: 通过动态可视化更生动地展示数据沿袭,用于培训和演示。这是一种动态数据可视化模型。
典型值/范围: 动画时长: 几分钟。效果: 粒子流动、高亮。管控目标: 动画清晰,有效传达信息。
核心关联参数: lineage_graph
依赖关系: 动画制作库(如Manim, D3.js transition)
设计/要求: 需设计合理的动画脚本。
测试: 1. 视觉效果测试: 动画是否流畅易懂。2. 用户反馈: 受众是否通过动画更好理解数据流。
关联学科: 数据可视化、动画
硬件需求: CPU/GPU: 动画渲染消耗计算资源。内存: 存储动画帧。
-
-
数据操作 - 数据湖表存储数据压缩 (字典共享)
函数/算法类型: 在同一个表的多个数据文件间共享字典,减少总体字典大小,提高压缩率。shared_dict = build_global_dictionary(files); rewrite_files_with_shared_dict(files, shared_dict)。
参数:
-
table_name: 表名
-
columns_to_share: 需要共享字典的列列表
输出:
-
compression_report: 压缩报告(字典大小变化,压缩率提升)
变量: 列的数据,全局字典
描述: 对低基数列,在文件间共享字典可以避免重复存储字典,提升整体压缩率。这是一种高级字典编码优化。
典型值/范围: 适用列: 低基数,如状态码、国家代码。管控目标: 压缩率提升,查询性能不受影响。
核心关联参数: table_name, columns_to_share
依赖关系: 支持字典共享的列式格式(如Parquet的字典编码可跨文件?需定制)
设计/要求: 需重写数据文件。
测试: 1. 压缩率测试: 比较共享前后存储大小。2. 查询测试: 验证查询正确性。3. 字典构建测试: 验证全局字典包含所有值。
关联学科: 数据压缩、存储管理
硬件需求: IO: 读取原文件,构建字典,重写文件。CPU: 字典构建和编码。
-
-
数据查询 - 流式数据分类 (在线学习分类器)
函数/算法类型: 使用在线学习算法(如感知机、逻辑回归的随机梯度下降)对数据流进行实时分类,并随着新数据到来更新模型。model.update(instance, label)。
参数:
-
data_stream: 带标签的数据流
-
online_classifier: 在线分类器模型
输出:
-
predictions: 实时预测标签
-
updated_model: 更新后的模型
变量: 数据实例,模型参数
描述: 实时分类并持续学习,适应概念漂移。这是一种在线机器学习模型。
典型值/范围: 分类器: 感知机、逻辑回归。更新频率: 每样本或每批次。管控目标: 实时分类准确,能跟踪概念变化。
核心关联参数: data_stream, online_classifier
依赖关系: 在线学习算法实现
设计/要求: 需监控模型性能,防止退化。
测试: 1. 准确率测试: 在测试流上评估。2. 概念漂移测试: 模拟分布变化,验证模型适应。3. 延迟测试: 预测和更新延迟。
关联学科: 流计算、在线学习
硬件需求: CPU: 在线预测和更新,计算量小,但需持续可用。内存: 存储模型参数。
-
-
数据转换 - 数据脱敏 (随机化)
函数/算法类型: 对数值型数据添加随机噪声,对分类型数据随机替换为同类别的其他值,破坏原始值但保持分布。masked_value = randomize(original_value, randomization_strength)。
参数:
-
original_value: 原始值
-
randomization_strength: 随机化强度(如噪声方差)
输出:
-
masked_value: 随机化后的值
变量: 原始值,随机分布
描述: 一种简单的脱敏方法,但可能不能完全防止重识别攻击。这是一种随机化脱敏模型。
典型值/范围: 数值噪声: 高斯噪声。类别替换: 均匀采样。管控目标: 脱敏后分布不变,个体无法识别。
核心关联参数: original_value, randomization_strength
依赖关系: 随机数生成器
设计/要求: 需确保随机化的不可逆性。
测试: 1. 分布测试: 比较脱敏前后分布。2. 唯一性测试: 原始值无法从脱敏值推断。
关联学科: 数据安全、隐私保护
硬件需求: CPU: 随机数生成,开销小。
-
-
数据质量 - 数据血缘影响分析 (成本估算)
函数/算法类型: 估算修改或删除某个数据资产(如表、字段)对下游系统造成的成本影响(如重跑作业的计算成本、修改代码的开发成本)。cost_impact = estimate_cost(change_plan, lineage, cost_models)。
参数:
-
change_plan: 变更计划
-
lineage_graph: 血缘图
-
cost_models: 成本模型(计算成本、开发成本)
输出:
-
cost_estimate: 成本估算报告
变量: 变更点,下游资产,成本参数
描述: 量化变更的经济影响,辅助决策。这是一种基于成本的血缘影响分析模型。
典型值/范围: 成本模型: 可基于历史数据。管控目标: 估算合理,辅助决策。
核心关联参数: change_plan, lineage_graph, cost_models
依赖关系: 成本模型,历史数据
设计/要求: 成本模型需校准。
测试: 1. 估算准确性: 与历史变更实际成本对比。2. 敏感性测试: 调整成本参数观察估算变化。
关联学科: 成本管理、数据治理
硬件需求: CPU: 成本计算,开销小。
-
-
数据操作 - 数据湖表存储数据备份 (异地备份)
函数/算法类型: 将数据备份到地理上分离的另一个区域,用于灾难恢复。backup_to_dr_region(table, dr_region)。
参数:
-
table_name: 表名
-
dr_region: 灾备区域
输出:
-
backup_report: 备份报告
变量: 表数据,灾备区域存储
描述: 实现跨区域的数据冗余,满足业务连续性要求。这是一种异地数据备份模型。
典型值/范围: 灾备区域: 距离主区域数百公里以上。备份频率: 每日或实时复制。管控目标: RPO, RTO满足要求。
核心关联参数: table_name, dr_region
依赖关系: 跨区域数据复制服务
设计/要求: 需考虑网络延迟和成本。
测试: 1. 备份完整性: 验证灾备数据完整。2. 恢复演练: 定期从灾备恢复测试。3. 延迟测试: 备份延迟。
关联学科: 灾难恢复、数据备份
硬件需求: 网络: 跨区域数据传输,带宽和延迟是关键。存储: 灾备区域存储成本。
-
-
数据查询 - 基于图的连通分量 (Connected Components)
函数/算法类型: 找出无向图中所有连通分量,即图中互相可达的节点集合。components = find_connected_components(graph)。
参数:
-
graph: 无向图
输出:
-
components: 连通分量列表
变量: 图,访问标记
描述: 识别图中的独立子图,用于网络分析、社区发现预处理。这是一种图连通性分析模型。
典型值/范围: 图规模: 可极大。算法: DFS, Union-Find。管控目标: 找出所有连通分量。
核心关联参数: graph
依赖关系: 图算法库
设计/要求: 算法高效。
测试: 1. 正确性测试: 小图上手动验证。2. 性能测试: 大规模图上的运行时间。
关联学科: 图论、网络分析
硬件需求: CPU: 遍历图,复杂度O(V+E)。内存: 存储图结构和访问标记。
-
-
数据转换 - 模型解释 (锚点解释 - Anchors)
函数/算法类型: 为单个预测生成锚点(Anchor)解释,即一个保证模型预测不变的规则(特征值的组合)。anchor = explain_instance(instance, model, threshold)。
参数:
-
instance: 要解释的样本
-
model: 黑盒模型
-
threshold: 精度阈值
输出:
-
anchor_explanation: 锚点规则
变量: 样本,模型,规则搜索
描述: 提供具有保证的局部解释,例如“只要满足特征A>5,模型就会预测为正类,无论其他特征如何”。这是一种可解释AI模型。
典型值/范围: 阈值: 如0.95。规则复杂度: 尽可能简单。管控目标: 锚点规则准确且可理解。
核心关联参数: instance, model, threshold
依赖关系: Anchors算法实现
设计/要求: 规则搜索可能耗时。
测试: 1. 保证验证: 在扰动样本上验证锚点规则成立。2. 可理解性: 人工评估规则是否易懂。3. 性能测试: 生成解释的时间。
关联学科: 可解释AI (XAI)
硬件需求: CPU: 需要采样生成扰动样本并调用模型预测,计算量大。内存: 存储扰动样本。
-
-
数据质量 - 数据血缘采集 (基于数据预览)
函数/算法类型: 通过预览数据(如前N行)并比较内容相似性,推断表之间的血缘关系(如是否互为副本或子集)。lineage_inferred = infer_from_data_preview(table_a, table_b, sample_size)。
参数:
-
table_a, table_b: 两个表
-
sample_size: 抽样行数
输出:
-
inferred_relationship: 推断关系(如复制、子集、无关)
变量: 样本数据,相似度度量
描述: 当缺乏明确元数据时,通过数据本身推断关系。这是一种基于数据内容的血缘发现模型。
典型值/范围: 样本大小: 1000行。相似度阈值: 可配置。管控目标: 推断准确率高。
核心关联参数: table_a, table_b, sample_size
依赖关系: 数据采样,相似度计算
设计/要求: 对大数据集采样可能仍耗时。
测试: 1. 准确性测试: 在已知关系的表上测试推断准确性。2. 性能测试: 采样和比较的耗时。
关联学科: 数据发现、数据血缘
硬件需求: IO: 采样需要读取数据。CPU: 比较数据相似度。
-
-
数据操作 - 数据湖表存储数据合并 (Union)
函数/算法类型: 将多个表(具有相同Schema)的数据合并到一个表中。union_table = union_all(table1, table2, ...)。
参数:
-
table_list: 要合并的表列表
-
target_table: 目标表
输出:
-
union_report: 合并报告(行数、来源)
变量: 多个表的数据
描述: 数据整合的常见操作,用于合并多个数据源。这是一种数据合并操作。
典型值/范围: 表数量: 多个。Schema: 必须兼容。管控目标: 合并后数据完整,不重不漏。
核心关联参数: table_list, target_table
依赖关系: SQL UNION ALL 或数据框拼接
设计/要求: 需处理可能的重复。
测试: 1. 行数验证: 验证总行数等于各表之和。2. 数据验证: 抽样验证数据正确。3. 性能测试: 合并速度。
关联学科: 数据集成
硬件需求: IO: 读取多个表,写入目标表。CPU: 数据拼接。网络: 可能跨节点传输。
-
-
数据查询 - 流式数据聚合 (多维聚合 - Cube)
函数/算法类型: 在流数据窗口上,按多个维度进行上卷聚合,生成数据立方体(Cube)。cube = stream.window().groupBy(dims).agg(...).cube()。
参数:
-
data_stream: 数据流
-
dimensions: 维度列表
-
aggregations: 聚合函数列表
-
window: 窗口定义
输出:
-
cube_stream: 立方体聚合结果流
变量: 流数据,维度组合,聚合状态
描述: 实时生成多维分析立方体,用于OLAP分析。这是一种流式多维聚合模型。
典型值/范围: 维度数: 不宜过多(如<5)。管控目标: 实时产出聚合结果,支持上卷下钻。
核心关联参数: dimensions, aggregations, window
依赖关系: 流处理引擎的cube操作支持
设计/要求: 维度组合数可能指数增长。
测试: 1. 正确性测试: 与批处理cube结果对比。2. 性能测试: 高维度下的吞吐量。
关联学科: 流计算、OLAP
硬件需求: 内存: 为每个维度组合维护聚合状态,可能状态数多。CPU: 更新多个聚合状态。
-
-
数据转换 - 数据脱敏 (令牌化 - Tokenization)
函数/算法类型: 用随机生成的令牌(Token)替换原始敏感数据,原始数据与令牌的映射存储在安全的令牌库中。token = tokenize(original, token_library)。
参数:
-
original_value: 原始值
-
token_library: 令牌库连接
输出:
-
token_value: 令牌
变量: 原始值,令牌映射
描述: 在保护数据的同时保持格式和唯一性,常用于支付卡数据。这是一种安全令牌化模型。
典型值/范围: 令牌格式: 与原始格式相同(如信用卡号)。令牌库: 需高安全。管控目标: 令牌不可逆,映射安全存储。
核心关联参数: original_value, token_library
依赖关系: 令牌化服务或库
设计/要求: 令牌库需高性能和高可用。
测试: 1. 唯一性测试: 不同原始值生成不同令牌。2. 格式测试: 令牌符合格式。3. 安全性测试: 无法从令牌反推原始值。
关联学科: 数据安全、支付卡行业
硬件需求: 网络: 与令牌库交互,可能成为延迟瓶颈。CPU: 令牌生成。
-
-
数据质量 - 数据血缘可视化 (虚拟现实 VR)
函数/算法类型: 在虚拟现实环境中展示数据血缘图,用户可沉浸式探索。render_vr_lineage(lineage_graph, vr_environment)。
参数:
-
lineage_graph: 血缘图
-
vr_device: VR设备
输出:
-
vr_experience: VR体验
变量: 3D血缘场景,VR交互
描述: 未来感的数据血缘探索方式,可能提升空间理解能力。这是一种沉浸式数据可视化模型。
典型值/范围: VR设备: Oculus, HTC Vive。交互: 手柄控制。管控目标: 体验沉浸,不眩晕。
核心关联参数: lineage_graph
依赖关系: VR开发平台(如Unity, Unreal)
设计/要求: 需高性能渲染。
测试: 1. 体验测试: 用户反馈。2. 性能测试: 帧率稳定。
关联学科: 虚拟现实、数据可视化
硬件需求: GPU: VR渲染要求极高帧率,高端GPU。内存: 存储3D场景。
-
-
数据操作 - 数据湖表存储数据清理 (临时文件)
函数/算法类型: 清理数据湖中临时目录下的过期临时文件,释放存储空间。cleanup_temp_files(temp_path, retention_hours)。
参数:
-
temp_path: 临时目录路径
-
retention_hours: 保留小时数
输出:
-
cleanup_report: 清理报告(删除文件数、释放空间)
变量: 临时文件列表,修改时间
描述: 定期清理作业产生的临时文件,防止存储浪费。这是一种存储空间回收操作。
典型值/范围: 保留时间: 如24小时。管控目标: 不误删正在使用的文件。
核心关联参数: temp_path, retention_hours
依赖关系: 文件系统列表和删除操作
设计/要求: 需谨慎,避免删除正在写入的文件。
测试: 1. 清理测试: 创建过期文件,验证被清理。2. 安全性测试: 确保非临时文件不被误删。
关联学科: 存储管理
硬件需求: IO: 列出和删除文件。网络: 如果远程存储。
-
-
数据查询 - 基于图的三角形计数 (Triangle Counting)
函数/算法类型: 计算图中三角形的数量,用于衡量图的聚集性。triangle_count = count_triangles(graph)。
参数:
-
graph: 无向图
输出:
-
triangle_count: 三角形数量
变量: 图,邻接矩阵
描述: 社交网络分析中常用,用于计算聚类系数。这是一种图结构分析模型。
典型值/范围: 图规模: 可极大。算法: 节点迭代。管控目标: 计数准确,效率高。
核心关联参数: graph
依赖关系: 图算法库
设计/要求: 可并行化。
测试: 1. 正确性测试: 小图上手动验证。2. 性能测试: 大规模图上的计数时间。
关联学科: 图论、社交网络分析
硬件需求: CPU: 三角形计数复杂度高,优化后可达O(m^1.5),CPU密集型。内存: 存储图结构。
-
-
数据转换 - 数据增强 (文本 - 回译)
函数/算法类型: 将文本翻译成另一种语言,再翻译回来,生成语义相同但表达不同的文本。augmented_text = back_translate(text, intermediate_language)。
参数:
-
original_text: 原始文本
-
intermediate_language: 中间语言(如法语)
输出:
-
augmented_text: 回译后的文本
变量: 原始文本,翻译模型
描述: 一种有效的文本数据增强方法,增加语言表达的多样性。这是一种自然语言处理中的数据增强技术。
典型值/范围: 中间语言: 一种或多种。翻译质量: 影响增强效果。管控目标: 回译后语义不变,语法通顺。
核心关联参数: original_text, intermediate_language
依赖关系: 机器翻译服务或模型
设计/要求: 翻译服务可能产生成本。
测试: 1. 语义保留测试: 人工评估回译文本是否保持原意。2. 多样性测试: 多次回译产生不同文本。3. 模型效果: 使用增强数据训练模型的效果。
关联学科: 自然语言处理、数据增强
硬件需求: CPU/GPU: 机器翻译模型推理消耗计算资源。网络: 如果使用云翻译API。
-
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)