从质量核查到血缘追踪:12 个数据治理 AI Skill 完整指南

数据治理(Data Governance) 是指通过制度、流程和工具对数据资产进行全生命周期管理,确保数据的准确性、一致性、合规性与安全性。本文整理自 SkillsBot 数据治理分类,涵盖数据质量、血缘追踪、分类标注、目录管理、模式演进、合规审查等 6 大核心方向的 12 个专业 Skill,是构建企业级数据治理体系的实用工具集。


速览表

Skill 名称 标识符 核心功能 解决的痛点 安装量 详情页
数据质量分析器 data-quality-profiler 六维度数据质量全面评估,检测异常与PII 数据资产质量难量化、合规风险不可见 6+ 查看
数据血缘关系映射器 data-lineage-mapper 从 SQL/dbt/Airflow/Spark 提取并可视化血缘关系 数据链路不透明、变更影响难评估 7+ 查看
数据分类 data-classification 定义数据敏感级别、标签与生命周期策略 数据分类策略缺失、合规控制无体系 3+ 查看
数据治理检查 data-governance-check 检查数据治理的隐私保护与保留合规性 隐私合规流程繁杂、风险管控不系统 2+ 查看
数据目录增强器 DataCatalogEnricher 智能自动为数据目录添加标签与业务术语 元数据维护耗时、数据可发现性低 2+ 查看
模式演进管理器 SchemaEvolutionManager 管理 Avro/Protobuf/JSON Schema 演进与兼容性 Schema 升级破坏兼容、迁移脚本难生成 1+ 查看
RingLead 数据去重 ringlead-dedup CRM 重复记录智能检测、合并与数据标准化 CRM 数据重复、线索分配混乱 2+ 查看
文档网站生成 site 自动生成 Starlake 数据域文档站(Docusaurus/JSON) 数据文档滞后、可视化分析协作难 1+ 查看
文化审查 cultural-review 评估代码与内容是否符合原住民数据主权 OCAP 框架 涉及原住民数据的项目缺乏文化合规指引 1+ 查看
验证技能 validate 验证 Starlake YAML 配置文件语法与模式合规性 ETL 运行时才暴露配置错误,调试成本高 0 查看
数据验证 data-validation 分析结果发布前的质量保证、偏见检测与可重复性验证 数据分析结果可靠性无法保证 0 查看
数据新鲜度检查 freshness 监控数据表最后更新时间戳,异常自动告警 数据管道延迟无法及时感知 0 查看

详细技能说明

🔍 数据质量与验证


1. 数据质量分析器(data-quality-profiler)

数据质量分析器是一款专业的数据剖析工具,用于全面评估数据资产的六个核心质量维度:完整性、准确性、一致性、有效性、及时性、唯一性。它能自动检测数据异常、识别个人身份信息(PII),并生成包含可操作建议的详细质量报告。

  • 适用场景:数据治理体系建设、ETL/ELT 流程监控、数据仓库质量保障、合规性审计
  • 核心能力:异常检测 · PII 识别 · 统计剖析 · 模式识别 · 质量报告生成
  • 关键词:数据质量,数据剖析,异常检测,PII识别,数据治理,统计分析
  • 安装量:6+
  • 📎 查看详情

2. 数据验证(data-validation)

数据验证技能用于在分享数据分析结果前进行全面的质量保证,包括方法论检查、准确性验证和偏见检测。它涵盖数据质量检查、计算逻辑验证、结果合理性核查以及文档标准化,确保分析的可重复性、可靠性和透明度。

  • 适用场景:数据科学报告发布前审核、分析结果同行评审、数据产品质量控制
  • 核心能力:方法论检查 · 准确性验证 · 偏见检测 · 可重复性保障 · 文档标准化
  • 关键词:数据验证,质量保证,数据分析,偏见检测,可重复性,数据治理
  • 安装量:0
  • 📎 查看详情

3. 数据新鲜度检查(freshness)

数据新鲜度检查技能用于监控数据表的最后更新时间戳,并将结果存储在审计表中进行持续监控和告警。适用于数据治理、数据工程和云服务等领域,确保数据管道的时效性。

  • 适用场景:数据仓库 SLA 监控、数据管道健康检查、ETL 时效性审计
  • 核心能力:时间戳查询 · 审计表写入 · 异常告警 · Starlake 集成
  • 关键词:数据新鲜度,更新时间戳,数据监控,数据告警,数据治理,ETL
  • 安装量:0
  • 📎 查看详情

4. 验证技能(validate)

验证技能用于验证 Starlake 项目配置的 YAML 文件语法、模式合规性、连接引用等,确保在运行时前捕获配置错误,提升数据治理和 ETL 流程的可靠性。

  • 适用场景:Starlake 数据项目 CI/CD 流程、ETL 配置预检、数据管道上线前验证
  • 核心能力:YAML 语法验证 · 模式合规检查 · 引用连通性检验 · 错误前置捕获
  • 关键词:验证,配置管理,YAML语法,Starlake工具,数据治理,ETL开发,错误预防
  • 安装量:0
  • 📎 查看详情

🗺️ 数据血缘与目录


5. 数据血缘关系映射器(data-lineage-mapper)

数据血缘关系映射器是一款用于数据治理的专业工具,能够从 SQL、dbt、Airflow、Spark 等多种数据源自动提取、分析和可视化数据血缘关系。它支持列级血缘追踪、上下游影响分析,并能生成兼容 DataHub、OpenLineage 等主流数据目录的标准化血缘图谱,帮助企业实现数据资产的透明化管理、变更影响评估和数据合规性设计。

  • 适用场景:数据仓库变更影响分析、数据合规审计、ETL 流程透明化管理
  • 核心能力:列级血缘 · 上下游影响分析 · DataHub/OpenLineage 兼容图谱生成
  • 关键词:数据血缘,数据治理,数据透明化,血缘追踪,DataHub,OpenLineage
  • 安装量:7+ ⭐ 本分类最高
  • 📎 查看详情

6. 数据目录增强器(DataCatalogEnricher)

数据目录增强器是一款自动化元数据管理工具,专为提升企业数据治理和数据发现效率而设计。它通过智能算法自动为数据目录条目添加标签、匹配业务术语、推荐数据所有者、分析使用模式并进行数据分类(含敏感信息和 PII 识别)。该工具能集成数据质量评分、丰富数据血缘关系,并优化搜索功能,帮助企业实现高效的数据资产管理、提升数据可发现性和加强数据安全合规。

  • 适用场景:企业数据资产盘点、数据目录自动维护、数据安全合规增强
  • 核心能力:自动标签 · 业务术语匹配 · 数据所有者推荐 · PII 识别 · 质量评分集成
  • 关键词:数据治理,元数据管理,数据目录,数据分类,数据血缘,业务术语表
  • 安装量:2+
  • 📎 查看详情

🏷️ 数据分类与合规


7. 数据分类(data-classification)

数据分类技能提供了一个全面的框架,用于定义数据的敏感性级别、处理要求、标签和生命周期管理。它帮助组织建立数据分类政策,实施数据保护控制,并确保合规性。

  • 适用场景:企业数据分类体系建设、隐私合规设计、数据访问控制策略制定
  • 核心能力:敏感级别定义 · 标签管理 · 生命周期策略 · 合规控制框架
  • 关键词:数据分类,数据治理,数据安全,生命周期管理,合规,访问控制,加密
  • 安装量:3+
  • 📎 查看详情

8. 数据治理检查(data-governance-check)

数据治理检查技能用于检查数据治理的隐私保护和保留策略,确保合规性和风险管控。

  • 适用场景:数据隐私保护审查、数据保留策略合规检查、数据治理风险评估
  • 核心能力:隐私保护检查 · 数据保留合规 · 风险管控 · 数据分类审核 · 访问路径审计
  • 关键词:数据治理,隐私保护,数据保留,合规性,风险控制,设计,数据分类,访问路径
  • 安装量:2+
  • 📎 查看详情

9. 文化审查(cultural-review)

文化审查技能是一个专注于评估软件代码、功能特性与内容是否符合文化敏感性及原住民数据主权 OCAP 框架(所有权、控制权、访问权、持有权)合规性的专业指南。它提供详细的检查清单、敏感度分级标准、批处理工作流程和风险标识,帮助开发者和组织在涉及原住民知识、故事和数据的项目中,确保技术实现尊重文化传统、保护数据主权并满足伦理要求。

  • 适用场景:涉及原住民知识产权的数据项目、文化敏感性内容开发、数据伦理合规审查
  • 核心能力:OCAP 合规检查 · 文化敏感度分级 · 风险标识 · 批处理工作流
  • 关键词:文化审查,原住民数据主权,OCAP框架,文化敏感性,数据伦理,合规检查
  • 安装量:1+
  • 📎 查看详情

⚙️ 数据工程与架构


10. 模式演进管理器(SchemaEvolutionManager)

模式演进管理器是一款专注于数据治理的工具,用于管理数据模式的演进和兼容性。它支持 Avro、Protobuf、JSON Schema 等多种格式,提供破坏性变更检测、迁移脚本生成、版本管理和跨系统同步功能,确保数据系统在升级过程中的稳定性和兼容性。

  • 适用场景:数据管道 Schema 版本管理、微服务数据契约演进、数据仓库结构升级
  • 核心能力:破坏性变更检测 · 迁移脚本生成 · 版本管理 · 跨系统同步
  • 关键词:模式演进,数据兼容性,数据治理,迁移脚本,模式管理,数据工程,ETL
  • 安装量:1+
  • 📎 查看详情

11. RingLead 数据去重(ringlead-dedup)

RingLead 数据去重技能是一个专注于企业 CRM 数据治理的自动化工具。它通过智能算法实现重复记录检测与合并、数据标准化清洗,以及线索与客户账户的精准匹配。核心功能包括模糊匹配、数据质量评分、自动合并规则执行,旨在提升销售数据完整性、优化线索分配流程并增强客户关系管理效率。

  • 适用场景:Salesforce/CRM 数据清洗、销售线索去重、客户账户数据标准化
  • 核心能力:模糊匹配 · 智能合并规则 · 数据标准化 · 质量评分 · 线索精准匹配
  • 关键词:CRM数据去重,数据质量平台,线索匹配,数据清洗,RingLead集成,销售自动化
  • 安装量:2+
  • 📎 查看详情

📄 文档与协作


12. 文档网站生成(site)

文档网站生成技能专用于生成 Starlake 项目的自动化文档网站,覆盖所有数据域、表结构、属性定义、转换逻辑及关系图,支持 Docusaurus MDX 和 JSON 多种输出格式,便于数据治理、可视化分析和项目协作,提升数据透明度和可维护性。

  • 适用场景:数据仓库文档自动化、数据团队协作文档站建设、ETL 项目文档化管理
  • 核心能力:数据域文档生成 · 表结构可视化 · 转换逻辑文档化 · Docusaurus 集成 · JSON 输出
  • 关键词:数据文档,网站生成,数据治理,Starlake,Docusaurus,JSON输出,自动化文档
  • 安装量:1+
  • 📎 查看详情

按应用方向分类

📊 数据质量与验证(4个)

监控与保障数据的准确性、完整性和时效性。

Skill 安装量 特点
数据质量分析器 6+ 六维度评估,支持 PII 识别,报告最完整
数据验证 0 专注分析结果发布前的偏见检测与可重复性
数据新鲜度检查 0 轻量级监控,适合 Starlake ETL 管道
验证技能 0 配置文件预检,适合 CI/CD 前置验证

🗺️ 数据血缘与目录(2个)

构建数据资产透明化管理的核心基础设施。

Skill 安装量 特点
数据血缘关系映射器 7+ ⭐ 支持列级血缘,兼容 DataHub/OpenLineage
数据目录增强器 2+ 元数据自动化丰富,提升数据可发现性

🏷️ 数据分类与合规(3个)

建立数据分类体系,满足隐私与合规要求。

Skill 安装量 特点
数据分类 3+ 全框架覆盖,从分级到生命周期管理
数据治理检查 2+ 隐私保护与保留策略专项合规检查
文化审查 1+ 独特的 OCAP 框架,适合原住民数据项目

⚙️ 数据工程与架构(2个)

保障数据系统演进的稳定性与数据一致性。

Skill 安装量 特点
模式演进管理器 1+ 支持多格式 Schema,破坏性变更自动检测
RingLead 数据去重 2+ CRM 专向,模糊匹配+智能合并规则

📄 文档与协作(1个)

将数据治理成果可视化,提升团队协作效率。

Skill 安装量 特点
文档网站生成 1+ Starlake 专用文档站,支持 MDX/JSON 输出

常见问题 FAQ

Q:企业刚开始建设数据治理体系,应该先用哪些 Skill?

A:建议按优先级顺序:① 数据质量分析器(摸清数据资产现状)→ ② 数据分类(建立分类体系)→ ③ 数据血缘关系映射器(理清数据链路)→ ④ 数据目录增强器(提升数据可发现性)。这四个工具构成了数据治理"地基四件套"。

Q:数据验证(data-validation)和数据质量分析器(data-quality-profiler)有什么区别?

A:两者侧重不同:数据质量分析器主要用于数据资产的持续监控与评估(六维度 + PII 识别),适合数据工程团队;数据验证技能更聚焦于分析报告发布前的结果可靠性验证(偏见检测、可重复性),适合数据分析师在出具报告前使用。

Q:validate(验证技能)和 data-validation(数据验证)是同一个吗?

A:不是。validate 专用于验证 Starlake 框架的 YAML 配置文件语法和模式;data-validation 是通用的数据分析结果质量验证工具,两者场景不同,可配合使用。

Q:数据血缘映射器支持哪些工具链?

A:支持 SQL、dbt、Apache Airflow、Apache Spark,以及 DataHub 和 OpenLineage 格式输出,能无缝对接大多数现代数据栈(Modern Data Stack)。


关于本文档

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐