Claude Code,Cursor,Trae上必装的12 个数据治理 AI Skill 完整指南
从质量核查到血缘追踪:12 个数据治理 AI Skill 完整指南
数据治理(Data Governance) 是指通过制度、流程和工具对数据资产进行全生命周期管理,确保数据的准确性、一致性、合规性与安全性。本文整理自 SkillsBot 数据治理分类,涵盖数据质量、血缘追踪、分类标注、目录管理、模式演进、合规审查等 6 大核心方向的 12 个专业 Skill,是构建企业级数据治理体系的实用工具集。
速览表
| Skill 名称 | 标识符 | 核心功能 | 解决的痛点 | 安装量 | 详情页 |
|---|---|---|---|---|---|
| 数据质量分析器 | data-quality-profiler |
六维度数据质量全面评估,检测异常与PII | 数据资产质量难量化、合规风险不可见 | 6+ | 查看 |
| 数据血缘关系映射器 | data-lineage-mapper |
从 SQL/dbt/Airflow/Spark 提取并可视化血缘关系 | 数据链路不透明、变更影响难评估 | 7+ | 查看 |
| 数据分类 | data-classification |
定义数据敏感级别、标签与生命周期策略 | 数据分类策略缺失、合规控制无体系 | 3+ | 查看 |
| 数据治理检查 | data-governance-check |
检查数据治理的隐私保护与保留合规性 | 隐私合规流程繁杂、风险管控不系统 | 2+ | 查看 |
| 数据目录增强器 | DataCatalogEnricher |
智能自动为数据目录添加标签与业务术语 | 元数据维护耗时、数据可发现性低 | 2+ | 查看 |
| 模式演进管理器 | SchemaEvolutionManager |
管理 Avro/Protobuf/JSON Schema 演进与兼容性 | Schema 升级破坏兼容、迁移脚本难生成 | 1+ | 查看 |
| RingLead 数据去重 | ringlead-dedup |
CRM 重复记录智能检测、合并与数据标准化 | CRM 数据重复、线索分配混乱 | 2+ | 查看 |
| 文档网站生成 | site |
自动生成 Starlake 数据域文档站(Docusaurus/JSON) | 数据文档滞后、可视化分析协作难 | 1+ | 查看 |
| 文化审查 | cultural-review |
评估代码与内容是否符合原住民数据主权 OCAP 框架 | 涉及原住民数据的项目缺乏文化合规指引 | 1+ | 查看 |
| 验证技能 | validate |
验证 Starlake YAML 配置文件语法与模式合规性 | ETL 运行时才暴露配置错误,调试成本高 | 0 | 查看 |
| 数据验证 | data-validation |
分析结果发布前的质量保证、偏见检测与可重复性验证 | 数据分析结果可靠性无法保证 | 0 | 查看 |
| 数据新鲜度检查 | freshness |
监控数据表最后更新时间戳,异常自动告警 | 数据管道延迟无法及时感知 | 0 | 查看 |
详细技能说明
🔍 数据质量与验证
1. 数据质量分析器(data-quality-profiler)
数据质量分析器是一款专业的数据剖析工具,用于全面评估数据资产的六个核心质量维度:完整性、准确性、一致性、有效性、及时性、唯一性。它能自动检测数据异常、识别个人身份信息(PII),并生成包含可操作建议的详细质量报告。
- 适用场景:数据治理体系建设、ETL/ELT 流程监控、数据仓库质量保障、合规性审计
- 核心能力:异常检测 · PII 识别 · 统计剖析 · 模式识别 · 质量报告生成
- 关键词:数据质量,数据剖析,异常检测,PII识别,数据治理,统计分析
- 安装量:6+
- 📎 查看详情
2. 数据验证(data-validation)
数据验证技能用于在分享数据分析结果前进行全面的质量保证,包括方法论检查、准确性验证和偏见检测。它涵盖数据质量检查、计算逻辑验证、结果合理性核查以及文档标准化,确保分析的可重复性、可靠性和透明度。
- 适用场景:数据科学报告发布前审核、分析结果同行评审、数据产品质量控制
- 核心能力:方法论检查 · 准确性验证 · 偏见检测 · 可重复性保障 · 文档标准化
- 关键词:数据验证,质量保证,数据分析,偏见检测,可重复性,数据治理
- 安装量:0
- 📎 查看详情
3. 数据新鲜度检查(freshness)
数据新鲜度检查技能用于监控数据表的最后更新时间戳,并将结果存储在审计表中进行持续监控和告警。适用于数据治理、数据工程和云服务等领域,确保数据管道的时效性。
- 适用场景:数据仓库 SLA 监控、数据管道健康检查、ETL 时效性审计
- 核心能力:时间戳查询 · 审计表写入 · 异常告警 · Starlake 集成
- 关键词:数据新鲜度,更新时间戳,数据监控,数据告警,数据治理,ETL
- 安装量:0
- 📎 查看详情
4. 验证技能(validate)
验证技能用于验证 Starlake 项目配置的 YAML 文件语法、模式合规性、连接引用等,确保在运行时前捕获配置错误,提升数据治理和 ETL 流程的可靠性。
- 适用场景:Starlake 数据项目 CI/CD 流程、ETL 配置预检、数据管道上线前验证
- 核心能力:YAML 语法验证 · 模式合规检查 · 引用连通性检验 · 错误前置捕获
- 关键词:验证,配置管理,YAML语法,Starlake工具,数据治理,ETL开发,错误预防
- 安装量:0
- 📎 查看详情
🗺️ 数据血缘与目录
5. 数据血缘关系映射器(data-lineage-mapper)
数据血缘关系映射器是一款用于数据治理的专业工具,能够从 SQL、dbt、Airflow、Spark 等多种数据源自动提取、分析和可视化数据血缘关系。它支持列级血缘追踪、上下游影响分析,并能生成兼容 DataHub、OpenLineage 等主流数据目录的标准化血缘图谱,帮助企业实现数据资产的透明化管理、变更影响评估和数据合规性设计。
- 适用场景:数据仓库变更影响分析、数据合规审计、ETL 流程透明化管理
- 核心能力:列级血缘 · 上下游影响分析 · DataHub/OpenLineage 兼容图谱生成
- 关键词:数据血缘,数据治理,数据透明化,血缘追踪,DataHub,OpenLineage
- 安装量:7+ ⭐ 本分类最高
- 📎 查看详情
6. 数据目录增强器(DataCatalogEnricher)
数据目录增强器是一款自动化元数据管理工具,专为提升企业数据治理和数据发现效率而设计。它通过智能算法自动为数据目录条目添加标签、匹配业务术语、推荐数据所有者、分析使用模式并进行数据分类(含敏感信息和 PII 识别)。该工具能集成数据质量评分、丰富数据血缘关系,并优化搜索功能,帮助企业实现高效的数据资产管理、提升数据可发现性和加强数据安全合规。
- 适用场景:企业数据资产盘点、数据目录自动维护、数据安全合规增强
- 核心能力:自动标签 · 业务术语匹配 · 数据所有者推荐 · PII 识别 · 质量评分集成
- 关键词:数据治理,元数据管理,数据目录,数据分类,数据血缘,业务术语表
- 安装量:2+
- 📎 查看详情
🏷️ 数据分类与合规
7. 数据分类(data-classification)
数据分类技能提供了一个全面的框架,用于定义数据的敏感性级别、处理要求、标签和生命周期管理。它帮助组织建立数据分类政策,实施数据保护控制,并确保合规性。
- 适用场景:企业数据分类体系建设、隐私合规设计、数据访问控制策略制定
- 核心能力:敏感级别定义 · 标签管理 · 生命周期策略 · 合规控制框架
- 关键词:数据分类,数据治理,数据安全,生命周期管理,合规,访问控制,加密
- 安装量:3+
- 📎 查看详情
8. 数据治理检查(data-governance-check)
数据治理检查技能用于检查数据治理的隐私保护和保留策略,确保合规性和风险管控。
- 适用场景:数据隐私保护审查、数据保留策略合规检查、数据治理风险评估
- 核心能力:隐私保护检查 · 数据保留合规 · 风险管控 · 数据分类审核 · 访问路径审计
- 关键词:数据治理,隐私保护,数据保留,合规性,风险控制,设计,数据分类,访问路径
- 安装量:2+
- 📎 查看详情
9. 文化审查(cultural-review)
文化审查技能是一个专注于评估软件代码、功能特性与内容是否符合文化敏感性及原住民数据主权 OCAP 框架(所有权、控制权、访问权、持有权)合规性的专业指南。它提供详细的检查清单、敏感度分级标准、批处理工作流程和风险标识,帮助开发者和组织在涉及原住民知识、故事和数据的项目中,确保技术实现尊重文化传统、保护数据主权并满足伦理要求。
- 适用场景:涉及原住民知识产权的数据项目、文化敏感性内容开发、数据伦理合规审查
- 核心能力:OCAP 合规检查 · 文化敏感度分级 · 风险标识 · 批处理工作流
- 关键词:文化审查,原住民数据主权,OCAP框架,文化敏感性,数据伦理,合规检查
- 安装量:1+
- 📎 查看详情
⚙️ 数据工程与架构
10. 模式演进管理器(SchemaEvolutionManager)
模式演进管理器是一款专注于数据治理的工具,用于管理数据模式的演进和兼容性。它支持 Avro、Protobuf、JSON Schema 等多种格式,提供破坏性变更检测、迁移脚本生成、版本管理和跨系统同步功能,确保数据系统在升级过程中的稳定性和兼容性。
- 适用场景:数据管道 Schema 版本管理、微服务数据契约演进、数据仓库结构升级
- 核心能力:破坏性变更检测 · 迁移脚本生成 · 版本管理 · 跨系统同步
- 关键词:模式演进,数据兼容性,数据治理,迁移脚本,模式管理,数据工程,ETL
- 安装量:1+
- 📎 查看详情
11. RingLead 数据去重(ringlead-dedup)
RingLead 数据去重技能是一个专注于企业 CRM 数据治理的自动化工具。它通过智能算法实现重复记录检测与合并、数据标准化清洗,以及线索与客户账户的精准匹配。核心功能包括模糊匹配、数据质量评分、自动合并规则执行,旨在提升销售数据完整性、优化线索分配流程并增强客户关系管理效率。
- 适用场景:Salesforce/CRM 数据清洗、销售线索去重、客户账户数据标准化
- 核心能力:模糊匹配 · 智能合并规则 · 数据标准化 · 质量评分 · 线索精准匹配
- 关键词:CRM数据去重,数据质量平台,线索匹配,数据清洗,RingLead集成,销售自动化
- 安装量:2+
- 📎 查看详情
📄 文档与协作
12. 文档网站生成(site)
文档网站生成技能专用于生成 Starlake 项目的自动化文档网站,覆盖所有数据域、表结构、属性定义、转换逻辑及关系图,支持 Docusaurus MDX 和 JSON 多种输出格式,便于数据治理、可视化分析和项目协作,提升数据透明度和可维护性。
- 适用场景:数据仓库文档自动化、数据团队协作文档站建设、ETL 项目文档化管理
- 核心能力:数据域文档生成 · 表结构可视化 · 转换逻辑文档化 · Docusaurus 集成 · JSON 输出
- 关键词:数据文档,网站生成,数据治理,Starlake,Docusaurus,JSON输出,自动化文档
- 安装量:1+
- 📎 查看详情
按应用方向分类
📊 数据质量与验证(4个)
监控与保障数据的准确性、完整性和时效性。
| Skill | 安装量 | 特点 |
|---|---|---|
| 数据质量分析器 | 6+ | 六维度评估,支持 PII 识别,报告最完整 |
| 数据验证 | 0 | 专注分析结果发布前的偏见检测与可重复性 |
| 数据新鲜度检查 | 0 | 轻量级监控,适合 Starlake ETL 管道 |
| 验证技能 | 0 | 配置文件预检,适合 CI/CD 前置验证 |
🗺️ 数据血缘与目录(2个)
构建数据资产透明化管理的核心基础设施。
| Skill | 安装量 | 特点 |
|---|---|---|
| 数据血缘关系映射器 | 7+ ⭐ | 支持列级血缘,兼容 DataHub/OpenLineage |
| 数据目录增强器 | 2+ | 元数据自动化丰富,提升数据可发现性 |
🏷️ 数据分类与合规(3个)
建立数据分类体系,满足隐私与合规要求。
| Skill | 安装量 | 特点 |
|---|---|---|
| 数据分类 | 3+ | 全框架覆盖,从分级到生命周期管理 |
| 数据治理检查 | 2+ | 隐私保护与保留策略专项合规检查 |
| 文化审查 | 1+ | 独特的 OCAP 框架,适合原住民数据项目 |
⚙️ 数据工程与架构(2个)
保障数据系统演进的稳定性与数据一致性。
| Skill | 安装量 | 特点 |
|---|---|---|
| 模式演进管理器 | 1+ | 支持多格式 Schema,破坏性变更自动检测 |
| RingLead 数据去重 | 2+ | CRM 专向,模糊匹配+智能合并规则 |
📄 文档与协作(1个)
将数据治理成果可视化,提升团队协作效率。
| Skill | 安装量 | 特点 |
|---|---|---|
| 文档网站生成 | 1+ | Starlake 专用文档站,支持 MDX/JSON 输出 |
常见问题 FAQ
Q:企业刚开始建设数据治理体系,应该先用哪些 Skill?
A:建议按优先级顺序:① 数据质量分析器(摸清数据资产现状)→ ② 数据分类(建立分类体系)→ ③ 数据血缘关系映射器(理清数据链路)→ ④ 数据目录增强器(提升数据可发现性)。这四个工具构成了数据治理"地基四件套"。
Q:数据验证(data-validation)和数据质量分析器(data-quality-profiler)有什么区别?
A:两者侧重不同:数据质量分析器主要用于数据资产的持续监控与评估(六维度 + PII 识别),适合数据工程团队;数据验证技能更聚焦于分析报告发布前的结果可靠性验证(偏见检测、可重复性),适合数据分析师在出具报告前使用。
Q:validate(验证技能)和 data-validation(数据验证)是同一个吗?
A:不是。validate 专用于验证 Starlake 框架的 YAML 配置文件语法和模式;data-validation 是通用的数据分析结果质量验证工具,两者场景不同,可配合使用。
Q:数据血缘映射器支持哪些工具链?
A:支持 SQL、dbt、Apache Airflow、Apache Spark,以及 DataHub 和 OpenLineage 格式输出,能无缝对接大多数现代数据栈(Modern Data Stack)。
关于本文档
- 数据来源:SkillsBot 数据治理分类
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)