DAMA 的进化

magicyuan

679人浏览 · 2026-05-08 14:46:52

magicyuan · 2026-05-08 14:46:52 发布

引言

DAMA-DMBOK 是全球数据治理的圣经，但它诞生于数据给人看、给BI用、在企业围墙内流转的工业时代。

AI时代，数据的第一消费者是模型。

治理边界从企业级扩展到产业级。

质量管控从事后检查变成全程嵌入。

DAMA 的三大底层假设正在崩塌。

这恰恰是数据治理从业者最大的机会。

挑战

DAMA-DMBOK，数据治理圈的圣经，从业者几乎人手一本。

但我今天要说：

它的三个底层假设，在AI时代遭遇到了前所未有的挑战。

不是书写得不好，而是它诞生的那个时代过去了。

2026年7月1日即将实施的 DCMM 2.0（GB/T 36073-2025）专门新增了面向AI的数据治理能力域。

多模态数据治理、高质量数据集建设、数据产品全生命周期管控。

连国家标准都在给 DAMA 补位。

假设一：数据治理的边界 = 企业边界

DAMA-DMBOK 从头到尾，默认了一个前提。

数据治理是在一个企业的围墙内发生的。

数据架构 → 管企业自己的数据怎么组织。
数据安全 → 防外人拿自己的数据。
数据质量 → 保证自己的数据准不准。
元数据管理 → 建自己的数据字典。

每个知识域前面的定语都是企业自己的。

这个假设在20年前是对的。

但是在中美竞争的大背景下，单个企业的数据量，不足以训练出强大的行业模型。

2026年4月28日工信部和国家数据局联合发文，提出了要搞模数共振。

数据治理的边界正在从企业级扩展到产业级。

什么叫产业级？

A 公司的数据要跟 B 公司、C 公司共享，联合训练行业模型。

数据标准不再是某个公司怎么定，而是这个行业怎么统一。

数据安全不再是防外人，而是如何在共享的同时不泄露。

数据质量不再是自己说了算，而是要接受第三方评测。

DAMA 假设的治理边界是法人边界。

模数共振要求的治理边界是产业边界。

DAMA 好比是一本庄园管理手册，教你管好自己的地、自己的粮仓。

但模数共振要建的是区域粮食交易市场。

你的粮食要标淮斤两、过质检、能溯源、在交易中不被偷。

庄园管理手册写得再好，也教不了你怎么跟其他庄园做生意。

这是 DAMA 的第一个假设崩塌。

数据治理的围墙被推倒了。

假设二：数据的第一消费者是人

DAMA 的整个质量体系，默认数据最终是给人看的。

所以数据质量的定义是完整性、准确性、一致性、及时性、唯一性、有效性。

全是人看着对不对的维度。

但 AI 时代，数据的第一消费者是模型。

模型不在乎数据看着对不对。

它在乎的是：

训练数据的分布是否代表真实场景
数据里有没有系统性偏差
数据的多样性够不够
标注的一致性怎么样
数据有没有毒性

DAMA 的6个质量维度，没有一个覆盖代表性和偏差。

实际操作中，数据如同野草一般野蛮生长，很难做到语义的统一。

比如，你用 DAMA 的标准去评估一个图像训练数据集。

完整性99%、准确性98%，看起来很好。

但如果这个数据集里90%的人脸是白人，模型对有色人种的识别率就会暴跌。

DAMA 的6个维度根本发现不了这个问题。

更致命的是，DAMA 假设数据错了改数据就行。

但在 AI 场景里，数据进了训练集，模型学进去了，你再改原始数据就来不及了。

已经训练好的权重无法改动。

你得重新训练整个模型，成本巨大。

事后检查在 AI 时代来不及了。

这就像你教孩子认字，教错了苹果的写法。

孩子已经记在脑子里了，你光把课本上的错字改掉没用。

你得重新教一遍。

这是 DAMA 的第二个假设崩塌。

数据的消费者从人变成了模型，但我们的治理框架还在为人读数据服务。

DCMM 2.0 这次专门新增了多模态数据治理和高质量数据集建设两个能力域，直接对标AI训练数据的质量要求。

连国家标准都意识到旧框架不够用了。

假设三：数据质量 = 事后检查

DAMA 的数据质量管理，本质上是生产→检查→修复的线性流程。

数据入库了，跑个质量规则引擎，发现问题，修复，再检查。

这个逻辑在 BI 时代没问题。

数据是给人看的报表，晚一天发现问题，无非是报表不准。

但在 AI 流水线上，这个逻辑完全不够用。

AI 时代需要的是全程嵌入的质量管理。

数据采集阶段 → 隐私合规检查
数据标注阶段 → 标注一致性控制
特征工程阶段 → 数据变换血缘追踪
训练集构建阶段 → 代表性检查和偏差检测
模型训练阶段 → 数据漂移监控
模型推理阶段 → 输入数据分布异常检测

DAMA 覆盖的只有数据清洗这一个环节的局部，其他环节全是空白。

根本原因是，在 DAMA 诞生的时代，智能是稀缺资源。

不仅没有 MLOps、没有 Feature Store、没有数据版本管理、没有数据漂移检测工具。

更重要的是，没有智能不逊色甚至超越人类，几乎无限供应的 AI 大模型，对每个环节的数据进行全量检查。

DAMA 的质量逻辑是质检员，产品做完了在流水线末端抽查。

AI 时代需要的是工艺工程师。

数据质量管理要嵌入每一道工序，不是最后一道。

这是 DAMA 的第三个假设的崩塌。

事后检查在 AI 时代变成了马后炮。

三个假设的失效，意味着什么？

DAMA 并不会消失。

数据要被管理、质量要被控制、安全要被保障的底层逻辑永远有效。

但它的框架和边界被打破了。

对于数据治理从业者来说，这意味着两件事：

第一，别再把 DAMA 当圣经了。

它是一本很好的入门教材，但不是AI时代的操作手册。如果你还在用DAMA的6个质量维度去评估AI训练数据集，你已经在用上个时代的工具解决这个时代的问题。

第二，机会在框架之外。

DAMA 没覆盖的地方，例如跨企业数据治理、AI 数据质量、全程嵌入的质量管理，恰恰是最缺方法论的地方。

谁能把这些补上，谁就定义了 AI 数据治理这个新领域。

模数共振的7张清单，每一张都提出了数据治理的新问题。

跨企业的数据集怎么建？

评测数据集怎么形成闭环？

模数共振空间怎么治理？

这些问题，DAMA 回答不了。

DCMM 2.0 和模数共振，正在联手定义 AI 时代的数据治理新标准。

那些既有 DAMA 功底，又有实战经验，还愿意走出框架边界的人，才能成为这个时代，真正需要的数据治理者。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

大学毕业论文纯人工去AI痕迹、降AIGC率全套方法

目前高校AIGC检测核心判定标准为文本句式机械化、表达模板化、逻辑过于规整、内容缺乏主观思考与研究细节。绝大多数AI生成内容存在高度同质化问题，仅依靠同义词替换无法有效降低AI检测率。本文整理适用于本科、专科毕业论文的，全程无需任何改写工具，修改后文本更贴近学生原创写作风格，可有效规避各大平台AI查重。