人工智能时代的数据治理:重塑数据、机构和实践的十大转变
本文探讨了数据治理正在重塑的 10 个关键领域或转变——这些转变既是为了适应人工智能,也是人工智能的直接结果。

随着人工智能系统快速发展并开始影响社会几乎所有领域,关于治理的讨论主要集中在模型及其输出上:它们的透明度、公平性、问责制和一致性。然而,这种关注虽然必要,却并不全面。人工智能系统的可靠性、公平性和有效性完全取决于其训练和运行所依据的数据。
数据治理并非人工智能治理的边缘部分,而是其基石。
与此同时,人工智能的兴起不仅对数据治理提出了新的要求,更从根本上改变了数据治理。为了应对人工智能的能力和风险,数据的定义、管理方式、使用权限以及监管机制等都在被重新定义。
本文探讨了数据治理正在重塑的 10 个关键领域或转变——这些转变既是为了适应人工智能,也是人工智能的直接结果。
1. 重新定义数据的含义
从历史上看,数据治理的重点在于结构化的表格数据集。如今,重心已转移到非结构化数据:文本、图像、音频、视频和多模态内容,这些数据为大规模模型提供了支持。
大型语言模型(LLM)尤其依赖于从网络上抓取的大量语料库,这引发了关于出处、同意、版权和代表性等方面的新治理挑战。

与此同时,人工智能不再仅仅是数据的消费者,它也是数据的生产者。人工智能系统生成的合成文本、图像和信息越来越多地被反馈到训练流程中,这引发了模型崩溃的担忧,也使得对机器生成数据本身的治理框架变得尤为必要。
2. 从 FAIR 到 FAIR-R
FAIR原则——可查找性、可访问性、可互操作性和可重用性——长期以来一直是数据管理的指导原则,并且仍然是实现负责任地访问和重用数据的基础。但人工智能系统需要更多。新增的“R”(面向人工智能的准备)则意在将 FAIR 原则的适用范围从可访问性和互操作性扩展到数据必须能够被算法使用的世界。
这意味着不仅要考虑技术特性,还要考虑治理、质量和伦理。FAIR-R 邀请各机构提出以下问题:
- 数据是否已充分标注、平衡和记录,足以满足机器学习的需求?
- 代理机构、来源和目的是否明确定义?
- 谁来决定什么才算“负责任的再利用”?
- 我们看到,需要将FAIR 扩展到 FAIR-R(Ready-for-AI),以包含以下内容:
- 用于机器可解释的结构化元数据;
- 更好地记录血统和出处;
- 偏见和代表性评估;
- 符合负责任的人工智能实践。
简而言之,数据现在不仅必须可重复使用,而且必须能够以安全、可审计且符合社会价值观的方式被机器重复使用。
3. 情境作为基础设施的兴起
缺乏上下文的数据在人工智能系统中越来越难以使用。模型不仅需要原始输入,还需要关于含义、关系和预期用途的结构化信息。
这促使人们开发出新的协议,例如模型上下文协议 (MCP),该协议旨在规范上下文(例如工具、记忆和环境信息)的结构,并将其与数据一起传输到人工智能系统。
上下文正在成为一种基础设施——受到管理、管理和标准化——塑造着人工智能系统如何解释数据和处理数据。
4. 从数据管理到战略数据管理
传统的数据管理侧重于合规性、标准管理和质量控制。但在人工智能时代,这远远不够。
战略性数据管理的需求日益增长——这是一种积极主动、目标明确的方法,它:
- 使数据使用与业务价值保持一致
- 预计下游人工智能应用
- 跨行业的代理应用关系
- 实现大规模的负责任再利用
数据管理员的角色正在从数据保管者转变为数据生态系统的协调者。
5. 人工智能时代的新型许可制度
现有的数据许可框架(例如知识共享)在设计之初并没有考虑到人工智能训练。
对此,出现了新的方法,包括专门针对人工智能的许可证和信号机制(例如“ cc-signal ”),这些机制指示数据是否以及如何用于模型训练。
这些发展反映了更广泛的转变:从静态许可转向偏好信号和更动态、机器可读的数据权利治理。
6. 社会许可与参与式治理
仅靠法律合规和获得用户同意已不足以使人工智能系统中的数据使用合法化。公众信任越来越依赖于更广泛的社会许可概念。
我们看到参与式机制(公民大会、利益相关者咨询、社区治理模式)的兴起,这些机制使受影响群体能够影响有关如何使用其数据的决策。
这标志着同意从一种交易转变为一种过程。
7. 新的制度形式:数据共享及其他
为了应对数据提取和集中带来的风险,新的制度安排正在涌现,包括数据共享、合作社和信托机构。
这些模型旨在:
- 融入集体治理;
- 使数据使用与社区偏好和共同目标保持一致;
- 重新分配数据生成的价值。
在人工智能领域,此类安排对于确保数据不仅被提取,而且被调动起来用于集体行动和公共利益至关重要。
8. 合成数据作为一种治理工具
合成数据——即人工生成的、模仿现实世界模式的数据集——已逐渐成为解决隐私、访问和稀缺性挑战的一种方法。
如果以负责任的方式实施,其治理意义包括:
- 它可以实现安全的数据共享,而不会泄露敏感信息;
- 它可以填补代表性不足数据集中的空白;
- 它引发了关于保真度、偏差放大和滥用等方面的问题。
因此,合成数据不仅仅是一种技术解决方案,它本身就是一个新的治理对象。
9. 人工智能在数据治理中的应用
人工智能不仅受数据治理的约束,而且越来越多地被用于执行数据治理。应用领域包括:
- 自动化数据发现与分类;
- 质量评估和异常检测;
- 监控合规性和使用模式;
- 对数据集和模型进行偏差和风险审核。
这既带来了效率的提升,也带来了新的风险,因为治理本身也实现了部分自动化。
10. 人工智能代理在数据治理中的兴起
最后,人工智能代理(能够自主进行多步骤决策的系统)的兴起,标志着数据管理和治理领域进入了一个新阶段。这些代理已被用于:
- 协商数据访问权限
- 执行治理规则
- 动态管理数据管道
- 作为用户和数据生态系统之间的中介
这引发了关于治理系统中授权、问责和控制的根本性问题,在这种系统中,机器代表人类行事。
小结:数据治理是一种动态实践
数据治理是人工智能系统赖以构建的基础。但在人工智能时代,它不再是静态的基础,而是一个动态的、不断发展的实践和系统,并受到其所支持的技术的塑造。
我们正迈向这样一个世界:
- 数据治理塑造人工智能;
- 人工智能重塑数据治理;
两者在一个持续的反馈循环中共同演化。
未来的挑战不仅仅是调整现有框架,而是要将数据治理重新构想为一种鲜活的实践和系统——能够确保人工智能不仅服务于效率和创新,而且服务于公平、问责制和公共利益。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)