为什么企业 Agent 建设离不开数据平台

MatrixOrigin

384人浏览 · 2026-04-23 01:48:32

MatrixOrigin · 2026-04-23 01:48:32 发布

十年前建了一堆"信息烟囱"，花了五年补课。今天如果 Agent 一个个单独上，这个弯路会再走一遍——而且这次的坑更深。

老故事，新角色

做过企业信息化的人，对下面这个画面不会陌生：ERP 管财务和供应链，CRM 管销售，MES 管车间，OA 管审批——每个系统各干各的，跑起来都挺顺，但一旦跨系统拉数据就要命。同一个订单号，三个系统三种格式；生产排程想拿到销售预测，得先导 Excel，再手工导入。

后来企业花了三五年建数据中台，本质上就是给当年"先上应用、不管打通"的决策补课。

今天，AI Agent 正在重演同样的剧本。
在这里插入图片描述

各部门各搞各的：法务上了一个合同审核 Agent，客服部署了一个售后知识库问答 Agent，采购做了一个供应商情报 Agent，人事又搞了一个制度问答 Copilot……每个项目单独汇报都能讲出价值，但放到一起看，老问题全回来了。

不过如果仔细看，这次比十年前更麻烦。数字化时代的孤岛只是"业务数据不通"，Agent 时代的坑有三层。

比"打通"复杂得多的三层挑战

在这里插入图片描述

想想看：合同审核 Agent 要读合同文本（非结构化），但也得查客户的历史回款记录（结构化）和之前的合同条款审批意见（Agent 自己产出的数据）。三种数据，来自三个不同的地方。这还只是一个 Agent。

问题是，当你有五个、十个 Agent 同时在跑的时候，每个 Agent 都在跟多种结构化和非结构化数据源做交叉调用。这些调用关系不是一条直线，而是一张网。结构化数据好歹在上一代数据平台里有迹可循——表在哪、字段什么含义、谁有权限访问，多少有点底子。但非结构化数据从来没有被统一管理过，哪些合同在哪个目录、哪些图纸是最新版本、邮件附件散落在谁的收件箱里——这些东西一旦开始被 Agent 网状调用，链路多做几个就几乎无法再理清。不是"复杂度提高了"，是直接失控了。
在这里插入图片描述

不建数据底座，Agent 会掉进哪些坑

我们过去两年在几十个客户现场做 Agent 落地，踩过或见过的坑，归纳起来就这六个：

在这里插入图片描述

底座与智能，同步建设

说到数据平台和业务应用的关系，过去十年的数据中台建设其实留下过两种典型的走弯路姿势，今天在 Agent 领域又开始出现了：

第一种是 IT 思维主导的"先修路再通车"。 觉得必须先把数据平台建得大而全——主数据治理做完、数据质量全部清洗干净、指标体系搭建完毕——然后再让业务来用。听起来很严谨，但实操中这种项目经常建了两年还在"治理"，业务那边早就等不及自己搞了。结果平台建完了，业务已经在各种零散工具上跑了一堆流程，回头再迁移成本比从头建还高。

第二种是业务思维主导的"先跑起来再说"。 完全不考虑数据平台，哪个部门需要就给哪个部门上一个 Agent，数据接入各搞各的。前三个场景确实快——但到第四个、第五个的时候，问题就全暴露了：数据口径不一致、权限管不住、Agent 之间经验不共享。越往后坑越多，越建越慢。

这两种思维背后其实是同一个错误假设：认为底座建设和业务建设是分开的两件事，要么先做完一个再做另一个，要么干脆只做一个。

我们的经验是：底座和智能必须同步建设。 尤其是对于数据基础本身不是很理想的企业来说，正确的做法是——挑一个高价值的 Pilot Agent 场景先跑起来，在这个过程中把数据底座建设起来。Agent 跑通了，业务价值闭环了，数据管道和权限策略也就跟着闭环了。然后第二个场景接进来的时候，底座上已经有了可复用的能力，速度自然就快了。不是先建完路再通车，也不是在荒地上硬跑——是边修路边通车，路和车一起长出来。

2024 年初，我们就在客户现场观察到了 Agent 烟囱化的苗头，也因此做了一个产品决策：推出 MatrixOne Intelligence（MOI）——不是另一个独立的 Agent 工具，而是一个以数据平台为底座的 AI 数据智能平台。它把 Agent 运行时需要的能力和底层的数据存储、集成、加工整合在一起，让团队从第一个场景起就能同时积累业务价值和数据资产。

在这里插入图片描述

注意这张图的层级关系：业务场景在最上面，下面整个是 MOI。MOI 内部分三层：

Agent 运行时层

NL2SQL、RAG 检索、记忆管理、运行分析——这些是所有 Agent 都需要的公共能力，建一次就够了。新场景接进来不用重复搭建，直接调用。

数据集成与加工层

各种业务系统的数据通过 ETL/CDC 接入，文档通过 Embedding 向量化，结构化指标通过语义层构建变得可被自然语言查询。Agent 产出的运行日志也在这一层统一归集。数据只加工一次，所有 Agent 共享。

数据存储与管理层（MatrixOne）

最底下是 MatrixOne 云原生数据库，同时支持 HTAP 事务分析混合、向量检索、全文搜索。结构化数据和非结构化数据在一个引擎里管理，Agent 运行日志也存在这里。权限管控在这一层统一实现——行级、列级的数据权限和操作审计都在数据引擎层面定义，而不是让上面的每个 Agent 各管各的。十个 Agent 共用一套安全策略，而不是十套。

核心设计原则：Agent 上面的场景可以多种多样，但下面的数据底座是同一个。数据只接入一次、权限在数据层统一定义、记忆统一存储——无论将来加多少个 Agent，边际成本是递减的。

对比：两条路的差距有多大

在这里插入图片描述

落地验证：不同行业的实战样本

这套架构不是画在 PPT 上的概念图。从 2024 年开始，我们在多个行业的 AI Agent 项目中验证了这套"底座+智能"同步建设的路径。下面几个案例各有侧重，但共同点只有一个：数据平台是 Agent 真正跑起来的前提，不是锦上添花。
在这里插入图片描述

共同结论：在已落地的项目中，第二个 Agent 场景的上线时间普遍比第一个缩短 60% 以上——因为数据管道、权限策略、记忆框架和日志归集都是复用的。底座建得越早，后面的场景跑得越快。

五条踩过坑之后总结出来的经验

底座和 Agent 要同步起步，别走两个极端

别花两年建"完美的数据底座"再做 Agent——那是 IT 思维的老路，业务等不起。也别完全不管底座，每个部门各搞一个 Agent 先跑起来——那前几个快，后面会越来越慢。正确的节奏是：从第一个 Pilot 场景起就跑在可扩展的底座上，通过业务闭环带动数据闭环。

一个引擎管结构化和非结构化，不要拼凑

Agent 天然就要同时用这两种数据。如果结构化用一个库、文档用另一个库、向量再加一个库——那数据平台本身就变成了新的烟囱。选一个原生支持 HTAP + 向量检索 + 全文搜索的引擎，少走很多弯路。

Agent 产出的数据从第一天就要归集

对话记录、推理链条、决策日志、用户打分——这些数据是 Agent 进化的燃料。别等到上线半年后才想起来"好像应该分析一下效果"。从第一天起就让这些数据回流到统一平台，后面做效果评估和策略优化才有数据可用。

权限在数据层定义，不在 Agent 层各管各

Agent 越多，权限治理越重要。在底座层面统一做行级、列级的权限控制和操作审计，Agent 拿到的就是已经脱敏/过滤后的合规数据。十个 Agent 用同一套安全策略，而不是十套。这不是可选项，是合规底线。

先挑一个场景跑通，再横向复制

别想着一次性建一个"全能 Agent 平台"。选一个数据质量好、业务价值看得见的场景（比如售后知识库问答、合同条款审核），端到端跑通之后，第二个场景就快了——管道能复用、权限能复用、记忆框架也能复用。

写在最后

Agent 的价值没人怀疑，但价值能不能兑现，说到底还是看基础设施。

十年前那一轮数字化的教训其实很简单：应用好建，底座难补。今天的 Agent 时代，问题更多了一层——Agent 不光消费数据，还在不停产生数据；需要的数据不光是结构化的表和指标，还有合同、图纸、文档这些非结构化内容。三个维度叠在一起，没有底座的 Agent 只会越建越乱。

好消息是，这一次我们可以从第一个场景开始就把底座建对。不用等、不用补课——底座和智能一起长，才是正解。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 行业的焦虑正在全球蔓延

AtomGit开源社区

# 基于HarmonyOS的五子棋对战游戏设计与实现

本文详细介绍了基于HarmonyOS的五子棋对战游戏开发过程，采用ArkTS语言实现，包含主菜单、难度选择、对战和规则说明等功能模块。重点阐述了AI对战算法设计、声明式UI实现和HarmonyOS应用架构，通过三种难度级别（随机落子、混合策略和完整评估算法）提升游戏可玩性。项目采用分层架构设计，实现了表现层、业务逻辑层和数据层的分离，为HarmonyOS游戏开发提供了实践参考。关键词：Harmon