摘要

2023 年以来,大语言模型快速改变了企业对“智能化”的想象。自然语言问数、智能报表解读、自动生成 SQL、智能 Agent、知识库问答等能力,让数据中台似乎迎来了新的升级机会。但在真实企业场景中,一个越来越清晰的共识正在形成:大模型不能独立支撑企业级数据智能。

原因并不复杂。大模型擅长理解、生成、归纳和解释,但它并不天然掌握企业内部的指标口径、权限边界、实时数据、业务规则和执行约束。企业数据中台恰好拥有这些确定性能力:它有数据血缘、指标体系、质量校验、权限控制、计算引擎和服务接口。但传统数据中台的问题是,它能“算数”,却不一定能“理解问题”。

因此,真正值得讨论的不是“大模型会不会替代数据中台”,而是:如何让大模型的认知能力与数据中台的确定性能力形成协同?

本文提出一个核心判断:数据中台向认知中台演进的关键,不是简单接入大模型,也不是把所有数据丢给 Agent,而是引入本体作为语义控制层,把自然语言问题转化为可验证、可执行、可追溯的语义任务。大模型负责理解与表达,本体负责语义约束,数据中台负责确定性执行,治理体系负责证据闭环与风险控制。


一、为什么“LLM + 数据中台”不能直接等于认知中台

很多企业在尝试大模型落地时,第一反应是做自然语言问数,也就是让用户直接问:

帮我查一下华北区上个月高价值客户的复购率。
看一下最近 7 天 GMV 下滑的原因。
这个商品为什么流量涨了但成交没涨?

从表面看,这类需求只需要大模型完成 Text-to-SQL 或 Text-to-Query。用户提出问题,大模型生成 SQL,数据库执行查询,最后再由大模型解释结果。

但这个链路很快会遇到问题。

1.1 业务术语并不等于字段名

用户说“高价值客户”,系统不能简单去找一个字段叫 high_value_customer。因为高价值客户可能是一个业务规则:

近 12 个月成交金额达到一定门槛
且复购次数达到一定门槛
且最近仍保持活跃
且没有重大风险事件

如果没有语义层,大模型只能猜测这个概念对应什么表、什么字段、什么规则。猜对了是运气,猜错了就是幻觉。

1.2 指标不是 SQL,而是组织共识

用户说“复购率”,它可能有多种口径:

复购客户数 / 成交客户数
复购客户数 / 活跃客户数
重复下单人数 / 首购人数
指定周期内二次购买客户数 / 首次购买客户数

同一个词在不同部门、不同业务周期、不同报表中可能完全不同。如果让大模型直接生成 SQL,它很可能绕过标准指标体系,制造出一个“看起来合理但组织不认可”的新口径。

1.3 数据中台能计算,但不负责理解问题

传统数据中台擅长的是:

数据采集
数据加工
指标计算
数据服务
质量校验
权限管理

但它不擅长理解自然语言中的业务意图。比如“为什么华北区高价值客户下降了”,这不是一个简单查询,而是一个诊断任务。它可能需要拆解为:

华北区范围识别
高价值客户定义识别
客户数量变化计算
客户状态迁移分析
成交金额变化分析
复购行为变化分析
流失客户归因
风险事件排查

这已经不是简单的查数,而是一个多步认知过程。

1.4 大模型能理解,但不能直接成为事实来源

大模型可以把问题拆得很漂亮,也可以生成流畅解释。但如果没有数据中台的真实计算结果、指标口径和证据链支撑,它给出的回答就只是语言推断,而不是企业事实。

所以,“LLM + 数据中台”的真正难点,不是模型能力不足,而是缺少一层把语言、业务、数据、规则和执行连接起来的语义机制。

这就是本体的作用。


二、从数据中台到认知中台:本质是从“数据服务”走向“语义任务”

传统数据中台的中心对象是数据资产。

表
字段
指标
任务
血缘
报表
API

认知中台的中心对象则是语义任务。

用户意图
业务对象
指标口径
规则约束
计算计划
证据链路
解释结果
行动建议

二者的差异不在于是否使用大模型,而在于系统是否能够把用户问题变成一个可执行的“语义事务”。

所谓语义事务,可以理解为:

用户的一次自然语言请求,在系统内部被转化为一组有明确对象、口径、规则、权限、计算路径和证据链的执行单元。

例如用户问:

华北区上个月高价值客户的复购率为什么下降?

在认知中台中,它不应该被直接翻译成一条 SQL,而应该被拆解为一个语义事务:

Intent:原因分析
Object:高价值客户
Region:华北区
Time:上个月
Metric:复购率
Compare:环比 / 同比 / 目标值
Rules:高价值客户定义、复购率口径
Execution:指标查询 + 分群变化 + 行为归因
Evidence:数据来源、计算口径、血缘链路、异常节点
Output:结论解释 + 影响因素 + 后续动作建议

这才是从“自然语言问数”走向“认知中台”的关键。


三、本体不是知识图谱装饰,而是认知中台的语义控制平面

很多企业谈本体,容易把它理解成知识图谱里的概念层级图。比如客户、订单、商品、合同、供应商之间有哪些关系。

这种理解没有错,但还不够。

在认知中台中,本体更重要的定位是 语义控制平面

它不只是描述对象,还要控制以下问题:

这个业务词到底指什么?
这个词可以映射到哪些指标?
这个指标允许在哪些维度下查询?
这个对象和哪些数据源相关?
这个问题是否需要权限校验?
这个结论是否必须提供证据?
这个动作是否可以自动执行?

也就是说,本体不只是知识表达,而是企业智能系统的语义秩序。

可以把它理解为四层语义契约。

术语契约
业务词是什么意思

对象契约
作用在哪类业务对象上

指标契约
用什么口径和计算规则

行动契约
结论之后允许做什么

高价值客户
复购率
GMV
放量资格

客户
商品
订单
区域
渠道

指标编码
统计周期
粒度
阈值
血缘

生成报告
创建任务
触发审批
执行动作

如果没有这层语义控制平面,大模型就会在企业数据空间里自由解释。它可能回答得很流畅,但系统无法保证它用的是正确概念、正确指标、正确权限和正确规则。


四、大模型与数据中台之间缺的不是接口,而是语义路由

很多系统集成大模型时,会优先做工具调用接口,例如:

查询数据库工具
查询指标工具
查询知识库工具
查询图谱工具
生成报表工具

这些工具本身没有问题,但如果没有语义路由,大模型会面临一个更难的问题:

什么时候该查指标?
什么时候该查明细?
什么时候该查知识图谱?
什么时候该查文档?
什么时候该调用规则引擎?
什么时候应该拒绝回答?

认知中台的关键能力,是在用户问题进入系统后,先进行语义路由,而不是直接工具调用。

查事实

问定义

问原因

问关系

问制度

要执行

超权限/证据不足

用户自然语言问题

语义解析

问题类型识别

指标/明细查询

本体/指标口径查询

诊断流程/归因分析

知识图谱查询

文档/RAG检索

行动治理与审批

拒绝或转人工

证据组装

大模型生成解释

输出校验

返回用户

这张图表达了一个重要原则:

大模型不是直接调用工具,而是在语义路由约束下调用工具。

本体的作用,就是帮助系统判断“这个问题应该进入哪条认知路径”。


五、认知中台的核心不是问答,而是“认知闭环”

如果一个系统只能回答问题,它最多是智能问答系统。
如果它能理解问题、调用数据、解释结果、生成建议、推动动作、复盘效果,它才接近认知中台。

认知中台至少要形成六步闭环:

理解
定位
计算
解释
行动
复盘

理解问题

定位语义对象

确定性计算

证据化解释

生成行动建议

执行与复盘

以“商品为什么成交下降”为例:

理解问题:
识别这是商品经营诊断,不是简单指标查询。

定位语义对象:
商品、类目、流量入口、SKU、竞品、价格、评价。

确定性计算:
查询曝光、点击率、转化率、退款率、价格差、竞品点击表现。

证据化解释:
指出成交下降主要来自搜索点击下降,而不是转化承接问题。

生成行动建议:
建议优化主图和标题关键词,而不是调整详情页。

执行与复盘:
创建测图任务,7 天后比较 CTR、访客和成交变化。

这里的大模型只负责组织语言和编排任务,它不应该替代指标计算,也不应该绕过规则系统。


六、认知中台推荐架构:一层模型,三层约束,五类执行器

认知中台可以设计为如下架构:

用户 / 业务系统 / Agent

大模型交互层

语义控制层

本体概念

指标口径

业务规则

权限策略

行动约束

认知编排层

任务拆解

语义路由

工具选择

证据组织

输出校验

可信执行层

指标计算引擎

SQL/OLAP 查询

知识图谱检索

文档检索 RAG

规则引擎

审批/工单系统

证据账本

数据来源

指标口径

血缘链路

规则命中

权限记录

输出版本

结果解释 / 行动建议 / 审计记录

这套架构可以概括为:

一层模型:
大模型负责交互、理解、规划和表达。

三层约束:
本体约束语义,规则约束判断,权限约束行动。

五类执行器:
指标引擎、查询引擎、图谱引擎、检索引擎、规则引擎。

它和普通 AI 问答系统最大的区别在于:
所有输出都必须经过语义约束、确定性执行和证据记录。


七、本体在认知中台中的五种作用

7.1 术语消歧

用户说“客户”,系统需要知道它指的是:

销售客户
成交客户
授信客户
服务客户
企业客户
自然人客户
高价值客户
风险客户

本体可以根据上下文进行消歧:

如果问题涉及成交、复购、GMV,则客户优先映射为成交客户。
如果问题涉及授信、违约、风险,则客户优先映射为风控客户。
如果问题涉及投诉、工单、满意度,则客户优先映射为服务客户。

这比让大模型自由理解更可靠。


7.2 指标约束

用户说“复购率”,系统需要找到标准指标,而不是临时生成 SQL。

复购率
→ metric_code = repurchase_rate
→ numerator = repeat_purchase_customer_count
→ denominator = active_customer_count
→ time_window = user_selected_period
→ grain = region / channel / customer_segment

本体在这里承担的是指标语义注册中心的作用。


7.3 关系扩展

用户问“客户下降原因”,系统不能只看客户数,还要沿关系扩展:

客户
→ 订单
→ 商品
→ 渠道
→ 区域
→ 活动
→ 客诉
→ 风险事件

本体定义了可扩展的关系边界,避免系统盲目查所有表。


7.4 规则判断

例如“高价值客户”不是一个静态标签,而是一个规则推导结果:

IF
  成交金额_12m >= threshold
  AND 复购次数_12m >= threshold
  AND 最近交易天数 <= threshold
THEN
  客户 = 高价值客户

本体可以定义规则结构,规则引擎负责执行判断。


7.5 行动边界

认知中台不应只回答“是什么”和“为什么”,还要能回答“下一步怎么办”。

但“怎么办”必须受控。

例如:

生成分析报告:低风险,可自动执行
创建运营任务:中低风险,可自动执行或人工确认
调整价格:高风险,需要审批
修改预算:高风险,需要审批
删除数据:极高风险,默认禁止

这属于行动本体或动作约束层。


八、从 Text-to-SQL 到 Semantic-to-Execution

很多企业把大模型数据中台落地等同于 Text-to-SQL,这是一个过窄的理解。

Text-to-SQL 只能解决“自然语言到查询语句”的问题,但认知中台要解决的是“自然语言到可信业务执行”的问题。

更合理的链路应当是:

Text
→ Intent
→ Ontology Concept
→ Metric / Rule / Object
→ Execution Plan
→ Evidence
→ Explanation
→ Action

可以称为 Semantic-to-Execution。

Text
自然语言

Intent
意图

Concept
本体概念

Metric / Rule / Object
指标/规则/对象

Execution Plan
执行计划

Evidence
证据

Explanation
解释

Action
行动

在这个链路中,SQL 只是执行计划的一种形式。

其他执行形式还包括:

SPARQL 图谱查询
指标服务 API
规则引擎判断
文档检索
OLAP 聚合
任务创建
审批流触发

所以,认知中台不是让大模型写 SQL,而是让大模型在语义约束下编排可信执行。


九、证据账本:认知中台可信输出的关键

企业级智能系统最重要的不是“回答得像人”,而是“回答可追溯”。

每一次回答,都应该形成一份证据账本。

证据账本至少包含:

用户原始问题
识别出的意图
识别出的业务对象
使用的本体概念
使用的指标口径
执行的查询计划
命中的规则
数据来源
权限校验结果
生成的结论
模型输出版本
用户反馈

一次认知请求

意图记录

语义对象记录

指标口径记录

执行计划记录

数据来源记录

规则命中记录

权限校验记录

模型输出记录

用户反馈记录

证据账本

没有证据账本的 AI 输出,在企业场景中很难被信任。

尤其是数据分析、风控合规、经营诊断、预算建议这类场景,系统必须能回答:

为什么得出这个结论?
数据来自哪里?
指标怎么算的?
规则命中了哪一条?
模型有没有改写事实?
谁有权限看这个结果?
这个建议是否被执行过?
执行后效果如何?

这也是认知中台和普通 Chatbot 的根本区别。


十、认知中台的成熟度模型

企业从数据中台演进到认知中台,可以分成五个阶段。

阶段 形态 主要能力 核心风险
L0 报表型数据中台 固定报表、人工分析 响应慢,口径分散
L1 服务型数据中台 指标 API、统一查询 业务自助门槛高
L2 语义型数据中台 指标本体、对象本体、语义映射 本体建设成本高
L3 认知型数据中台 自然语言问数、语义路由、证据解释 幻觉与误解释风险
L4 行动型认知中台 自动诊断、任务生成、受控执行、效果复盘 权限、审批、责任边界复杂

更直观地看:

L0 报表型
看数

L1 服务型
取数

L2 语义型
懂数

L3 认知型
解释

L4 行动型
执行与复盘

这里要强调一点:
企业不应该直接从 L1 跳到 L4。没有语义层和证据层,Agent 执行越强,风险越大。


十一、落地路径:先做语义控制,再做智能编排

认知中台不是一个一次性建设完成的平台,而是一条演进路径。

11.1 第一阶段:指标语义化

先把核心指标从“SQL 口径”升级为“语义资产”。

每个指标必须具备:

指标编码
业务定义
统计口径
作用对象
统计粒度
时间窗口
来源字段
计算逻辑
负责人
权限等级
版本号

目标是让大模型无法绕过标准指标自行解释。


11.2 第二阶段:业务对象本体化

建立企业核心业务对象:

客户
商品
订单
合同
供应商
渠道
组织
指标
任务
风险事件
运营动作

并定义对象之间的关系:

客户-下单-订单
订单-包含-商品
商品-属于-类目
供应商-供应-商品
合同-约束-交易
指标-度量-业务对象
动作-作用于-业务对象

目标是让系统知道问题作用在哪个对象上,而不是只知道查哪张表。


11.3 第三阶段:语义路由和工具编排

将用户问题分发到不同执行器:

事实查询 → 指标服务
原因分析 → 诊断流程
关系查询 → 知识图谱
制度解释 → 文档检索
规则判断 → 规则引擎
任务执行 → 工单或审批系统

目标是让大模型不再盲目调用工具,而是在语义路由下执行任务。


11.4 第四阶段:证据账本和输出校验

所有回答都要记录证据。

没有指标口径,不输出精确数值。
没有数据来源,不输出确定结论。
没有权限,不返回敏感明细。
没有规则命中,不生成执行建议。
高风险动作必须审批。

目标是让系统可审计、可解释、可回滚。


11.5 第五阶段:受控 Agent 行动

最后再让 Agent 进入行动层。

例如:

生成分析报告
创建治理工单
创建运营任务
发起审批流程
触发复盘提醒

但不建议一开始就让 Agent 直接修改价格、预算、权限、合同、生产任务或数据模型。


十二、为什么说“认知中台”不是新瓶装旧酒

有人可能会认为,认知中台只是数据中台加一个大模型入口。

这个理解是不准确的。

数据中台关注的是数据流:

数据从哪里来
如何加工
如何存储
如何服务
如何保证质量

认知中台关注的是认知流:

问题如何理解
对象如何定位
规则如何判断
证据如何组织
结论如何解释
行动如何约束
效果如何复盘

可以用一张图表示两者区别:

数据中台

采集

加工

建模

指标

服务

认知中台

理解

定位

推理

解释

行动

复盘

数据中台让企业“有数可用”。
认知中台让企业“基于数据形成判断”。

这是两个层级的能力。


十三、需要警惕的三个误区

13.1 误区一:把 Prompt 当成语义治理

Prompt 可以约束模型输出,但不能替代本体、指标平台和规则引擎。

原因是 Prompt 不具备:

版本管理
权限控制
血缘追溯
结构化校验
影响分析
生产审计

所以,Prompt 只能作为交互策略,不能作为企业治理边界。


13.2 误区二:把 Text-to-SQL 当成认知能力

Text-to-SQL 能提高取数效率,但它解决的是查询生成,不是业务理解。

真正的认知能力包括:

知道查什么
知道为什么查
知道结果如何解释
知道结论是否可信
知道下一步能做什么

如果缺少这些能力,系统只是一个自然语言数据库入口。


13.3 误区三:让 Agent 直接执行生产动作

Agent 的风险不在于它不能执行,而在于它可能“错误地执行”。

高风险动作必须被限制:

修改价格
调整预算
删除数据
变更权限
发布商品
修改合同
调整供应链计划

认知中台必须先建立动作本体、审批策略和执行审计,再开放行动能力。


十四、结语:认知中台的本质是可信智能,而不是更强模型

大模型带来的最大变化,不是让系统多了一个聊天入口,而是让企业第一次有机会把自然语言问题转化为自动化认知流程。

但企业级智能不能只依赖模型。
它必须建立在四个基础之上:

语义可控
计算确定
证据可追溯
行动可治理

本体在其中扮演的是语义锚点和控制平面。它将大模型的语言理解能力,与数据中台的指标、数据、规则、权限和血缘连接起来,使自然语言问题不再停留在“问答”,而能进入“执行、解释、审计、复盘”的闭环。

数据中台的价值,是让企业把数据资产沉淀下来。
认知中台的价值,是让企业把判断能力沉淀下来。

未来真正有竞争力的企业智能系统,不会是一个单纯会聊天的大模型,也不会是一个只会出数的数据平台,而是一个能够理解业务问题、调用可信数据、遵守语义规则、给出证据解释,并在受控边界内推动行动的认知中枢。

这才是从数据中台走向认知中台的真正演进路径。


Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐