大模型与本体协同:从数据中台到认知中台的演进路径
摘要
2023 年以来,大语言模型快速改变了企业对“智能化”的想象。自然语言问数、智能报表解读、自动生成 SQL、智能 Agent、知识库问答等能力,让数据中台似乎迎来了新的升级机会。但在真实企业场景中,一个越来越清晰的共识正在形成:大模型不能独立支撑企业级数据智能。
原因并不复杂。大模型擅长理解、生成、归纳和解释,但它并不天然掌握企业内部的指标口径、权限边界、实时数据、业务规则和执行约束。企业数据中台恰好拥有这些确定性能力:它有数据血缘、指标体系、质量校验、权限控制、计算引擎和服务接口。但传统数据中台的问题是,它能“算数”,却不一定能“理解问题”。
因此,真正值得讨论的不是“大模型会不会替代数据中台”,而是:如何让大模型的认知能力与数据中台的确定性能力形成协同?
本文提出一个核心判断:数据中台向认知中台演进的关键,不是简单接入大模型,也不是把所有数据丢给 Agent,而是引入本体作为语义控制层,把自然语言问题转化为可验证、可执行、可追溯的语义任务。大模型负责理解与表达,本体负责语义约束,数据中台负责确定性执行,治理体系负责证据闭环与风险控制。
一、为什么“LLM + 数据中台”不能直接等于认知中台
很多企业在尝试大模型落地时,第一反应是做自然语言问数,也就是让用户直接问:
帮我查一下华北区上个月高价值客户的复购率。
看一下最近 7 天 GMV 下滑的原因。
这个商品为什么流量涨了但成交没涨?
从表面看,这类需求只需要大模型完成 Text-to-SQL 或 Text-to-Query。用户提出问题,大模型生成 SQL,数据库执行查询,最后再由大模型解释结果。
但这个链路很快会遇到问题。
1.1 业务术语并不等于字段名
用户说“高价值客户”,系统不能简单去找一个字段叫 high_value_customer。因为高价值客户可能是一个业务规则:
近 12 个月成交金额达到一定门槛
且复购次数达到一定门槛
且最近仍保持活跃
且没有重大风险事件
如果没有语义层,大模型只能猜测这个概念对应什么表、什么字段、什么规则。猜对了是运气,猜错了就是幻觉。
1.2 指标不是 SQL,而是组织共识
用户说“复购率”,它可能有多种口径:
复购客户数 / 成交客户数
复购客户数 / 活跃客户数
重复下单人数 / 首购人数
指定周期内二次购买客户数 / 首次购买客户数
同一个词在不同部门、不同业务周期、不同报表中可能完全不同。如果让大模型直接生成 SQL,它很可能绕过标准指标体系,制造出一个“看起来合理但组织不认可”的新口径。
1.3 数据中台能计算,但不负责理解问题
传统数据中台擅长的是:
数据采集
数据加工
指标计算
数据服务
质量校验
权限管理
但它不擅长理解自然语言中的业务意图。比如“为什么华北区高价值客户下降了”,这不是一个简单查询,而是一个诊断任务。它可能需要拆解为:
华北区范围识别
高价值客户定义识别
客户数量变化计算
客户状态迁移分析
成交金额变化分析
复购行为变化分析
流失客户归因
风险事件排查
这已经不是简单的查数,而是一个多步认知过程。
1.4 大模型能理解,但不能直接成为事实来源
大模型可以把问题拆得很漂亮,也可以生成流畅解释。但如果没有数据中台的真实计算结果、指标口径和证据链支撑,它给出的回答就只是语言推断,而不是企业事实。
所以,“LLM + 数据中台”的真正难点,不是模型能力不足,而是缺少一层把语言、业务、数据、规则和执行连接起来的语义机制。
这就是本体的作用。
二、从数据中台到认知中台:本质是从“数据服务”走向“语义任务”
传统数据中台的中心对象是数据资产。
表
字段
指标
任务
血缘
报表
API
认知中台的中心对象则是语义任务。
用户意图
业务对象
指标口径
规则约束
计算计划
证据链路
解释结果
行动建议
二者的差异不在于是否使用大模型,而在于系统是否能够把用户问题变成一个可执行的“语义事务”。
所谓语义事务,可以理解为:
用户的一次自然语言请求,在系统内部被转化为一组有明确对象、口径、规则、权限、计算路径和证据链的执行单元。
例如用户问:
华北区上个月高价值客户的复购率为什么下降?
在认知中台中,它不应该被直接翻译成一条 SQL,而应该被拆解为一个语义事务:
Intent:原因分析
Object:高价值客户
Region:华北区
Time:上个月
Metric:复购率
Compare:环比 / 同比 / 目标值
Rules:高价值客户定义、复购率口径
Execution:指标查询 + 分群变化 + 行为归因
Evidence:数据来源、计算口径、血缘链路、异常节点
Output:结论解释 + 影响因素 + 后续动作建议
这才是从“自然语言问数”走向“认知中台”的关键。
三、本体不是知识图谱装饰,而是认知中台的语义控制平面
很多企业谈本体,容易把它理解成知识图谱里的概念层级图。比如客户、订单、商品、合同、供应商之间有哪些关系。
这种理解没有错,但还不够。
在认知中台中,本体更重要的定位是 语义控制平面。
它不只是描述对象,还要控制以下问题:
这个业务词到底指什么?
这个词可以映射到哪些指标?
这个指标允许在哪些维度下查询?
这个对象和哪些数据源相关?
这个问题是否需要权限校验?
这个结论是否必须提供证据?
这个动作是否可以自动执行?
也就是说,本体不只是知识表达,而是企业智能系统的语义秩序。
可以把它理解为四层语义契约。
如果没有这层语义控制平面,大模型就会在企业数据空间里自由解释。它可能回答得很流畅,但系统无法保证它用的是正确概念、正确指标、正确权限和正确规则。
四、大模型与数据中台之间缺的不是接口,而是语义路由
很多系统集成大模型时,会优先做工具调用接口,例如:
查询数据库工具
查询指标工具
查询知识库工具
查询图谱工具
生成报表工具
这些工具本身没有问题,但如果没有语义路由,大模型会面临一个更难的问题:
什么时候该查指标?
什么时候该查明细?
什么时候该查知识图谱?
什么时候该查文档?
什么时候该调用规则引擎?
什么时候应该拒绝回答?
认知中台的关键能力,是在用户问题进入系统后,先进行语义路由,而不是直接工具调用。
这张图表达了一个重要原则:
大模型不是直接调用工具,而是在语义路由约束下调用工具。
本体的作用,就是帮助系统判断“这个问题应该进入哪条认知路径”。
五、认知中台的核心不是问答,而是“认知闭环”
如果一个系统只能回答问题,它最多是智能问答系统。
如果它能理解问题、调用数据、解释结果、生成建议、推动动作、复盘效果,它才接近认知中台。
认知中台至少要形成六步闭环:
理解
定位
计算
解释
行动
复盘
以“商品为什么成交下降”为例:
理解问题:
识别这是商品经营诊断,不是简单指标查询。
定位语义对象:
商品、类目、流量入口、SKU、竞品、价格、评价。
确定性计算:
查询曝光、点击率、转化率、退款率、价格差、竞品点击表现。
证据化解释:
指出成交下降主要来自搜索点击下降,而不是转化承接问题。
生成行动建议:
建议优化主图和标题关键词,而不是调整详情页。
执行与复盘:
创建测图任务,7 天后比较 CTR、访客和成交变化。
这里的大模型只负责组织语言和编排任务,它不应该替代指标计算,也不应该绕过规则系统。
六、认知中台推荐架构:一层模型,三层约束,五类执行器
认知中台可以设计为如下架构:
这套架构可以概括为:
一层模型:
大模型负责交互、理解、规划和表达。
三层约束:
本体约束语义,规则约束判断,权限约束行动。
五类执行器:
指标引擎、查询引擎、图谱引擎、检索引擎、规则引擎。
它和普通 AI 问答系统最大的区别在于:
所有输出都必须经过语义约束、确定性执行和证据记录。
七、本体在认知中台中的五种作用
7.1 术语消歧
用户说“客户”,系统需要知道它指的是:
销售客户
成交客户
授信客户
服务客户
企业客户
自然人客户
高价值客户
风险客户
本体可以根据上下文进行消歧:
如果问题涉及成交、复购、GMV,则客户优先映射为成交客户。
如果问题涉及授信、违约、风险,则客户优先映射为风控客户。
如果问题涉及投诉、工单、满意度,则客户优先映射为服务客户。
这比让大模型自由理解更可靠。
7.2 指标约束
用户说“复购率”,系统需要找到标准指标,而不是临时生成 SQL。
复购率
→ metric_code = repurchase_rate
→ numerator = repeat_purchase_customer_count
→ denominator = active_customer_count
→ time_window = user_selected_period
→ grain = region / channel / customer_segment
本体在这里承担的是指标语义注册中心的作用。
7.3 关系扩展
用户问“客户下降原因”,系统不能只看客户数,还要沿关系扩展:
客户
→ 订单
→ 商品
→ 渠道
→ 区域
→ 活动
→ 客诉
→ 风险事件
本体定义了可扩展的关系边界,避免系统盲目查所有表。
7.4 规则判断
例如“高价值客户”不是一个静态标签,而是一个规则推导结果:
IF
成交金额_12m >= threshold
AND 复购次数_12m >= threshold
AND 最近交易天数 <= threshold
THEN
客户 = 高价值客户
本体可以定义规则结构,规则引擎负责执行判断。
7.5 行动边界
认知中台不应只回答“是什么”和“为什么”,还要能回答“下一步怎么办”。
但“怎么办”必须受控。
例如:
生成分析报告:低风险,可自动执行
创建运营任务:中低风险,可自动执行或人工确认
调整价格:高风险,需要审批
修改预算:高风险,需要审批
删除数据:极高风险,默认禁止
这属于行动本体或动作约束层。
八、从 Text-to-SQL 到 Semantic-to-Execution
很多企业把大模型数据中台落地等同于 Text-to-SQL,这是一个过窄的理解。
Text-to-SQL 只能解决“自然语言到查询语句”的问题,但认知中台要解决的是“自然语言到可信业务执行”的问题。
更合理的链路应当是:
Text
→ Intent
→ Ontology Concept
→ Metric / Rule / Object
→ Execution Plan
→ Evidence
→ Explanation
→ Action
可以称为 Semantic-to-Execution。
在这个链路中,SQL 只是执行计划的一种形式。
其他执行形式还包括:
SPARQL 图谱查询
指标服务 API
规则引擎判断
文档检索
OLAP 聚合
任务创建
审批流触发
所以,认知中台不是让大模型写 SQL,而是让大模型在语义约束下编排可信执行。
九、证据账本:认知中台可信输出的关键
企业级智能系统最重要的不是“回答得像人”,而是“回答可追溯”。
每一次回答,都应该形成一份证据账本。
证据账本至少包含:
用户原始问题
识别出的意图
识别出的业务对象
使用的本体概念
使用的指标口径
执行的查询计划
命中的规则
数据来源
权限校验结果
生成的结论
模型输出版本
用户反馈
没有证据账本的 AI 输出,在企业场景中很难被信任。
尤其是数据分析、风控合规、经营诊断、预算建议这类场景,系统必须能回答:
为什么得出这个结论?
数据来自哪里?
指标怎么算的?
规则命中了哪一条?
模型有没有改写事实?
谁有权限看这个结果?
这个建议是否被执行过?
执行后效果如何?
这也是认知中台和普通 Chatbot 的根本区别。
十、认知中台的成熟度模型
企业从数据中台演进到认知中台,可以分成五个阶段。
| 阶段 | 形态 | 主要能力 | 核心风险 |
|---|---|---|---|
| L0 | 报表型数据中台 | 固定报表、人工分析 | 响应慢,口径分散 |
| L1 | 服务型数据中台 | 指标 API、统一查询 | 业务自助门槛高 |
| L2 | 语义型数据中台 | 指标本体、对象本体、语义映射 | 本体建设成本高 |
| L3 | 认知型数据中台 | 自然语言问数、语义路由、证据解释 | 幻觉与误解释风险 |
| L4 | 行动型认知中台 | 自动诊断、任务生成、受控执行、效果复盘 | 权限、审批、责任边界复杂 |
更直观地看:
这里要强调一点:
企业不应该直接从 L1 跳到 L4。没有语义层和证据层,Agent 执行越强,风险越大。
十一、落地路径:先做语义控制,再做智能编排
认知中台不是一个一次性建设完成的平台,而是一条演进路径。
11.1 第一阶段:指标语义化
先把核心指标从“SQL 口径”升级为“语义资产”。
每个指标必须具备:
指标编码
业务定义
统计口径
作用对象
统计粒度
时间窗口
来源字段
计算逻辑
负责人
权限等级
版本号
目标是让大模型无法绕过标准指标自行解释。
11.2 第二阶段:业务对象本体化
建立企业核心业务对象:
客户
商品
订单
合同
供应商
渠道
组织
指标
任务
风险事件
运营动作
并定义对象之间的关系:
客户-下单-订单
订单-包含-商品
商品-属于-类目
供应商-供应-商品
合同-约束-交易
指标-度量-业务对象
动作-作用于-业务对象
目标是让系统知道问题作用在哪个对象上,而不是只知道查哪张表。
11.3 第三阶段:语义路由和工具编排
将用户问题分发到不同执行器:
事实查询 → 指标服务
原因分析 → 诊断流程
关系查询 → 知识图谱
制度解释 → 文档检索
规则判断 → 规则引擎
任务执行 → 工单或审批系统
目标是让大模型不再盲目调用工具,而是在语义路由下执行任务。
11.4 第四阶段:证据账本和输出校验
所有回答都要记录证据。
没有指标口径,不输出精确数值。
没有数据来源,不输出确定结论。
没有权限,不返回敏感明细。
没有规则命中,不生成执行建议。
高风险动作必须审批。
目标是让系统可审计、可解释、可回滚。
11.5 第五阶段:受控 Agent 行动
最后再让 Agent 进入行动层。
例如:
生成分析报告
创建治理工单
创建运营任务
发起审批流程
触发复盘提醒
但不建议一开始就让 Agent 直接修改价格、预算、权限、合同、生产任务或数据模型。
十二、为什么说“认知中台”不是新瓶装旧酒
有人可能会认为,认知中台只是数据中台加一个大模型入口。
这个理解是不准确的。
数据中台关注的是数据流:
数据从哪里来
如何加工
如何存储
如何服务
如何保证质量
认知中台关注的是认知流:
问题如何理解
对象如何定位
规则如何判断
证据如何组织
结论如何解释
行动如何约束
效果如何复盘
可以用一张图表示两者区别:
数据中台让企业“有数可用”。
认知中台让企业“基于数据形成判断”。
这是两个层级的能力。
十三、需要警惕的三个误区
13.1 误区一:把 Prompt 当成语义治理
Prompt 可以约束模型输出,但不能替代本体、指标平台和规则引擎。
原因是 Prompt 不具备:
版本管理
权限控制
血缘追溯
结构化校验
影响分析
生产审计
所以,Prompt 只能作为交互策略,不能作为企业治理边界。
13.2 误区二:把 Text-to-SQL 当成认知能力
Text-to-SQL 能提高取数效率,但它解决的是查询生成,不是业务理解。
真正的认知能力包括:
知道查什么
知道为什么查
知道结果如何解释
知道结论是否可信
知道下一步能做什么
如果缺少这些能力,系统只是一个自然语言数据库入口。
13.3 误区三:让 Agent 直接执行生产动作
Agent 的风险不在于它不能执行,而在于它可能“错误地执行”。
高风险动作必须被限制:
修改价格
调整预算
删除数据
变更权限
发布商品
修改合同
调整供应链计划
认知中台必须先建立动作本体、审批策略和执行审计,再开放行动能力。
十四、结语:认知中台的本质是可信智能,而不是更强模型
大模型带来的最大变化,不是让系统多了一个聊天入口,而是让企业第一次有机会把自然语言问题转化为自动化认知流程。
但企业级智能不能只依赖模型。
它必须建立在四个基础之上:
语义可控
计算确定
证据可追溯
行动可治理
本体在其中扮演的是语义锚点和控制平面。它将大模型的语言理解能力,与数据中台的指标、数据、规则、权限和血缘连接起来,使自然语言问题不再停留在“问答”,而能进入“执行、解释、审计、复盘”的闭环。
数据中台的价值,是让企业把数据资产沉淀下来。
认知中台的价值,是让企业把判断能力沉淀下来。
未来真正有竞争力的企业智能系统,不会是一个单纯会聊天的大模型,也不会是一个只会出数的数据平台,而是一个能够理解业务问题、调用可信数据、遵守语义规则、给出证据解释,并在受控边界内推动行动的认知中枢。
这才是从数据中台走向认知中台的真正演进路径。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)