生成式AI对世界的雕刻,在数据上体现得淋漓尽致。
随着AI大模型时代的到来,非结构化数据(图片、音视频等)比重日益增加。IDC数据显示,2025年非结构化数据已经占据整个已知数据的90%以上。
为了让AI更好地识别和理解这些数据,一场围绕数据的“向量化”革命正在悄然展开。
图片
**以最重要的搜索场景为例,**Data x AI时代企业的需求正在发生变化。过去,搜索只需要做好全文检索、结构化搜索分词等“关键词搜索”,但现在的用户需求已经变成了向量搜索、语义搜索、多模态混合搜索等等,“猜你要搜”“图片搜索”都成了常态。
举个最简单的例子,之前我们手机相册找照片,不能用关键词搜索,就算用户体验最好的苹果手机,也最多只能按“人脸识别”的人物分类。但现在我们都可以用关键词来寻找照片,本质上,就是图片在数据层面,做到了“向量化”。

这个看似细微的变化,却是在数据层面足够掀起一场巨浪的蝴蝶效应。
OceanBase(以下简称OB) CTO杨传辉认为,AI对数据库的改变正在呈现在两个方面:
Bring Data to Al:通过数据提升准确度,让大模型更加准确,降低推理成本;
Bring Al to Data:将AI集成到数据库,实现SOL+AI混合计算,产生化学反应。
数据不仅影响着大模型性能,AI也在让数据库本身实现升级。而数据库的AI能力升级,也加速推动在RAG等场景中的应用落地。

这场双向改变的化学反应,让未来的数据库,成为一个一体化的智能数据底座。
因此,今年5月,OB正式宣布面向AI时代的到来,要从一体化数据库转型成为“一体化 AI 数据底座”。而这次变革中,OB的云上数据库OB Cloud成为先锋军。
毕竟,云天然就是适配AI,因为AI这种海量非结构化为主的数据,就是需要一个高传输、低延时的反馈,云上的分布式数据库更适合。

一个企业的AI转型
从搜索增强开始
“不知道怎么用AI,就先用知识库做一个Agent助手。”
而做Agent助手,就离不开离知识库最近的RAG(搜索增强)。所以近两年,RAG成了企业级AI落地开始的地方。
成立26年的零售科技公司伯俊科技,做AI转型时,第一个阶段搭建的就是用RAG做的AI工具——AI通识助手。
为了不让这个AI助手“上线即闲置”,伯俊科技中台事业部总监李昊提到,他们调研了整个公司,最后针对四大业务场景来展开功能设计。

一是类似于传统企业知识库问答,主要面向销售端,基于过往企业积累的数据,帮助销售理解公司的规章制度、产品的过往记录以及客户历史情况等;
二是针对后端人员,伯俊科技已经沉淀了包括电商、线下零售、B2B等整个产品知识体系,基于AI小助手的应用,能够让后端人员快速了解对应的知识体系;
三是针对技术能力,伯俊科技则基于已经沉淀的所有不同产品线之间功能差异点,以及其聚焦的客户画像等,可以方便后端同学快速掌握这些核心信息,同样对于交付侧的工作人员,也能够快速上手,为其提升效率;

四则是针对运维同学,伯俊科技通过将客户过往的问题,包括过程中沟通的QA,全部以知识库的形式反哺给运维同学,极大的提升了客户运维的响应时效性,提升客服服务体验。
除此之外,企业也会随着数据能力的深化,慢慢解决更多业务问题。“伯俊科技通过使用OB Cloud来解决了企业知识库沉淀的问题,未来它还会将数据库的能力,逐步延伸至企业文件导购、AI配货能力等企业核心业务上。”

事实上,在企业场景中,想要搭建一个RAG场景,至少需要构建两个层面:
一个是底层的数据库平台,包括向量数据库、文本数据库等,如果往复杂里说,可能还需要地理关系数据库、关系型数据库等支撑,“这就会导致整个数据底座非常复杂,团队的运维成本也会非常高。”OB公有云高级产品专家冯礼说道。
另外,在数据底座之上,还需要一个开发平台,将这些流程串联起来,“很多企业会选择开源产品,或者说是基于LangChain和LlamaIndex开源框架来自己创建,这当中会有大量的集成、调试、二次开发的工作。”

这也就意味着,尽管企业可以通过开源大模型、向量数据库与Agent平台搭建RAG系统,但实际开发过程中,仍面临多重挑战,涉及到多类型文档的智能识别与切分、优化向量数据库索引策略以提升检索效率**,**以及调试大语言模型提示词以确保生成准确性等。
而OB Cloud之所以能够快速帮伯俊科技沉淀其知识库产品体系,则主要源于其将上述流程统一封装打包至一个产品解决方案中,即OceanBase PowerRAG服务。
OceanBase PowerRAG 服务集成了常见的知识库、文本检索、知识检索等所需要的所有模块化解决方案,形成一站式开箱即用的AI解决方案,帮助开发者精简开发流程,实现开箱即用。

图片
PowerRAG的能力远远不止在文档搜索上,而是能对文档的段落结构/表格/图片采取不同的解析策略,这样才能增强其文档解析能力,构建 AI 可理解的知识源。
**基于这些能力,OceanBase PowerRAG已经用在多个企业真实场景中。**其中,企业问数场景是比RAG更难做的场景,主要分为三个阶段,包括自然语言处理,NL2SQL,SQL4DATA等。
“OB Cloud目前主要还是在处理自然语言,将其变成RAG化、向量化的这个阶段,未来我们也会把后面两个阶段的能力变成产品,提供给客户使用。”OB公有云事业部解决方案总监戴涛说道。
在智能问数场景中,互联网百货公司in银泰商业打造了智能问数平台,实现业务数据实时溯源与查询解读,支持门店业绩深度归因分析的智能问诊;同时构建了企业内部知识库,员工可通过自然语言交互快速查询公司内部制度文档、服务条款等,大幅提升管理效率。
可以看到,开箱即用RAG产品已经能做不少事情,但它的实现离不开一个更基础的数据底座。

向量能力
构建AI时代的数据底座
企业内部沉淀的大量数据,想要产生价值,需要先对数据进行处理。
“此前我们的业务和数据不能够打通,存在大量结构化和非结构化的数据,需要花费更多精力在如何处理这些数据上,数据处理后也很难再花精力赋能业务。”李昊说道。
事实上,传统数据库更擅长处理结构化数据,“非结构化数据,其实是数据库一直不擅长处理的地方。”OB资深技术专家张易说道。
因此,想要将非结构化数据转化为大模型能够看懂的数据,向量能力则成为了关键。
向量能力主要体现在两个方面:
一个是对非结构化数据的处理上,主要通过向量嵌入(Embedding) 技术,基于深度学习神经网络,提取非结构化数据里的内容和语义,把图片、视频等变成特征向量。该技术能够将原始数据从高维度空间映射到低维度空间,将具有丰富特征的多模态数据转换为多维向量数据。
“而基于这种嵌入模型的方式,将非结构化数据转化为一个数据库能够处理的半结构化数据,可以使数据库更高效。”张易说道。

另外一个核心则在于向量检索能力。随着数据量的不断激增,传统的基于关键字的检索方法,已经无法满足用户对于检索精度和速度的需求。因此,向量检索技术应运而生。
具体来说,向量检索就是在将非结构化数据转化为向量之后,通过使用相似性度量方法来比较它们之间的相似性,进而捕捉数据的深层次语义信息,从而提供更为准确和高效的检索结果。
图片
简单举例,如用户想要查询北京有什么好吃的,向量检索就会自动定位与北京、美食、地理位置、店面等所有与其有相关性的关键词,而不是只给出北京、美食相关内容。
两者相结合的向量能力,构成了数据库的底座能力。但AI时代的数据库,却又不仅局限于向量。
“一般来说,传统的数据库大多都是基于MySQL构建,但对于面向企业生产的数据库,要的不仅仅是一个向量能力,而是一个完整的数据库技术栈能力,包括完备的企业级能力。”张易说道。
因此,基于向量能力,OB Cloud已经构建了AI数据底座的5大核心能力,用张易总结的话来说,就是“多、快、好、省、创”。
图片
多,是指OB Cloud的一体化架构可支持千万、亿级、十亿**+不同场景向量处理**,VSAG向量索引算法具备TOP吞吐量,在同样召回率0.9下基础性能对比中,OB Cloud性能好于milvus,PG-Vector和ES。

快,主要是面向开发运维工程。
传统向量数据库是基于API来做开发,但这其中面临着需要跨平台,不断重复开发一个新客户端,以及API不能够形象表达一些查询语义等问题。
因此,OB Cloud的一体化架构体系,能够原生支持MySQL的协议的客户端,并通过MySQL协议可以映射到几乎所有的多语言客户端,针对Python或者Java的客户来说,还提供专用的客户端。
好,主要涉及到混合检索和融合查询能力。
在解决海量增长数据问题中,OB Cloud引入了HNSW(基于图的近似最近邻搜索算法)+IVF(倒排文件索引方法)混合算法,通过将增量和存量拆分,并将增量索引与全量索引同步的方式,解决高速增长数据摄入问题。

而想要更快地获得准确的数据,TP和向量的结合非常普遍。“但现在行业中对先算标量还是先算向量一直存在争论,主要是会面临丢数据的风险。”张易说道,“但通过将向量算法库跟数据库做深度集成,用户基本就不需要考虑这个问题了。”
另外,想要整体数据的召回率更高,现阶段主要是向量+全文索引的方式,但张易表示,未来可能是向量、全文索引再加上稀疏向量,会让整个召回率更高,而这也是后续OB Cloud研发方向之一。
当然,除向量外,OB Cloud具备完整的数据库能力,包括事务、数据隔离、企业级安全、备份恢复、高可用等,以及完整的工具链体系,包括评估改造、实时迁移、开发管理、运维管理、容灾复制、安全管理、全生命周期、诊断自治等。

省,则主要是降低海量非结构化数据带来的存储成本和性能成本。毕竟,于企业来说,如果挖掘数据的成本要远远大于数据的价值的话,那么这些数据的价值也就一文不值。
“一旦把大量非结构化数据进行向量化,会涉及到存储成本的极大提升,同时大量向量查询也是一个实时行为,企业需要兼顾海量数据的存储成本和实时查询的性能。”戴涛说道。
一方面通过共享存储模式,OB Cloud的存储成本较传统的Shared Nothing架构可降低 1/2 到 1/10。另一方面,近期OB Cloud还引入了RabitQ技术,来解决传统HNSW算法占用内存较多的问题。
最为重要的一点在于,相比于其他开源数据库,OB Cloud的向量能力,包括向量算法都是全部自研。
“业界比较多的向量数据库底层向量算法是基于开源数据库,其对于向量算法的掌控和创新力都没有办法达到基于自研所带来的底气和创新。”张易说道。
根据跑分评测,目前整体OB Cloud的向量性能已达到主流开源数据库的水平。
除上述提到的RAG产品案例之外,OB Cloud还有更大的案例在Agent领域。“OB Cloud的一体化架构技术形式非常适合企业里面使用,帮助其构建AI底座,提供混合查询、标量、向量一体化查询,多模态交互等能力,帮助企业更好地处理不同的数据。”戴涛说道。
目前,OB Cloud向量能力已经深入电商零售、互联网服务、物流运输、教育、企业服务等众多行业领域,并在头部企业和创新平台的各类 AI 应用场景下持续验证产品价值。

假如你从2026年开始学大模型,按这个步骤走准能稳步进阶。

接下来告诉你一条最快的邪修路线,

3个月即可成为模型大师,薪资直接起飞。
img

阶段1:大模型基础

img

阶段2:RAG应用开发工程

img

阶段3:大模型Agent应用架构

img

阶段4:大模型微调与私有化部署

img

配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇
在这里插入图片描述
img

img

img

img
img

配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇

/bb7bdb067d2bd0a0ff9f68a4d08a290c.png)
img

配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐