[智能体-279]:完整解读:各类信息统一向量化原理 + 实例
n 维向量 = 用 n 个数字化特征去具象化现实信息,是现实世界和人工智能数学计算的中间桥梁。任何信息,图像、音频、文字、电信号,要想被AI模型处理,必须先被具象化成n维度向量的数值数据。并实例说明图像、音频、文字是如如何向量化的。
核心公理:图像、音频、文本、传感电信号,计算机无法直接理解原始数据,全部要映射为 n 维数值向量,向量就是现实信息→AI 数学运算的标准化媒介。
原始信号(像素 / 声波 / 汉字)→特征提取→N 维特征向量→送入模型训练 / 推理。
一、文本向量化(NLP,前面已学四类方案)
1.OneHot(单词稀疏向量)
词典:[苹果,香蕉,书桌],\(n=3\)苹果:\([1,0,0]\)、香蕉:\([0,1,0]\)每一维:是否为对应词语。
2.BoW 词袋(文本稀疏向量)
词典\([\text{我,爱吃,苹果,香蕉}]\),句子:我爱吃苹果 \(\rightarrow[1,1,1,0]\)每一维:对应词语出现频次。
3.Word2Vec 稠密词向量
单个词语映射 \(n=300\) 维浮点向量:\(\vec{苹果}=[0.12,0.35,-0.21……]\),维度是模型自学的隐性语义特征。
4.BGE 稠密句向量
整段文本直接输出 768/1024 维向量,承载全句语义。
本质:文字符号 → 语义特征 → N 维向量。
二、图像向量化(CV 计算机视觉)
1. 原始像素向量(最简单)

2. 深度学习特征向量(CNN/ResNet)
图片经过卷积神经网络,丢弃原始像素,模型自动提取轮廓、纹理、颜色特征(语义信息),输出固定维度稠密向量(如 512 维、1024 维)。
- 猫的图片→512 维特征向量;
- 同类动物图片特征向量余弦相似度更高。
本质:像素点阵 → 视觉特征 → N 维向量。
三、音频向量化(语音识别 / 声纹)
- 原始波形采样:声波是连续模拟电信号,采样量化变成时序数字;一段 1s 音频采样率 16000,原始向量维度\(n=16000\)。
- 工程常用:MFCC 梅尔倒谱特征对音频做傅里叶变换 + 梅尔滤波,压缩提取声学特征,单条音频转为39 维 / 128 维固定向量。例:“你好” 音频 \(\rightarrow[2.31,0.55,-1.22……]\)(128 维)。说话人相同,音频向量相似度偏高。
本质:模拟声波电信号→频域声学特征→N 维向量。
四、传感器电信号向量化(工业 / 物联网)
温度、电压、震动这类连续模拟电信号,定时采样得到数值序列。设备 1 秒采集 5 项指标:温度、电压、电流、湿度、震动值,\(n=5\)。
样本:\([25.3,220.5,1.2,45,0.02]\)送入异常检测模型做故障识别。
本质:连续模拟电信号→离散采样特征→N 维向量。
五、统一总结四类数据演进规律
- 原始非数值信息(文字 / 图片 / 声波 / 电信号)
- 特征工程 / 模型提取特征
- 标准化 n 维数值向量(稀疏 / 稠密)
- 模型输入:矩阵运算、梯度下降、相似度计算、分类预测
六、稀疏 / 稠密区分回顾
- 稀疏向量(OneHot、原始大尺寸像素、原始采样音频):大量数值为 0,维度极高、信息冗余;
- 稠密向量(Word2Vec、BGE、CNN 图像特征、MFCC 音频特征):低维浮点数组,特征高度压缩,是现代 AI 主流输入。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)