n 维向量 = 用 n 个数字化特征去具象化现实信息,是现实世界和人工智能数学计算的中间桥梁。任何信息,图像、音频、文字、电信号,要想被AI模型处理,必须先被具象化成n维度向量的数值数据。并实例说明图像、音频、文字是如如何向量化的。

核心公理:图像、音频、文本、传感电信号,计算机无法直接理解原始数据,全部要映射为 n 维数值向量,向量就是现实信息→AI 数学运算的标准化媒介。

原始信号(像素 / 声波 / 汉字)→特征提取→N 维特征向量→送入模型训练 / 推理。

一、文本向量化(NLP,前面已学四类方案)

1.OneHot(单词稀疏向量)

词典:[苹果,香蕉,书桌],\(n=3\)苹果:\([1,0,0]\)、香蕉:\([0,1,0]\)每一维:是否为对应词语。

2.BoW 词袋(文本稀疏向量)

词典\([\text{我,爱吃,苹果,香蕉}]\),句子:我爱吃苹果 \(\rightarrow[1,1,1,0]\)每一维:对应词语出现频次。

3.Word2Vec 稠密词向量

单个词语映射 \(n=300\) 维浮点向量:\(\vec{苹果}=[0.12,0.35,-0.21……]\),维度是模型自学的隐性语义特征。

4.BGE 稠密句向量

整段文本直接输出 768/1024 维向量,承载全句语义。

本质:文字符号 → 语义特征 → N 维向量。

二、图像向量化(CV 计算机视觉)

1. 原始像素向量(最简单)

2. 深度学习特征向量(CNN/ResNet)

图片经过卷积神经网络,丢弃原始像素,模型自动提取轮廓、纹理、颜色特征(语义信息),输出固定维度稠密向量(如 512 维、1024 维)。

  • 猫的图片→512 维特征向量;
  • 同类动物图片特征向量余弦相似度更高。

本质:像素点阵 → 视觉特征 → N 维向量。

三、音频向量化(语音识别 / 声纹

  1. 原始波形采样:声波是连续模拟电信号,采样量化变成时序数字;一段 1s 音频采样率 16000,原始向量维度\(n=16000\)。
  2. 工程常用:MFCC 梅尔倒谱特征对音频做傅里叶变换 + 梅尔滤波,压缩提取声学特征,单条音频转为39 维 / 128 维固定向量。例:“你好” 音频 \(\rightarrow[2.31,0.55,-1.22……]\)(128 维)。说话人相同,音频向量相似度偏高。

本质:模拟声波电信号→频域声学特征→N 维向量。

四、传感器电信号向量化(工业 / 物联网)

温度、电压、震动这类连续模拟电信号,定时采样得到数值序列。设备 1 秒采集 5 项指标:温度、电压、电流、湿度、震动值,\(n=5\)。

样本:\([25.3,220.5,1.2,45,0.02]\)送入异常检测模型做故障识别。

本质:连续模拟电信号→离散采样特征→N 维向量。

五、统一总结四类数据演进规律

  1. 原始非数值信息(文字 / 图片 / 声波 / 电信号)
  2. 特征工程 / 模型提取特征
  3. 标准化 n 维数值向量(稀疏 / 稠密)
  4. 模型输入:矩阵运算、梯度下降、相似度计算、分类预测

六、稀疏 / 稠密区分回顾

  1. 稀疏向量(OneHot、原始大尺寸像素、原始采样音频):大量数值为 0,维度极高、信息冗余;
  2. 稠密向量(Word2Vec、BGE、CNN 图像特征、MFCC 音频特征):低维浮点数组,特征高度压缩,是现代 AI 主流输入。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐