【AI入门知识点】Embedding 是什么？为什么 AI 能“理解意思”？

创世宇图

443人浏览 · 2026-05-18 15:26:55

创世宇图 · 2026-05-18 15:26:55 发布

为什么 AI 能知道“猫”和“狗”很像？
为什么 ChatGPT 能理解语义，而不是只会关键词匹配？
为什么搜索“新能源汽车”，还能找到“电动车”？
为什么 RAG、向量数据库都离不开 Embedding？

这些问题背后，其实都指向一个核心概念：

Embedding（嵌入）

很多人第一次学 AI 时。

都会遇到一个困惑：

Token 我懂了。
但 Embedding 又是什么？

其实：

Embedding 才是 AI 开始“理解意思”的第一步。

今天继续用：

小白视角 + 程序员视角

真正搞懂：

Embedding 到底是什么？

一、小白视角：Embedding 到底是什么？

先一句话解释：

Embedding = 把文字翻译成 AI 能理解的“数学坐标”。

什么意思？

你可以理解成：

给每个词一个“位置”。

这个位置：

代表：

它的意思（语义）。

1、AI 为什么需要 Embedding？

上一篇讲过：

AI 不认识文字。

它只认识：

数字。

例如：

一句：

猫

经过 Tokenizer：

可能变：

[1058]

但问题来了：

1058 有意义吗？

没有。

因为：

猫 = 1058
狗 = 2093
汽车 = 7821

这些数字：

只是编号。

AI 根本不知道：

猫和狗比较像。

猫和汽车差很多。

所以：

还需要一步：

把编号转换成“有意义的数学表达”。

这一步：

就叫：

Embedding

2、Embedding 就像地图坐标

想象一个城市地图。

不同东西：

在不同位置。

例如：

动物区

猫
狗
兔子

放得很近。

因为：

意思接近。

交通工具区

汽车
火车
飞机

也放一起。

食物区

苹果
香蕉
面包

又在另一边。

于是：

AI 发现：

离得近 → 意思像

离得远 → 差异大

这就是：

语义空间（Semantic Space）

3、为什么 AI 能理解近义词？

比如：

你问：

推荐新能源车。

即使知识库写的是：

电动车排行榜

AI 依然能找到。

为什么？

因为：

在 Embedding 空间里：

新能源车
电动车
新能源汽车
EV

距离：

很近。

所以：

AI 会觉得：

“你们差不多是一类意思。”

这就是：

语义搜索能力。

而不是：

死板关键词匹配。

4、为什么 ChatGPT 看起来像理解人话？

因为：

它不是只认：

字。

而是认：

语义向量。

例如：

下面两句话：

我饿了

我想吃饭

虽然字不同。

但：

Embedding 后。

距离很近。

于是模型知道：

表达的是类似意思。

所以：

AI 才能：

理解你的真实意图。

5、一个最形象的比喻

把 Embedding 想象成：

给所有词建立“朋友圈”。

比如：

“猫”的朋友圈：

狗
宠物
小动物
猫粮
喵星人

离得都近。

但：

飞机
数据库
火箭

离很远。

于是：

AI 慢慢学会：

谁和谁关系好。

这就是：

语义理解。

6、一句话理解 Embedding

如果让我一句话解释：

Embedding = 把文字变成有意义的数学位置。

让 AI：

开始理解“意思”。

而不只是：

死记编号。

二、程序员视角：Embedding 到底是什么？

下面进入：

程序员模式。

尽量讲专业，但不搞学术劝退。

1、Embedding 的本质是什么？

一句话定义：

Embedding 是离散数据的低维稠密向量表示。

什么意思？

原始 Token：

是：

离散 ID

例如：

cat = 1021
dog = 2409
car = 9002

问题：

这些数字：

没有语义关系。

模型无法直接学习。

于是：

通过：

Embedding Layer

映射成：

Dense Vector（稠密向量）

例如：

cat

可能变成：

[0.13, -0.55, 0.82, ...]

768维。

或：

1536维。

甚至：

4096维。

2、Embedding 的核心目标

目标：

让相似语义更接近。

例如：

king
queen
man
woman

经典例子：

向量关系：

king - man + woman ≈ queen

说明：

Embedding：

已经学到：

语义规律。

不是死记硬背。

3、Embedding 的工作流程

完整链路：

文本
↓
Tokenizer
↓
Token ID
↓
Embedding Layer
↓
向量表示
↓
Transformer

例如：

输入：

I love AI

可能变：

[101, 388, 923]

再变：

[
 [0.12, -0.9, ...],
 [0.88, 0.2, ...],
 [-0.11, 0.65, ...]
]

然后：

进入：

Attention。

开始计算语义关系。

所以：

Embedding 是 Transformer 的入口。

4、为什么 Embedding 能表达语义？

因为：

训练时。

模型不断优化：

目标：

让有关系的词更近。

例如：

上下文常出现：

猫 → 宠物 → 喵

模型逐渐学会：

它们应该靠近。

而：

猫 → 火箭

关系弱。

距离变远。

于是：

形成：

高维语义空间。

5、什么是向量相似度？

Embedding 最大价值：

比较“像不像”。

常见计算：

余弦相似度

公式：

\cos(\theta)=\frac{A\cdot B}{|A||B|}

作用：

判断两个向量方向是否接近。

越接近：

越相似。

例如：

内容	相似度
猫 vs 狗	0.91
猫 vs 宠物	0.88
猫 vs 飞机	0.09

于是：

AI 知道：

谁更像谁。

6、为什么 RAG 离不开 Embedding？

现在最火：

RAG（检索增强生成）

核心就是：

向量检索。

流程：

文档
↓
Embedding
↓
向量数据库
↓
用户问题 Embedding
↓
相似度匹配
↓
返回相关内容

所以：

你搜：

电动车推荐

也能找到：

新能源汽车排行榜

因为：

语义接近。

7、常见 Embedding 模型

例如：

OpenAI text-embedding 系列

做：

语义检索

Google embedding models

做：

多模态向量

开源：

Sentence Transformers
Hugging Face Embedding Models
BGE
E5

广泛用于：

RAG
搜索
推荐系统
相似问答

三、一个最形象的比喻

如果：

Token

是：

乐高积木。

那么：

Embedding

就是：

给每块积木贴上“属性标签”。

例如：

猫

标签：

动物
宠物
毛茸茸
可爱

于是：

模型知道：

猫和狗关系近。

猫和飞机关系远。

所以：

Embedding 是 AI 理解意义的开始。

四、一句话总结

小白版总结：

Embedding 是把文字变成有意义数学坐标的方法。

让 AI：

理解“意思”。

程序员版总结：

Embedding 是将离散 Token 映射为连续稠密向量的过程，使模型能够进行语义建模和相似度计算。

最后

如果你刚开始学习 AI。

建议学习路线：

Token
↓
Tokenizer
↓
Embedding
↓
Attention
↓
Transformer
↓
LLM
↓
RAG

因为：

Token 让 AI 看见文字。

Embedding 让 AI 开始理解意思。

理解 Embedding。

你才真正理解：

为什么 AI 能做语义搜索、智能问答、知识库检索，以及 RAG 的底层逻辑。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于模型预测控制的波浪能转换器（WEC）研究（Matlab代码实现）

本文模拟从波浪能转换器（WEC）中提取的能量，当受控移动窗口阻塞 MPC 时，单设备。它还比较了使用标准MPC和GPC控制时WEC提取的能量。摘要：海浪能是可再生能源最集中的来源之一。然而，到目前为止，它还没有达到商业化所需的经济可行性。为了提高波浪能转换器的效率，已经提出了几种先进的控制策略，包括模型预测控制（MPC）。然而，每个优化问题的计算负担都是传统（全自由度）MPC的缺点，这通常会

AtomGit开源社区

三方物流平台（3PL）-智慧物流综合服务平台方案

当前第三方物流、同城配送、干线零担、仓储托管、供应链仓配一体化行业普遍存在业务分散、系统割裂、手工记账、调度低效、对账困难、货主管控弱、数据不通等行业痛点。传统线下运营模式成本高、出错率高、管控难度大，无法满足现代物流数字化、智能化、集约化发展需求。本项目基于开源整套源码架构，搭建一体化智慧物流综合服务平台，整合订单、仓储、运输、财务结算、装卸作业、客户管理、司机管理、智能调度、电子面单、溯源追踪