【人工智能学习260611-软件测试篇】向量数据库 embedding算法这两个东西是什么?作为一个AI小白怎么更好的理解这两个东西以及怎么使用？

阿寻寻

653人浏览 · 2026-06-11 00:15:00

阿寻寻 · 2026-06-11 00:15:00 发布

人话版👇

✅ 一、embedding 是什么？（核心概念）

👉 一句话：

embedding = 把文本变成“可以计算相似度的数字坐标”

✅ 用一个很直观的比喻

想象一下：

👉 每句话都被变成一个“坐标点”

比如：

“用户登录失败” → (0.12, 0.98, …)
“登录报错” → (0.11, 0.97, …)
“天气很好” → (0.88, 0.22, …)

👉 你会发现：

“登录失败”和“登录报错” 👉 距离很近 ✅
“登录失败”和“天气很好” 👉 距离很远 ❌

✅ 这就是 embedding 的作用：

👉 让AI能理解“语义相似”

而不是只靠关键词匹配

✅ 在你工作里的意义

比如你问：

👉 “登录接口异常怎么测？”

即使文档里写的是：

👉 “认证失败场景处理”

embedding 也能帮你匹配到 ✅

✅ 二、向量数据库是什么？

👉 一句话：

向量数据库 = 专门用来“存这些坐标 + 快速找相似内容”的数据库

✅ 继续用刚才的比喻

你现在有很多“点”（embedding）：

一堆接口文档
一堆测试用例
一堆历史bug

👉 你要做的就是：

找“最像你问题”的那几条

普通数据库（MySQL）做不到这个事情很好：

👉 它只能：

精确匹配
模糊匹配（like）

但向量数据库可以：

👉
“找语义最接近的内容”

✅ 常见向量数据库（你听过就行）

FAISS（最常见）
Milvus
Pinecone

👉 现在不用记

✅ 三、把两者连起来（这才是重点）

👉 整个流程其实是：

文档 → embedding（变成向量）→ 存进向量数据库

用户提问 → embedding → 去数据库找“最像的内容” → 给AI回答

👉 这就是：

✅ RAG 的底层机制

✅ 四、你作为小白，应该怎么理解到位？

你只需要记住这3句话👇

✅ 1️⃣ embedding 干嘛的？

👉 把“人话”变成“机器能算相似度的形式”

✅ 2️⃣ 向量数据库干嘛的？

👉 帮你从一堆资料里找到“最相关的几条”

✅ 3️⃣ 它们解决什么问题？

👉 让AI不瞎编，而是“基于你自己的资料回答”

✅ 五、你现在要不要学它们？

我很直接说👇

❌ 现在不需要：

手写 embedding 算法
深入数学原理
自己搭向量库

✅ 你现在应该做的是：

👉 会用“RAG思路”解决问题

也就是：

会喂文档 ✅
会问问题 ✅
会让AI基于资料输出 ✅

✅ 六、什么时候你才需要学这些技术？

当你开始想做👇

👉

做团队内部AI工具
自动接入测试平台
搭“智能测试助手”

👉 那时候你再学：

embedding API（调用就行）
向量库（用现成的）

✅ 七、如果你想“轻体验一下”（推荐）

你可以试一个非常简单的玩法👇

👉 做一个“小型RAG”：

准备3份接口文档
分别问：

基于这些文档回答：
（粘文档）

问题：XXX

👉 你就已经在“模拟向量检索”了

✅ 最后一句总结（帮你建立正确认知）

👉

embedding = 让AI“理解相似度”
向量数据库 = 让AI“快速找到相关资料”
RAG = 把这两者用起来

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

G-Star 精选开源项目推荐｜第二十一期

AtomGit开源社区

7月25日·深圳 | Agentic AI 训练-推理-落地全链路 Meetup 圆满举办

AtomGit开源社区

2 步打通 AI 微信助手！AtomCode 微信渠道插件极简上手教程

AtomGit开源社区

所有评论(0)

查看更多评论

阿寻寻

@weixin_46453070

已为社区贡献8条内容

【人工智能学习260611-软件测试篇】向量数据库 embedding算法 这两个东西是什么?作为一个AI小白怎么更好的理解这两个东西以及怎么使用？

阿寻寻

✅ 一、embedding 是什么？（核心概念）

✅ 用一个很直观的比喻

✅ 在你工作里的意义

✅ 二、向量数据库是什么？

✅ 继续用刚才的比喻

✅ 常见向量数据库（你听过就行）

✅ 三、把两者连起来（这才是重点）

✅ 四、你作为小白，应该怎么理解到位？

✅ 1️⃣ embedding 干嘛的？

✅ 2️⃣ 向量数据库干嘛的？

✅ 3️⃣ 它们解决什么问题？

✅ 五、你现在要不要学它们？

❌ 现在不需要：

✅ 你现在应该做的是：

✅ 六、什么时候你才需要学这些技术？

✅ 七、如果你想“轻体验一下”（推荐）

✅ 最后一句总结（帮你建立正确认知）

所有评论(0)

温馨提示：您尚未绑定手机号

阿寻寻

【人工智能学习260611-软件测试篇】向量数据库 embedding算法这两个东西是什么?作为一个AI小白怎么更好的理解这两个东西以及怎么使用？