人话版👇


✅ 一、embedding 是什么?(核心概念)

👉 一句话:

embedding = 把文本变成“可以计算相似度的数字坐标”


✅ 用一个很直观的比喻

想象一下:

👉 每句话都被变成一个“坐标点”

比如:

  • “用户登录失败” → (0.12, 0.98, …)
  • “登录报错” → (0.11, 0.97, …)
  • “天气很好” → (0.88, 0.22, …)

👉 你会发现:

  • “登录失败”和“登录报错” 👉 距离很近 ✅
  • “登录失败”和“天气很好” 👉 距离很远 ❌

✅ 这就是 embedding 的作用:

👉 让AI能理解“语义相似”

而不是只靠关键词匹配


✅ 在你工作里的意义

比如你问:

👉 “登录接口异常怎么测?”

即使文档里写的是:

👉 “认证失败场景处理”

embedding 也能帮你匹配到 ✅


✅ 二、向量数据库是什么?

👉 一句话:

向量数据库 = 专门用来“存这些坐标 + 快速找相似内容”的数据库


✅ 继续用刚才的比喻

你现在有很多“点”(embedding):

  • 一堆接口文档
  • 一堆测试用例
  • 一堆历史bug

👉 你要做的就是:

找“最像你问题”的那几条


普通数据库(MySQL)做不到这个事情很好:

👉 它只能:

  • 精确匹配
  • 模糊匹配(like)

但向量数据库可以:

👉
“找语义最接近的内容”


✅ 常见向量数据库(你听过就行)

  • FAISS(最常见)
  • Milvus
  • Pinecone

👉 现在不用记


✅ 三、把两者连起来(这才是重点)

👉 整个流程其实是:

文档 → embedding(变成向量)→ 存进向量数据库

用户提问 → embedding → 去数据库找“最像的内容” → 给AI回答

👉 这就是:

RAG 的底层机制


✅ 四、你作为小白,应该怎么理解到位?

你只需要记住这3句话👇


✅ 1️⃣ embedding 干嘛的?

👉 把“人话”变成“机器能算相似度的形式”


✅ 2️⃣ 向量数据库干嘛的?

👉 帮你从一堆资料里找到“最相关的几条”


✅ 3️⃣ 它们解决什么问题?

👉 让AI不瞎编,而是“基于你自己的资料回答”


✅ 五、你现在要不要学它们?

我很直接说👇


❌ 现在不需要:

  • 手写 embedding 算法
  • 深入数学原理
  • 自己搭向量库

✅ 你现在应该做的是:

👉 会用“RAG思路”解决问题

也就是:

  • 会喂文档 ✅
  • 会问问题 ✅
  • 会让AI基于资料输出 ✅

✅ 六、什么时候你才需要学这些技术?

当你开始想做👇

👉

  • 做团队内部AI工具
  • 自动接入测试平台
  • 搭“智能测试助手”

👉 那时候你再学:

  • embedding API(调用就行)
  • 向量库(用现成的)

✅ 七、如果你想“轻体验一下”(推荐)

你可以试一个非常简单的玩法👇


👉 做一个“小型RAG”:

  1. 准备3份接口文档
  2. 分别问:
基于这些文档回答:
(粘文档)

问题:XXX

👉 你就已经在“模拟向量检索”了


✅ 最后一句总结(帮你建立正确认知)

👉

  • embedding = 让AI“理解相似度”
  • 向量数据库 = 让AI“快速找到相关资料”
  • RAG = 把这两者用起来

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐