【人工智能学习260611-软件测试篇】向量数据库 embedding算法 这两个东西是什么?作为一个AI小白怎么更好的理解这两个东西以及怎么使用?
·
人话版👇
✅ 一、embedding 是什么?(核心概念)
👉 一句话:
embedding = 把文本变成“可以计算相似度的数字坐标”
✅ 用一个很直观的比喻
想象一下:
👉 每句话都被变成一个“坐标点”
比如:
- “用户登录失败” → (0.12, 0.98, …)
- “登录报错” → (0.11, 0.97, …)
- “天气很好” → (0.88, 0.22, …)
👉 你会发现:
- “登录失败”和“登录报错” 👉 距离很近 ✅
- “登录失败”和“天气很好” 👉 距离很远 ❌
✅ 这就是 embedding 的作用:
👉 让AI能理解“语义相似”
而不是只靠关键词匹配
✅ 在你工作里的意义
比如你问:
👉 “登录接口异常怎么测?”
即使文档里写的是:
👉 “认证失败场景处理”
embedding 也能帮你匹配到 ✅
✅ 二、向量数据库是什么?
👉 一句话:
向量数据库 = 专门用来“存这些坐标 + 快速找相似内容”的数据库
✅ 继续用刚才的比喻
你现在有很多“点”(embedding):
- 一堆接口文档
- 一堆测试用例
- 一堆历史bug
👉 你要做的就是:
找“最像你问题”的那几条
普通数据库(MySQL)做不到这个事情很好:
👉 它只能:
- 精确匹配
- 模糊匹配(like)
但向量数据库可以:
👉
“找语义最接近的内容”
✅ 常见向量数据库(你听过就行)
- FAISS(最常见)
- Milvus
- Pinecone
👉 现在不用记
✅ 三、把两者连起来(这才是重点)
👉 整个流程其实是:
文档 → embedding(变成向量)→ 存进向量数据库
用户提问 → embedding → 去数据库找“最像的内容” → 给AI回答
👉 这就是:
✅ RAG 的底层机制
✅ 四、你作为小白,应该怎么理解到位?
你只需要记住这3句话👇
✅ 1️⃣ embedding 干嘛的?
👉 把“人话”变成“机器能算相似度的形式”
✅ 2️⃣ 向量数据库干嘛的?
👉 帮你从一堆资料里找到“最相关的几条”
✅ 3️⃣ 它们解决什么问题?
👉 让AI不瞎编,而是“基于你自己的资料回答”
✅ 五、你现在要不要学它们?
我很直接说👇
❌ 现在不需要:
- 手写 embedding 算法
- 深入数学原理
- 自己搭向量库
✅ 你现在应该做的是:
👉 会用“RAG思路”解决问题
也就是:
- 会喂文档 ✅
- 会问问题 ✅
- 会让AI基于资料输出 ✅
✅ 六、什么时候你才需要学这些技术?
当你开始想做👇
👉
- 做团队内部AI工具
- 自动接入测试平台
- 搭“智能测试助手”
👉 那时候你再学:
- embedding API(调用就行)
- 向量库(用现成的)
✅ 七、如果你想“轻体验一下”(推荐)
你可以试一个非常简单的玩法👇
👉 做一个“小型RAG”:
- 准备3份接口文档
- 分别问:
基于这些文档回答:
(粘文档)
问题:XXX
👉 你就已经在“模拟向量检索”了
✅ 最后一句总结(帮你建立正确认知)
👉
- embedding = 让AI“理解相似度”
- 向量数据库 = 让AI“快速找到相关资料”
- RAG = 把这两者用起来
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)