大模型基础：嵌入模型详细介绍

独断万古他化

10710人浏览 · 2026-05-03 12:48:09

独断万古他化 · 2026-05-03 12:48:09 发布

文章目录

认识嵌入模型

认识嵌入模型

1. 什么是嵌入模型？

大语言模型是生成式模型。它理解输入并生成新的文本（回答问题、写文章）。它内部实际上也使用嵌入技术来理解输入，但最终目标是“创造”。

而嵌入模型（Embedding Model）是表示型模型。它的目标不是生成文本，而是为输入的文本创建一个最佳的、富含语义的数值表示（向量）。

由于计算机天生擅长处理数字，但不理解文字、图片的含义。嵌入（Embedding）的核心思想就是将人类世界的符号（如单词、句子、产品、用户、图片）转换为计算机能够理解的数值形式（即向量，本质上是一个数字列表），并且要求这种转换能够保留原始符号的语义和关系。

结论：既然是“数学语言”，那么我们可以用数学的方式来比较向量，从而达到【度量语义】的目的！

2. 嵌入模型应用场景

根据嵌入的特性，由此延伸出了许多嵌入模型在AI应用的使用场景：

语义搜索（Semantic Search）
传统搜索：依赖关键词匹配（搜“苹果”，只能找到包含“苹果”这个词的文档）。
语义搜索：则能将查询和文档都转换为向量，通过计算向量间的相似度来找到相关内容，即使文档中没有查询的确切词汇也能被检索到。
检索增强生成（Retrieval-Augmented Generation，RAG）
这是当前大语言模型应用的核心模式。当用户向LLM提问时，系统首先使用嵌入模型在知识库（如公司内部文档）中进行语义搜索，找到最相关的内容，然后将这些内容和问题一起交给LLM来生成答案。这极大地提高了答案的准确性和时效性。
推荐系统（Recommendation Systems）
将用户（根据其历史行为、偏好）和物品（商品、电影、新闻）都转换为向量。喜欢相似物品的用户，其向量会接近；相似的物品，其向量也会接近。通过计算用户和物品向量的相似度，就可以进行精准推荐。
异常检测（Anomaly Detection）
正常数据的向量通常会聚集在一起。如果一个新数据的向量远离大多数向量的聚集区，它就可能是一个异常点（如垃圾邮件、欺诈交易）。

3. 主流的嵌入模型

text-embedding-3-large（OpenAI）：OpenAI最强大的英语和非英语任务嵌入模型。默认维度3072，可降维如1024维；输入令牌长度支持为8192。
Qwen3-Embedding-8B（阿里巴巴）：开源模型，支持100+种语言；上下文长度32k；嵌入维度最高4096，支持用户定义的输出维度，范围从32到4096。推理需要一定的GPU计算资源（例如，至少需要16GB以上显存的GPU才能高效运行）。
gemini-embedding-001（Google）：支持100+种语言；默认维度3072，可选降维版本：1536维或768维；输入令牌长度支持为2048。

其他参考：
Huggingface的MTEB评测：https://huggingface.co/spaces/mteb/leaderboard
Huggingface的MTEB（Massive Multilingual Text Embedding Benchmark）评测，是业界比较公认的标准

4. 嵌入模型接入方式

嵌入模型接入和使用方式根据模型类型（开源或闭源）有根本性的不同。

4.1 API接入（闭源）

这是最快速、最简单的方式，无需管理任何基础设施。只需要向模型提供商的服务端发送一个HTTP请求即可。
适用模型：text-embedding-3-large，gemini-embedding-001等。
通用步骤：

注册账号并获取API Key：在对应的云服务平台（如OpenAI Platform，Google AI Studio/Vertex AI）上注册账号，获取用于身份验证的API Key。
安装SDK或构造HTTP请求：使用官方提供的SDK（如openai，google-generativeai）或直接构造HTTP请求。
调用API并处理响应：发送文本，接收返回的JSON格式的向量数据。

4.2 本地部署（开源）

这种方式需要自行准备计算资源（通常是带有GPU的机器）来运行模型，适合对数据隐私、成本和控制权有更高要求的场景。
适用模型：Qwen3-Embedding-8B等。
通用步骤：

环境准备：准备一台有足够GPU显存的服务器（对于Qwen3-Embedding-8B，需要至少16GB以上显存）。
模型下载：从Hugging Face等模型仓库下载模型权重文件和配置文件。
代码集成：使用像transformers这样的库来加载模型并进行推理。
这部分有兴趣的同学可以下来自行研究。对于大多数初创项目或原型验证，从API方式开始是最佳选择。当应用规模化或面临严格的数据合规要求时，再考虑迁移到本地部署开源模型。

在实际应用中，直接调用嵌入模型获取结果，与直接调用原生LLM存在相似的问题：无论是通过API还是本地部署获得向量，下一步通常都是将它们存入向量数据库（如Chroma，Milvus，Pinecone等）以供后续检索。为了便于切换不同的嵌入模型，很多项目会使用像LangChain这样的框架，它们提供了统一的嵌入模型接口。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐