2026 Embedding 模型选型指南

Langchain

597人浏览 · 2026-04-20 16:06:08

Langchain · 2026-04-20 16:06:08 发布

做 RAG 系统的人，几乎都有过这样的经历：分块策略调了好几轮，相似度阈值改了又改，Rerank 也加上了，可检索准确率就是差那么一口气。最后发现，问题出在最底层——Embedding 模型选错了。比如把“辞职”和“离职”编码成距离很远的两个向量，或者把“年假”和“带薪假期”的语义距离拉得老远。

Embedding 模型是 RAG 的地基。地基不稳，上面建再多也歪。这一篇，我们就来系统聊聊：怎么选 Embedding、怎么评估、2026 年有哪些新选择。

1. Embedding 到底在 RAG 里干什么？

先快速回顾一下 RAG 的检索链路：

用户提问 → Embedding 模型 → 查询向量文档库 → Embedding 模型 → 文档向量↓向量相似度计算↓召回最相关文档

Embedding 模型本质上是一个“语义翻译器”——把人类的自然语言转换成机器能理解的数字向量。在向量空间中，语义相似的文本会彼此靠近，语义无关的则相距较远。 [1]

如果模型认为“退款”和“退货”应该相似（确实应该），但又认为“年假”和“带薪假期”差距很大（不应该），那检索结果就会出大问题。

嵌入在 RAG 中的核心作用：

语义理解：嵌入将词、句子或文档转成向量，让相近语义彼此靠近，使系统能理解语境与含义，而非仅做字面匹配。 [2]
高效检索：基于嵌入的向量检索（如 k 近邻算法）可以快速定位最相关的文档或段落。 [3]
更高准确度：借助语义关联，即使查询与文档措辞不同，系统也能找到相关信息，从而提供更准确的答案。

RAG 要想高效地检索到相关信息，离不开高质量的 Embedding 模型。一个合适的 Embedding 模型，能在兼顾成本的基础上，显著提升检索的准确率、回答的相关性，以及整个系统的性能。 [4]

2. 选模型，看这 5 个维度就够了

面对五花八门的 Embedding 模型，到底怎么选？归纳起来，主要看这几个方面： [5]

1 领域匹配度

这一点最容易被忽略。通用模型在自己领域的语料上可能表现平平，比如医疗、法律、金融等专业场景。如果模型没有见过你领域内的术语和表达方式，再高的 MTEB 分数也没用。

2 上下文长度

模型单次能处理的最大 token 数直接决定了它能“看到”多长的文本。长文档检索（如论文、法律文书）优先选择 8192 tokens 及以上窗口的模型；短文本场景（如客服对话）可放宽至 2048 tokens。

目前主流模型的支持情况：Qwen3-Embedding 支持到 32K [6]，BGE-M3 支持 8K [7]，OpenAI 的 text-embedding-3 系列也支持较长的上下文。

3 向量维度

维度越高，模型承载的语义信息越丰富，检索精度也更高——但代价是存储成本增加、向量搜索变慢。

高维度（如 3072、4096）：适合高精度场景
低维度（如 384、512）：适合大规模检索、成本敏感场景

好消息是，像 OpenAI 的 text-embedding-3 系列 [8] 和 KaLM-Embedding 等新模型都支持 Matryoshka 训练，可以灵活截断维度而精度损失较小。 [9]

4 语言支持

这是中文场景最需要关注的维度。OpenAI 的模型对中文“可用但建议实测”，而 BGE 系列（如 bge-m3、bge-large-zh）[7] 和 Qwen 系列 [6] 则专为中文深度优化。

5 延迟与成本

若响应时延要求严格，应选择推理延迟低的模型。轻量模型如 DistilBERT、MiniLM 通常足够准确且更快。同时要考虑是调用 API 还是本地部署——API 按量付费，本地部署需要显卡和电费。

2026 主流模型速览

==============

截至 2026 年初，以下是各场景值得关注的模型（价格和性能会持续变化，正式选型前请参考官方最新文档）：

纯中文场景：

BAAI/bge-large-zh：中文老牌选手，稳定可靠 [7]
BAAI/bge-m3：支持多语言、混合检索（稠密+稀疏），中文表现很强 [7]
Qwen3-Embedding 系列：0.6B/4B/8B 三档可选，32K 上下文，综合得分在 MTEB 多语言榜上表现突出 [6]
腾讯 Conan-Embedding-V2：1.4B 参数，32K 上下文，中英 SOTA 性能 [10]
浪潮 Yuan-EB 2.0：0.3B/0.6B 轻量级，C-MTEB 中文检索得分 81.76，以“小参数、高性能”著称 [11]

多语言/多模态场景：

Gemini Embedding 2：Google 出品，支持文本/图像/视频/音频/PDF，被称为“最好的全能选手” [12]
Qwen3-VL-Embedding-2B：开源多模态，在跨模态任务上表现突出 [13]
Amazon Nova Multimodal Embeddings：AWS 的统一嵌入模型，支持文本、图像、视频、音频，跨模态检索精度领先 [14]
Jina Embeddings v4：3.8B 参数，支持 MRL 维度压缩 [15]

英文高精度/通用场景：

OpenAI text-embedding-3-large：3072 维，支持维度截断，RAG 场景标杆 [8]
Cohere embed-v4：MTEB 得分 65.2，位列前茅 [16]

超大参数选项：

腾讯 KaLM-Embedding：120 亿参数，MTEB 多语言综合得分全球第一（72.32），是当前 MTEB 榜单上最大规模的 Embedding 模型之一 [17]

重要提醒：MTEB 排行榜只测试单语言文本检索，不包括跨模态、跨语言、长文档精确度和维度压缩后的质量损失。选型时请用自己的真实数据做评估，不要只看榜单。 [18]

评估：几行代码测出好坏

==============

1 简单评估

不要盲目相信别人的 benchmark，在你自己的数据上测最靠谱。下面是一套简单的评估框架：

import numpy as npfrom openai import OpenAI
client = OpenAI(    api_key="your-api-key",    base_url="https://api.openai.com/v1"  # 也支持 DeepSeek/智谱等兼容接口)
def cosine_similarity(vec1: list[float], vec2: list[float]) -> float:    """计算余弦相似度"""    a, b = np.array(vec1), np.array(vec2)    return float(np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b)))
def get_embedding(text: str, model: str = "text-embedding-3-small") -> list[float]:    """调用 Embedding API"""    response = client.embeddings.create(model=model, input=text)    return response.data[0].embedding
def evaluate_embedding(get_embedding_func, test_cases: list[dict]) -> dict:    """评估 Embedding 质量
    test_cases 格式：    [{        "query": "用户查询",        "positive": "应该匹配的文档",  # 相似度应该高        "negative": "不该匹配的文档"   # 相似度应该低    }]    """    pos_scores, neg_scores = [], []    for case in test_cases:        q_vec = get_embedding_func(case["query"])        p_vec = get_embedding_func(case["positive"])        n_vec = get_embedding_func(case["negative"])
        pos_scores.append(cosine_similarity(q_vec, p_vec))        neg_scores.append(cosine_similarity(q_vec, n_vec))
    return {        "avg_positive_similarity": np.mean(pos_scores),        "avg_negative_similarity": np.mean(neg_scores),        "discrimination": np.mean(pos_scores) - np.mean(neg_scores)  # 区分度    }
# 使用示例test_cases = [    {"query": "怎么退款", "positive": "退货流程说明", "negative": "公司年假政策"},    {"query": "如何请假", "positive": "带薪假期申请指南", "negative": "工资发放时间"},]result = evaluate_embedding(get_embedding, test_cases)print(f"正例平均相似度: {result['avg_positive_similarity']:.4f}")print(f"负例平均相似度: {result['avg_negative_similarity']:.4f}")print(f"区分度: {result['discrimination']:.4f}")

区分度越高，说明模型越能准确地区分相关和不相关的内容。

2 评估进阶：RAGAS 框架

如果要做更系统化的评估，推荐使用 RAGAS 框架。它是一套专为 RAG 系统设计的评估工具，可以评估上下文精度、召回率、忠实度等多个维度的指标。结合 Ragas、DeepEval、Phoenix、TruLens-Eval 等工具，可以统一评估流程，全面对比不同模型的检索效果。 [19]

本地部署选项：如果你对数据安全有要求，或者想离线使用，可以用 sentence-transformers 库部署开源模型： [20]

from sentence_transformers import SentenceTransformer
# 加载模型（以 bge-large-zh 为例）model = SentenceTransformer("BAAI/bge-large-zh-v1.5")
# 批量生成向量texts = ["如何部署 Kubernetes 集群", "K8s 集群搭建教程", "今天天气真不错"]embeddings = model.encode(texts, normalize_embeddings=True)
# 计算相似度import numpy as npsim = np.dot(embeddings[0], embeddings[1])  # 归一化后直接用点积print(f"语义相似度: {sim:.4f}")

更进一步：微调让模型适配你的领域

===================

如果通用模型在你的领域数据上表现不佳，微调是值得考虑的升级方案。

1 为什么需要微调？

通用 Embedding 模型是在大规模、多领域的语料上训练的，虽然在公开基准上表现不错，但面对垂直领域（如法律、医疗、企业知识库）时，由于数据分布差异，性能往往会下降。 [21]

2 微调怎么做？

传统微调需要大量人工标注的 query-document 对，成本较高。但现在有了新思路：合成数据微调。

以 CustomIR 框架为例，它的流程是：

利用大语言模型（LLM）从你的文档库中自动生成多样化的查询
生成正例和经过 LLM 验证的难负例
用合成数据对预训练 Embedding 模型进行对比学习微调

实验表明，这种方法可以让小模型在特定领域上的 Recall@10 提升 2.3 个百分点，性能接近大得多的模型，从而大幅降低部署成本。 [22]

3 企业实战案例

Cisco IT 团队最近用 NVIDIA Nemotron RAG 微调方案做了一次实验。他们使用合成数据生成技术，在约 925 份文档、9,200 个问答对、7,800 个训练样本的规模上，对 10 亿参数的 NV-EmbedQA 模型进行了微调。结果很可观：NDCG@1 提升了 7.1 到 7.3 个绝对百分点（相对提升 9.9% 到 11.1%）。

更关键的是，整个微调流程在单张 H200 GPU 上只需几小时就能完成，无需人工标注，迭代非常快。 [23]

什么时候该微调？当你发现通用模型在你的数据上检索效果明显不达预期，且你有一定规模的文档库（几百份以上），微调的投入产出比通常很高。反之，如果数据量很少或通用模型已经够用，直接使用现成模型更划算。

2025-2026 前沿趋势速览

===================

Embedding 模型领域变化很快，以下是几个值得关注的新动向：

1 超大参数模型崛起

腾讯的 KaLM-Embedding 参数量达到 120 亿（12B），是当前 MTEB 榜单上最大规模的 Embedding 模型之一，在多语言任务上综合得分全球第一。这标志着 Embedding 模型也在走向“大模型化”。 [17]

2 多模态统一嵌入

Amazon Nova Multimodal Embeddings 是第一款通过单一模型支持文本、图像、视频、音频的统一嵌入模型。传统的多模态 RAG 需要多个专门的嵌入模型，现在一个模型就能搞定，大幅简化了架构。 [14]

3 知识蒸馏让小模型也能打

LEAF（Lightweight Embedding Alignment Framework）等知识蒸馏框架让小型模型也能达到接近大型模型的效果。这对于资源受限的部署场景非常有意义。 [24]

4 混合检索成为标配

BGE-M3 等模型已经支持同时生成稠密向量和稀疏向量，既保留了关键词匹配的精确性，又增强了语义理解能力。在复杂的企业场景中，这种“混合检索”策略正在成为主流。 [7]

实用资源

=======

MTEB 排行榜：https://huggingface.co/spaces/mteb/leaderboard —— 全球最权威的 Embedding 评测榜单，涵盖 8 大任务类型、58+ 数据集、112 种语言。注意：MTEB 主要测试单语言文本检索，不覆盖多模态和跨语言场景。 [18]
C-MTEB：中文专属的 Embedding 评测基准，涵盖分类、聚类、检索、排序等六大任务，共 35 个数据集。 [25]
Milvus CCKM 基准：针对生产场景的补充测试，覆盖跨模态检索、跨语言检索、关键信息检索和维度压缩四个维度。 [26]
RAGAS 评估框架：https://github.com/explodinggradients/ragas —— 专门用于 RAG 系统评估的开源工具，可评估上下文精度、召回率、忠实度等指标。 [19]
Sentence-Transformers 库：https://www.sbert.net/ —— 最方便的开源 Embedding 模型调用库，支持 BGE、E5、MiniLM 等大量模型。 [20]
向量数据库：Milvus、Qdrant、Weaviate、Pinecone 等，选型和 Embedding 模型一样重要。 [27]

写在最后

=======

Embedding 模型选型没有“标准答案”，只有“最适合你场景的答案”。选型时记住几个核心原则：

先在自己数据上评估，不要迷信排行榜
中文场景优先考虑国产模型（BGE、Qwen、Conan 等）
权衡精度、延迟和成本，找到最佳平衡点
必要时考虑微调，让模型真正适配你的领域

Embedding 模型是 RAG 的地基。地基打好了，上层的分块策略、检索算法、Rerank 优化才能真正发挥作用。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

👇👇扫码免费领取全部内容👇👇
在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2026行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

7. 资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇
在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

RAG 基础流水线：从文档加载到向量存储

RAG技术解析：从文档处理到向量检索本文系统介绍检索增强生成（RAG）的离线阶段实现，解决大模型知识局限问题。RAG通过文档加载、分割、向量化存储构建知识库，分为离线处理与在线检索两阶段。关键要点：文档处理：需适配不同格式（PDF/CSV等），分割策略（基础/语义/父子分割）直接影响检索效果，需平衡chunk大小与语义完整性。向量化：Embedding模型选择（OpenAI/MiniLM等）