在这里插入图片描述

认识嵌入模型

1. 什么是嵌入模型?

大语言模型是生成式模型。它理解输入并生成新的文本(回答问题、写文章)。它内部实际上也使用嵌入技术来理解输入,但最终目标是“创造”。

而嵌入模型(Embedding Model)是表示型模型。它的目标不是生成文本,而是为输入的文本创建一个最佳的、富含语义的数值表示(向量)。

由于计算机天生擅长处理数字,但不理解文字、图片的含义。嵌入(Embedding)的核心思想就是将人类世界的符号(如单词、句子、产品、用户、图片)转换为计算机能够理解的数值形式(即向量,本质上是一个数字列表),并且要求这种转换能够保留原始符号的语义和关系。

结论:既然是“数学语言”,那么我们可以用数学的方式来比较向量,从而达到【度量语义】的目的!

2. 嵌入模型应用场景

根据嵌入的特性,由此延伸出了许多嵌入模型在AI应用的使用场景:

  • 语义搜索(Semantic Search)
    传统搜索:依赖关键词匹配(搜“苹果”,只能找到包含“苹果”这个词的文档)。
    语义搜索:则能将查询和文档都转换为向量,通过计算向量间的相似度来找到相关内容,即使文档中没有查询的确切词汇也能被检索到。

  • 检索增强生成(Retrieval-Augmented Generation,RAG)
    这是当前大语言模型应用的核心模式。当用户向LLM提问时,系统首先使用嵌入模型在知识库(如公司内部文档)中进行语义搜索,找到最相关的内容,然后将这些内容和问题一起交给LLM来生成答案。这极大地提高了答案的准确性和时效性。

  • 推荐系统(Recommendation Systems)
    将用户(根据其历史行为、偏好)和物品(商品、电影、新闻)都转换为向量。喜欢相似物品的用户,其向量会接近;相似的物品,其向量也会接近。通过计算用户和物品向量的相似度,就可以进行精准推荐。

  • 异常检测(Anomaly Detection)
    正常数据的向量通常会聚集在一起。如果一个新数据的向量远离大多数向量的聚集区,它就可能是一个异常点(如垃圾邮件、欺诈交易)。

3. 主流的嵌入模型

  • text-embedding-3-large(OpenAI):OpenAI最强大的英语和非英语任务嵌入模型。默认维度3072,可降维如1024维;输入令牌长度支持为8192。
  • Qwen3-Embedding-8B(阿里巴巴):开源模型,支持100+种语言;上下文长度32k;嵌入维度最高4096,支持用户定义的输出维度,范围从32到4096。推理需要一定的GPU计算资源(例如,至少需要16GB以上显存的GPU才能高效运行)。
  • gemini-embedding-001(Google):支持100+种语言;默认维度3072,可选降维版本:1536维或768维;输入令牌长度支持为2048。

其他参考:
Huggingface的MTEB评测:https://huggingface.co/spaces/mteb/leaderboard
Huggingface的MTEB(Massive Multilingual Text Embedding Benchmark)评测,是业界比较公认的标准

4. 嵌入模型接入方式

嵌入模型接入和使用方式根据模型类型(开源或闭源)有根本性的不同。

4.1 API接入(闭源)

这是最快速、最简单的方式,无需管理任何基础设施。只需要向模型提供商的服务端发送一个HTTP请求即可。
适用模型:text-embedding-3-large,gemini-embedding-001等。
通用步骤:

  1. 注册账号并获取API Key:在对应的云服务平台(如OpenAI Platform,Google AI Studio/Vertex AI)上注册账号,获取用于身份验证的API Key。
  2. 安装SDK或构造HTTP请求:使用官方提供的SDK(如openai,google-generativeai)或直接构造HTTP请求。
  3. 调用API并处理响应:发送文本,接收返回的JSON格式的向量数据。

4.2 本地部署(开源)

这种方式需要自行准备计算资源(通常是带有GPU的机器)来运行模型,适合对数据隐私、成本和控制权有更高要求的场景。
适用模型:Qwen3-Embedding-8B等。
通用步骤:

  1. 环境准备:准备一台有足够GPU显存的服务器(对于Qwen3-Embedding-8B,需要至少16GB以上显存)。
  2. 模型下载:从Hugging Face等模型仓库下载模型权重文件和配置文件。
  3. 代码集成:使用像transformers这样的库来加载模型并进行推理。
    这部分有兴趣的同学可以下来自行研究。对于大多数初创项目或原型验证,从API方式开始是最佳选择。当应用规模化或面临严格的数据合规要求时,再考虑迁移到本地部署开源模型。

在实际应用中,直接调用嵌入模型获取结果,与直接调用原生LLM存在相似的问题:无论是通过API还是本地部署获得向量,下一步通常都是将它们存入向量数据库(如Chroma,Milvus,Pinecone等)以供后续检索。为了便于切换不同的嵌入模型,很多项目会使用像LangChain这样的框架,它们提供了统一的嵌入模型接口。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐