【导读】 刚刚,谷歌正式推出基于Gemini架构构建的首个原生多模态嵌入模型——Gemini Embedding 2。这一次,AI不仅能"看懂"图片,还能用文字搜视频、用音频搜文档。向量搜索领域,正式进入"多模态统一"时代!

Gemini多模态AI

Gemini多模态AI


01 核心突破:统一向量空间

在过去的AI时代,文本、图像、视频、音频都有各自的"语言",想要跨模态检索,需要复杂的转换流程。

Gemini Embedding 2 的出现,直接改变了这一切:

将文本、图像、视频、音频和文档全部映射到同一个统一的向量空间中,并能跨越100多种语言捕捉语义意图。

这意味着什么?

  • • 用一段文字描述,就能搜到相关的图片
  • • 看到一段视频,就能找到与之匹配的音频
  • • 听到一段音乐,就能关联到对应的文案

多模态向量空间

多模态向量空间


02 五大模态,全面打通

基于Gemini的多模态理解能力,Gemini Embedding 2 在各项输入标准上给出了明确的性能指标:

模态 支持规格
文本 支持高达 8192个输入Token 的超长上下文
图像 单次请求最多可处理 6张图像,支持PNG和JPEG格式
视频 支持输入长达 120秒 的视频片段,兼容MP4和MOV格式
音频 实现原生音频数据摄取与嵌入,完全不需要中间的文本转录步骤
文档 支持直接嵌入最多 6页 的PDF文件

交错输入:真正的多模态融合

除了单模态处理,该模型还原生支持交错输入

开发者可以在单次请求中同时传入多种模态数据(例如图像加文本),模型能够精准捕捉不同媒体类型之间复杂且细微的关联,从而对真实的复杂数据实现更准确的理解。


03 套娃表示学习:灵活调整输出维度

在底层技术上,Gemini Embedding 2 延续了谷歌此前嵌入模型采用的套娃表示学习(Matryoshka Representation Learning,MRL)技术

该技术通过动态缩小维度来实现信息的嵌套存储。这种设计赋予了模型灵活的输出维度能力

向量维度示意

向量维度示意

开发者可以从默认的 3072维 向下缩放,以在模型性能和存储成本之间寻找最佳平衡点。

✅ 官方推荐使用维度:30721536768


04 性能新基准:业界领先

在性能表现上,Gemini Embedding 2 在文本、图像和视频任务中均超越了现有的领先模型。

同时,该模型引入了强大的语音处理能力,为多模态深度确立了新的性能标准

这是首个基于Gemini架构构建的原生多模态嵌入模型。

应用场景

场景 描述
RAG 检索增强生成,让AI回答更准确
语义搜索 理解意图而非简单关键词匹配
情感分析 跨模态情感理解
数据聚类 自动归类海量多模态数据
上下文工程 构建更智能的AI应用
大规模数据管理 高效管理海量多媒体数据

05 开发者的狂欢:生态全面支持

快速接入

开发者现可通过以下方式快速接入:

  • Gemini API
  • Vertex AI

官方提供了基于Python的SDK(google.genai)调用方案,只需少量代码即可在单次请求中同时完成文本、图片和音频的嵌入处理:

    
    
    
  from google import genai
from google.genai import types

client = genai.Client()

# 同时处理文本、图像和音频
result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?",
        types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
        types.Part.from_bytes(data=audio_bytes, mime_type="audio/mpeg"),
    ],
)
print(result.embeddings)

框架兼容

除了官方的交互式Colab笔记本,Gemini Embedding 2 已全面支持以下主流开发框架和向量数据库:

框架/数据库 支持状态
LangChain ✅ 支持
LlamaIndex ✅ 支持
Haystack ✅ 支持
Weaviate ✅ 支持
QDrant ✅ 支持
ChromaDB ✅ 支持
Vector Search ✅ 支持

官方资源

  • • 📓 Interactive Gemini API Colab notebook:交互式教程
  • • 📓 Interactive Vertex AI Colab notebook:Vertex AI教程
  • • 🌐 轻量级多模态语义搜索演示:findmemedia.lmm.ai

Google Vertex AI

Google Vertex AI


06 发布信息

项目 详情
发布日期 2026年3月10日
状态 公开预览(Public Preview)
访问方式 Gemini API / Vertex AI
官方博客 Google DeepMind

官方团队:

  • Min Choi — Product Manager, Google DeepMind
  • Tom Duerig — Distinguished Engineer, Google DeepMind

07 意味着什么?

Gemini Embedding 2 的发布,标志着向量检索领域进入了一个新的时代:

1. 简化的复杂流程

过去需要多个模型配合才能完成的多模态检索,现在一个模型就能搞定。

2. 更强的语义理解

跨100多种语言的能力,让全球开发者都能受益。

3. Agent的进化

正如文章标题所说——Agent now可以用文字搜图片、用视频搜音频了

这为AI Agent的感知能力带来了质的飞跃。未来,你的AI助手不仅能听懂你的话,还能"看懂"你发给它的图片、"听懂"你分享的语音。

4. RAG的进化

传统的RAG只能处理文本,但Gemini Embedding 2 让RAG可以处理——图片、视频、音频、PDF。

这意味着:你的AI知识库,可以是多媒体的。


08 写在最后

从Gemini 2.5系列到Gemini Embedding 2,谷歌正在用实际行动证明:

在AI时代,多模态理解不是噱头,而是下一代AI的标配。

当向量模型能够真正"统一"文字、图片、声音、视频的世界,AI的认知边界将被彻底打破。

下一个战场,或许已经不在"能做什么",而在"能否理解一切"。


你看好Gemini Embedding 2吗?

欢迎在评论区分享你的看法!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐