别急着自建 Milvus：30 行 Python 跑通 Gemini / GPT / DeepSeek 的向量引擎中转层，我把 4 个月账单和踩坑都复盘了

程序员佳佳

322人浏览 · 2026-06-10 14:56:02

程序员佳佳 · 2026-06-10 14:56:02 发布

先说结论：

如果你现在做的是 RAG、知识库问答、文档检索，且要兼容 Gemini、GPT、DeepSeek 这类不同模型，我更建议先把“向量引擎中转层”搭起来，再决定要不要自建 Milvus 或 FAISS。
这层东西本身不神秘，本质就是把 embedding、切片、写入、检索、重试、缓存、降级这些杂活统一收口，让上层 Python 业务只认一套接口。
真正决定体验的，往往不是“向量库名字够不够响”，而是你能不能稳定做版本管理、批量写入、召回重排和故障降级。

如果你只想先看适不适合自己，我把判断标准先放在前面：

适合先上中转层的情况：

你要同时兼容多个大模型，今天 Gemini，明天 GPT，后天 DeepSeek，接口字段还不完全一样。
你不是一开始就要百万级知识库，而是先做一个能跑、能改、能迭代的 RAG 项目。
你希望 Python 侧的代码尽量稳定，不要因为换模型、换存储、换检索策略就推倒重来。

不适合一开始就只靠中转层的情况：

你已经有非常明确的超大规模检索诉求，且团队里本来就有人长期维护向量数据库集群。
你的场景对极低延迟、复杂过滤、分布式扩展有硬指标，不能接受中间再加一层抽象。
你更关心的是搜索基础设施本身，而不是快速把业务链路跑通。

我下面这篇复盘，不是“某个工具把一切都解决了”的宣传稿，而是我把一套向量引擎中转思路放进 Python 项目里，持续跑了几个月之后，回头总结出来的工程经验。重点不在某个名词，而在这条链路到底怎么接、怎么省心、怎么少踩坑。

1. 我为什么最后把向量层做成了“中转层”

最开始接触 RAG 的时候，我也走过很典型的弯路：先把文档扔进向量库，再把问题做 embedding，最后 search top_k，觉得逻辑很直。真正上线之后才发现，最费时间的不是“能不能查到”，而是“后面怎么继续改”。
在这里插入图片描述

一旦你开始接 Gemini、GPT、DeepSeek 三类模型，问题会立刻变多：

不同模型的 embedding 接口形态不一样，有的更偏批量，有的更偏单条，有的返回字段很轻，有的返回字段很重。
同一份文档可能要做多份索引，原因不是你想重复劳动，而是不同模型的向量空间和维度、分布都不完全一样。
业务很快会提出“换模型试试”“加一个知识库”“给客服和档案检索分开”之类的需求，这时候如果代码直接绑死在某个存储上，改动会滚雪球。

所以我后来把“向量引擎”理解成一层稳定的工程协议，而不是单独的一款库。它负责的不是单点存储，而是四件事：

统一把文本变成向量。
统一把向量写到某个后端。
统一把 query 转成检索请求。
统一处理重试、缓存、版本、降级。

这套思路最大的好处，是上层业务终于可以只关心“这条问答有没有答对”，而不是每次都去想“这次用的 embedding 模型维度是多少”“这个 namespace 有没有混进去旧版本”“这次失败到底是超时还是重复写入”。

2. 先把最小可跑通版写出来

我一直觉得，RAG 项目里最有价值的不是“写得多漂亮”，而是“先跑通，再优化”。下面这版代码就是我建议的起点。它不追求一上来就是完整框架，但足够把 Gemini / GPT / DeepSeek 的向量接入思路统一起来。
在这里插入图片描述

先装最基础的依赖：

pip install httpx python-dotenv

再放一组环境变量，接口地址和密钥你按自己的实际服务替换：

VECTOR_BASE_URL=https://your-vector-api.example.com
VECTOR_API_KEY=your_api_key
VECTOR_EMBED_MODEL=gemini-embedding-001

下面是我会保留在项目里的最小 Python 客户端。它做了三件事：embedding、upsert、search。

核心调用链其实并不长，下面我把工程版写得稍微完整一点，方便你后面直接改成自己的项目代码。

import asyncio
from dataclasses import dataclass
from typing import Any, Dict, List

import httpx


@dataclass
class EngineConfig:
    base_url: str
    api_key: str
    embed_model: str = "gemini-embedding-001"
    top_k: int = 5
    timeout: int = 60


class VectorEngineClient:
    def __init__(self, cfg: EngineConfig):
        self.cfg = cfg
        self.headers = {
            "Authorization": f"Bearer {cfg.api_key}",
            "Content-Type": "application/json",
        }

    async def _post(self, path: str, payload: Dict[str, Any]) -> Dict[str, Any]:
        async with httpx.AsyncClient(timeout=self.cfg.timeout) as client:
            resp = await client.post(
                f"{self.cfg.base_url}{path}",
                json=payload,
                headers=self.headers,
            )
            resp.raise_for_status()
            return resp.json()

    async def embed(self, texts: List[str], model: str | None = None) -> List[List[float]]:
        payload = {
            "model": model or self.cfg.embed_model,
            "input": texts,
        }
        data = await self._post("/v1/embeddings", payload)
        return [row["embedding"] for row in data["data"]]

    async def upsert(self, namespace: str, items: List[Dict[str, Any]]) -> Dict[str, Any]:
        payload = {
            "namespace": namespace,
            "items": items,
        }
        return await self._post("/v1/vector/upsert", payload)

    async def search(self, namespace: str, query: str, top_k: int | None = None) -> List[Dict[str, Any]]:
        vector = (await self.embed([query]))[0]
        payload = {
            "namespace": namespace,
            "vector": vector,
            "top_k": top_k or self.cfg.top_k,
        }
        data = await self._post("/v1/vector/search", payload)
        return data["matches"]

这段代码看起来短，但它解决的是一个很现实的问题：后面你换模型、换后端、换业务，都可以尽量不改上层逻辑，只改这一层的适配。

我后面最常用的做法，是给 namespace 加版本信息，避免不同模型、不同维度、不同切片策略混到一起：

namespace = f"{kb_name}:{provider}:{model_name}:{dimension}"

这行看起来不起眼，但它能把很多后期排错的麻烦挡在前面。尤其是你同时接 Gemini、GPT、DeepSeek 的时候，别让旧向量和新向量挤在同一个检索空间里，不然召回结果会很“玄学”。

3. 批量切片、去重、入库，才是 RAG 里最容易被低估的部分

真正开始喂文档之后，很多人会把注意力放在“召回准不准”，但我自己最先盯的是另一个问题：同一份文档到底被切成了多少块，有没有重复，有没有空文本，有没有过长片段把上下文塞爆。
在这里插入图片描述

我现在会固定做三层处理：

先按段落和标点切。
再按长度上限兜底。
最后用 hash 去重，避免同内容重复入库。

import hashlib
import re
from typing import List


def split_text(text: str, max_chars: int = 800, overlap: int = 120) -> List[str]:
    """
    优先按空行和段落切分，再对长段做长度兜底。
    max_chars 不宜太大，否则召回上下文容易脏；
    overlap 也别太大，否则重复内容会把索引成本抬高。
    """
    paras = [p.strip() for p in re.split(r"\n\s*\n", text) if p.strip()]
    chunks: List[str] = []
    buf = ""

    for para in paras:
        if len(buf) + len(para) + 2 <= max_chars:
            buf = f"{buf}\n\n{para}".strip()
            continue

        if buf:
            chunks.append(buf)

        if len(para) <= max_chars:
            buf = para
        else:
            step = max(1, max_chars - overlap)
            for i in range(0, len(para), step):
                chunks.append(para[i:i + max_chars])
            buf = ""

    if buf:
        chunks.append(buf)
    return chunks


def chunk_id(text: str) -> str:
    return hashlib.sha1(text.encode("utf-8")).hexdigest()


async def ingest_document(client, kb_name: str, doc_id: str, raw_text: str, model: str):
    chunks = split_text(raw_text)
    seen = set()
    items = []

    for idx, chunk in enumerate(chunks):
        cid = chunk_id(chunk)
        if cid in seen:
            continue

        seen.add(cid)
        items.append({
            "id": f"{doc_id}:{idx}",
            "text": chunk,
            "chunk_id": cid,
            "source": doc_id,
            "meta": {
                "kb": kb_name,
                "embedding_model": model,
                "chunk_index": idx,
            },
        })

    texts = [item["text"] for item in items]
    vectors = await client.embed(texts, model=model)

    for item, vec in zip(items, vectors):
        item["vector"] = vec

    namespace = f"{kb_name}:{model}:{len(vectors[0])}"
    return await client.upsert(namespace, items)

这段里我最想强调的，不是具体的切片参数，而是“版本化 + 去重 + 批处理”这三个动作要同步做。

很多看起来像“模型不行”的问题，最后都能追到这里：

切片太大，导致一个 chunk 里塞了太多主题，召回时上下文互相污染。
切片太碎，导致答案缺上下文，模型只能猜。
没做 hash 去重，文档更新几轮后，重复内容越来越多，额度和索引都被吃掉。

如果你要把这套东西接到更完整的 RAG 里，我会再加一层“问答拼装”：

async def answer_question(client, llm, kb_name: str, question: str, model: str):
    namespace = f"{kb_name}:{model}"
    matches = await client.search(namespace, question, top_k=5)
    context = "\n\n".join(
        f"[{m['id']}] score={m.get('score', 0):.4f}\n{m['text']}"
        for m in matches
    )

    prompt = f"""你是一个严谨的 RAG 助手，只基于给定资料回答，不要编造。

资料：
{context}

问题：
{question}

要求：
1. 先给结论
2. 再给步骤
3. 如果资料不足，明确说明不足
"""
    return await llm.chat(prompt)

这就是我理解里的“向量引擎”和“LLM 问答层”的分工：向量引擎负责把正确资料找出来，LLM 负责把资料组织成能读懂的答案。两层的边界越清楚，后面越不容易乱。

4. 三种方案横向对比，差别其实不在“能不能用”

我比较少用“谁碾压谁”这种说法，因为真实工程里更常见的情况是：三种方案都能跑，但适合的阶段完全不一样。
在这里插入图片描述

下面这张表，我按一套固定测试口径整理过。口径大致是：10 万级文档、平均 800 字切片、8 并发、单机开发环境和一套轻量云环境做过对照。这里看的是工程体验，不是采购报价。

方案	接入成本	检索延迟	运维工时	存储与扩展	多模型兼容	我会怎么评价
自建 FAISS	低到中	低	中	单机友好，扩展要自己补	需要自己封装	适合本地 demo、离线检索、快速验证
自建 Milvus	中到高	中	高	扩展能力强，但治理成本也高	需要统一适配层	适合中大型团队、复杂过滤、多租户
原生云向量 API	低	中	低	按调用和存储策略波动	兼容性取决于供应方	适合快速上线，不想养基础设施
向量引擎中转层	中	中	低到中	可在不同后端间切换	适合统一抽象	适合多模型、多业务、持续迭代

如果把这四个方案放在实际项目里，我最后得到的感觉很一致：

FAISS 的优势是轻，特别适合本地跑通和做小规模实验。
Milvus 的优势是更像正式基础设施，适合有明确扩展和治理需求的团队。
原生云向量 API 的优势是省心，你把业务先做起来，很多细节可以晚点补。
中转层的优势不是“它自己有多强”，而是它把上面三类方案的切换成本压下来了。

我后来最认可的一点，是中转层让“测试”和“迁移”变得不那么痛。比如你今天把 Gemini 作为主 embedding，明天想换 GPT 试一下召回差异，只要模型版本和 namespace 设计得够清楚，很多时候不需要推翻整个工程。

4.1 我固定的测试口径

为了让复盘更像工程笔记，而不是感觉流，我后面会固定一套测试口径。这样我每次看结果，看到的不是某一次偶然波动，而是同一套条件下的稳定区间。

观察项	口径
文档规模	约 10 万篇文档，混合 FAQ、制度、产品说明和技术笔记
平均切片	每段 600~800 字，重叠 80~120 字
向量维度	常见 1536 维或 3072 维，按模型实际返回为准
检索并发	8~16 并发，先低后高
查询方式	单轮问答 + top_k 召回 + 轻量重排
观察周期	以 4 个月连续迭代的趋势为主

在这套口径下，我更关心的是区间，不是某一次尖峰。下面这张表只是我常用的工程体验参考，不是采购报价，也不是绝对值。

方案	首次入库	p95 检索延迟	峰值内存	每周运维	直观体验
自建 FAISS	35~60 分钟	120~180ms	1~2GB	1~2 小时	轻，启动快，适合本地验证
自建 Milvus	50~90 分钟	160~280ms	4~8GB	3~5 小时	更像正式基础设施，但治理成本更高
原生云向量 API	20~40 分钟	180~320ms	0.5~1GB	小于 1 小时	省心，适合快速上线
向量引擎中转层	25~45 分钟	150~250ms	1~3GB	0.5~1 小时	中间层更稳，切换模型更从容

5. 按体量选方案，不要一上来就按想象中的未来架构做

很多 RAG 项目一开始就容易想太远，最后代码和基础设施都变复杂了，但业务还没真正验证。
在这里插入图片描述

我自己的经验是，先按体量选，不要按情绪选。

体量	更适合的起步方式	关键关注点	不要先做什么
个人小项目	向量引擎中转层 + 托管向量服务	先把流程跑通，先看召回和延迟	不要一开始就上复杂集群
十万级文档初创团队	中转层 + 可扩展存储	批处理、版本化 namespace、重建速度	不要把模型切换写死在业务层
百万级企业知识库	分区检索 + 混合召回 + 更严格的治理	p95、吞吐、权限、冷热分层	不要只盯着“检索能跑”

如果你是个人项目，我甚至建议你先把这件事当成“工程习惯训练”：

统一接口。
统一 namespace。
统一日志。
统一重试。
统一缓存。

这五件事一旦做好，后面无论换 Gemini、GPT 还是 DeepSeek，改动都不会太离谱。

6. 零基础上手时，我最建议你按这个顺序来

如果你是 Python 开发者，但以前没碰过完整的向量链路，我建议按下面顺序走，不要反过来。
在这里插入图片描述

第一步：先把环境和依赖固定住

pip install httpx python-dotenv

然后把配置写进 .env，不要散落在代码里：

VECTOR_BASE_URL=https://your-vector-api.example.com
VECTOR_API_KEY=your_api_key
VECTOR_EMBED_MODEL=gemini-embedding-001

第二步：先做文档切片，再考虑检索

很多人会跳过这一步，直接去看“能不能搜”。我反而觉得，切片是否合理，直接决定了后面的答案质量。

建议你至少做这三类检查：

段落是否过长。
段落之间是否有重复。
标题、代码块、列表是否被切散了。

第三步：先把 embedding 版本固定

如果你今天用 Gemini 的 embedding，明天换 GPT，后天又混上 DeepSeek，不做版本隔离，向量空间会很乱。

我的习惯是把这些信息都写进 namespace：

namespace = f"{kb_name}:{provider}:{model_name}:{dimension}"

这样做不一定最省事，但它非常适合长线项目。因为你以后回看日志时，不会搞不清“这次召回结果是哪个模型写进去的”。

第四步：写入时先批量，再异步，再看限流

批量写入不是为了炫技，而是为了稳住吞吐和成本。

一个我常用的原则是：

小批量先试通。
观察失败率和重试率。
再把批量慢慢抬上去。
不要一开始就把并发开太高。

第五步：最后才把 LLM 串上去

这一步最容易被误解。很多人以为“RAG 的关键是让模型会说话”，但我自己踩过几轮之后更确定：RAG 的关键先是“让模型拿到对的上下文”，然后才是“怎么说得像人”。

如果上下文本身就乱，模型再强也只能帮你把错答得更顺。

7. 高频踩坑，我按症状给你拆开说

这部分是我最想保留的，因为它最接近真实工程现场。
在这里插入图片描述

问题	常见表现	根因判断	修法
并发超时	偶发 504、ReadTimeout	批次过大、并发太高、没有节流	降批次、加重试、加队列
Embedding 精度偏差	同一个问题召回结果飘	混用了不同模型或不同维度	按模型版本隔离 namespace
额度损耗	无效文本也被重复向量化	空文本、重复文本、模板文本没去重	hash 去重、空值过滤、缓存命中
跨域兼容	前端直连失败或密钥暴露	浏览器直连接口不安全	走后端代理，不要让 key 暴露到前端
低配服务器报错	内存飙升、swap 抖动、进程被杀	一次性加载太多文本或向量	分批处理、流式写入、异步限流

这几个坑里，我最在意的是“embedding 精度偏差”。它表面上看像模型问题，实际上大多数时候是工程问题。

比如：

你用 GPT 的 embedding 写了一批索引，又用 Gemini 的向量去搜。
你把旧版文档和新版文档写进了同一个 namespace。
你切片逻辑改了，但索引没有重建。

这三种情况都很容易让你误以为“模型不稳定”，但问题其实在数据治理。

我自己的修法很朴素：

一个知识库对应一套版本号。
一个模型对应一个 namespace。
切片策略变了就重建索引，不要混着用。
每次召回都打日志，保留 doc_id、chunk_id、model_version、top_k、score。

8. 四个月复盘，我最明显的感受不是“省钱”，而是“省心”

如果只是看某一次测试，我不太愿意把结论说得太满。真正拉开差距的，是你连续跑了几个月之后，还能不能轻松改动。
在这里插入图片描述

我把这 4 个月的复盘拆成几件事：

8.1 接入新模型的速度变快了

以前接一个新模型，我经常要改三个地方：

文本预处理。
向量写入。
检索调用。

后来把中转层抽出来之后，很多时候只需要补一份适配器和一份模型配置。上层业务几乎不用动。

8.2 知识库更新没那么痛了

最开始我怕的不是查询，而是更新。

更新一批文档时，最容易出问题的是：

重复写入。
旧版本残留。
新旧切片规则不一致。

把 chunk hash、namespace 版本、任务状态统一之后，这些问题会明显少很多。

8.3 故障定位时间缩短了

以前查问题，我要翻很多层日志。

后来我固定记录这些字段：

request_id。
kb_name。
model_name。
namespace。
chunk_id。
top_k。
latency。

这些字段一旦稳定，定位会快很多。你会很清楚问题是出在模型、索引、网络，还是切片本身。

8.4 我看账单时不再只看总额，而是看结构

我后来最常做的不是盯一个总数字，而是看三类消耗：

向量化调用成本。
重建索引成本。
运维和排障的人力成本。

下面这张表不是采购报价，只是把常见成本结构拆开，方便你判断钱到底花在哪：

成本项	自建 FAISS	自建 Milvus	原生云向量 API	向量引擎中转层
机器与存储	低	中到高	低到中	低到中
调试与排障	中	高	低	低到中
新模型接入	中	中到高	低	低
索引重建	中	中到高	低	中
长期治理	中	高	低	低到中

如果再往下拆成月度折算，我一般会看这类区间，而不是盯某一个总价：

口径	自建 FAISS	自建 Milvus	原生云向量 API	向量引擎中转层
小团队测试环境月度折算	200~600 元	600~2000 元	300~1500 元	300~1000 元
主要支出	单机和存储	机器、存储、监控、人工	调用费和存储费	调用费、少量路由成本和少量运维
更像什么	本地工具升级版	正式基础设施	按量付费接口	统一接入层