不再依赖黑盒框架,不再被第三方牵着走。
本次版本不堆业务功能,只做底层换血。
自研四套 Starter,把 RAG 全链路改成原生、可控、可复用。
这是商助慧从“依赖框架”走向“自有资产沉淀”的关键一步。


一、背景与目标

目前商助慧核心链路已完全跑通:

  • 文章爬虫 ➜ 文档拆分 ➜ Ollama 向量 ➜ Milvus 存储 ➜ RAG 召回 ➜ AI 仿写

但底层一直强依赖 LangChain4j,存在多个隐性问题:

问题 说明
黑盒难排错 框架封装太厚,底层逻辑不透明,调试极其困难
无法自定义 Milvus 元数据、向量校验、插入逻辑等无法按需干预
配置分散 通用能力无法沉淀,每个模块都要重复配置
框架绑定 后续换模型、扩向量库、做 Agent 都会被限制

本次核心目标

  • ✅ 彻底下线 LangChain4j 所有依赖

  • ✅ 自研四套统一 Starter(文本处理、Ollama、Milvus、通用工具)

  • ✅ 上层业务完全不动,只替换底层底座

  • ✅ 完整跑通「爬虫→分片→向量化→Milvus→召回仿写」原生链路

  • ✅ 为后续轻量版个人 Agent(Lobster)复用底座


二、已落地成果

2.1 自研四大 Starter 体系成型

Starter 职责
laoxing-base-utils 全局通用工具底座(常量、异常、返回体等)
laoxing-text-starter 文档解析、文本清洗、自动分片(专供爬虫)
laoxing-ollama-starter Ollama 配置、嵌入向量、大模型调用封装
laoxing-milvus-starter Milvus 原生客户端自动配置、增删查通用方法

所有通用能力全部下沉,业务工程只依赖 Starter,不再关心底层连接、配置、适配细节。

2.2 彻底移除 LangChain4j,无感切换原生链路

  • 清理所有 LangChain4j 依赖及相关工具类、封装类

  • 重构向量入库与相似度检索逻辑,改用 Milvus 原生 SDK 自研实现

  • 整改 yml 配置,对齐自研 Starter 自定义前缀

  • 上层业务逻辑、页面交互完全不变,用户无感知

2.3 Milvus 全链路踩坑闭环

对接 Milvus 2.5.14 过程中,逐个解决三大生产级卡点:

问题 解决方案
缺失 id 主键字段报错 手动生成 UUID 补齐
多字段 List 行数不统一 严格规范单条数据结构对齐
metadata 为 JSON 类型,类型校验不稳定 最终使用 Gson JsonObject 稳定适配

通过 Attu 可视化验证:向量、文本、元数据正常落库,MySQL 分片表与 Milvus 主键双向绑定无误。

2.4 RAG 仿写全链路验证通过

  • ✅ 用户问题 → 生成嵌入向量

  • ✅ Milvus 相似度召回 + 片段匹配度高

  • ✅ 人设提示词 + 参考资料拼接正常

  • ✅ 仿写输出结构标准、口吻贴合、可直接发布

架构切换后,功能无降级、体验无折扣。


三、架构优化方向(按价值维度)

优先级 优化项 措施 预期效果
P0 剥离第三方黑盒 下线 LangChain4j,全链路自研 架构透明、可排错、可自定义扩展
P0 通用能力下沉 四套 Starter 标准化底座 一次封装,多项目复用
P1 业务工程解耦 业务只依赖 Starter,屏蔽底层细节 配置统一、维护成本低
P2 资产沉淀复用 底座供给 Lobster 个人 Agent 复用 一套底层支撑多个 AI 产品

四、本次迭代坚守原则

  • ✅ 只动底层架构,不动上层业务与页面

  • ✅ 不新增花哨功能,只做规整与沉淀

  • ✅ 遇到环境、字段、类型坑当场排查闭环

  • ✅ 小步迭代,验证通过再收尾,不留技术债


五、长期价值沉淀

5.1 个人技术资产层面

不再依赖开源框架被动续命。拥有自己完整的 文本处理 + Ollama + Milvus + 通用工具 Starter 体系。后续知识库扩容、新 AI 助手开发、个人 Agent 搭建,都可以直接复用底座,不用重复造轮子。

5.2 商助慧产品层面

底层架构彻底去绑定、去黑盒。后续换模型、调向量维度、改分片规则、扩展检索能力,只在 Starter 层迭代,完全不影响上层业务。可维护性、可扩展性、可复用性均已上台阶。


六、写在最后

本次迭代不是版本功能更新,而是一次底层骨架升级

37 岁做个人项目,不再盲目追新堆功能,更看重:架构可控、长期复用、资产沉淀。成功干掉 LangChain4j,落地四套自研 Starter,跑通全原生 RAG 链路。既夯实了商助慧底座,也为后续轻量版个人 Agent(Lobster)铺平了道路。

稳扎稳打,把底层做扎实,后续一切迭代都会事半功倍


本文是《产品底稿》系列第 14 篇,记录商助慧底层架构重大迭代全过程,从剥离第三方框架到自研 Starter 底座、再到全链路验证闭环,专注务实落地,只为沉淀属于自己的个人技术资产。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐