大模型应用开发：小白也能掌握的RAG技术，收藏学习必备！

程序员糖仔

794人浏览 · 2026-04-04 10:00:00

程序员糖仔 · 2026-04-04 10:00:00 发布

本文介绍了大模型应用开发的三种模式，重点讲解了RAG（检索增强生成）技术的原理、流程和优势，包括数据预处理、检索阶段和生成阶段。此外，还探讨了Embedding模型选择、Query改写和联网搜索等关键步骤，旨在帮助小白和程序员更好地理解和应用大模型技术。

一、大模型应用开发的三种模式

RAG（Retrieval-Augmented Generation）：

• 检索增强生成，是一种结合信息检索（Retrieval）和文本生成（Generation）的技术

• RAG技术通过实时检索相关文档或信息，并将其作为上下文输入到生成模型中，从而提高生成结果的时效性和准确性。

RAG的优势

• 解决知识时效性问题：大模型的训练数据通常是静态的，无法涵盖最新信息，而RAG可以检索外部知识库实时更新信息。

• 减少模型幻觉：通过引入外部知识，RAG能够减少模型生成虚假或不准确内容的可能性。

• 提升专业领域回答质量：RAG能够结合垂直领域的专业知识库，生成更具专业深度的回答。

二、RAG的核心原理与流程

Step1，数据预处理

• 知识库构建：收集并整理文档、网页、数据库等多源数据，构建外部知识库。

• 文档分块：将文档切分为适当大小的片段（chunks），以便后续检索。分块策略需要在语义完整性与检索效率之间取得平衡。

• 向量化处理：使用嵌入模型（如BGE、M3E、Chinese-Alpaca-2等）将文本块转换为向量，并存储在向量数据库中。

Step2，检索阶段

• 查询处理：将用户输入的问题转换为向量，并在向量数据库中进行相似度检索，找到最相关的文本片段。

• 重排序：对检索结果进行相关性排序，选择最相关的片段作为生成阶段的输入

Step3，生成阶段

• 上下文组装：将检索到的文本片段与用户问题结合，形成增强的上下文输入。

• 生成回答：大语言模型基于增强的上下文生成最终回答。

三、NativeRAG

RAG的步骤：

Indexing => 如何更好地把知识存起来。

Retrieval => 如何在大量的知识中，找到一小部分有用的，给到模型参考。

Generation => 如何结合用户的提问和检索到的知识，让模型生成有用的答案。

这三个步骤虽然看似简单，但在 RAG 应用从构建到落地实施的整个过程中，涉及较多复杂的工作内容。

四、Embedding模型选择

常见的Embedding模型

1、通用文本嵌入模型

BGE-M3（智源研究院）

• 特点：支持100+语言，输入长度达8192 tokens，融合密集、稀疏、多向量混合检索，适合跨语言长文档检索。

• 适用场景：跨语言长文档检索、高精度RAG应用。

• 文件大小：2.3G

text-embedding-3-large（OpenAI）

• 特点：向量维度3072，长文本语义捕捉能力强，英文表现优秀。

• 适用场景：英文内容优先的全球化应用。

Jina-embeddings-v2-small（Jina AI）

• 特点：参数量仅35M，支持实时推理（RT<50ms），适合轻量化部署。

• 适用场景：轻量级文本处理、实时推理任务。

2、中文嵌入模型

xiaobu-embedding-v2

• 特点：针对中文语义优化，语义理解能力强。

• 适用场景：中文文本分类、语义检索。

M3E-Base

• 特点：针对中文优化的轻量模型，适合本地私有化部署。

• 适用场景：中文法律、医疗领域检索任务。

• 文件大小：0.4G （m3e-base）

stella-mrl-large-zh-v3.5-1792

• 特点：处理大规模中文数据能力强，捕捉细微语义关系。

• 适用场景：中文文本高级语义分析、自然语言处理任务。

3、指令驱动与复杂任务模型

gte-Qwen2-7B-instruct（阿里巴巴）

• 特点：基于Qwen大模型微调，支持代码与文本跨模态检索。

• 适用场景：复杂指令驱动任务、智能问答系统。

gte-Qwen2-7B-instruct 是基于 Qwen2的指令优化型嵌入模型

指令优化：经过大量指令-响应对的训练，特别擅长理解和生成高质量的文本。

性能表现：在文本生成、问答系统、文本分类、情感分析、命名实体识别和语义匹配等任务中表现优异。

适合场景：适合复杂问答系统，处理复杂的多步推理问题，能够生成准确且自然的答案。

优势：

• 指令理解和执行能力强，适合复杂的指令驱动任务。

• 多语言支持，能够处理多种语言的文本。

• 在文本生成和语义理解任务中表现优异。

局限：

• 计算资源需求较高，适合资源充足的环境。

E5-mistral-7B（Microsoft）

• 特点：基于Mistral架构，Zero-shot任务表现优异。

• 适用场景：动态调整语义密度的复杂系统。

4、企业级与复杂系统

BGE-M3（智源研究院）

• 特点：适合企业级部署，支持混合检索。

• 适用场景：企业级语义检索、复杂RAG应用。

E5-mistral-7B（Microsoft）

• 特点：适合企业级部署，支持指令微调。

• 适用场景：需要动态调整语义密度的复杂系统。

五、Query改写

RAG 的核心在于“检索-生成”。如果第一步“检索”就走偏了，那么后续的“生成”质量也会降低。

用户提出的问题往往是口语化的、承接上下文的、模糊的，甚至是包含了情绪的。而知识库里的文本（切片/Chunks）通常是陈述性的、客观的。

因此需要一个翻译官的角色，将用户的“口语化查询”转换成“书面化、精确的检索语句”

如何改写：通过精心设计的 Prompt 来引导 LLM完成这项任务。

1.上下文依赖型

描述例子：

你是一个智能的查询优化助手。请分析用户的当前问题以及前序对话历史，判断当前问题是否依赖于上下文。如果依赖，请将当前问题改写成一个独立的、包含所有必要上下文信息的完整问题。如果不依赖，直接返回原问题。

2.对比型

描述例子：

你是一个查询分析专家。请分析用户的输入和相关的对话上下文，识别出问题中需要进行比较的多个对象。然后，将原始问题改写成一个更明确、更适合在知识库中检索的对比性查询。

3.模糊指代型

描述例子：

你是一个消除语言歧义的专家。请分析用户的当前问题和对话历史，找出问题中 “都”、“它”、“这个” 等模糊指代词具体指向的对象。然后，将这些指代词替换为明确的对象名称，生成一个清晰、无歧义的新问题。

4.多意图型

描述例子：

你是一个任务分解机器人。请将用户的复杂问题分解成多个独立的、可以单独回答的简单问题。以JSON数组格式输出。

5.反问型

描述例子：

你是一个沟通理解大师。请分析用户的反问或带有情绪的陈述，识别其背后真实的意图和问题。然后，将这个反问改写成一个中立、客观、可以直接用于知识库检索的问题。

5.意图识别

描述例子：

你是一个智能的查询分析专家。请分析用户的查询，识别其属于以下哪种类型：

上下文依赖型 - 包含"还有"、"其他"等需要上下文理解的词汇
对比型 - 包含"哪个"、“比较”、“更”、“哪个更好”、"哪个更"等比较词汇
模糊指代型 - 包含"它"、“他们”、“都”、"这个"等指代词
多意图型 - 包含多个独立问题，用"、“或”？"分隔
反问型 - 包含"不会"、"难道"等反问语气

说明：如果同时存在多意图型、模糊指代型，优先级为多意图型>模糊指代型

请返回JSON格式：

{

"query\_type": "查询类型",

}

六、Query联网搜索

以迪士尼RAG助手为例，用户Query需要联网的情况

核心功能1：识别查询是否需要联网搜索

描述：

你是一个智能的查询分析专家。请分析用户的查询，判断是否需要联网搜索来获取最新、最准确的信息。

需要联网搜索的情况包括：

时效性信息 - 包含"最新"、“今天”、“现在”、“实时”、"当前"等时间相关词汇
价格信息 - 包含"多少钱"、“价格”、“费用”、"票价"等价格相关词汇
营业信息 - 包含"营业时间"、“开放时间”、“闭园时间”、"是否开放"等营业状态
活动信息 - 包含"活动"、“表演”、“演出”、“节日”、"庆典"等动态信息
天气信息 - 包含"天气"、“下雨”、"温度"等天气相关
交通信息 - 包含"怎么去"、“交通”、“地铁”、"公交"等交通方式
预订信息 - 包含"预订"、“预约”、“购票”、"订票"等预订相关
实时状态 - 包含"排队"、“拥挤”、"人流量"等实时状态

核心功能2：为联网搜索改写查询

描述：

你是一个专业的搜索查询优化专家。请将用户的查询改写为更适合搜索引擎检索的形式。

改写技巧：

添加具体地点 - 如"上海迪士尼乐园"、“香港迪士尼乐园”
添加时间范围 - 如"2024年"、“今天”、“本周”
使用关键词组合 - 将长句拆分为关键词
添加搜索意图 - 明确搜索目的
去除口语化表达 - 转换为标准搜索词
添加相关词汇 - 增加同义词或相关词

核心功能3：生成搜索策略

描述：

你是一个搜索策略专家。请为用户的查询制定详细的搜索策略。

当前日期：{current_date}

搜索策略包括：

主要搜索词 - 核心关键词
扩展搜索词 - 相关词汇和同义词
搜索网站 - 推荐的搜索平台
时间范围 - 具体的搜索时间范围

如果后续可以使用 Tavily MCP进行具体的联网搜索，可以引导LLM生成具体的参数。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

以上全套大模型资料如何领取？

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

2026年零基础轻松搞定Hermes Agent/OpenClaw Token Plan全方案集全解

OpenClaw并非传统的聊天机器人，而是一款本地优先、云端适配的AI自动化代理——它以大语言模型为“大脑”，以Skills插件生态为“手脚”，能理解自然语言指令，自主完成网页操作、邮件管理、文档处理、多平台协同等具象化任务，无需编写复杂的自动化脚本。零代码门槛：通过自然语言下达指令，无需掌握Python/Java等编程技能；多端适配：支持阿里云服务器、本地设备、无影云电脑等多环境部署；生态扩展：