LangChain入门+企业RAG实战,手把手教你搭企业知识库
随着大模型应用的快速发展,越来越多开发者希望构建:
- AI Agent
- 企业知识库
- 智能客服
- 自动化工具
但是直接调用 LLM API 往往会遇到很多问题:
- Prompt 管理困难
- 多步任务难以组织
- 知识检索复杂
- 工具调用难以统一
为了解决这些问题,出现了一个非常重要的框架:
LangChain
一、什么是 LangChain
===============
实体:
LangChain
主要组件核心组件包括:Chains(链):定义模型调用序列与逻辑流程。Agents(智能体):可调用外部工具(如 API、数据库、计算引擎)执行任务。Memory(记忆):保存上下文信息以实现多轮对话。Retrievers & VectorStores:用于知识检索和 RAG 系统。Prompts:结构化提示模板,支持变量填充与复用。生态与扩展LangChain 拥有丰富的社区生态,与多种 LLM(如 OpenAI、Anthropic、Cohere)及向量数据库(如 Pinecone、Weaviate、FAISS)兼容。其扩展库 LangChainHub、LangServe 与 LangSmith 分别提供共享模板、API 部署和调试监控功能。
LangChain 是一个构建大模型应用的开发框架,主要解决的问题包括:
| 能力 | 说明 |
|---|---|
| LLM 调用 | 统一调用各种大模型 |
| Prompt 管理 | 结构化 Prompt |
| Chain | 多步骤任务 |
| Memory | 上下文记忆 |
| Retriever | 知识检索 |
| Agent | 工具调用 |
LangChain 的设计理念是:
LLM + Data + Tools
让大模型可以:
- 访问知识
- 调用工具
- 完成复杂任务
二、LangChain 核心架构
================
LangChain 的核心组件主要包括:
LLMPromptMemoryRetrieverChainAgent
整体架构如下:
User↓Prompt↓Chain↓LLM↓Tools / Retriever / Memory
三、LLM 模块
========
LLM 是 LangChain 最核心的模块。
常见支持模型包括:
- GPT-X
- Qwen
- DeepSeek
安装依赖:
pip install langchain langchain-openai
示例代码:
from langchain_openai import ChatOpenAI
llm = ChatOpenAI( model="gpt-4o", temperature=0.7)
response = llm.invoke("解释什么是 RAG")print(response.content)
LLM 负责:
- 文本生成
- 推理
- 总结
四、Prompt 模块
===========
Prompt 是控制 LLM 行为的关键。
LangChain 提供:
PromptTemplateChatPromptTemplate
示例:
from langchain.prompts import PromptTemplate
template = """你是一个AI助手。
问题:{question}
回答:"""
prompt = PromptTemplate( input_variables=["question"], template=template)
print(prompt.format(question="什么是LangChain"))
Prompt 的好处:
- 模板化
- 可复用
- 可维护
五、Memory 模块
===========
Memory 用于保存上下文对话。
例如聊天机器人需要记住:
用户历史对话
LangChain 提供多种 Memory:
| 类型 | 说明 |
|---|---|
| ConversationBufferMemory | 完整对话 |
| ConversationSummaryMemory | 摘要记忆 |
| VectorMemory | 向量记忆 |
示例:
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()
memory.save_context( {"input": "你好"}, {"output": "你好,请问有什么可以帮助?"})
print(memory.load_memory_variables({}))
六、Retriever 模块
==============
Retriever 是RAG 系统的核心组件。
它负责:
根据问题检索相关文档
LangChain 支持:
- 向量数据库
- 搜索引擎
- 知识图谱
常见向量数据库:
- Milvus
- Pinecone
- Qdrant
七、Chain 模块
==========
Chain 用于组合多个步骤。
例如:
问题 → 检索 → LLM → 答案
LangChain 最常见 Chain:
LLMChainRetrievalQASequentialChain
示例:
from langchain.chains import LLMChain
chain = LLMChain( llm=llm, prompt=prompt)
print(chain.invoke({"question":"什么是RAG"}))
八、RAG 项目实战:企业知识库问答系统
====================
下面实现一个完整 RAG 项目。
系统目标:
用户提问↓检索企业文档↓LLM生成答案架构:User↓Retriever↓Vector DB↓LLM↓Answer
九、安装依赖
======
pip install langchainpip install langchain-communitypip install sentence-transformerspip install faiss-cpu
十、准备企业文档
========
假设企业文档:
company_docs/api.mdarchitecture.mddeploy.md
加载文档:
from langchain.document_loaders import DirectoryLoader
loader = DirectoryLoader("company_docs")
docs = loader.load()
十一、文档切分
=======
大模型无法直接处理长文本,需要切分。
from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter( chunk_size=500, chunk_overlap=50)
documents = splitter.split_documents(docs)
十二、向量化
======
使用 embedding 模型:
from langchain.embeddings import HuggingFaceEmbeddings
embeddings = HuggingFaceEmbeddings( model_name="sentence-transformers/all-MiniLM-L6-v2")
十三、构建向量数据库
==========
这里使用 FAISS:
from langchain.vectorstores import FAISS
vector_db = FAISS.from_documents( documents, embeddings)
十四、创建 Retriever
===============
retriever = vector_db.as_retriever( search_kwargs={"k":3})
十五、构建 RAG Chain
===============
from langchain.chains import RetrievalQA
qa = RetrievalQA.from_chain_type( llm=llm, retriever=retriever)
result = qa.invoke( {"query":"公司的API限流策略是什么?"})
print(result["result"])
十六、完整流程
=======
完整 RAG 流程:
用户问题↓Embedding↓Vector Search↓TopK 文档↓LLM↓答案
十七、优化方向
=======
企业级 RAG 需要进一步优化:
1 文档清洗
- 去除噪声
- 统一格式
2 重排序
- 使用 reranker 提高准确率。
3 Hybrid Search
- 向量检索 + 关键词检索
4 Agent 集成
- 让 Agent 决定是否检索。
总结
LangChain 提供了一整套构建 LLM 应用的能力:
| 模块 | 作用 |
|---|---|
| LLM | 调用大模型 |
| Prompt | Prompt管理 |
| Memory | 对话记忆 |
| Retriever | 知识检索 |
| Chain | 任务编排 |
结合 RAG,可以构建:
-
企业知识库
-
AI客服
-
AI文档助手
-
AI开发助手
这里给大家精心整理了一份
全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
👇👇扫码免费领取全部内容👇👇
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)

3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。

4. 2026行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

7. 资料领取:全套内容免费抱走,学 AI 不用再找第二份
不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:
👇👇扫码免费领取全部内容👇👇
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)