AI大模型实战系列（一）：RAG开发前置知识与环境搭建完全指南

不会代码IT男

383人浏览 · 2026-03-17 17:13:46

不会代码IT男 · 2026-03-17 17:13:46 发布

AI大模型实战系列（一）：RAG开发前置知识与环境搭建完全指南

在人工智能技术日新月异的今天，大模型应用开发已经成为开发者们的必修课。

本文将详细梳理本阶段学习的前置要求，并手把手教你完成 Python 依赖安装、虚拟环境进阶以及大模型 API-KEY 的安全配置。

一、课程前置要求：你准备好了吗？

构建RAG系统并非毫无门槛，它要求开发者具备一定的编程素养和计算机基础。在深入本阶段课程之前，请确保你已经掌握了以下前置知识：

计算机通识：了解基本的计算机操作系统原理、文件路径管理以及终端命令行（如Windows PowerShell）的基本操作。
Python语言基础知识：RAG生态目前最成熟的开发语言是Python。你需要熟悉Python的基本语法、数据结构、面向对象编程以及模块的导入。
PyCharm基本使用：我们推荐使用PyCharm作为集成开发环境（IDE）。你需要知道如何创建项目、配置解释器以及运行Python脚本。
大模型基础：请确保已经了解关于大语言模型的基础理论内容，包括Prompt编写与基本的API调用概念。

二、核心开发环境说明

为了保证实战过程中代码的兼容性，避免因为版本差异导致各种奇怪的报错，请严格按照以下标准配置你的本地环境：

编程语言版本：指定使用 Python 3.11 版本。过高或过低的版本可能会导致某些依赖库（尤其是涉及到C++底层编译的向量库）无法正常安装。
核心框架版本：我们将采用目前业界最流行的LLM应用开发框架，指定版本为 LangChain V0.3。

强烈推荐：使用虚拟环境

在进行项目开发时，极其不建议将第三方库直接安装在系统的全局Python环境中。这会导致不同项目之间的依赖产生严重冲突。我们推荐在项目中为当前任务单独创建一个虚拟环境（Virtual Environment）。当你看到终端命令行前面出现了 (.venv) 的标识时，说明你已经成功激活了虚拟环境。所有的安装命令都应在此虚拟环境中执行。

三、虚拟环境进阶：venv 与 Conda 的抉择

在真实的人工智能开发领域，你通常面临两种选择：原生 venv 和 Anaconda (Miniconda)。

原生 venv：Python 3.3 之后自带的轻量级虚拟环境工具。
- 优点：无需额外安装，随取随用，适合结构简单的纯 Python 项目（如PyCharm默认创建的环境）。
- 缺点：无法隔离 Python 版本（必须依赖系统中已装好的 Python），对底层 C/C++ 依赖库的支持较弱。
Conda 环境：数据科学和 AI 领域的绝对主流。
- 优点：不仅能隔离第三方包，还能直接隔离 Python 版本（例如你可以同时在一个机器上跑 Python 3.8 和 Python 3.11 的项目）。在处理底层科学计算库的依赖冲突时非常强大。
- 实操建议：强烈建议下载安装 Miniconda。在终端中使用 conda create -n rag_env python=3.11 即可创建一个干净的专属环境，然后使用 conda activate rag_env 激活。

四、第三方 Python 库的安装策略

本阶段的实战项目依赖了一系列强大的Python开源库。主要包含与大模型交互的SDK、LangChain生态组件以及向量数据库组件。

核心依赖库列表：

openai：用于调用大模型接口的核心SDK。
langchain：构建大模型应用的主框架。
langchain-core：LangChain的核心基础组件库。
langserve：用于将LangChain运行链部署为REST API的工具。
langchain-openai：LangChain中专门针对OpenAI接口封装的集成包。
langchain-community：包含大量社区贡献的第三方工具、文档加载器和向量库集成。
chromadb：我们将在实战中使用的本地向量数据库，用于存储和检索文本Embeddings。

安装方式一：手动逐个安装

如果你希望了解每一个库的安装过程，可以在激活的虚拟环境终端中，逐行执行以下命令：

pip install openai
pip install langchain
pip install langchain-core
pip install langserve
pip install langchain-openai
pip install langchain-community
pip install chromadb

安装方式二：使用 requirements.txt 一键安装（推荐）

为了提高效率，通常会提供一个打包好的依赖清单文件。如果不想单个安装，你可以直接使用 requirements.txt 文件进行一次性批量安装。

操作步骤：

打开IDE底部的“终端 (Terminal)”窗口，确保当前路径为项目根目录，且虚拟环境已激活。
运行以下命令：

pip install -r requirements.txt

系统将自动从镜像源下载并安装所有必需的库（注意：这可能需要几分钟时间，请保持网络通畅）。

五、大模型 API-KEY 的申请与安全配置

RAG系统的运转离不开大语言模型。由于我们是以兼容OpenAI接口的方式来实现大模型应用的，因此只要是兼容OpenAI接口规范的平台都可以使用。你可以自行前往各大模型平台官网申请 API-KEY，这里推荐使用 阿里云百炼 或 腾讯混元。

⚠️ 核心安全规范：不要把API-KEY硬编码在代码中！

将 API-KEY 直接写在Python脚本中是极其危险的做法，一旦代码意外泄露，你的账户可能面临严重的盗刷风险。从安全角度考虑，必须将 API-KEY 统一存放在操作系统的系统变量中。

方式一：Windows 系统配置指南

打开系统设置：在Windows搜索栏输入“系统信息”或右键点击“此电脑”选择“属性”。
进入高级系统设置：在相关链接区域，找到并点击“高级系统设置”。
打开环境变量：切换到“高级”选项卡，点击最下方的“环境变量(N)…”按钮。
新建系统变量：在“系统变量(S)”区域，点击“新建(N)…”按钮。
配置变量：
- 阿里云百炼对应的变量名推荐设置为：DASHSCOPE_API_KEY。
- 腾讯混元对应的变量名推荐设置为：HUNYUAN_API_KEY。
- 在“变量值”一栏，粘贴你获取的真实 API-KEY 字符串。
保存生效：连续点击“确定”保存设置。重要提示：配置环境变量后，需要完全重启IDE或终端窗口，Python程序才能读取到最新的系统变量。

方式二：行业标准配置（使用 .env 文件）

在团队协作和代码部署时，目前的行业标准做法是使用 .env 文件结合 python-dotenv 库。

安装工具：在终端执行 pip install python-dotenv。
创建配置文件：在你的项目根目录下新建一个名为 .env 的文件。
写入密钥：以纯文本形式写入你的密钥，不要加引号，不要有空格。
```
DASHSCOPE_API_KEY=sk-你的真实密钥
```

代码中动态加载：

import os
from dotenv import load_dotenv
load_dotenv() # 加载 .env 文件中的环境变量
api_key = os.getenv("DASHSCOPE_API_KEY")

⚠️ 致命警告：如果你使用 Git 进行版本控制，必须在项目根目录创建一个 .gitignore 文件，并将 .env 写进去，绝对不能推送到云端！

六、开发利器：IDE 插件与代码规范

为了提升 RAG 开发效率，打造一个顺手的“工作台”必不可少：

AI 编码助手：安装通义灵码、GitHub Copilot 等插件。在编写 LangChain 繁杂的 Prompt 和数据处理逻辑时，AI 助手能帮你补全大量重复性代码。
代码格式化工具（Black）：AI 项目代码往往容易写得凌乱。建议安装 black 库，并在 IDE 中配置保存时自动格式化，保持代码风格的极度统一。
Jupyter Notebook 支持：RAG 开发是一个高度依赖“交互式调试”的过程。在 PyCharm 或 VSCode 中配置好 Jupyter 环境，通过 .ipynb 文件进行分步调试，效率远超直接运行 .py 脚本。

七、终极验证：你的第一个大模型 “Hello World”

环境配得好不好，跑一段代码就知道。在完成上述所有配置后，我们可以编写一个验证脚本，测试 LangChain 和 API-KEY 是否连通。

新建一个 test_env.py 文件：

import os
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI

# 1. 加载环境变量 (读取 .env)
load_dotenv()

# 2. 初始化大模型客户端 (以阿里云百炼的兼容接口为例)
llm = ChatOpenAI(
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
    model="qwen-plus" 
)

# 3. 发送测试问候
response = llm.invoke("你好，请用一句话证明你已经准备好进行 RAG 开发了。")
print(response.content)

如果控制台成功打印出模型机智的回复，恭喜你，你的 RAG 战舰已经正式点火，随时可以驶入检索增强生成的深水区！

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

2. 【RTL_Synthesis】Icarus Verilog

AtomGit开源社区

PostgreSQL vs MySQL：选型指南与深度对比

在关系型数据库的选型中，PostgreSQL 和 MySQL 是最常被提及的两个名字。作为开源关系型数据库的两大标杆，它们各自有着鲜明的特点和适用场景。本文将从架构设计、功能特性、性能表现、生态工具等维度进行全面对比，并结合实际业务场景给出选型建议。

AtomGit开源社区

当人人都会用AI，你靠什么脱颖而出？

当人人都会用AI（2026年已经是职场标配），你靠什么脱颖而出？现在是2026年3月，AI已经像Excel、邮件一样普及：88%的公司定期使用AI，Agent、智能体、MCP、Workflow到处都是。单纯“会用AI”（会Prompt、生成代码、写文案）已经彻底变成地板技能，就像会用Word一样，不再是加分项，而是入门门槛。真正能让你从99%的人中脱颖而出的，不是用AI更快，而是用AI更聪明、更深