发散创新：用Python + LangChain构建生成式AI驱动的代码助手

A20250FSAF

318人浏览 · 2026-03-24 08:34:46

A20250FSAF · 2026-03-24 08:34:46 发布

发散创新：用Python + LangChain构建生成式AI驱动的代码助手

在当前软件开发趋势中，生成式AI正快速渗透到编码全流程。本文将带你从零开始搭建一个基于 Python 和 LangChain 的轻量级代码辅助工具，它不仅能理解上下文、生成逻辑正确的代码片段，还能结合本地项目结构进行智能补全——这正是我们所说的“发散创新”。

🧠 核心理念：让AI真正懂你的代码

传统IDE插件（如GitHub Copilot）往往依赖云端模型，缺乏对本地项目的语义感知能力。而我们的方案通过以下三点实现差异化：

本地知识库嵌入：利用 langchain.vectorstores 对项目源码做向量化存储；
1. 动态上下文感知：根据用户输入自动匹配最相关的函数/类定义；
1. 可扩展提示工程：支持自定义模板，灵活控制输出格式与行为。

✅ 这种架构既保留了生成式AI的强大创造力，又保证了安全性与定制性。

🔧 实现步骤详解（附完整代码）

第一步：安装依赖

pip install langchain openai chromadb sentence-transformers

第二步：初始化向量数据库并加载项目文件

假设你有一个 Python 项目目录 my_project/，包含多个 .py 文件：

from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma

# 加载所有Python源码文件
loader = TextLoader("my_project/__init__.py")  # 可扩展为批量处理
data = loader.load()

# 分割文本块（适合嵌入模型）
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
docs = text_splitter.split_documents(data)

# 使用本地embedding模型（推荐HuggingFace）
embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-small-en-v1.5")

# 存入Chroma向量库（本地持久化）
db = Chroma.from_documents(docs, embeddings, persist_directory="./chroma_db")

✅ 此时你可以看到一个结构化的向量索引文件夹，用于后续检索增强生成（RAG）。

第三步：构建问答链 + 模板调优

from langchain.chains import RetrievalQA
from langchain.llms import OpenAI

# 初始化LLM（此处使用OpenAI API，也可替换为本地大模型如Llama3）
llm = OpenAI(temperature=0.3, model_name="gpt-4o-mini")

# 构建检索问答链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
        chain_type="stuff",
            retriever=db.as_retriever(search_kwargs={"k": 3}),
                return_source_documents=True
                )
                ```
#### 第四步：交互式提问接口（模拟真实场景）

```python
query = "如何在Flask中实现JWT认证？"
result = qa_chain({"query": query})

print("**回答：**")
print(result["result"])
print("\n**来源文档：**")
for doc in result["source_documents"]:
    print(f"- {doc.metadata['source']}")
    ```
📌 输出示例：

回答：
你可以使用flask-jwt-extended库，在app.py中添加如下配置：
from flask_jwt_extended import JWTManager, create_access_token
jwt = JWTManager(app)

@app.route(‘/login’, methods=[‘POST’])
def login():
username = request.json.get(‘username’)
password = request.json.get(‘password’)
if authenticate(username, password):
token = create_access_token(identity=username)
return jsonify(access_token=token)
```

📊 流程图展示整体工作流（文字版简化版）

[用户输入] 
     ↓
     [向量数据库检索相关代码片段] 
          ↓
          [融合上下文+Prompt模板]
               ↓
               [调用LLM生成答案]
                    ↓
                    [返回带来源标注的结果]
                    ```
💡 这个流程完全可在私有环境中运行，无需联网即可完成高质量代码建议，特别适合企业级内部开发协作。

---

### ⚡️ 高阶玩法：集成进VSCode插件或Jupyter Notebook

如果你希望进一步落地应用，可以封装成一个简单的CLI命令行工具：

```bash
python code_assistant.py --query "写一个读取CSV的函数"

或者作为Jupyter Cell直接调用：

%load_ext autoreload
%autoreload 2

from assistant import get_code_suggestion
suggestion = get_code_suggestion("如何用pandas合并两个DataFrame？")
display(suggestion)