[RAG开发]-大模型接入

CSDN20221005

671人浏览 · 2026-03-16 19:24:58

CSDN20221005 · 2026-03-16 19:24:58 发布

百炼平台

大模型接入方式

本课程使用阿里云百炼平台接入大模型

注册和使用阿里云百炼平台

https://bailian.console.aliyun.com/cn-beijing/#/home
进入阿里云的百炼大模型平台，完成注册，登录，实名(使用支付宝扫一下)。

创建API-KEY

查看额度

通过代码调用阿里云百炼平台上的模型很简单，仅需要:

阿里云百炼平台上，创建API-KEY
通过pip为Python程序提供 OpenAI 库:

- pip install openai
- 我这里使用了科学上网, 如果使用国内网络下载工具慢的话, 可以把数据源切换到清华源

编写代码测试(可从百炼平台官网复制代码，直接执行)

如下代码，将APIKEY明文显示在代码中，是有很大的安全隐患的。

我们可以通过环境变量来隐藏明文APIKEY。

通过环境变量: OPENAI_API_KEY和DASHSCOPE_API_KEY记录值，
代码会自动读取变量从而获取值

Windows系统通过图形化界面配置环境变量

Mac系统在终端内修改.zshrc文件添加环境变量

配置完成后，重启PyCharm生效(如不生效可以重启电脑)

Ollama

Ollama简介

为了避免未来阿里云免费额度到期或不提供免费活动导致的无法开发，课程额外补充:基于OLlama部署本地模型，供代码调用。

PS:此为备用方案，课程主体还是基于阿里云百炼平台做开发。
ollama:是一款旨在简化大型语言模型本地部署和运行过程的开源软件。
oLlama提供了一个轻量级、易于扩展的框架，让开发者能够在本地机器上轻松构建和管理LLMs(大型语言模型)
通过ollama，开发者可以导入和定制自己的模型，无需关注复杂的底层实现细节。
网址: https://ollama.com
简单来说可以认为是阿里云百炼平台的本地版，在自己电脑上部署和运行大模型，由自己电脑的硬件提供算力支撑模型运行。

ollama模型库

ollama 支持多种开源模型，涵盖文本生成、代码生成、多模态推理等场景。

用户可以根据需求选择合适的模型，并通过简单的命令行操作在本地运行。
ollama 官方模型库: https://ollama.com/library

Windows/Mac系统部署ollama

Ollama的部署还是很简单的，只需要进入官方网站点击Download按钮下载安装。

安装完成后，通过命令:

ollama run 模型名称

即可运行对应的模型，并在命令行内做交互。

蒸馏模型就是对标准大模型核心技能的学习，并进行瘦身，从而获得更低的性能要求。简单来说蒸馏模型就是标准大模型的学生，学到了老师的核心本领，但没有老师强。根据参数量的不同，参数量越大，蒸馏模型学到老师核心本领就越扎实，性能越好。
参数量选择:

集显: 1.5b左右
4G独显: 8b以内
8G独显: 14b以内
...具体可以自己试一试
参数量越大对硬件要求越高，如果硬件能力不足，模型运算和吐字速度会下降。

完成ollama的部署和使用后，后续如果要管理电脑中的模型，可以使用ollama命令。

主要介绍如下几个命令:

ollamalist:列出当前已下载的模型
ollama pull模型名称:联网下载指定的模型
ollama run模型名称:运行指定的模型(如不存在会先下载)
ollama--help:查看其它可用的命令帮助

PS: 上述命令操作，请先运行ollama
PS: 上述命令操作，Windows系统和Mac系统通用

代码调用ollama的本地模型

使用代码调用ollama的本地模型还是很简单的，只需要将原有代码进行简单改动即可。

将base_url改为: http://localhost:11434/v1
将model改为对应本地模型名称，如: qwen3:4b

OpenAi

OpenAI库是OpenAI官方推出的Python SDK，核心作用是让开发者能简单、高效地调用OpenAI 的各类API(如GPT聊天、DALL.E绘图、语音转文字等)，无需手动处理HTTP请求、身份验证等底层细节。

由于其发布较早且比较易用，现如今许多模型服务商(如阿里云百炼平台)均兼容OpenAI SDK的调用

openAi的基本使用

获取客户端对象

主要是用如上2个参数:
api_key: 模型服务商提供的APIKEY密钥
base_url: 模型服务商的API接入地址

- 主要基于此参数来切换不同的模型服务商(如OpenAI、阿里云、腾讯云等)

调用模型

处理结果

response变量就是ChatCompletion对象，其包含信息如下所示

可以通过 print(response.choices[0].message.content) 输出模型给出的回答信息

完整代码

from openai import OpenAI

# 获取client对象
client =  OpenAI(
    api_key="",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

# 调用模型
response = client.chat.completions.create(
    model="qwen3-max",
    messages=[
        {"role": "system", "content": "你是一个Python编程专家,并且不说废话简洁回答"},
        {"role": "assistant", "content": "好的, 我是Python编程专家, 你要问什么?"},
        {"role": "user", "content": "请写一个python程序, 打印1-10的数字"},
    ]
)


# 处理结果
print(response.choices[0].message.content)

OpenAI库的流式输出

可以设定结果输出为stream模式(流式输出)，获得更好的使用体验。开启流式输出主要就2步:

设置模型的输出模式为流式输出

在client.chat.completions.create()调用模型的时候设定参数 stream=True

循环输出内容

for循环response对象，并在循环内输出内容

完成代码

"""
流式输出
"""
from openai import OpenAI

# 获取client对象
client =  OpenAI(
    api_key="",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

# 调用模型
response = client.chat.completions.create(
    model="qwen3-max",
    messages=[
        {"role": "system", "content": "你是一个Python编程专家,并且不说废话简洁回答"},
        {"role": "assistant", "content": "好的, 我是Python编程专家, 你要问什么?"},
        {"role": "user", "content": "请写一个python程序, 打印1-10的数字"},
    ],
    stream=True # 开启流式输出
)


# 处理结果
for chunk in response:
    print(
        chunk.choices[0].delta.content,
        end="", # 每一段内容以空格分隔
        flush=True # 立刻刷新缓冲区
    )

OpenAI库附带历史消息调用模型

调用模型传入的参数messages，其要求是list对象，即表明其支持非常多的消息在内。
我们可以基于此，将历史消息填入，让模型知晓对话的上下文，更好的回答
在调用模型时, 通过在messages的list内，组织历史消息提供给模型
当前的历史消息是一次性的，如果是生产系统可以将消息保存到文件、数据库等持久化工具内，需要的时候提取使用
后续学习LangChain库，会学习短期记忆和长期记忆的使用方法。

"""
携带历史消息
"""
from openai import OpenAI

# 获取client对象
client = OpenAI(
    api_key="",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

# 调用模型
response = client.chat.completions.create(
    model="qwen3-max",
    messages=[
        {"role": "system", "content": "你AI助理,回答很简洁"},
        {"role": "user", "content": "小明有两条狗"},
        {"role": "assistant", "content": "好的"},
        {"role": "user", "content": "小红有3只猫"},
        {"role": "assistant", "content": "好的"},
        {"role": "user", "content": "总共有几只宠物"},
    ],
    stream=True
)

# 处理结果
for chunk in response:
    print(chunk.choices[0].delta.content, end=" ", flush=True)