Ollama环境中应用Qwen模型

千江明月

180人浏览 · 2026-03-15 23:32:17

千江明月 · 2026-03-15 23:32:17 发布

如果在：你的本地 Ollama 环境中没有名为 qwen2.5 或Qwen的模型，请按如下方法解决：

Ollama 不会自动下载所有模型，你需要先手动拉取（下载）你打算使用的模型，然后才能运行代码。

解决方法

请按照以下步骤操作：

1. 在命令行中拉取模型

打开你的命令提示符（CMD）或 PowerShell，运行以下命令来下载 qwen2.5 模型：

ollama pull qwen2.5

注意：如果你想要特定参数版本（例如 7B, 14B, 72B 等），通常可以直接指定，例如 ollama pull qwen2.5:7b。如果只写 qwen2.5，Ollama 通常会下载默认版本（通常是 7b 或根据标签定义的最新版本）。

等待下载完成后，你会看到类似 pulling manifest, pulling xxx, success 的提示。

2. 确认模型已存在（可选）

你可以运行以下命令查看本地已安装的模型列表，确认 qwen2.5 是否在其中：

ollama list

3. 重新运行 Python 代码

模型下载完成后，再次运行你的 Python 脚本 E:/Project_Soft/Python/Ollama_Test.py，错误应该就会消失。

补充说明：关于模型名称

有时候模型的具体标签名称可能略有不同。如果在 ollama pull qwen2.5 时报错，你可以去 Ollama Library 查看准确的标签。

目前 Qwen2.5 系列常见的完整标签包括：

qwen2.5:0.5b
qwen2.5:1.5b
qwen2.5:3b
qwen2.5:7b (最常用)
qwen2.5:14b
qwen2.5:32b
qwen2.5:72b

如果你的代码中写的是 model='qwen2.5'，它通常指向默认标签。如果下载后仍然报错，建议将代码中的模型名称改为具体的版本，例如：

# 修改前
response = ollama.chat(model='qwen2.5', messages=[...])

# 修改后 (例如指定 7b 版本)
response = ollama.chat(model='qwen2.5:7b', messages=[...])

有哪些其他可用的Ollama模型？

Ollama 拥有非常丰富的模型库，涵盖了从轻量级到高性能的各种需求。截至 2026 年，以下是几类最热门且常用的模型，你可以根据你的硬件配置（主要是显存大小）和任务需求进行选择：

1. 通用对话与推理 (最常用)

这些模型适合日常聊天、写作、逻辑推理和一般性问答。

Llama 3 / Llama 3.1 / Llama 3.2 (Meta)
- 特点: 目前最流行的开源模型系列，综合性能极强，生态丰富。
- 推荐版本:
  - llama3.2:3b (超轻量，适合低配电脑/手机)
  - llama3.2:1b (极致轻量)
  - llama3.1:8b (主流选择，平衡性能与速度)
  - llama3.1:70b (高性能，需要大显存或多卡)
- 拉取命令: ollama pull llama3.2 或 ollama pull llama3.1
Qwen 2.5 (阿里巴巴)
- 特点: 中文能力极强，代码生成和数学推理表现优异，是目前中文社区的首选之一。
- 推荐版本:
  - qwen2.5:0.5b / 1.5b (极快，适合简单任务)
  - qwen2.5:7b (黄金尺寸，大多数显卡可跑)
  - qwen2.5:14b / 32b (进阶选择，效果更接近 GPT-4 级别)
- 拉取命令: ollama pull qwen2.5
DeepSeek-R1 / DeepSeek-V3 (深度求索)
- 特点: 2025-2026 年的黑马，尤其在复杂逻辑推理、数学和代码方面表现惊人，甚至超越许多闭源模型。R1 系列具有独特的“思维链”能力。
- 推荐版本:
  - deepseek-r1:7b (推理能力强且相对轻量)
  - deepseek-r1:14b / 32b (强力推荐，如果显存允许)
  - deepseek-v3 (通用对话极强)
- 拉取命令: ollama pull deepseek-r1
Gemma 2 / Gemma 3 (Google)
- 特点: Google 出品的开源模型，轻量且高效，适合创意写作和快速响应。
- 推荐版本: gemma2:2b, gemma2:9b
- 拉取命令: ollama pull gemma2
Mistral / Mixtral (Mistral AI)
- 特点: 欧洲开源模型的代表，以高效和优秀的指令遵循能力著称。Mixtral 是稀疏混合专家模型 (MoE)。
- 推荐版本: mistral:7b, mixtral:8x7b
- 拉取命令: ollama pull mistral

2. 编程专用 (Code Models)

如果你主要用 AI 写代码，这些模型通常比通用模型更准确。

DeepSeek-Coder-V2: 代码能力顶尖，支持多种编程语言。
- 命令: ollama pull deepseek-coder-v2
CodeLlama: Meta 专为代码训练的 Llama 版本。
- 命令: ollama pull codellama
Qwen2.5-Coder: 阿里推出的代码专项模型。
- 命令: ollama pull qwen2.5-coder

3. 视觉多模态 (Vision Models)

这些模型可以“看懂”图片（你需要在代码中传递图片数据）。

LLaVA (Large Language-and-Vision Assistant): 最经典的多模态模型。
- 命令: ollama pull llava 或 ollama pull llava:7b
BakLLava: 基于 Mistral 的视觉模型。
- 命令: ollama pull bakllava
Moondream: 超轻量的视觉模型，可以在很低配置的设备上运行。
- 命令: ollama pull moondream

4. 特殊用途与轻量级

Phi-3 / Phi-4 (Microsoft): 微软的小模型，参数量小但逻辑能力出人意料地强，非常适合笔记本运行。
- 命令: ollama pull phi3 或 ollama pull phi4
TinyLlama: 极小模型，仅 1.1B 参数，用于测试或极低资源环境。
- 命令: ollama pull tinyllama
Nemotron: NVIDIA 推出的模型，擅长生成合成数据。

如何查找和选择？

方法 A：使用命令行搜索

你可以在终端直接搜索 Ollama 库中的模型：

ollama search <关键词>
# 例如：
ollama search code
ollama search chinese
ollama search llama

方法 B：访问官网库

最直观的方法是访问 Ollama Library 网页版（需联网）：
👉 https://ollama.com/library

在那里你可以：

看到所有可用模型的列表。
查看每个模型的大小 (Size)（这决定了你需要多少显存/内存）。
点击模型名称查看具体的标签（Tags），例如 :7b, :14b, :latest。
直接复制 ollama pull <模型名> 命令。

💡 选型建议 (根据显存/内存)

< 8GB 显存/内存:
- 推荐: qwen2.5:1.5b, llama3.2:1b/3b, phi3, gemma2:2b, moondream
8GB - 16GB 显存/内存:
- 推荐: qwen2.5:7b, llama3.1:8b, deepseek-r1:7b, mistral:7b, gemma2:9b
- 注：这是大多数消费级显卡 (如 RTX 3060/4060) 的甜蜜点。
16GB - 24GB 显存/内存:
- 推荐: qwen2.5:14b, deepseek-r1:14b, mixtral:8x7b (量化版), llama3.1:70b (高量化版，如 q4_0)
> 24GB 显存或 Mac M1/M2/M3 (大内存版):
- 推荐: qwen2.5:32b/72b, deepseek-r1:32b, llama3.1:70b (原版或低量化)

提示：如果你不确定选哪个，先试一下 qwen2.5:7b (中文好) 或 llama3.1:8b (英文/通用好)，这两个是目前兼容性最好的“万金油”模型。

如何启动ollama？

启动 Ollama 的方法取决于你的操作系统。通常情况下，安装完成后 Ollama 会自动在后台运行。

如果你发现运行 ollama 命令报错（如连接拒绝），或者你想手动启动它，请参考以下步骤：

1. Windows 系统

在 Windows 上，Ollama 通常作为一个后台应用程序运行。

方法 A：检查是否已在运行（推荐）
1. 查看电脑右下角的系统托盘（点击小箭头 ^）。
2. 寻找一个黑色的羊驼图标 🦙。
3. 如果图标存在，说明 Ollama 已经启动，你不需要做任何操作，直接在终端运行 ollama run ... 即可。
4. 如果图标不存在，请继续方法 B。
方法 B：手动启动
1. 按下 Win 键，输入 Ollama。
2. 点击出现的 Ollama 应用程序图标。
3. 此时会弹出一个黑色的命令行窗口，显示类似 Ollama is running 的字样。不要关闭这个窗口，最小化它即可。
4. 现在你可以打开新的 CMD 或 PowerShell 窗口使用 ollama 命令了。
方法 C：作为服务启动（如果上述无效）
如果应用无法启动，可以尝试在管理员权限的 PowerShell 中运行：
```
ollama serve
```
注意：运行此命令时，该窗口会被占用，你需要新开一个窗口来运行 ollama pull 或你的 Python 代码。

2. macOS 系统

方法 A：菜单栏检查
1. 查看屏幕右上角的菜单栏。
2. 寻找羊驼图标 🦙。
3. 如果有图标，说明已运行。点击图标可以选择 “Quit” 退出或查看状态。
方法 B：手动启动
1. 打开 Finder (访达)。
2. 进入 Applications (应用程序) 文件夹。
3. 双击 Ollama 图标。
4. 它会出现在菜单栏中，表示启动成功。
方法 C：终端启动
你也可以直接在终端（Terminal）中输入：
```
ollama serve
```
（同样，这会占用当前终端窗口）。

3. Linux 系统

在 Linux 上，Ollama 通常安装为系统服务。

检查状态
```
systemctl status ollama
```
如果显示 active (running)，则无需操作。
启动服务
如果未运行，使用以下命令启动：
```
sudo systemctl start ollama
```
开机自启
如果需要开机自动启动：
```
sudo systemctl enable ollama
```
手动前台运行（测试用）
如果不使用 systemd，可以直接运行：
```
ollama serve
```

4. 验证是否启动成功

无论使用哪种系统，启动后都可以通过以下方式验证：

命令行测试：
打开一个新的终端/命令提示符，输入：
```
ollama list
```
如果列出了模型列表（或者提示没有模型），说明服务正常。如果报错 connection refused，说明服务未启动。
浏览器测试：
在浏览器地址栏输入：
```
http://localhost:11434
```
如果页面显示 “Ollama is running”，则说明启动成功。

常见问题排查

端口冲突：Ollama 默认使用 11434 端口。如果该端口被其他程序占用，Ollama 可能无法启动。
Python 代码报错：如果你在运行 Python 代码时遇到 ConnectionRefusedError，通常是因为 Ollama 服务没开。请先按上述步骤启动 Ollama，然后再运行 Python 脚本。
Docker 用户：如果你是用 Docker 运行的 Ollama，需要确保容器正在运行：
```
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
```

既然你之前遇到了 model not found 的错误，这说明你的 Ollama 服务本身应该是启动的（否则你会报连接错误而不是模型找不到错误）。你可能只需要执行 ollama pull qwen2.5 即可，无需重新启动服务。

出现错误提示：C:\Users\Administrator>ollama serve Error: listen tcp 127.0.0.1:11434: bind: Only one usage of each socket address (protocol/network address/port) is normally permitted.

这个错误信息非常明确：Ollama 服务已经在运行了。

错误 Only one usage of each socket address... is normally permitted 意味着端口 11434 已经被另一个程序（也就是已经启动的 Ollama 进程）占用了。你不需要再次运行 ollama serve，因为同一个端口不能同时被两个进程监听。

✅ 解决方法

你不需要做任何修复操作，服务已经正常启动了。请直接执行你原本想做的命令：

1. 直接拉取模型

既然服务已经在后台运行，你可以直接在一个新的命令行窗口中运行拉取命令：

ollama pull qwen2.5

2. 或者直接运行 Python 代码

你的 Python 脚本 E:/Project_Soft/Python/Ollama_Test.py 现在应该可以直接运行了（前提是你已经拉取了模型，如果还没拉取，请先执行上面的第1步）。

ℹ️ 为什么会发生这种情况？

在 Windows 上，当你安装 Ollama 或点击开始菜单的 Ollama 图标时，它会自动在后台启动一个服务进程，并监听 11434 端口。

当你手动输入 ollama serve 时，它试图再次启动一个服务并占用同一个端口，从而产生冲突报错。
这是正常现象，说明你的环境配置是正确的。

🔍 如何确认它正在运行？

如果你想确认后台确实有一个 Ollama 在跑，可以尝试以下方法：

方法 A：查看系统托盘
看电脑右下角（任务栏右侧小箭头里），应该有一个黑色的羊驼 🦙 图标。如果有，说明它正在运行。

方法 B：测试连接
在命令行输入：

ollama list

如果能列出模型列表（即使为空），说明服务连接正常。

方法 C：浏览器访问
在浏览器打开：

http://localhost:11434

如果显示 Ollama is running，说明服务正常。

🛑 如果你真的需要重启服务（可选）

如果你确实需要重启服务（例如修改了环境变量或配置），你需要先关闭正在运行的实例，然后再运行 ollama serve。

关闭后台进程：
- 点击右下角托盘的羊驼图标 🦙，选择 “Quit Ollama”。
- 或者在任务管理器中找到 ollama.exe 并结束任务。
验证端口释放：
再次运行 ollama serve，此时应该就不会报错了。

总结：忽略这个报错，直接去运行 ollama pull qwen2.5 即可！

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

告诉大家OpenClaw 社区如此重视 Skill 生态的原因

AtomGit开源社区

Spring AI Alibaba 多模态全家桶：图片理解、图片生成与语音合成实战

实际业务中通常需要指定图片尺寸和生成数量，通过.withN(count) // 生成几张.withWidth(width) // 宽度.withHeight(height) // 高度.build()));DIAGRAM: 图片生成调用时序图——客户端 → Controller → ImageModel.call() → DashScope 提交任务 → 轮询状态 → 返回图片 URL能力核心类模