WSL2 Ubuntu 部署 Ollama + Open WebUI:4GB 小显存显卡也能跑 7B 大模型
前言
最近大模型本地部署越来越火,Ollama 作为最便捷的工具之一,让普通人也能在自己的电脑上跑起 LLM。但网上很多教程都假设你有 8GB 以上的大显存显卡,对于手里只有 GTX 1050 Ti(4GB)这种“亮机卡”的同学来说,往往卡在“模型跑不动”或“GPU 不干活”的环节。
本文基于 WSL2 Ubuntu 24.04 + GTX 1050 Ti 4GB 这套配置,从零开始完整记录 Ollama 的安装、模型选择、GPU 加速踩坑、以及如何让 7B 模型勉强跑起来。同时还会教你搭建一个漂亮的 Web 界面(Open WebUI),让你的大模型拥有 ChatGPT 一样的体验。
如果你也是老笔记本(i7-7700HQ + 16G 内存 + 1050Ti),本文可以照搬。
一、环境说明
| 项目 | 配置 |
|---|---|
| 宿主机系统 | Windows 11 |
| WSL 版本 | WSL2 |
| Linux 发行版 | Ubuntu 24.04 LTS |
| CPU | i7-7700HQ 4核8线程 |
| 内存 | 16GB DDR4 |
| 显卡 | NVIDIA GTX 1050 Ti (4GB) |
| 驱动 | 最新 Game Ready 驱动 (支持 WSL2) |
二、WSL2 与 Ubuntu 准备
2.1 确保 WSL2
以管理员身份打开 PowerShell,执行:
wsl --set-version Ubuntu 2
wsl --set-default-version 2
2.2 安装或更新 Ubuntu 24.04
如果没有安装,可以在 Microsoft Store 搜索 “Ubuntu 24.04” 安装。
已安装的可以升级软件包:
sudo apt update && sudo apt upgrade -y
sudo apt install curl -y
三、安装 NVIDIA 驱动(Windows 侧)
这一步非常重要,WSL 里的 Ubuntu 需要依赖 Windows 的驱动才能调用 GPU。
- 去 NVIDIA 驱动下载官网 下载 GeForce Game Ready 驱动(最新版本即可)。
- 直接安装到 Windows 上,不需要在 WSL 里安装任何驱动。
- 安装完成后,重启 Windows 确保驱动生效。
验证驱动是否正常:
nvidia-smi
如果能看到你的显卡型号和驱动版本,说明成功。
如果提示
command not found,执行:sudo ln -s /usr/lib/wsl/lib/nvidia-smi /usr/bin/nvidia-smi
四、安装 Ollama
4.1 官方脚本安装(推荐)
curl -fsSL https://ollama.com/install.sh | sh
如果因为 GitHub 访问慢导致失败,使用国内镜像:
curl -fsSL https://ollama.com/install.sh | sed "s|https://ollama.com/download|https://ghproxy.cn/https://github.com/ollama/ollama/releases/latest/download|g" | sh
4.2 手动安装(备选)
如果网络实在不行,可以手动下载 .tar.zst 包:
# 下载(复制链接到浏览器或迅雷)
wget https://github.com/ollama/ollama/releases/download/v0.5.1/ollama-linux-amd64.tar.zst
# 解压
sudo apt install zstd -y
zstd -d ollama-linux-amd64.tar.zst
tar -xf ollama-linux-amd64.tar
# 放到系统路径
sudo mv bin/ollama /usr/local/bin/
sudo chmod +x /usr/local/bin/ollama
4.3 启动 Ollama 服务
sudo systemctl start ollama
sudo systemctl enable ollama # 开机自启
检查状态:
ollama --version
五、下载适合 4GB 显存的模型
5.1 模型推荐列表
| 模型 | 参数量 | 量化版本 | 大小 | 推荐度 |
|---|---|---|---|---|
qwen2.5:3b |
3B | q4_K_M | ~2GB | ⭐⭐⭐⭐⭐ 极速流畅 |
llama3.2:3b |
3B | q4_0 | ~2GB | ⭐⭐⭐⭐⭐ 英文出色 |
qwen2.5:7b |
7B | q4_K_M | ~4.7GB | ⭐⭐⭐⭐ 硬跑可玩 |
deepseek-r1:7b |
7B | q4_K_M | ~4.7GB | ⭐⭐⭐⭐ 推理强 |
5.2 下载并运行模型
# 3B 模型(强烈推荐,流畅无压力)
ollama run qwen2.5:3b
# 7B 模型(需要优化,见第六节)
ollama run qwen2.5:7b
Ollama 会自动下载量化版本,无需手动指定 -q4_K_M 后缀。
六、核心难题:让 GPU 真正跑起来(4GB 显存优化)
6.1 问题现象
运行 ollama run qwen2.5:7b 后,打开另一个终端执行 nvidia-smi,发现 GPU 利用率 0%,显存占用几乎不变 —— 说明模型跑在 CPU 上,慢得要命。
6.2 原因分析
Ollama 会自动评估模型所需显存:qwen2.5:7b 完整加载需要约 6~8GB,而你的显卡只有 4GB。为了不崩溃,Ollama “贴心地” 降级到 CPU 运行。
6.3 解决方案一:强制 GPU 加载所有层
OLLAMA_NUM_GPU=999 ollama run qwen2.5:7b
这会强制 Ollama 尝试将所有模型层塞进 GPU。可能会因为显存不足而报错,如果报错,请用方案二。
6.4 解决方案二:降低上下文长度(推荐)
限制对话历史长度,能显著降低显存占用。
创建一个 Modelfile:
nano Modelfile
写入以下内容:
FROM qwen2.5:7b
PARAMETER num_ctx 4096 # 默认 8192,减半
保存后构建新模型:
ollama create my-qwen -f ./Modelfile
运行:
ollama run my-qwen
现在用 nvidia-smi 观察,应该能看到显存占用上升、GPU 利用率跳动了。
6.5 验证 GPU 是否工作
# 实时监控 GPU
watch -n 1 nvidia-smi
在 Processes 列表中看到 ollama 进程,并且 Memory-Usage 有数值,就成功了。
七、搭建 Web 界面(Open WebUI)
命令行聊天太 geek,我们来个漂亮的浏览器界面。
7.1 配置 Ollama 允许外部连接
sudo systemctl edit ollama.service
粘贴以下内容:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
保存退出,然后:
sudo systemctl daemon-reload
sudo systemctl restart ollama
7.2 安装 Docker
sudo apt install docker.io -y
sudo systemctl start docker
sudo systemctl enable docker
7.3 运行 Open WebUI 容器
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
如果不想注册账号,可以加上
-e WEBUI_AUTH=False开启单用户模式。
7.4 访问 Web UI
浏览器打开 http://localhost:3000
- 首次访问需要注册账号(第一个账号自动成为管理员)
- 登录后,在设置里应该能看到你下载的模型(
qwen2.5:7b等) - 选择模型,开始聊天!
八、常见问题与解决
| 问题 | 解决方法 |
|---|---|
nvidia-smi 找不到命令 |
执行 sudo ln -s /usr/lib/wsl/lib/nvidia-smi /usr/bin/nvidia-smi |
| Ollama 模型下载极慢 | 使用代理或手动下载 .gguf 导入 |
| GPU 利用率始终为 0 | 检查 OLLAMA_NUM_GPU 环境变量,或降低 num_ctx |
| 运行 7B 模型报错 out of memory | 换 3B 模型,或进一步降低 num_ctx 到 2048 |
| Docker 容器里 GPU 不工作 | 打开 Docker Desktop → Settings → Resources → WSL Integration,勾选你的 Ubuntu 发行版 |
| Open WebUI 无法连接 Ollama | 确认 Ollama 已设置 OLLAMA_HOST=0.0.0.0,并且重启了服务 |
九、总结与建议
- 4GB 显卡能玩,但别指望 7B 模型飞快。日常流畅使用推荐 3B 模型(
qwen2.5:3b)。 - 强制 GPU 加载 + 降低上下文长度 是让 7B 模型跑起来的核心技巧。
- Open WebUI 是目前最好用的前端,Docker 一键部署很方便。
- 如果想把 WSL 系统迁移到 D 盘释放 C 盘空间,可以用
wsl --export/wsl --import操作。
最后,本地部署大模型更多是学习和折腾的乐趣。你的 GTX 1050 Ti 虽然老,但跑个 3B 模型写写代码、翻译文档还是绰绰有余的。希望这篇文章能帮你少踩一些坑。
有任何问题欢迎在评论区留言讨论。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)