WSL2 Ubuntu 部署 Ollama + Open WebUI：4GB 小显存显卡也能跑 7B 大模型

空白ls

645人浏览 · 2026-04-18 21:49:11

空白ls · 2026-04-18 21:49:11 发布

前言

最近大模型本地部署越来越火，Ollama 作为最便捷的工具之一，让普通人也能在自己的电脑上跑起 LLM。但网上很多教程都假设你有 8GB 以上的大显存显卡，对于手里只有 GTX 1050 Ti（4GB）这种“亮机卡”的同学来说，往往卡在“模型跑不动”或“GPU 不干活”的环节。

本文基于 WSL2 Ubuntu 24.04 + GTX 1050 Ti 4GB 这套配置，从零开始完整记录 Ollama 的安装、模型选择、GPU 加速踩坑、以及如何让 7B 模型勉强跑起来。同时还会教你搭建一个漂亮的 Web 界面（Open WebUI），让你的大模型拥有 ChatGPT 一样的体验。

如果你也是老笔记本（i7-7700HQ + 16G 内存 + 1050Ti），本文可以照搬。

一、环境说明

项目	配置
宿主机系统	Windows 11
WSL 版本	WSL2
Linux 发行版	Ubuntu 24.04 LTS
CPU	i7-7700HQ 4核8线程
内存	16GB DDR4
显卡	NVIDIA GTX 1050 Ti (4GB)
驱动	最新 Game Ready 驱动 (支持 WSL2)

二、WSL2 与 Ubuntu 准备

2.1 确保 WSL2

以管理员身份打开 PowerShell，执行：

wsl --set-version Ubuntu 2
wsl --set-default-version 2

2.2 安装或更新 Ubuntu 24.04

如果没有安装，可以在 Microsoft Store 搜索 “Ubuntu 24.04” 安装。
已安装的可以升级软件包：

sudo apt update && sudo apt upgrade -y
sudo apt install curl -y

三、安装 NVIDIA 驱动（Windows 侧）

这一步非常重要，WSL 里的 Ubuntu 需要依赖 Windows 的驱动才能调用 GPU。

去 NVIDIA 驱动下载官网下载 GeForce Game Ready 驱动（最新版本即可）。
直接安装到 Windows 上，不需要在 WSL 里安装任何驱动。
安装完成后，重启 Windows 确保驱动生效。

验证驱动是否正常：

nvidia-smi

如果能看到你的显卡型号和驱动版本，说明成功。

如果提示 command not found，执行：
sudo ln -s /usr/lib/wsl/lib/nvidia-smi /usr/bin/nvidia-smi

四、安装 Ollama

4.1 官方脚本安装（推荐）

curl -fsSL https://ollama.com/install.sh | sh

如果因为 GitHub 访问慢导致失败，使用国内镜像：

curl -fsSL https://ollama.com/install.sh | sed "s|https://ollama.com/download|https://ghproxy.cn/https://github.com/ollama/ollama/releases/latest/download|g" | sh

4.2 手动安装（备选）

如果网络实在不行，可以手动下载 .tar.zst 包：

# 下载（复制链接到浏览器或迅雷）
wget https://github.com/ollama/ollama/releases/download/v0.5.1/ollama-linux-amd64.tar.zst

# 解压
sudo apt install zstd -y
zstd -d ollama-linux-amd64.tar.zst
tar -xf ollama-linux-amd64.tar

# 放到系统路径
sudo mv bin/ollama /usr/local/bin/
sudo chmod +x /usr/local/bin/ollama

4.3 启动 Ollama 服务

sudo systemctl start ollama
sudo systemctl enable ollama   # 开机自启

检查状态：

ollama --version

五、下载适合 4GB 显存的模型

5.1 模型推荐列表

模型	参数量	量化版本	大小	推荐度
`qwen2.5:3b`	3B	q4_K_M	~2GB	⭐⭐⭐⭐⭐ 极速流畅
`llama3.2:3b`	3B	q4_0	~2GB	⭐⭐⭐⭐⭐ 英文出色
`qwen2.5:7b`	7B	q4_K_M	~4.7GB	⭐⭐⭐⭐ 硬跑可玩
`deepseek-r1:7b`	7B	q4_K_M	~4.7GB	⭐⭐⭐⭐ 推理强

5.2 下载并运行模型

# 3B 模型（强烈推荐，流畅无压力）
ollama run qwen2.5:3b

# 7B 模型（需要优化，见第六节）
ollama run qwen2.5:7b

Ollama 会自动下载量化版本，无需手动指定 -q4_K_M 后缀。

六、核心难题：让 GPU 真正跑起来（4GB 显存优化）

6.1 问题现象

运行 ollama run qwen2.5:7b 后，打开另一个终端执行 nvidia-smi，发现 GPU 利用率 0%，显存占用几乎不变 —— 说明模型跑在 CPU 上，慢得要命。

6.2 原因分析

Ollama 会自动评估模型所需显存：qwen2.5:7b 完整加载需要约 6~8GB，而你的显卡只有 4GB。为了不崩溃，Ollama “贴心地” 降级到 CPU 运行。

6.3 解决方案一：强制 GPU 加载所有层

OLLAMA_NUM_GPU=999 ollama run qwen2.5:7b

这会强制 Ollama 尝试将所有模型层塞进 GPU。可能会因为显存不足而报错，如果报错，请用方案二。

6.4 解决方案二：降低上下文长度（推荐）

限制对话历史长度，能显著降低显存占用。

创建一个 Modelfile：

nano Modelfile

写入以下内容：

FROM qwen2.5:7b
PARAMETER num_ctx 4096   # 默认 8192，减半

保存后构建新模型：

ollama create my-qwen -f ./Modelfile

运行：

ollama run my-qwen

现在用 nvidia-smi 观察，应该能看到显存占用上升、GPU 利用率跳动了。

6.5 验证 GPU 是否工作

# 实时监控 GPU
watch -n 1 nvidia-smi

在 Processes 列表中看到 ollama 进程，并且 Memory-Usage 有数值，就成功了。

七、搭建 Web 界面（Open WebUI）

命令行聊天太 geek，我们来个漂亮的浏览器界面。

7.1 配置 Ollama 允许外部连接

sudo systemctl edit ollama.service

粘贴以下内容：

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

保存退出，然后：

sudo systemctl daemon-reload
sudo systemctl restart ollama

7.2 安装 Docker

sudo apt install docker.io -y
sudo systemctl start docker
sudo systemctl enable docker

7.3 运行 Open WebUI 容器

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

如果不想注册账号，可以加上 -e WEBUI_AUTH=False 开启单用户模式。

7.4 访问 Web UI

浏览器打开 http://localhost:3000

首次访问需要注册账号（第一个账号自动成为管理员）
登录后，在设置里应该能看到你下载的模型（qwen2.5:7b 等）
选择模型，开始聊天！

八、常见问题与解决

问题	解决方法
`nvidia-smi` 找不到命令	执行 `sudo ln -s /usr/lib/wsl/lib/nvidia-smi /usr/bin/nvidia-smi`
Ollama 模型下载极慢	使用代理或手动下载 `.gguf` 导入
GPU 利用率始终为 0	检查 `OLLAMA_NUM_GPU` 环境变量，或降低 `num_ctx`
运行 7B 模型报错 out of memory	换 3B 模型，或进一步降低 `num_ctx` 到 2048
Docker 容器里 GPU 不工作	打开 Docker Desktop → Settings → Resources → WSL Integration，勾选你的 Ubuntu 发行版
Open WebUI 无法连接 Ollama	确认 Ollama 已设置 `OLLAMA_HOST=0.0.0.0`，并且重启了服务