前言

最近大模型本地部署越来越火,Ollama 作为最便捷的工具之一,让普通人也能在自己的电脑上跑起 LLM。但网上很多教程都假设你有 8GB 以上的大显存显卡,对于手里只有 GTX 1050 Ti(4GB)这种“亮机卡”的同学来说,往往卡在“模型跑不动”或“GPU 不干活”的环节。

本文基于 WSL2 Ubuntu 24.04 + GTX 1050 Ti 4GB 这套配置,从零开始完整记录 Ollama 的安装、模型选择、GPU 加速踩坑、以及如何让 7B 模型勉强跑起来。同时还会教你搭建一个漂亮的 Web 界面(Open WebUI),让你的大模型拥有 ChatGPT 一样的体验。

如果你也是老笔记本(i7-7700HQ + 16G 内存 + 1050Ti),本文可以照搬。


一、环境说明

项目 配置
宿主机系统 Windows 11
WSL 版本 WSL2
Linux 发行版 Ubuntu 24.04 LTS
CPU i7-7700HQ 4核8线程
内存 16GB DDR4
显卡 NVIDIA GTX 1050 Ti (4GB)
驱动 最新 Game Ready 驱动 (支持 WSL2)

二、WSL2 与 Ubuntu 准备

2.1 确保 WSL2

以管理员身份打开 PowerShell,执行:

wsl --set-version Ubuntu 2
wsl --set-default-version 2

2.2 安装或更新 Ubuntu 24.04

如果没有安装,可以在 Microsoft Store 搜索 “Ubuntu 24.04” 安装。
已安装的可以升级软件包:

sudo apt update && sudo apt upgrade -y
sudo apt install curl -y

三、安装 NVIDIA 驱动(Windows 侧)

这一步非常重要,WSL 里的 Ubuntu 需要依赖 Windows 的驱动才能调用 GPU。

  1. NVIDIA 驱动下载官网 下载 GeForce Game Ready 驱动(最新版本即可)。
  2. 直接安装到 Windows 上,不需要在 WSL 里安装任何驱动
  3. 安装完成后,重启 Windows 确保驱动生效。

验证驱动是否正常:

nvidia-smi

如果能看到你的显卡型号和驱动版本,说明成功。

如果提示 command not found,执行:

sudo ln -s /usr/lib/wsl/lib/nvidia-smi /usr/bin/nvidia-smi

四、安装 Ollama

4.1 官方脚本安装(推荐)

curl -fsSL https://ollama.com/install.sh | sh

如果因为 GitHub 访问慢导致失败,使用国内镜像:

curl -fsSL https://ollama.com/install.sh | sed "s|https://ollama.com/download|https://ghproxy.cn/https://github.com/ollama/ollama/releases/latest/download|g" | sh

4.2 手动安装(备选)

如果网络实在不行,可以手动下载 .tar.zst 包:

# 下载(复制链接到浏览器或迅雷)
wget https://github.com/ollama/ollama/releases/download/v0.5.1/ollama-linux-amd64.tar.zst

# 解压
sudo apt install zstd -y
zstd -d ollama-linux-amd64.tar.zst
tar -xf ollama-linux-amd64.tar

# 放到系统路径
sudo mv bin/ollama /usr/local/bin/
sudo chmod +x /usr/local/bin/ollama

4.3 启动 Ollama 服务

sudo systemctl start ollama
sudo systemctl enable ollama   # 开机自启

检查状态:

ollama --version

五、下载适合 4GB 显存的模型

5.1 模型推荐列表

模型 参数量 量化版本 大小 推荐度
qwen2.5:3b 3B q4_K_M ~2GB ⭐⭐⭐⭐⭐ 极速流畅
llama3.2:3b 3B q4_0 ~2GB ⭐⭐⭐⭐⭐ 英文出色
qwen2.5:7b 7B q4_K_M ~4.7GB ⭐⭐⭐⭐ 硬跑可玩
deepseek-r1:7b 7B q4_K_M ~4.7GB ⭐⭐⭐⭐ 推理强

5.2 下载并运行模型

# 3B 模型(强烈推荐,流畅无压力)
ollama run qwen2.5:3b

# 7B 模型(需要优化,见第六节)
ollama run qwen2.5:7b

Ollama 会自动下载量化版本,无需手动指定 -q4_K_M 后缀。


六、核心难题:让 GPU 真正跑起来(4GB 显存优化)

6.1 问题现象

运行 ollama run qwen2.5:7b 后,打开另一个终端执行 nvidia-smi,发现 GPU 利用率 0%,显存占用几乎不变 —— 说明模型跑在 CPU 上,慢得要命。

6.2 原因分析

Ollama 会自动评估模型所需显存:qwen2.5:7b 完整加载需要约 6~8GB,而你的显卡只有 4GB。为了不崩溃,Ollama “贴心地” 降级到 CPU 运行。

6.3 解决方案一:强制 GPU 加载所有层

OLLAMA_NUM_GPU=999 ollama run qwen2.5:7b

这会强制 Ollama 尝试将所有模型层塞进 GPU。可能会因为显存不足而报错,如果报错,请用方案二。

6.4 解决方案二:降低上下文长度(推荐)

限制对话历史长度,能显著降低显存占用。

创建一个 Modelfile

nano Modelfile

写入以下内容:

FROM qwen2.5:7b
PARAMETER num_ctx 4096   # 默认 8192,减半

保存后构建新模型:

ollama create my-qwen -f ./Modelfile

运行:

ollama run my-qwen

现在用 nvidia-smi 观察,应该能看到显存占用上升、GPU 利用率跳动了。

6.5 验证 GPU 是否工作

# 实时监控 GPU
watch -n 1 nvidia-smi

Processes 列表中看到 ollama 进程,并且 Memory-Usage 有数值,就成功了。


七、搭建 Web 界面(Open WebUI)

命令行聊天太 geek,我们来个漂亮的浏览器界面。

7.1 配置 Ollama 允许外部连接

sudo systemctl edit ollama.service

粘贴以下内容:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

保存退出,然后:

sudo systemctl daemon-reload
sudo systemctl restart ollama

7.2 安装 Docker

sudo apt install docker.io -y
sudo systemctl start docker
sudo systemctl enable docker

7.3 运行 Open WebUI 容器

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

如果不想注册账号,可以加上 -e WEBUI_AUTH=False 开启单用户模式。

7.4 访问 Web UI

浏览器打开 http://localhost:3000

  • 首次访问需要注册账号(第一个账号自动成为管理员)
  • 登录后,在设置里应该能看到你下载的模型(qwen2.5:7b 等)
  • 选择模型,开始聊天!

八、常见问题与解决

问题 解决方法
nvidia-smi 找不到命令 执行 sudo ln -s /usr/lib/wsl/lib/nvidia-smi /usr/bin/nvidia-smi
Ollama 模型下载极慢 使用代理或手动下载 .gguf 导入
GPU 利用率始终为 0 检查 OLLAMA_NUM_GPU 环境变量,或降低 num_ctx
运行 7B 模型报错 out of memory 换 3B 模型,或进一步降低 num_ctx 到 2048
Docker 容器里 GPU 不工作 打开 Docker Desktop → Settings → Resources → WSL Integration,勾选你的 Ubuntu 发行版
Open WebUI 无法连接 Ollama 确认 Ollama 已设置 OLLAMA_HOST=0.0.0.0,并且重启了服务

九、总结与建议

  1. 4GB 显卡能玩,但别指望 7B 模型飞快。日常流畅使用推荐 3B 模型(qwen2.5:3b)。
  2. 强制 GPU 加载 + 降低上下文长度 是让 7B 模型跑起来的核心技巧。
  3. Open WebUI 是目前最好用的前端,Docker 一键部署很方便。
  4. 如果想把 WSL 系统迁移到 D 盘释放 C 盘空间,可以用 wsl --export / wsl --import 操作。

最后,本地部署大模型更多是学习和折腾的乐趣。你的 GTX 1050 Ti 虽然老,但跑个 3B 模型写写代码、翻译文档还是绰绰有余的。希望这篇文章能帮你少踩一些坑。

有任何问题欢迎在评论区留言讨论。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐